原標(biāo)題:百度強(qiáng)勢(shì)入場(chǎng),AI們集體打 call:揭秘百度智能客服背后的語(yǔ)音技術(shù)與應(yīng)用
這個(gè)潮流的最近一次上演,是幾天前的百度AI開發(fā)者大會(huì)上,李彥宏現(xiàn)場(chǎng)播放了百度AI客服邀請(qǐng)開發(fā)者的真實(shí)電話錄音。
當(dāng)時(shí)我就在現(xiàn)場(chǎng),第一通電話里那位開發(fā)者方言比較重,到底說(shuō)了什么我基本沒聽懂。但百度的AI卻應(yīng)對(duì)自如,在電話中回答了各種問(wèn)題。
第二通電話更神了,那位女開發(fā)者發(fā)現(xiàn)了小度的AI身份,直接問(wèn)百度給ta發(fā)錢嗎,結(jié)果被小度用一句“百度給我免費(fèi)充電”,巧妙的“回撩”了過(guò)去。
在眾人的驚嘆中,我們很容易發(fā)現(xiàn)讓AI打電話已經(jīng)成為了“兵家必爭(zhēng)”之地。前不久谷歌I/O大會(huì)上Google Assistant演示AI打電話訂餐廳,一句“嗯哼”也安排得明明白白。幾天之后微軟的AI大會(huì)上馬上反擊,不僅上演電話秀,還高調(diào)Diss谷歌,表示微軟小冰已經(jīng)打過(guò)60多萬(wàn)次電話了。
打電話這件事就這么重要嗎?引三大AI巨頭都不惜電話費(fèi)也要硬杠一下?
事實(shí)上,在這個(gè)AI跟陌生人直接進(jìn)行有效溝通的場(chǎng)景里,隱藏著兩個(gè)AI語(yǔ)音與NLP技術(shù)的核心關(guān)卡,足夠給今天AI公司的軍備競(jìng)賽提供完美肌肉秀。而AI打電話同時(shí)也指向另一個(gè)問(wèn)題:AI到底能干什么,是不是在很多領(lǐng)域已經(jīng)可以完全代替真實(shí)的產(chǎn)業(yè)勞動(dòng)?
打個(gè)call的功夫,這些復(fù)雜的競(jìng)爭(zhēng)與技術(shù)炫技就都顯露了出來(lái)。
一顰一笑都有來(lái)歷:為什么已經(jīng)聽不出AI還是真人?
AI打電話第一關(guān):怎么讓AI聲音聽起來(lái)不別扭?
我們知道,人和人之間的交流,其實(shí)絕大部分依靠的是簡(jiǎn)單的詞匯量+大量復(fù)雜的情感詞、語(yǔ)氣詞、助動(dòng)詞。如果我們把日常說(shuō)話直接轉(zhuǎn)化為文字,會(huì)發(fā)現(xiàn)文檔里80%的話都是“無(wú)效信息”。
但怎么讓AI學(xué)會(huì)這些東西,像真人一樣有感情、有頓挫,有語(yǔ)氣詞,甚至有呼吸節(jié)奏地與人交流,是一門巨大的技術(shù)挑戰(zhàn)。
百度AI開發(fā)者大會(huì)前,百度AI客服給大量開發(fā)者打了電話,其中很多開發(fā)者一開始?jí)焊鶝]有發(fā)現(xiàn)這是位AI小姐姐。而這其實(shí)是建立在它沒有刻意修飾機(jī)器音的基礎(chǔ)上。
如何讓AI聽起來(lái)像人一樣,這需要在語(yǔ)音合成與語(yǔ)序修飾上下一番功夫。而這也是各家展現(xiàn)本領(lǐng)的時(shí)刻。
根據(jù)資料,谷歌I/O大會(huì)上的打電話AI,使用了生成式 TTS 引擎。能根據(jù)不同的情境控制語(yǔ)音的語(yǔ)調(diào),并生成一些語(yǔ)氣詞。當(dāng)然,這背后還有DeepMind的WaveNet自然語(yǔ)音合成算法作為支撐。
雖然谷歌的操作已經(jīng)十分風(fēng)騷。但在中文領(lǐng)域想要復(fù)制英文的詞匯運(yùn)算以及助詞生成卻完全無(wú)法進(jìn)行。百度這次展示的語(yǔ)音合成方案,據(jù)稱是基于中文識(shí)別與語(yǔ)義理解技術(shù),創(chuàng)新結(jié)合WaveNet加上拼接技術(shù),打造出了滿足中文需求,并適合大規(guī)模應(yīng)用的自然語(yǔ)言合成算法。
所以我們?cè)诼牥俣華I客服打電話的時(shí)候,會(huì)在機(jī)器音之外聽到自然的語(yǔ)序,合理的語(yǔ)氣詞使用,甚至模仿出的呼吸聲,邁過(guò)了AI與人類傻傻分不清楚的第一道門檻。
當(dāng)然了,只是說(shuō)話好聽是沒用的,重點(diǎn)是能聽懂,能聊下去。在理解層面,AI的挑戰(zhàn)就更大了。
一言一語(yǔ)都是學(xué)問(wèn):AI如何跟陌生人聊下去
直到今天,很多媒體和看客還在嘲笑AI聊天是“人工智障”。這種聲音就像嘲笑最開始跑不過(guò)馬車的汽車,當(dāng)有一天大家發(fā)現(xiàn)在嘲笑的是什么,已經(jīng)連汽車尾氣都看不見了。
為了能在聊天時(shí)不“智障”,無(wú)數(shù)巧妙到毫厘的技術(shù)解決方案正在加緊研發(fā)與應(yīng)用。AI能夠真正與人聊天,而不是單純的一問(wèn)一答,需要的是AI能夠快速識(shí)別人類問(wèn)題,并快速給出回復(fù)。這個(gè)過(guò)程不能卡頓和延遲——沒有人想跟慢半拍的機(jī)器聊天。
為了解決這個(gè)問(wèn)題,各家高招跌出。比如第五代小冰采用了全雙工語(yǔ)音技術(shù),讓預(yù)測(cè)模型和生成模型同步傳輸數(shù)據(jù),達(dá)到預(yù)測(cè)聊天的效果。但可惜的是小冰似乎還沒有脫離傳統(tǒng)AI對(duì)話的窠臼,在流暢度以及“超綱”問(wèn)題的應(yīng)答上依舊不夠靈敏。
對(duì)比谷歌和百度的打電話技術(shù),會(huì)發(fā)現(xiàn)更好的解決方案,可能是結(jié)合自然聲音合成技術(shù)同步生成高效預(yù)測(cè),讓AI和真人具有一樣的溝通語(yǔ)言習(xí)慣。但谷歌的方案一出,馬上收到了一些懷疑,比如他們的聲音被多家媒體懷疑是錄制聲音作弊。
另一方面,相較百度的AI客服展示,谷歌語(yǔ)音助手是訂餐。換言之谷歌語(yǔ)音助手只用給出信息,并聽懂對(duì)方的回復(fù)就行了。而百度的AI客服卻要回答對(duì)方可能出現(xiàn)的各種問(wèn)題。甚至巧妙回答完全超乎一般人機(jī)語(yǔ)音對(duì)話中的問(wèn)題——比如“百度給你發(fā)工資嗎?”
百度的絕招,在于這次強(qiáng)調(diào)百度大腦升級(jí)的多模態(tài)深度語(yǔ)義理解技術(shù),其中語(yǔ)音語(yǔ)義一體化技術(shù),可以有效解決語(yǔ)音識(shí)別與語(yǔ)義理解中間的環(huán)節(jié)遲慢和環(huán)節(jié)誤差問(wèn)題,達(dá)到真正的與人隨說(shuō)所理解。
百度另一個(gè)值得注意的核心技術(shù)突破,是Deep peak2技術(shù),其識(shí)別方案利用音素組合建模,可以忽略上下文影響,極快速準(zhǔn)確識(shí)別語(yǔ)音語(yǔ)義,在亮相之處就跟華少的語(yǔ)速PK了一把。通過(guò)Deep peak2,小度不僅能識(shí)別開發(fā)者大會(huì)上那位老鐵讓我沒聽懂的方言,還可以準(zhǔn)確識(shí)別中英文混合建模。讓百度AI的識(shí)別錯(cuò)誤率,比市面上主流AI語(yǔ)音硬件下降20%,且能應(yīng)對(duì)中英文混著說(shuō)這個(gè)“老大難問(wèn)題”。
結(jié)合知識(shí)圖譜技術(shù)作為基礎(chǔ),新銳語(yǔ)音識(shí)別解決方案作為驅(qū)動(dòng),語(yǔ)音語(yǔ)義一體化技術(shù)作為核心,AI客服才能主動(dòng)與人類聊下去,回答各種問(wèn)題??梢哉f(shuō)在這個(gè)技術(shù)應(yīng)用方案上,中國(guó)百度已經(jīng)明顯與谷歌、微軟拉開差距。
一行一動(dòng)都是未來(lái):AI客服的大革命
簡(jiǎn)單來(lái)說(shuō),打電話這件事的復(fù)雜程度和挑戰(zhàn)性,讓他成為了今天頂尖AI公司必須完成的軍備競(jìng)賽。
但這項(xiàng)技術(shù)的目的當(dāng)然不僅是為了炫技,用谷歌I/O大會(huì)之后美國(guó)科技媒體的評(píng)價(jià):AI打電話這件事,正在把人工智能技術(shù)史無(wú)前例地與真實(shí)世界聯(lián)系到一起。
客服投訴、企業(yè)管理、調(diào)查回訪、聯(lián)系溝通,我們有太多工作是依靠打電話這件事來(lái)完成的。假如AI可以勝任這項(xiàng)工作的核心領(lǐng)域,甚至達(dá)到以假亂真的地步,那么大量簡(jiǎn)單重復(fù)的語(yǔ)言工作將不再浪費(fèi)人類的寶貴工作時(shí)間。
更重要的是,給陌生人打電話意味著機(jī)器與人全方位的溝通。尤其是百度客服電話在AI身份被試穿之后的調(diào)侃,完全可以應(yīng)對(duì)大量需要及時(shí)處理、協(xié)調(diào),給出咨詢方案的溝通。甚至可以說(shuō),很多人類客服做的不會(huì)有它應(yīng)對(duì)的這么好。
這個(gè)層面上看,打電話這事可以說(shuō)是AI現(xiàn)實(shí)應(yīng)用的練兵場(chǎng)。開放的應(yīng)用層,會(huì)帶給產(chǎn)業(yè)世界無(wú)窮的想象。舉個(gè)例子來(lái)說(shuō),假如打電話的AI溝通能力,跟精準(zhǔn)的機(jī)器翻譯相結(jié)合。那么用AI主動(dòng)與歪果仁進(jìn)行跨語(yǔ)種聊天,然后把獲取信息反饋回來(lái)不就成為了可能?那么市面上那些大張旗鼓的“翻譯機(jī)”產(chǎn)品,不就失去了基本的存在價(jià)值?這就是技術(shù)突破后的降維打擊。
目前來(lái)看,小冰還是無(wú)法擺脫語(yǔ)料庫(kù)的尷尬;而谷歌還需要在更多應(yīng)用場(chǎng)景證明自己打電話的能力真實(shí)性。百度已經(jīng)領(lǐng)先了一個(gè)身位,給中國(guó)AI的打call打個(gè)call,在今天看來(lái)并不過(guò)分。
- 世間將再無(wú)松下電視:松下官宣解散家電子公司并徹底放棄電視機(jī)業(yè)務(wù)
- 雅迪集團(tuán)與南都電源簽署協(xié)議:攜手共繪固態(tài)電池未來(lái)藍(lán)圖
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。