讓智能音箱連續(xù)對話,百度工程師都做了些什么?

如果家里沒一臺“智能音箱”,怎么好意思說自己是極客Boy。

可當(dāng)你忍不住剁手后,體驗了一兩天的嘗鮮感,十有八九會把它扔在角落里吃灰。

每次對話都要喊一下喚醒詞,感覺好不別扭,鄰居家還可能以為你養(yǎng)了條叫“XX”的狗;指令說道一半就會被打斷,莫名其妙的回了句“對不起,請再說一遍”;上一句還在問今天天氣怎么樣,下一句問今天穿什么衣服,給到的是和天氣毫無關(guān)系的答案……

不只是你覺得這種體驗很不爽,百度的工程師們也忍受不了這種“人工智障”,在今年的百度世界大會上,百度語音技術(shù)部總監(jiān)高亮就聊了聊語音技術(shù)是如何讓智能音響變聰明的。

先定一個小目標(biāo)

鋼鐵俠和自己的AI管家賈維斯對話時,如果每次交互都要重新喚醒,不管是什么人都能發(fā)號施令,環(huán)境太吵的時候就聽不清,鋼鐵俠不知道會被打趴下多少次。

在百度世界,高亮說“遠(yuǎn)場語音的技術(shù)發(fā)展特別快,百度的喚醒、遠(yuǎn)場識別以及基于高頻Query解決的語音語義一體化等技術(shù),可以解決基礎(chǔ)體驗問題,讓音箱喚得醒,聽得清?!钡?,解決基礎(chǔ)體驗還不夠,如果和智能音箱交互,你就會發(fā)現(xiàn),“聽懂”才是最難的。

“小度小度,放一首許巍的歌”

“現(xiàn)在播放許巍的歌曲《故鄉(xiāng)》”

“嗯……這是……他哪張專輯里的?”

“來自專輯《那一年》”

……

在高亮現(xiàn)場的演示里,搭載了百度遠(yuǎn)場語音技術(shù)方案的智能音箱只需喚醒一次就可以連續(xù)多輪對話,能夠準(zhǔn)確識別用戶說話時的猶豫停頓、能夠區(qū)分并跟隨首次喚醒的人,與此同時,回應(yīng)還相當(dāng)靈敏,與小度的問答越來越像一場“交談”而不僅僅是一次“交互”。從“交互”到“交談”,這就是百度工程師們正在做的事情。

當(dāng)下的人工智能遠(yuǎn)沒有科幻電影中成熟,普遍認(rèn)為還只有五六歲小孩的智商,可你和五六歲小孩溝通時也會這么費勁嗎?就如高亮所言“每一個技術(shù)問題都會面臨一個技術(shù)解決的方法”,或許普通用戶只能吐槽抱怨一下,但百度的一群工程師們卻默默定了個小目標(biāo),不是先掙一個億,而是:

1、一次喚醒可以連續(xù)交互;只需要喚醒一次,就可以進行連續(xù)對話,不管智能音箱處于什么樣的工作狀態(tài),哪怕正在播放音樂。就像人與人之間的對話那樣有問有答,不再是每次對話都要說出喚醒詞,真正的語音交互不應(yīng)該是刻板的。

2、說話停頓不會打斷;當(dāng)你說“給我放一首周杰倫的…呃…菊花臺”,智能音箱不是著急隨便放了一首周杰倫的歌,而是播放菊花臺。智能音箱要明白你什么時候說完了,什么時候沒說完,不會把你沒說完的話切斷,畢竟誰還沒有猶豫的時候呢。

3、知道說話人是誰;一個典型的三口之家,有爸爸、媽媽、孩子,每個人的需求是不一樣的。智能音箱要精準(zhǔn)識別出每一個人的聲音,知道問題是誰問的,然后給出準(zhǔn)確的答案。

4、上下文對話連貫;智能音箱在回答你現(xiàn)在的問題時,也要知道上一個問題是什么,要學(xué)會結(jié)合上下文,不能答非所問。只有這樣人和智能音箱的對話才會更自然,我們想要的不是沒有情感的機器,至少對話要有邏輯性。

5、聽清聽懂不傻冒泡;你在客廳和朋友聊天時,可能有些話是說給朋友聽的,有些是給智能音箱的指令,這時候智能音箱就要進行精準(zhǔn)判斷,準(zhǔn)確識別出你是不是在和音箱對話,而不是在不該出現(xiàn)的時候“插兩句嘴”。

現(xiàn)在語音交互用到的技術(shù)主要是麥克風(fēng)陣列、語音識別、語義理解、語音轉(zhuǎn)文字、文字轉(zhuǎn)語音等等,都是人工智能技術(shù)最基本的應(yīng)用,幾乎一個十幾人的創(chuàng)業(yè)團隊就能完成。但百度工程師們的小目標(biāo),卻需要一連串的技術(shù)攻堅。

百度高級副總裁、AI 技術(shù)平臺體系總負(fù)責(zé)人王海峰所說過,AI技術(shù)與產(chǎn)業(yè)的結(jié)合愈發(fā)多元化,單一技術(shù)已無法滿足應(yīng)用需求,只有更懂得理解和思考,最終將幫助人們更便捷自然地獲取信息找到所求的交互,才能帶動整個生態(tài)的發(fā)展。

用技術(shù)拯救“人工智障”

想要智能音箱可以連續(xù)對話、應(yīng)答如流,最簡單的辦法就是“人工”智能,比如2015年橫空出世的某客服機器人,憑借軟萌的聲音、流暢的反應(yīng)、高度人性化的對答,幾乎可以和鋼鐵俠的賈維斯媲美,最后卻被扒出是“攝像頭+變聲器+人工客服”。

當(dāng)然,“人工”智能也只有在演示時騙一騙領(lǐng)導(dǎo),讓幾千萬臺智能音箱、智能家居、智能手機等都能對答如流,又該怎么實現(xiàn)呢?高亮在百度世界告訴我們,百度的工程師已經(jīng)想出了一套系統(tǒng)化方案。

第一步是語音信號處理。語音激活檢測技術(shù)已經(jīng)非常成熟,蘋果的“Hey,Siri”、DuerOS的“小度小度”都是案例,一次喚醒多次會話看起來也不復(fù)雜,比如設(shè)定智能音箱在一定時間內(nèi)自動收音。難點在于怎么知道用戶的話到底有沒有說完。

因為我們說話不會永遠(yuǎn)都是連續(xù)不卡殼的,比如我想聽一首薛之謙的歌,我可能會說“小度小度,給我播首薛之謙的……”思考1-2秒,然后說“認(rèn)真的雪”。而這1-2秒間,就可能讓智能音箱以為你說完了,從而接收指令給你播起了薛之謙的所有歌曲,甚至停止響應(yīng)。

百度的工程師們準(zhǔn)備了十幾萬小時的仿真訓(xùn)練數(shù)據(jù),數(shù)千套房間數(shù)萬組沖擊響應(yīng)函數(shù),上萬小時真實AEC錄制數(shù)據(jù),以及幾十萬小時的無監(jiān)督聲音數(shù)據(jù),利用云、端語音完整性聯(lián)動訓(xùn)練的方法,然后基于大數(shù)據(jù)進行聲學(xué)建模和尾點檢測,打造了全新的語音識別引擎。

當(dāng)你對智能音箱說話的時候,音箱會立刻感知到,然后持續(xù)不斷向云端發(fā)送語音數(shù)據(jù),進行語義分析,監(jiān)測你說的話是不是完整,然后智能音箱就能判斷你的話是否說完了。上傳的語音數(shù)據(jù)只有幾十K大小,整個過程不到一秒鐘就能完成。不會出現(xiàn)諸如音箱在放著音樂,你說了一句“暫?!?,音箱兩三秒才響應(yīng),這個時候你可能會覺得音箱沒有聽見(尤其是音箱播放音量比較大的時候),然后再補一句“暫?!钡那闆r。

就像高亮在現(xiàn)場的舉例,“給我放一首劉德華的…呃…忘情水”,這個猶豫發(fā)問和提筆忘字一樣,是很普遍的場景,需要對聲學(xué)建模做一些特殊處理,要有非常精準(zhǔn)的尾點檢測, 讓系統(tǒng)能夠明白我們什么時候是猶豫,什么時候是說完了話,從而明確用戶所表達的意圖。

第二步聲紋跟蹤和決策。成年人的聲音可以長期相對穩(wěn)定不變,就算別人故意模仿你的聲音和語氣,聲紋卻始終不會相同。和指紋、虹膜等生物識別一樣,聲紋也是獨一無二且相對穩(wěn)定的生理特征,這樣智能音箱可以拒絕掉不需要的聲音。

于是百度的工程師們,根據(jù)自然界聲音標(biāo)定的聲學(xué)置信度,對百萬人量級的聲紋進行學(xué)習(xí)建模,并推出了面向智能音箱連續(xù)交互場景的語義置信度技術(shù),也是業(yè)界首創(chuàng)自動區(qū)分語音中不同說話人身份的商用系統(tǒng)。會對喚醒人的聲紋進行注冊、跟蹤、拒識,和喚醒人方向不一樣的聲音會被拒絕掉,聲紋不同的聲音會被拒絕掉,和智能音箱場景不匹配的聲音也會拒絕掉。

比如說你和朋友聊天的時候,聊到某首歌時想讓智能音箱播放,也可能會聊到一些電視劇和工作上的事情。百度的智能音箱已經(jīng)達到了這樣的聰明程度:自動判斷是不是在和它說話,發(fā)現(xiàn)命令會立刻執(zhí)行,不相關(guān)的對話絕不插一句嘴。

第三步交互上下文管理。現(xiàn)在的人工智能不是仿生學(xué),而是通過各種各樣的算法,畢竟人類連大腦的工作原理都還沒有搞清楚,讓人工智能像人類一樣思考還很遙遠(yuǎn)。那么問題就來了,和人工智能進行單次的對話并不難,想要把上下文的信息關(guān)聯(lián)在一起就需要考驗工程師們的腦洞了。

百度的工程師們先做了語音語義一體化技術(shù),把聲學(xué)、聲紋、語義置信度和從DuerOS獲得到的垂類信息資源融合起來,在深度神經(jīng)網(wǎng)絡(luò)的多信息融合技術(shù)、高頻圖和通用圖并行解碼決策的基礎(chǔ)上,對對話的上下文進行跟蹤管理:判斷了說話對象后,可以知道之前交互的內(nèi)容,知道對象的角色、喜好,然后綜合所有這些信息作出精準(zhǔn)決策,這樣就解決了上下文關(guān)聯(lián)的問題。

假如你問百度智能音箱明天天氣怎么樣,下一句問穿什么衣服比較合適,聽到的回答會是和明天天氣相關(guān)的穿衣搭配。不會像一些智能音箱一樣,你問穿什么衣服,冷冰冰的來一句:“我找到附近有三家賣衣服的店鋪……”

技術(shù)可能不是萬能的,但沒有技術(shù)是萬萬不能的。

哪些場景可以用?

一次喚醒多輪對話的能力依賴于多項聲紋、語音、語義技術(shù)的進步,包括創(chuàng)新的尾點檢測技術(shù),其利用云端信號AD技術(shù)一邊做語音識別一邊發(fā)給語義VAD,將聲學(xué)技術(shù)與語義技術(shù)結(jié)合在一起,能夠適應(yīng)用戶說話速度,知道用戶什么時候說完了,不在中間打斷。

魯棒拒識技術(shù)創(chuàng)新了聲紋跟蹤、語音置信度、聲學(xué)置信度,可以基于特定說話人的場景化識別,拒絕非音箱交互人聲,拒絕聊天內(nèi)容與場景不一致的對話。

現(xiàn)場,高亮也用一款音箱向大家展示了百度遠(yuǎn)場語音技術(shù)方案——通過一連串流利的交互,在大會會場高噪音的環(huán)境下,說話的距離超過1米,音箱的喚醒和識別表現(xiàn)很好。并且一次喚醒就能多次對話,智能音箱在說話時,也能聆聽用戶的新命令并且快速執(zhí)行。從更多的演示deme和視頻來看,維納斯智能音箱也能實現(xiàn)一定的上下文理解。

想要讓智能音箱實現(xiàn)連續(xù)對話的,不只是百度的工程師們,谷歌、亞馬遜等同樣在努力。這些個工程師們加班加點,冒著掉頭發(fā)的風(fēng)險去做技術(shù)研發(fā),僅僅是為了讓智能音箱不在角落里吃灰嗎?

其實場景還有很多。

王海峰曾在中國圖靈大會上展示過百度的智能語音搜索:當(dāng)用戶直接對著手機詢問“天氣熱嗎”,她會回答當(dāng)?shù)氐奶鞖馐菬徇€是涼爽,氣溫如何等情況;當(dāng)用戶接著問“上海呢”,她能夠基于上下文理解技術(shù)自動補全用戶的問題是上海的天氣,從而給出準(zhǔn)確的回答。此外在王海峰在百度AI開發(fā)者大會上的那段“花式 RAP”,百度AI也完全不懵逼,妥妥應(yīng)答如流。

再比如公室里的小組會議總需要安排一個人進行會議紀(jì)要,又不是專業(yè)的速記員,難免忘了某個問題是誰提的,某個人說了一大對話可能只記了開頭幾句。這時候聲紋識別技術(shù)就可以派上用場了,兩人場景中百度的識別準(zhǔn)確率為95.2%,三人及以上場景也達到了92.9%,遠(yuǎn)比普通人的會議紀(jì)要靠譜。

更多的應(yīng)用場景在用戶家中——在典型的三口、四口之家,音箱能聽清、聽懂、滿足小孩、老人、妻子和丈夫,每個人不同的需求;能夠區(qū)分人聲和電視的噪音、家電的噪音,能夠明白用戶的指代關(guān)系,在一次連續(xù)交互的過程當(dāng)中應(yīng)答如流;能夠在當(dāng)用戶表達完意圖的話,1秒內(nèi)有動作,最遲不超過1.5秒。

又或者家里來了朋友,智能音箱可以能夠在用戶和朋友對話、聊天時能夠分辨來自同一方向的兩種聲音,哪個是指令,哪個是閑聊;更能夠明白主人什么時候在和它講話,什么時候在和朋友講話,不能兩個人討論著《延禧攻略》的劇情,音箱突然唱起了《紅墻嘆》或者放起了秦嵐的新聞。

還有在家里用智能音箱聽歌的時候,你喜歡聽的是周杰倫,你女朋友偏偏是鄧紫棋的粉絲,之前還存在互相切歌的場面。假如你有一臺DuerOS加持的技術(shù)音箱,你發(fā)出的指令立刻執(zhí)行,對你女朋友的指令置若罔聞,切歌大戰(zhàn)輕松分出勝負(fù)。當(dāng)然,游戲的前提是你要有個女朋友。

音箱只有做到該說話的時候說話,不該說話的時候不說話,才能跟我們真實交互場景變得非常像。所以,領(lǐng)教了百度這群執(zhí)著的工程師后,我們有理由相信,更好更智能、能跟你“對話”的智能設(shè)備全面融入你生活的日子已經(jīng)不遠(yuǎn)了。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-11-03
讓智能音箱連續(xù)對話,百度工程師都做了些什么?
每次對話都要喊一下喚醒詞,感覺好不別扭,鄰居家還可能以為你養(yǎng)了條叫“XX”的狗;指令說道一半就會被打斷。

長按掃碼 閱讀全文