扎克伯格:AI可能還沒我們想象中那么萬能

近來扎克伯格向記者公開演示了它2016的作品,一個類似Jarvis的人工智能助手,從記者的描述來看,這人工智能助手大部分時候還比較不錯,但在語音交互環(huán)節(jié)則不太理想,對此某媒體做了如下報道:

扎克伯格還建立了響應(yīng)語音指令的系統(tǒng),并通過定制iOS應(yīng)用控制。但這部分展示不太理想,他重復了四次指令才讓系統(tǒng)弄明白:天黑前不要開燈。扎克伯格略顯尷尬地說:“喔,這應(yīng)該是它最失敗的表現(xiàn)了!”.不過,Jarvis播放音樂的展示還算成功。扎克伯格下令:“給我們放段音樂吧!”幾秒鐘后,大衛(wèi)·庫塔(David Guetta)的《Would I Lie to You》 開始通過客廳揚聲器響起來。他說了兩次“把音量調(diào)高”后,系統(tǒng)照做無誤。最后,他同樣說了兩次才讓系統(tǒng)停止播放。

這非常有意思,因為從新聞來看“天黑前不要開燈”和“把音量調(diào)高”的失誤顯然都不是命令理解(語義)上有問題,否則你說八百遍Jarvis該不好使還是不好使。如果不是語義的問題,那顯然就會和各大公司所宣稱的已經(jīng)被解決的問題:語音識別有關(guān)。

標準環(huán)境解決≠真實效果好

關(guān)于語音識別的精度今年官方的報道一般是這樣的:

11月21日到23日,搜狗、百度和科大訊飛三家公司接連召開了三場發(fā)布會向外界展示了自己在語音識別和機器翻譯等方面的最新進展。值得注意的是,這三家公司幾乎在同一時段宣布了各自中文語音識別準確率達到了97%.

類似的報道也會發(fā)生在微軟等的身上,我們假設(shè)Facebook做的不是太差,水平也與此類似達到97%的準確率。97%的具體含義是100個單詞上只有3個錯誤(刪除、被替換、被插入),那么問題就來了,如果真實環(huán)境里真的達到了這個精度,那么小扎的演示絕對不應(yīng)該是上面這個樣子。

那問題出在那里?

關(guān)鍵問題并不復雜,扎克伯格用手機當做家庭里的終端,這樣距離稍微一遠,環(huán)境稍微嘈雜一點,那再好的手機也沒辦法幫Jarvis聽清楚你在說什么。手機本身是設(shè)計給近場用的,手機上的語音識別基本也是給近場優(yōu)化過的,怎么也不能彌補遠場上帶來的不適應(yīng)。

扎克伯格對此非常坦誠,他在博客這么寫道:

In the case of Jarvis, training an AI that you'll talk to at close range is also different from training a system you'll talk to from all the way across the room, like Echo. These systems are more specialized than it appears, and that implies we are further off from having general systems than it might seem.

上面這段英文簡單來講就是說語音識別更多時候是專門場景下好用,想做一個萬能的版本仍然還很遙遠。語音識別只能做限定場景的最佳。

但事實上扎克伯格仍然只認識到了部分問題,因為單純靠改善語音識別比如做一個匹配遠場的版本也還根本解決不了他遇到的問題(上面說的重復指示幾次系統(tǒng)才起作用問題)。我們可以注意到開始播放音樂之后,報道中提到的兩條命令都需要重復兩次,這很可能是音樂自身對語音識別形成了干擾,這種情形下單純的優(yōu)化語音識別(不管遠場還是近場)是解決不了問題的。

扎克伯格下面的路

如果扎克伯格不放棄這事,而是持續(xù)對此進行改善,那下面會發(fā)生什么?他可能會掉到坑里面。他用了150小時做到上面那程度,但很可能再花1500小時,效果并沒有實質(zhì)性改善。

整個語音交互事實上依賴于三層:聲學的信號處理(麥克風陣列+聲學算法),語音識別(SR),自然語言理解(NLU)。扎克伯格演示時的問題核心原因不在于自然語言理解(語義),而在于聲學與語音識別。聲學和語音識別的關(guān)系可以大致類比成耳朵和大腦,如果聲學部分的信號很差,那相當于耳朵不好使,基本語音識別的算法再怎么好也不可能把命令是什么弄清楚。

扎克伯格如果要優(yōu)化效果,那么基本方法有下面幾類:

一種可能是扎克伯格覺得真實場景下的信號優(yōu)化(聲學、硬件等)也沒什么,找?guī)讉€人做做就完了,如果這么想Facebook可能會自己組建個硬件、聲學團隊來做Echo Dot那樣的終端。但這么做很可能短期就不會有下次演示了。因為讓語音識別匹配前端聲學信號是容易的,但反過來讓牽涉硬件和物理的聲學來適應(yīng)語音識別則基本會做掛。而在互聯(lián)網(wǎng)公司里通常后端偏算法的勢力會大,所以很容易走到前面那條路上去(這事情國內(nèi)至少做掛了兩撥人了)。國內(nèi)的大公司很容易走上這條路,但從分工習慣來看,國外公司更愿意在技術(shù)棧上卡住特定位置,非自己核心的部分會更愿意開放給其它人,所以扎克伯格這么干的可能性不高,除非他覺得自己也得搞Amazon Echo那種產(chǎn)品了。

一種可能是扎克伯格和深度學習科學家思路一致,認為所有東西都可以通過深度學習在云端算法層面來解決。這種思路下,就會通過深度學習來做降噪等信號層面的工作,用算法挑戰(zhàn)各種物理層面的問題。如果走上這條路,那估計短期也不會有下次演示了,因為他碰到的問題并非單純的降噪問題,回聲抵消、Beamforming、降噪、聲源定向這些東西是關(guān)聯(lián)在一起的,指望深度學習短期突破這些問題更像科研上的一種設(shè)想而非工程上的一種實踐。“設(shè)想”是說可以成為一種探索的思路,但結(jié)果完全沒譜,高度不確定,相當于把不確定性引入產(chǎn)品開發(fā)之中。

一種可能是扎克伯格走下一步的時候想的很清楚,知道自己這類公司的能力邊界,因此把這部分開放出去,讓專業(yè)的人做專業(yè)的事。物理的事情歸物理,算法的事情歸算法,這樣的話就會滿世界找聲學和遠場語音識別供貨商,但這反倒是最快的一種方式。

不知道扎克伯格具體會走那條路,如果是最后一種,我們聲智科技這樣的公司應(yīng)該會很快收到消息。

打破原子與比特的邊界

扎克伯格這件事情事實上也提供了一個跳出來看AI的機會。

一般來講,從產(chǎn)品體驗上可以看出技術(shù)水平,從架構(gòu)圖則可以看出來認知上的差異。

根據(jù)上圖,顯然的在扎克伯格這里Jarvish被理解成了一個命令控制型的系統(tǒng),但感知這環(huán)節(jié)被忽略了,盡管扎克伯格自己在文章里也提到感知上下文是非常關(guān)鍵的一個環(huán)節(jié)(Understanding context is important for any AI.)

這種理解在互聯(lián)網(wǎng)企業(yè)那里很可能非常有代表性,但問題就在于感知恰恰是打造一個初級的Jarvis這樣的系統(tǒng)時最難的環(huán)節(jié)。因為感知總是要打穿原子和比特的邊界。Language Processing、Speech Recognition、Face Recognition總是立刻可用的,只受限于算法的發(fā)展程度和數(shù)據(jù),但感知部分不是這樣,不單要算法行,器件、生產(chǎn)都要行才能有好的結(jié)果。比如說麥克風陣列,你算法再好但MEMS麥克風不給力,那你一樣抓瞎。如果要說的短板的話,在深度學習突破后,感知這一環(huán)節(jié)才是真的短板。

這就涉及到這次AI突破的一個深層次問題:這次的AI起于深度學習的突破,但真要想創(chuàng)造價值并不能停步在深度學習本身。關(guān)鍵原因就在于其AI創(chuàng)造價值的鏈條比較長,必須打破軟硬的邊界,補全整個鏈條,價值才會體現(xiàn)出來。幾乎我們所有能想到的大機會都是這樣,語音交互(需要打穿聲學和識別邊界),自動駕駛(打穿計算機視覺、雷達、機械控制的邊界)等。這部分難度通常是被忽略了,似乎是有幾個深度學習專家問題就可以搞定一切問題。后者不是不行,但要限定在特定類別的事情上,比如圖普科技做的鑒黃等。正是同時做好軟硬這部分在拉長投資-回報的周期。投資和創(chuàng)業(yè)如果對此沒有自己的判斷,那準備的耐心可能就不夠。

小結(jié)

近來和AI各方面的人(創(chuàng)業(yè)者、投資人、科學家、媒體)接觸下來,發(fā)現(xiàn)大家基本都在思考這樣兩個問題:

第一,本次AI浪潮會不會和前兩次一樣很快冷下來?

第二,落地點到底在那里,究竟還要多久?

對于第一個問題到現(xiàn)在為止還沒碰到任何一個人認為這次AI浪潮會冷到前兩次那樣。對于第二個問題,大的落地點上大家基本也已經(jīng)達成了共識(語音交互、AR、自動駕駛等),爭議最大的就是啟動期究竟還要持續(xù)多久這一點。從兩個維度來判斷,這個時間更可能是在3年左右,一是產(chǎn)品經(jīng)過兩個周期的優(yōu)化會更加成熟;一個是計算能力、基礎(chǔ)設(shè)施到那個時候也會變的足夠強大和便利(過去3年Training速度提高了60倍,比摩爾定律還快。Intel則正在推出集成度更高的服務(wù)器)。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2016-12-26
扎克伯格:AI可能還沒我們想象中那么萬能
近來扎克伯格向記者公開演示了它2016的作品,一個類似Jarvis的人工智能助手,從記者的描述來看,這人工智能助手大部分時候還比較不錯,但在語音交互環(huán)節(jié)則不太理想,對此某媒體做了如下報道:

長按掃碼 閱讀全文