王小川:音箱不會成為AI時代具有重大潛力的產(chǎn)品

11月26日消息,在搜狐科技主辦的2019搜狐科技AI峰會上,搜狗公司CEO王小川表示,AI時代個人硬件趨勢是變得更IO,更便捷。

王小川認為,音箱不會成為AI時代具有重大潛力的產(chǎn)品。雖然現(xiàn)在亞馬遜開了頭,但因為音箱便攜能力不夠,不是跟著個人走的產(chǎn)品,也就是聲音進去聲音出來,這樣的場景IO能力有限,后面的AI能力就會受到巨大的限制。

因此,王小川預言,未來五到十年間眼鏡可能會成為取代手機最重要的個人設備。

他認為,關于互聯(lián)網(wǎng)和人工智能的未來,將從個人互聯(lián)網(wǎng)演變成為產(chǎn)業(yè)互聯(lián)網(wǎng),最終形態(tài)是IoT,商業(yè)邏輯也或從賦能于人變成商業(yè)智能再變成機器人。具體來說,語言AI的發(fā)展方向是自然交互+知識計算。

他談到,有了機器智能之后,已經(jīng)從人適應機器,變成了機器適應人。AI帶來的語音、圖像技術的突破,也會讓人們的生活更加便捷。

以下為王小川演講全文:

尊敬的各位嘉賓、各位朋友,很榮幸,也很有壓力在鄔院士之后做我的演講。我的主題分為兩個部分:語言AI,以及2020+,因為2030年太遠了,也許這件事情2030年就干完了,所以就定在2020年。

在此之前搜狐科技的朋友都跟我說來點硬的,所以我?guī)砹诉@樣一款錄音筆,這是搜狗發(fā)布的硬件產(chǎn)品,也在“雙十一”的多個平臺銷量第一??梢钥吹竭@幾年當中錄音筆是一個很小眾的市場,2015年就開始有所下滑,每年銷量也就是400多萬支,但是搜狗為什么選擇這樣一件事情呢?因為2019年這個市場發(fā)生了逆轉(zhuǎn),圖中桔色的線是去年錄音筆市場,可以看到由于手機的高度智能,這個市場開始減小,但是今年1-2月份搜狗發(fā)布新的產(chǎn)品之后,整個市場開始出現(xiàn)逆轉(zhuǎn),好像電商搜索平臺的量又開始增加了。我們也成立了AI創(chuàng)新聯(lián)盟,核心就是錄音相關的,也把索尼、愛國者、紐曼這些巨頭都組建起來,應該說也是搜狗牽頭引領錄音筆行業(yè)發(fā)生的變化。

我們可以看到在這當中有一個巨大的趨勢,也就是兩個基本斷言,這個時代的硬件會呈現(xiàn)兩個特點:一個是更加IO,一個是更加便攜,這是技術、網(wǎng)絡以及各種各樣硬的能力給我們帶來的變化。

回顧一下二十多年前,我們用的都是臺式機,很重很笨,隨著技術的提升,一個巨大的提升就是更加的便捷化。以前的臺式機到筆記本、Pad和手機,再往下開始出現(xiàn)手表,耳機今年也非常火,再往下可能就是眼鏡,所以硬件從計算力到連接能力以及AI化之后的一個趨勢就是更加便攜。另一個趨勢就是更加強調(diào)IO能力。以前都是一個鍵盤、一個鼠標作為輸入,一個屏幕作為輸出,今天以手機為代表的大量虛擬觸屏和語音設備,也有強大的攝像頭,甚至開始有人臉識別、觸控模式,包括手表開始走向心律、心電圖的檢測,就是越來越強調(diào)IO。個人判斷音箱不會成為AI時代當中具有重大潛力的產(chǎn)品,雖然現(xiàn)在是亞馬遜開頭,因為音箱便攜能力不夠,不是跟著個人走的產(chǎn)品,IO能力不足,也就是聲音進去聲音出來,這樣的場景IO能力有限,后面的AI能力就會受到巨大的限制,我們預言未來五到十年間眼鏡可能會成為取代手機最重要的個人設備。

這些是我對人工智能和信息化的理解,也和鄔院士有所不同,代表著2C從業(yè)人員的判斷,如果有矛盾之處還是以鄔院士的為準。要把人和簡單的設備連接在一塊,能夠發(fā)郵件、聊天、看新聞看視頻,這些已經(jīng)做得非常好了。有人說互聯(lián)網(wǎng)已經(jīng)進入下半場了,好像做著做著就快沒了,只能往下深挖,但我并沒有看到瓶頸和限制,隨著5G和6G技術的出現(xiàn),網(wǎng)絡正在不斷出現(xiàn),升級依然是主旋律,互聯(lián)網(wǎng)文明仍然在往前走,那么就是工業(yè)互聯(lián)網(wǎng)、產(chǎn)業(yè)互聯(lián)網(wǎng)和IoT。

產(chǎn)業(yè)互聯(lián)網(wǎng)更像鄔院士講的運營網(wǎng)絡,使得網(wǎng)絡底層的數(shù)據(jù)都被信息化,通過SaaS等模式大大改進公司的運作效率,以前靠人做決策的事情現(xiàn)在逐步交給機器,甚至使得公司數(shù)據(jù)走出公司邊界,就像阿里的網(wǎng)絡協(xié)同、菜鳥網(wǎng)絡、小二以及其它廣告設計,大家都在同一張網(wǎng)上把底層數(shù)據(jù)打通。

IoT就是InternetofThings,所以是互聯(lián)網(wǎng)的一部分,但是中文翻譯的時候可能帶來一些誤解,因此往下信息化依然會強烈地展開。

人工智能這個詞從2016年開始就被問到非常多,如果我們忘掉這個詞,而是今天我們所說的數(shù)據(jù)智能,智能來自于數(shù)據(jù),沒有數(shù)據(jù)的地方機器是沒有能力去做模仿的,更沒有能力去進行創(chuàng)造和推理,更多的就是在數(shù)據(jù)當中學習,有多少數(shù)據(jù)就能做多少人工智能,信息化做到多深人工智能就能做到多深,也就是穿透行業(yè)看到的視角。

談到語言AI,搜狗具有得天獨厚的優(yōu)勢,就是讓語言更加性感。語言是人工智能皇冠上的明珠,代表著人工智能當中的最高水平。如果機器能夠和人對話,這個機器肯定擁有很強的人工智能,就像人一樣。我們看到一個機器,判斷它智能不智能第一做法是和它聊兩句。我們和外國人對音樂、視覺的理解都是一樣的,唯獨語言需要經(jīng)過長期的學習。我們發(fā)明了語言,通過一種符號描述這個世界,也是知識和思維的載體,這是語言的魅力。

語言為核心的自然交互使得機器能夠接受人的表達。八十年代的時候如果大家已經(jīng)從業(yè),1990年之前學電腦就是學打字,我們當時最關心的就是如何把我們的表達讓機器能夠理解,甚至上升到國家領導人的重要課題。李嵐清到我們學校視察的時候我們就在演示新的技術,總理就說小同學,一分鐘能打多少字?當時我聽了很生氣,這么低級的問題,但現(xiàn)在想起來,糧食的產(chǎn)量是物質(zhì)的基礎,漢字的產(chǎn)量代表著人和電腦結合最基礎的元素。那個年代我們還在學習五筆,但往后走就是越來越智能,隨著機器能力的提升就從人適應機器變成了機器適應人,我們開始有了語音和視覺的識別,所以人機交互會構成一個不變的主題,如何能夠讓機器理解人最自然的表達方式。

今天的時代已經(jīng)變得非常好了,隨著AI出現(xiàn)之后語音和圖像的突破,使得機器對人的表達能夠做得更好,那么就會帶來新的智能硬件,手機作為載體已經(jīng)發(fā)展到了極致的狀態(tài),往下也會把自然交互做得更高。

再就是知識計算,今天這在AI領域還是一個沒有被攻克的問題,就是讓機器產(chǎn)生像人一樣通過語言進行分析思考。目前我們是在垂直領域來做這項局部的工作,比如現(xiàn)在整個通用的計算能力不夠就放在醫(yī)療和客服,然后在局部領域把這樣的通用智能能力限制以后降到具體的行業(yè)當中,實現(xiàn)局部的計算力??匆豢船F(xiàn)在人工智能在兩個領域的能力,自然交互屬于感知的問題,感知的問題使語音圖像在今天得到深度學習的高度發(fā)展,而且是可靠的,甚至可以取代人,能夠比人更加精準地工作,但知識計算是更前沿的工作,也就是對語言和符號的理解。

菜菜醬15:55:14

前來說就是兩種做法:人機交互知識圖譜,或者我們在做搜索的時候,人和機器配合起來一塊工作,要么就是讓用戶去做選擇,機器不能獨立完成取代人的工作,也就是語言本身到現(xiàn)在還是一個懸而未決的難題。

自然交互當中最簡單的課題就是語音識別,隨著最近幾年深度學習的發(fā)展,已經(jīng)達到了一個新的高度,搜狗輸入法支持每天峰值超過8億次的語音識別請求,積累了大量的數(shù)據(jù)和能力,包括方言、語種、語音增強的問題,也有很多實用性部署,所以今天這個時代語音識別已經(jīng)不是什么難題了,但在這背后還有很多技術,我們來看這樣一個語音識別的場景。

可以看到這種語音識別融合了很多技術,科大訊飛北京研究院的朋友也在這里,一看就知道里面有些全能力的展示,不僅是識別得準,中間還包括了人身分離,通過AI算法可以知道聲音不一樣,除了語音之外也可以做笑聲掌聲方面的結構化識別,能夠進行符號化,也就是我們所說的感知不同類型的符號。再就是英文混說,由于深度學習原理當中并不具有中英文混說的數(shù)據(jù)樣本,所以傳統(tǒng)語言人在做英文識別的時候不是調(diào)動感知的反應,發(fā)現(xiàn)不對的話我們就在想到底什么英文詞能夠恰如其分地進行這種嵌入和轉(zhuǎn)化?這對核心語音識別系統(tǒng)是非常有挑戰(zhàn)性的事情,所以語音識別背后還有若干工作需要去做。

關于降噪這件事情,原來是聽不清楚一切都白搭,今天我們可以通過AI算法對歷史上發(fā)生過的4萬多種噪音進行相應的搜集和處理,也是做了非常大量的工作,能夠?qū)Ω鞣N噪音進行學習,在這種情況下就能夠把背景噪音進行很好的識別處理?,F(xiàn)場有回響的回音和音樂的聲音,我們可以把噪聲進行分離。這是拿一個小的錄音筆作為例子,背后顯現(xiàn)出了很強的AI技術,并且已經(jīng)做到極致。

除了語音識別之外,很重要的就是語音合成,前面大家可能覺得惟妙惟肖,已經(jīng)和真人很接近了,但由于我們對語義有相應的理解,不同的段落當中會有抑揚頓挫和情感表達,到現(xiàn)在沒有一個系統(tǒng)能夠用獨立的文字轉(zhuǎn)化成一部長篇的故事或者長篇付費的音頻節(jié)目,也就是出現(xiàn)同樣的情感表達,因為背后有理解和表演的成分。兩周之前我們第一次在邏輯思維付費的音頻節(jié)目當中實現(xiàn)了本人語音合成技術,這種技術不是用文字和語音的轉(zhuǎn)換,我們可以嘗試用另外一個人來做一次朗讀,把自己的情感和自己對語音的理解代入進去,然后通過綜合遷移的方法把聲音皮膚附上去,這樣就是一種新的分工,有的負責語義理解,有的負責表演工作。

這是全球首次能夠把這種真人語音合成技術帶入實用,而且是在付費音頻節(jié)目當中,大概50%的聽眾都沒有聽出來和真人有什么區(qū)別,可能有的覺得沙啞一些,覺得感冒了,也有的很憤怒,我是來聽本人的表演,是花了錢的,你卻拿機器人來糊弄我,這種觀眾占到20%,可以看到這樣一些小心思。我們把制作和IP做到分離,生產(chǎn)之后能夠24小時不間斷地做商業(yè)節(jié)目,“假如生活欺騙了你,不要抱怨,抱我”,這項技術在未來各種場景當中都有實際用處,目前已經(jīng)有31%的小朋友在聽“凱叔講故事”,很多都只認凱叔不認自己的爹了,我們可以把凱叔的表演和我的聲音合在一塊。

我們最早做語音技術的時候做了很好的唇語識別,不僅通過聲波可以知道說什么,我們也可以轉(zhuǎn)化為文字,這是一維的深度學習方式,要是只通過嘴唇運動進行識別,由此研發(fā)了基于三維的視覺表達,達到特定場景90%的效果。實驗室技術也有進行實用,如果大家感興趣的話可以在后面的展廳去嘗試,想出任何一句詩詞,不用發(fā)聲機器就可以知道說的是什么內(nèi)容,十句當中有九句都可以識別出來?,F(xiàn)在我們是從嘴形到文字變成到從文字到嘴形的合成,由此開始做這樣的分聲技術,就是人機交互不僅是人講的機器能懂,機器也可以通過交互像人一樣去做表達。

這是最近我們和新華社合作的一款產(chǎn)品,新華社從今年2月份開始就用機器取代人進行新聞播報,之后我們又做了好幾版的升級,能夠使得產(chǎn)品升級從表情、手勢都會變得更好。這樣的一個主持人從原來每周下午一、二、五上班,現(xiàn)在轉(zhuǎn)變?yōu)橥耆夥?,開始升級成了一個采訪記者,拿著攝像機和麥克風去做實際的采訪,所以原有的工作已經(jīng)被機器完整取代,不用化妝、燈光和攝像。新聞行業(yè)當中第一個被取代的職位反而是新聞主播,說明新聞主播本身的技術含量不是很高,不涉及到很多情感的表演表達。

平安普惠產(chǎn)品已經(jīng)上線,以前都是靠人面對面的簽約服務,隨著技術的進步,人工客服已經(jīng)被完全取代,我們提供語音合成和視覺合成能力,不過都是客服當中簡單的確認性服務,要是銷售的話估計這樣會把客戶嚇跑。

目前語音視覺已經(jīng)開始逐步走向語言,今天能夠摸得到邊的技術就是翻譯,全球有70億人當中漢語為母語的人口占到多少?大概20%,全球英文母語的占到多少?其實只排在全球人口的第四名,要比葡萄牙語和印地語還少,但英文是今天全球通用的語言,網(wǎng)頁上95%的有效信息都是英文寫的,100%的商貿(mào)活動都是用英文。所以作為中國人很難堪的是,當我們?nèi)H上交流的時候需要被迫做多年的英文學習,除非是在當?shù)厣罨蛘呃斫馔鈬奈幕?,那么需要精深的學習,大多數(shù)投入的學習成本和得到的收益是并不值當?shù)?,是否能夠讓機器幫助我們做到更好的翻譯工作?

六十年代有了人工智能之后就一直在進行翻譯,直到最近才大放異彩,中國的機器翻譯是比美國做得更好,原因不在于技術更領先,而是態(tài)度更認真,今天的AI不僅靠算法,還要靠背后的數(shù)據(jù)驅(qū)動,中國公司是很努力地進行大量的數(shù)據(jù)搜集和加工工作。搜狗在2016年1月是全球首個在通用場景和大會上發(fā)布了這樣一個英到中的同傳系統(tǒng),2017年1月也是行業(yè)當中首個英文檢索,識別中文詞語之后可以轉(zhuǎn)化為英文,這對英文不是足夠良好的人來講有機會在全球獲得交流信息,也是使用了一定的機器計算工作,加上很好的交互,使得我們的信息獲取方式極大地拓展。

2017年10月,我們首個發(fā)布離線深度學習產(chǎn)品,也是一款翻譯機。今天的深度學習網(wǎng)絡結構特別大,如何把這種結構裝到一個小設備當中?到了2018年我們是首個能夠在Q3做到英到中的同傳系統(tǒng),也已經(jīng)進入了使用狀態(tài),包括在蘋果發(fā)布會當中進行精準轉(zhuǎn)寫,不過需要定期進行優(yōu)化,包括醫(yī)療、科技、教育和物理學等等,因為機器并不具備足夠高的認知能力,需要不斷優(yōu)化才能逐漸靠譜。

我們發(fā)現(xiàn)從感知到翻譯正在走向更深的體系,人機對談也是目前最有魅力的人工智能語言前景,就是蘋果的Siri再到Echo,我們正在努力構造對話問答系統(tǒng),這也代表人工智能2C的最高水準。前些日子我們發(fā)明了針對問答的機器,也是在節(jié)目當中做了表現(xiàn)。由于這款產(chǎn)品收窄到了知識類的問答,就是問的問題一定是有答案的,在這種情況下機器是可以超過人的。這是2016年的“一站到底”節(jié)目,最早的時候是可以PK過人的,系統(tǒng)升級到了選手冠軍PK,再到后來要求先讓人三分,就是3:0開始去做,關閉了機器的搶答能力,在這種情況下我們依然做到了不錯的效果。因為這不是簡單的數(shù)據(jù)庫檢索,而是主持人提問,通過語音和視覺,閱讀網(wǎng)上上百億的網(wǎng)頁然后找到相關的答案,實時反饋比人更快,也是在搜索當中得到充足的使用。

面向個人的語言AI產(chǎn)品矩陣進行預測,一方面是自然交互的工作,文字到語音到圖像的展開,這件事情會使得感知方面機器能夠比人進行更好的取代,另一方面就是信息到知識計算的能力,所以可以看到橫向跑得很快,就是輸入法到智能硬件,不管是音箱到未來的耳機和眼鏡,這些都是視覺聽覺當中可以做得足夠的好,縱向就是需要收窄領域,畫虛線的也有醫(yī)療的問題,IBMWatson做了很久還沒有很大的突破。

電影《Her》當中最需要解決的就是一個性感的個人助理,交互層面方面我們已經(jīng)可以解決,但是對知識的理解還是下一個十年我們希望能夠有突破的領域,就是讓人人都能夠有一個助理,甚至成為你的分身,這也是搜狗目前的使命。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )

贊助商
2019-11-26
王小川:音箱不會成為AI時代具有重大潛力的產(chǎn)品
11月26日消息,在搜狐科技主辦的2019搜狐科技AI峰會上,搜狗公司CEO王小川表示,AI時代個人硬件趨勢是變得更IO,更便捷。

長按掃碼 閱讀全文