智能音箱熱潮的實(shí)質(zhì):對話式人工智能的交互變革

2011年,喬布斯在iPhone4s發(fā)布會上得意洋洋地展示出了Siri智能語音助理。喬布斯在當(dāng)時(shí)就判定,Siri是人工智能的入口級產(chǎn)品。這款喬布斯的遺作在此后6年并沒有太大長進(jìn),相反亞馬遜的智能音箱Amazon Echo悄然之間占領(lǐng)了市場。

《華爾街日報(bào)》在今年6月撰文稱,Siri簡直提供了一個(gè)教科書般的范本:它最初在技術(shù)上領(lǐng)先,而且擁有充裕的資金和人才,但卻逐漸喪失領(lǐng)先優(yōu)勢。

與此同時(shí),科技圈正在掀起一場智能語音助理熱。7月5日阿里和百度兩場有關(guān)人工智能的發(fā)布會宣告——智能音箱以及智能語音助理正在真正走入人們的日常生活。

失落的智能語音助理

7月5日下午阿里人工智能實(shí)驗(yàn)室首次公開亮相,推出了一款智能音箱——天貓精靈X1。

這場發(fā)布會效果頗佳,和上午的百度AI開發(fā)者大會遙相呼應(yīng),共同拉動了當(dāng)日的人工智能概念股。

如此熱鬧的場面不禁讓人感慨智能語音助理在前幾年的生不逢時(shí)。

多年以后,筆者依然會想起羅永浩的那些小trick:

2013年3月27日晚,老羅在國家會議中心發(fā)布了錘子Rom,他引以為傲的語音識別功能因?yàn)闀龌匾艟尤欢啻窝菔臼。?/p>

2015年8月25日晚,可能是那場演示的心理陰影還未散去,老羅找來了朱蕭木,退而求其次,做了一個(gè)單機(jī)版語音識別的演示;

2017年5月8日晚,羅永浩不再談?wù)Z音助理這件事情,而是如數(shù)家珍地搬出閃念膠囊功能,把腦子里那些一閃而過的靈感記錄成文字。

坦率來說,老羅每一次得意洋洋的展示都挺拙劣的。因?yàn)樵诠P者看來,語音識別這件事本身就存在很多心理障礙和物理障礙。

比方說,你在公交車上對著自己的手機(jī)喊“給陳總打電話”,周圍的人會像看怪物一樣盯著你;

再比方說,你在公交車上對著自己的手機(jī)喊“給陳總打電話”,周邊小孩的哭鬧聲可能會直接讓你的手機(jī)顯示“語音無法識別”;

(聊天機(jī)器人并不稀奇,早已出現(xiàn))

正是因?yàn)檫@一系列主客觀原因,2015年亞馬遜推出人工智能音響Amazon Echo后的兩年,主流科技圈都對此無感。

這個(gè)傻大黑粗的音響并不是什么炫技的產(chǎn)品。事實(shí)上,語音助理功能也并不稀奇。

智能語音助手這件事情從2011年Siri誕生開始,它就注定成為了一個(gè)玩物。它就像很多90后曾經(jīng)在校園里調(diào)戲過的“小黃雞”機(jī)器人一樣,只是一個(gè)只能把人逗樂半天的聊天機(jī)器人。

全球智能音箱的熱潮

直到2016年8月,被譽(yù)為“互聯(lián)網(wǎng)女皇”的凱鵬華盈(KPCB)合伙人瑪麗·米克(Mary Meeker)在她那份2016年《互聯(lián)網(wǎng)趨勢》(Internet Trends)報(bào)告中提到,iPhone的銷量在2015年可能已經(jīng)接近天花板,有趣的是亞馬遜的語音助理硬件Echo銷量正在大幅增長,現(xiàn)在銷量已超過400萬臺。

(互聯(lián)網(wǎng)女皇2016年《互聯(lián)網(wǎng)趨勢》報(bào)告)

這份報(bào)告同時(shí)指出,語音正成為計(jì)算接口,也是計(jì)算機(jī)輸入最有效率的一種形式,機(jī)器對語音識別的正確率從2010年的約70%,提高到2016年的約90%。

(互聯(lián)網(wǎng)女皇2016年《互聯(lián)網(wǎng)趨勢》報(bào)告)

這時(shí),全世界才真正注意到智能音箱這個(gè)新事物的潛力所在。

我們可以算一下智能音箱這幾年來的上市節(jié)點(diǎn):

2016年5 月17日Google I/O 上,Google Home 誕生;

2017年5月9日,微軟 Build 2017上,大與哈曼卡頓聯(lián)合合作的Invoke 智能音箱誕生;

2017年6月5日,蘋果家居智能音箱HomePod誕生,而且按照蘋果的計(jì)劃明年還將推出Siri音箱;

2017年7月5日,阿里人工智能實(shí)驗(yàn)室研究成果天貓精靈X1推出。

之所以會以智能音箱切入是有原因的。家庭環(huán)境下的wifi網(wǎng)絡(luò)能夠支撐智能語音助手隨時(shí)在線,家庭環(huán)境下的語音干擾也是最少的,私密性也是最好的。除此之外,在家庭環(huán)境下,需要助理的服務(wù)環(huán)境非常多樣,比如你想開燈關(guān)燈、你想定個(gè)外賣、你想網(wǎng)購商品,這些都是在家庭環(huán)境中可以實(shí)現(xiàn)的。而且最為重要的是這些環(huán)節(jié)用語音和智能音箱交互,遠(yuǎn)比手機(jī)更便捷。

也就是說,智能語音助理之所以會在家庭室內(nèi)以智能音箱的形態(tài)出現(xiàn)主要是解決了這幾個(gè)問題:

第一,心理上的障礙;第二,服務(wù)場景的多樣;第三,比手機(jī)更便捷。

因此智能音箱會成為一陣?yán)顺?,在美國家庭被用戶解決各式各樣的生活問題。因?yàn)樗烊灰?guī)避了手機(jī)的使用場景,形成了人們?nèi)粘I畹挠幸嫜a(bǔ)充。

對話式人工智能的實(shí)質(zhì)

我們真正需要探討的是,智能音箱它到底是像智能可穿戴設(shè)備一樣,僅僅只是智能手機(jī)的有益補(bǔ)充,還是能夠成為未來個(gè)人、家庭的服務(wù)入口。

因?yàn)椋绻悄芤粝鋬H僅只是智能手機(jī)的補(bǔ)充,那這意味著它的量級永遠(yuǎn)只是局限數(shù)百萬臺的規(guī)模,僅僅被少數(shù)人所使用。

不過,目前來看,智能音箱的實(shí)質(zhì)其實(shí)并不是音箱甚至不是智能語音助理這么簡單,準(zhǔn)確定義的話,這實(shí)際上是“對話式”人工智能。

在微軟Build2016開發(fā)者大會上,微軟CEO納德拉首先提出了“Conversations as a Platform”,也就是“對話即平臺”的人工智能發(fā)展方向。

這個(gè)概念在后來也被成為是“對話式人工智能”。

所謂“對話式人工智能”指的是,對話本身就是一個(gè)平臺,各種知識、信息與服務(wù)都運(yùn)行在“對話”其上,可以形成生態(tài)環(huán)境的基礎(chǔ)平臺。人和人工智能之間的對話,即是解決各種問題的一種路徑和方式。

如果說的更淺顯一些,那就是人們能夠通過人和人正常交流的方式,來與機(jī)器進(jìn)行溝通,以此來獲取信息和服務(wù)。

也就是說,未來人們其實(shí)不僅僅是在家里可以用智能語音助理來獲取服務(wù),智能語音助理甚至可能無所不在。所以你會發(fā)現(xiàn),阿里人工智能實(shí)驗(yàn)室在發(fā)布天貓精靈的同時(shí),還公布了配套的研發(fā)平臺AliGenie開發(fā)者平臺。這一開發(fā)平臺主要面向個(gè)人內(nèi)容開發(fā)者、應(yīng)用開發(fā)者、智能家居開發(fā)者以及硬件生產(chǎn)商等四類開發(fā)者。

未來我們可以在汽車、冰箱、電視甚至是家庭的垃圾桶上享受到智能語音助理的服務(wù),隨時(shí)用語音獲取信息。用阿里人工智能實(shí)驗(yàn)室負(fù)責(zé)人淺雪的話來說,“終端方面的合作伙伴包括阿里智能IoT、涂鴉科技以及一些大廠,涉及千萬款以上產(chǎn)品、100多個(gè)品類。”

這也意味著將來智能語音助理將無所不能、連接一切。

這種交互方式或許令人意外,但是語言本來不就是人誕生以來的交互方式么?

語音是所有動物最早最原始的信息交流方式,這對于使用者來說幾乎沒有任何的門檻,哪怕是還不識字的孩童。

只是隨著信息化時(shí)代的來臨,鍵鼠成了我們操縱電腦與他人交流、獲取信息服務(wù)的交互方式,而隨著移動時(shí)代的來臨,觸摸屏又取代鍵鼠成了新的交互方式。

細(xì)細(xì)數(shù)來,鍵鼠這種交互方式存在至今不過50年,而觸摸屏這種交互方式嚴(yán)格算來也僅僅只有不到20年。

但觸摸屏取代鍵鼠的那一剎那,有多少人表示過驚訝?當(dāng)喬布斯宣稱說其實(shí)人類有一個(gè)天然的操作工具的時(shí)候,我們還認(rèn)為他可能會推出全鍵盤手機(jī)。然而他說的是全觸摸屏手機(jī)。所有人都認(rèn)為,觸摸屏手機(jī)收發(fā)郵件不方便,打字不夠快捷。

黑莓時(shí)任聯(lián)席CEO兼創(chuàng)始人Jim Balsillie在2007年2月曾經(jīng)說過的一句話:(蘋果和iPhone)有點(diǎn)像一位試圖加入一間已經(jīng)十分擁擠的屋子的新人,在這里消費(fèi)者已經(jīng)有許多許多選擇了……但是如果說這將對黑莓產(chǎn)生海嘯般的影響,我會覺得有點(diǎn)夸張了。

后來的事情大家都知道,更符合人類直覺的觸摸屏取代了全鍵盤。在智能音箱的身后其實(shí)也存在這個(gè)交互變革的邏輯。

云計(jì)算大數(shù)據(jù)重塑語音

盡管是回到語音這個(gè)交互邏輯上,但本質(zhì)來看,智能語音助理下的語音和過去的語音交互其實(shí)存在著本質(zhì)的差別。

過去我們用語音調(diào)用的實(shí)際上是另外一個(gè)人的服務(wù)。對話和對話之間本質(zhì)上信息量很少。

實(shí)際上,語音交互存在大量問題:

1、場景覆蓋的低;

2、缺乏系統(tǒng)可視性;

3、語音無法表現(xiàn)信息層級。

4、語音交互消耗注意力,增加記憶負(fù)擔(dān)。

5、隨之帶來的交互效率低。

所以,當(dāng)你在地鐵上,別人卻在微信上給你發(fā)來一條59秒的語音消息時(shí),你會對那個(gè)人恨之入骨。

但是隨著人工智能和云計(jì)算、大數(shù)據(jù)的到來,人和語音的交互本質(zhì)上正在發(fā)生變化。因?yàn)檫@并非雙向語音之間的交互,只需要人發(fā)出指令即可。

劉慈欣在《鄉(xiāng)村教師》的這段話很形象地點(diǎn)名了未來語音交互的信息量:

“你是想告訴我們,一種沒有記憶遺傳,相互間用聲波進(jìn)行信息交流,并且是以令人難以置信的每秒1至10比特的速率進(jìn)行交流的物種,能創(chuàng)造出5B級文明?!而且這種文明是在沒有任何外部高級文明培植的情況下自行進(jìn)化的?!”

劉慈欣這句話的實(shí)質(zhì)是大量的數(shù)據(jù)的積累,以及遠(yuǎn)程計(jì)算能力的提升。這些提升重塑了語音,解決了一系列的問題:

當(dāng)語音調(diào)用的信息本身是具備可視性、劃分層級而且直觀易懂甚至縮短大量信息環(huán)節(jié)的時(shí)候。它本質(zhì)上就是一個(gè)更為合理的交互方式。

(隨著大數(shù)據(jù)和云計(jì)算技術(shù)成熟,語音調(diào)用了大量的數(shù)據(jù))

如果我們換個(gè)意思來理解可能會更形象——古今同樣是說一句話,可以調(diào)用的能量發(fā)生的數(shù)量級的差異。舉個(gè)例子,古人說出“我想聽個(gè)《霓裳曲》”,實(shí)現(xiàn)他就需要一個(gè)戲班子。而現(xiàn)在人類說同樣的一句話,就只需要調(diào)動云端的幾MB的音頻流。

這種變化實(shí)際上是靠大數(shù)據(jù)積累以及云計(jì)算處理來完成的,以云端的處理速度,迅速調(diào)用各類服務(wù),將對話式人工智能的效率提到最高。

50多年的彎路之后,人類走過了鍵盤、鼠標(biāo)、觸摸屏等一系列交互手段,而以智能語音助理為代表的對話式人工智能正在讓人類返璞歸真。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-07-07
智能音箱熱潮的實(shí)質(zhì):對話式人工智能的交互變革
2011年,喬布斯在iPhone4s發(fā)布會上得意洋洋地展示出了Siri智能語音助理。喬布斯在當(dāng)時(shí)就判定,Siri是人工智能的入口級產(chǎn)品。

長按掃碼 閱讀全文