為什么現(xiàn)在的人工智能助理都像人工智障?


編者按:本文由 Mingke 原創(chuàng),轉(zhuǎn)載時(shí)已獲作者授權(quán)。轉(zhuǎn)載時(shí)已獲得作者授權(quán)。

我不是針對(duì)誰,只是在座現(xiàn)在所有做 C 端智能助理的都是坑。

- S 先生

對(duì)群嘲做一個(gè)限定

現(xiàn)在:在 “API 困境” 被解決之前(后詳)。 人工智能助理:這里指的是Intelligent Personal Assistant/Agent (IPA)又稱為 Virtual Personal Assistant/Agent(VPA)——幫助個(gè)人完成多項(xiàng)任務(wù)或多項(xiàng)服務(wù)的虛擬助理,當(dāng)前討論的核心驅(qū)動(dòng)力是人工智能。(什么你說用人來做處理單元?那是呼叫中心,也叫客服,最看不起掛羊頭賣狗肉的了。) 在座:不止是創(chuàng)業(yè)公司,大公司也搞不定,國內(nèi)國外無所謂。 都是坑:創(chuàng)業(yè)公司做消費(fèi)端的虛擬助理,一定無法實(shí)現(xiàn)消費(fèi)級(jí)產(chǎn)品效果。對(duì)于巨頭也是,我相信大部分的相關(guān)負(fù)責(zé)人都以 “進(jìn)步” 為目標(biāo),而不敢跟自家 CEO 擔(dān)保要以 “搞定” 為目標(biāo)。 什么是智能助理? 智能助理屬于對(duì)話式服務(wù)

兩者的邊界不是很清晰,智能助理的功能在前面解釋過了;而 “對(duì)話式服務(wù)(Conversational Service/Commerce)”——這是包含智能助理在內(nèi)的多個(gè)產(chǎn)品形態(tài)統(tǒng)稱,核心特點(diǎn)是:

對(duì)話式:人機(jī)交互的方式由圖形化交互(GUI-Graphical User Interface)變?yōu)橐詫?duì)話作為交互方式(CUI-Conversational User Interface 業(yè)界暫時(shí)還沒有定義,這是我自己瞎編的),就是用說話來代替觸摸或者鼠標(biāo),操作計(jì)算設(shè)備。 服務(wù):提供服務(wù),解決問題都算,如訂機(jī)票,購買禮物等。不包括信息查詢(如天氣)。


Facebook M, 真人和 AI 結(jié)合的服務(wù)

去年(2015)起來的這一波對(duì)話式服務(wù)在硅谷有多火?看看創(chuàng)業(yè)團(tuán)隊(duì)增長(zhǎng)的數(shù)量就知道了:2015 年的時(shí)候有 129 個(gè)類似的項(xiàng)目出現(xiàn),而 14 年的時(shí)候才 42 個(gè)。


Tracxn Report:Conversational Commerce

在各類科技博客上,對(duì)Conversational Commerce的討論也非常熱烈,尤其是在medium.com上有大量的探討?;镜挠^點(diǎn)就是” 對(duì)話式的交互將會(huì)成為下一個(gè)風(fēng)口,大家趕緊上?。 ?。截止到 2016 年 6 月的時(shí)候,在Producthunt 上標(biāo)記為對(duì)話式服務(wù)(ConvComm)的有一百多個(gè)創(chuàng)業(yè)項(xiàng)目。

除了智能助理以外,還有很多類似的概念如 Digital Agent、Bot、Service Bot、 Chatbot、P2P 的電商。比如 Operator 現(xiàn)在用真人專家?guī)陀脩糇鱿M(fèi)決策,在過去嘗試過用 Bot/AI 但可惜達(dá)不到效果,或者 Magic 模式,完全是靠” 真人幫懶人用 app“驅(qū)動(dòng)運(yùn)營。

本文主要討論的是基于人工智能的智能助理——就像 IBM 提到的一樣,只有如此才能真正規(guī)模化。

智能助理應(yīng)該解決服務(wù)需求

巨頭的人工智能助理基本都已亮相了:

Facebook M Amazon Echo Google Assistant,Allo Apple Siri IBM Watson Microsoft Cortana

以上智能助理的服務(wù)范圍大都是在信息檢索,幫助用戶獲得資訊。絕大多數(shù)的內(nèi)容是不牽涉 “推理” 的查詢類信息服務(wù)。比如:

明天的天氣 找附近的星巴克 蘋果的股票信息 ……

如果用戶問到在基礎(chǔ)信息以上,一旦牽涉推理的問題,就無能為力了。比如:

明天這個(gè)天氣狀況會(huì)造成航班延誤么? 附近的星巴克可以用支付寶么? 我什么時(shí)候該買蘋果的股票?

使用體驗(yàn)方面,這些助理的服務(wù)范圍覆蓋面基本跟當(dāng)前所有引擎一樣。在設(shè)計(jì)邏輯上,基本都是基于用命名實(shí)體識(shí)別來代替打字輸入關(guān)鍵詞然后返回檢索結(jié)果 SERP。而信息檢索,離人們要完成的服務(wù)需求有很大的區(qū)別。

就好像 Viv.ai 的聯(lián)合創(chuàng)始人Dag Kittlaus 說的,當(dāng)初他創(chuàng)建 Siri 的時(shí)候,是想要重新挑戰(zhàn)移動(dòng)服務(wù),而不是造一個(gè) Chatbot。


Dag Kittlaus(中間)

除此以外,巨頭的助理與其關(guān)聯(lián)生態(tài)產(chǎn)生的操作關(guān)聯(lián)。比如 Siri 對(duì) iOS 和 macOS 的操作;Cortana 對(duì) Windows 的操作;Echo 對(duì)關(guān)聯(lián)智能家居設(shè)備的操作等等。此類操作的一個(gè)特點(diǎn),是對(duì)結(jié)果非常的確定,出現(xiàn)個(gè)性化選擇范圍非常的少。

另一方面,對(duì)于創(chuàng)業(yè)項(xiàng)目而言,因?yàn)椴痪邆漕愃频纳鷳B(tài)和硬件入口條件,大都定位在資訊和服務(wù)上。我們選擇 Producthunt 當(dāng)中排在最前 150 位的項(xiàng)目進(jìn)行分析,其中高達(dá) 70% 的項(xiàng)目定位都在 2C 的個(gè)人助理(Agent)上,其中大部分都想做切入服務(wù),包括垂直類的和多任務(wù)的。

這些助理服務(wù)當(dāng)中有 23.1% 是專業(yè)類型的服務(wù),主要是在醫(yī)療和理財(cái)方面。而剩下來 76.9% 的助理,干得最多的活兒是生活綜合幫助、出行安排、日程管理、購物訂餐廳等等——這一類是坑最大的地方——特別是那些試圖把生活上各種服務(wù)都打包進(jìn)去的產(chǎn)品。


Producthunt 上面 69.7% 的對(duì)話式服務(wù)都是智能助理產(chǎn)品(但并非所有都具備 AI


人工智能助理的潛力 移動(dòng)紅利的結(jié)束,行業(yè)需要新的增長(zhǎng)點(diǎn)

很多跡象都指向同一個(gè)結(jié)論:移動(dòng)互聯(lián)的高速增長(zhǎng)已經(jīng)飽和。比如用戶已經(jīng)不再愿意下載新的 app。


qz(based on comscore data) &statista

2016 年 1 月有超過 5 萬個(gè)新的 app 被提交到了 App Store,但是在美國市場(chǎng)有 65% 的智能手機(jī)用戶在一個(gè)月內(nèi)下載新 app 的數(shù)量為 0,下了 1 個(gè)新 app 的人占 8.4%。

2015 年中到現(xiàn)在,在國內(nèi) 2C 市場(chǎng)中,幾乎找不到一款真正能爆發(fā)并留存的移動(dòng)產(chǎn)品。對(duì)于移動(dòng)開發(fā)者而言,能放首屏的高頻應(yīng)用早就擠不進(jìn)去了。

而且很多中低頻的服務(wù),并不是最適合用 app 來承載的。比如訂生日蛋糕,作為商業(yè)其價(jià)值一直存在,能通過信息化的方式來解決獲客或者能效問題么?

宏觀來講肯定可以,但是開發(fā)一個(gè) app 則會(huì)面臨用戶獲取和使用成本高,難留存,用戶難發(fā)現(xiàn)等等障礙——這些問題,都讓開發(fā)者懷疑要不要做 app,特別是在最開始 PMF 核心邏輯還沒有被驗(yàn)證的時(shí)候。

但創(chuàng)業(yè)者的熱情和投資人基金里的錢都不能等!于是大家憋著這口氣四處找風(fēng)口,或者又有怎樣的產(chǎn)品形態(tài)可以把商業(yè)形態(tài)再顛覆一次,好比 app 顛覆了網(wǎng)頁,宏觀上有沒有新的產(chǎn)品形態(tài)可以再來一次?甚至運(yùn)氣更好點(diǎn),開拓出以前沒有被耕耘過的維度?

對(duì)話式服務(wù)具備新的增長(zhǎng)點(diǎn)潛質(zhì)

回顧過去,最大的幾次浪潮基本都伴隨著一個(gè)規(guī)律:核心技術(shù)(軟硬一堆)的出現(xiàn)和整合,帶來全新的人機(jī)交互方式 ,在此基礎(chǔ)上大量的商業(yè)應(yīng)用應(yīng)運(yùn)而生。


從 90 年代開始,人際交互的三個(gè)變化

比如 2007 年末移動(dòng)互聯(lián)開始,核心驅(qū)動(dòng)的硬件是觸摸技術(shù)、各種 sensor 的成熟以及整體計(jì)算能力的提升和小型化;軟件方面則是 iOS & Android 的顛覆式出現(xiàn)。

軟硬結(jié)合創(chuàng)造出完全顛覆過去的觸摸操作體驗(yàn),并使其稱為真正可用的人機(jī)交互方式——讓圖形化界面的輸入工具,從鍵鼠時(shí)代跨越到了更 intuitive 的觸摸,并完美的與后面開放的生態(tài)系統(tǒng)結(jié)合起來(不得不再次對(duì)喬大爺表示敬佩)。

人機(jī)交互越來越傾向于人

可以看到隨著技術(shù)的平民化 (democratization),人機(jī)交互正不可逆轉(zhuǎn)地向人的方向靠近——不需要學(xué)習(xí)的人機(jī)交互。


將來越來越多的人都能更自然地通過計(jì)算設(shè)備來獲得價(jià)值。下一個(gè)超級(jí)增長(zhǎng)點(diǎn)的交互方式,一定是交互更接近人的自然行為,更多人可以使用的。

因?yàn)檐浻布拗?,過去用上計(jì)算設(shè)備的人很少。一方面,當(dāng)時(shí)的人機(jī)交互是讓人來 “將就” 機(jī)器——人學(xué)習(xí)機(jī)器的語言——操作需要專業(yè)技術(shù),如打孔……(在個(gè)人電腦方面,當(dāng)年知道 “cd 文件夾名” 的命令行的人也都是高端人士);另一方面計(jì)算設(shè)備巨貴,還不屬于個(gè)人設(shè)備,大眾都買不起;再者,日常應(yīng)用和普通生產(chǎn)力應(yīng)用幾乎沒有,所以買來設(shè)備學(xué)會(huì)了 UI 也沒啥用。

而移動(dòng)設(shè)備出現(xiàn)就讓更多的人從使用計(jì)算設(shè)備中獲利,更多不會(huì)鍵盤鼠標(biāo)的人,通過觸摸手機(jī)屏來操作。將來人們想要獲得服務(wù)的時(shí)候,或許不需要有 “計(jì)算設(shè)備” 這個(gè)中間載體的概念。直接提出需求,就能獲得結(jié)果。

下一代交互方式,似計(jì)算設(shè)備能覆蓋更廣的商業(yè)


Google Assistant Allo

看看過去 app 如何顛覆 web 的,在沒有移動(dòng)互聯(lián)之前,大眾點(diǎn)評(píng)只是一個(gè)不知道幾流的小眾產(chǎn)品,web 也并非最合適這個(gè)商業(yè)模式的產(chǎn)品形態(tài)——比如大部分情況下,人們想要找餐廳的時(shí)候,身邊都沒有 PC 來獲得其他人的點(diǎn)評(píng)信息;而移動(dòng)互聯(lián)的 app 解決了這個(gè)問題。

這并不是說 app 代替了 web(比如 PS 還是在桌面端更好用),而是借由移動(dòng)設(shè)備,app 開啟了過去沒有的維度,繼而大眾點(diǎn)評(píng)的商業(yè)模式有了更合適的產(chǎn)品形態(tài)。

我相信 app 顛覆 web 的歷史,也會(huì)同樣發(fā)生在下一代人機(jī)交互的形態(tài)來顛覆當(dāng)前 app 的時(shí)候。不僅很多商業(yè)模式和形態(tài)都可以被重新考慮一次,甚至幾乎可以肯定 CUI 會(huì)打開新的維度,解放更多的商業(yè)價(jià)值。

如果一個(gè) C 端產(chǎn)品做得好,傳播不受硬件束縛,沒有用戶的使用成本障礙,并且不需要下載新的 app,直接在熟悉的 IM 或者 SNS 里實(shí)現(xiàn)過去用 app 承載的服務(wù),甚至還能開拓新的形態(tài)……

比起當(dāng)前的其他選擇 AR/VR/IOT / 區(qū)塊鏈,CUI 帶來的想象空間更大。所以,就有很多人,巨頭小頭沒頭的都來嘗試。


對(duì) CUI 的特點(diǎn)的理解決定產(chǎn)品價(jià)值

不可否認(rèn)的,真正的 CUI 產(chǎn)品一定是基于人工智能的自然語言處理的。如何深入利用 CUI 的特點(diǎn),是產(chǎn)品打造的關(guān)鍵。

話說當(dāng)前國內(nèi)有很多投資人認(rèn)為,只要是做人工智能的團(tuán)隊(duì),就必須是 MIT,Caltech 出來的機(jī)器學(xué)習(xí)博士或者是 Google、Facebook AI 團(tuán)隊(duì)的人;如果團(tuán)隊(duì)不是頂級(jí)院校的學(xué)者或者是巨頭出來的項(xiàng)目帶頭人,就沒有什么好搞的——這是典型的誤區(qū),或者說對(duì)行業(yè)的理解太淺了。

這種理解基本等于 “聽說你是計(jì)算機(jī)專業(yè)畢業(yè)的,幫我裝一下電腦吧”這樣的水平。很不幸國內(nèi)好多年輕點(diǎn)的投資經(jīng)理基本都是這種水平(為什么年紀(jì)大點(diǎn)的不是?因?yàn)樗麄兝斫?“不懂就不要輕易判斷” 這樣的人生道理)。

看不懂本質(zhì),就看表面,也是不得已。

這里,我非常贊同順為資本孟醒的幾個(gè)觀點(diǎn):

所謂 “做 AI 的” 也有幾個(gè)類型,底層研發(fā)和做應(yīng)用的是兩碼事。 人工智能的底層交給大公司,小創(chuàng)業(yè)公司可以做點(diǎn)小模塊。而應(yīng)用層則有大量的空間給創(chuàng)業(yè)公司來實(shí)現(xiàn)商業(yè)化。 “這個(gè)行業(yè)缺 AI 的產(chǎn)品經(jīng)理,不缺一般意義上的明星,特別牛 x 的算法達(dá)人,牛 x 的北京 BAT 出來的人?!?這方面吳恩達(dá)也有類似的觀點(diǎn),“人工智能社區(qū)是極其開放的,大多數(shù)頂級(jí)研究者會(huì)出版他們的著作/分享他們的想法甚至開源代碼。因此,在這個(gè)技術(shù)開元環(huán)境下,數(shù)據(jù)和人才就是稀缺的資源。”

有點(diǎn)跑題了,在這里就強(qiáng)調(diào)一下,CUI 的核心技術(shù)是 AI(不僅限 NLP 后面會(huì)提到)。對(duì) CUI 作為新一代顛覆性人機(jī)交互的理解,才在產(chǎn)品形態(tài)上能發(fā)揮底層技術(shù)的商業(yè)價(jià)值。

最后,再舉個(gè)例子,GUI 的核心突破是技術(shù)大牛(Xerox)帶領(lǐng)的,而其商業(yè)應(yīng)用的發(fā)揚(yáng)光大則是產(chǎn)品經(jīng)理喬布斯從 Xerox 那兒 “偷來” 的。


1973 年,Xerox 推出第一款 GUI 技術(shù)個(gè)人電腦;在 1983 年,蘋果也推出了他們首款 GUI 電腦 Lisa(喬老爺 “完美借鑒” )

年輕人不懂就要多看書。

CUI 不可延續(xù) GUI 的特點(diǎn)

為了深入理解這個(gè)問題,我們可能要先分析一下,CUI 和 GUI 究竟給用戶體驗(yàn)帶來什么影響?因?yàn)檫@絕不是現(xiàn)在主流的 “把按鈕變成語言操控” 那么簡(jiǎn)單的事情。

當(dāng)移動(dòng)設(shè)備出現(xiàn)的時(shí)候,大家對(duì)如何在智能手機(jī)上開發(fā)產(chǎn)品還沒來得及有深入的了解。所以當(dāng)時(shí)開發(fā)者基本都是從最明顯的地方起步,也就是觸摸代替鍵鼠操作。

早期的大量應(yīng)用,都是從 “如何把 web 縮小到手機(jī)屏幕” 的思路出發(fā)來設(shè)計(jì) app 的?!@是典型的延續(xù)上一代交互的思路。

隨著開發(fā)者不斷思考和挖掘移動(dòng)端的潛力,慢慢有了對(duì)移動(dòng)端真正的核心特質(zhì)的理解——這些 “圣杯屬性” 才是真正讓移動(dòng)端產(chǎn)品設(shè)計(jì)出眾的要素。比如 “碎片時(shí)間”、“個(gè)人身份綁定”、“LBS” 等等,這些特質(zhì)才是真正讓移動(dòng)產(chǎn)品體現(xiàn)價(jià)值的——這些是完全顛覆上一代交互的屬性。

而且我們發(fā)現(xiàn)這些屬性幾乎跟 “觸摸” 這個(gè)明顯的交互行為沒有直接關(guān)系。

現(xiàn)在 CUI 出現(xiàn)的時(shí)候,產(chǎn)品經(jīng)理也會(huì)面臨類似的問題。當(dāng)前大多數(shù)智能助理的設(shè)計(jì)思路都是 “過去 app 是怎么用的,我現(xiàn)在用語言來代替觸摸操作”。好比是用語言來代替手指去觸摸屏幕,或者是用說話來代替手指打字。

而能讓用戶感覺真正智能的核心,我認(rèn)為依然藏在 CUI 的 “圣杯屬性” 里,有待大家發(fā)掘。

CUI 的特點(diǎn):高度個(gè)性化

舉一個(gè)例子,根據(jù)實(shí)際研發(fā)和市場(chǎng)運(yùn)作的經(jīng)驗(yàn),我們發(fā)現(xiàn)有一個(gè)算得上 “圣杯屬性” 是特質(zhì)是:“高度個(gè)性化”。

在 GUI 時(shí)代,用戶使用產(chǎn)品時(shí),有一個(gè)可視化的界面,比如找餐廳,我們打開點(diǎn)評(píng)看上去是這樣:


這看上去是一個(gè)大家非常熟悉的界面,只是所有用戶能做的選擇范圍,都明確地顯示在界面上(所見即所選)。找美食,用戶能做的選擇基本就是:附近,類型,智能排序(不點(diǎn)開可能還不知道是什么意思)以及排序。當(dāng)用戶自己不知道該如何決策時(shí),這些視覺化框架,給了用戶提示該從這些方面根據(jù)自己的需求來做篩選和匹配。

但是在智能助理的界面,用戶看到的是這樣的:


用戶對(duì)可以做哪些選擇一無所知——在沒有可視化的參考下,面對(duì)如此開放的交互,當(dāng)用戶要找一個(gè)餐廳的時(shí)候,他們提出的要求,大都不在 GUI 設(shè)定的范圍以內(nèi)。

根據(jù)我們實(shí)際操作的經(jīng)驗(yàn),用戶提出的問題是這樣的:


只有 “在外灘附近的” 是之前 GUI 查詢范圍當(dāng)中的,其他需求都是過去 GUI 類型當(dāng)中不存在的維度。但因?yàn)?CUI 的開放性,用戶很容易給出上面這樣高度個(gè)性化(非結(jié)構(gòu)化)的需求。

如果 GUI 的產(chǎn)品試圖在個(gè)性化同樣給用戶那么多選擇,就不得不面臨用戶使用成本的問題。一個(gè)界面可能會(huì)被大量的下拉列表、層級(jí)關(guān)系、各種填空和操作充滿。如此是加深了個(gè)性化程度,但是操作成本會(huì)讓用戶放棄使用。

如果在智能助理的產(chǎn)品設(shè)計(jì)上,不尊重用戶 “高度個(gè)性化” 的需求,只提供過去 app 本身提供的個(gè)性化程度“在 XX 附近找個(gè) YY 菜”,那么用戶在實(shí)際提需求的時(shí)候得靠運(yùn)氣撞到既定條件上,不然就是無法識(shí)別的范圍,繼而失望。

另一方面,如果 CUI 只是在做 GUI 范圍內(nèi)的事情,會(huì)遠(yuǎn)不足以顛覆 app。

除此之外,CUI 還有一些專屬的特點(diǎn)。比如:

使用流程非線性:譬如 GUI 是線性的流程,界面引導(dǎo)用戶一步一步走到結(jié)果;而 CUI 則可以是完全無視先后順序的,用戶可以在最開始就提出到本來排在最后的條件當(dāng)中。 可避免信息過載:用戶打開 GUI 的一個(gè)界面,比如點(diǎn)評(píng)上找一個(gè)餐廳,用戶得在一個(gè)列表里去找尋自己最想要的選項(xiàng)(典型的案例是,GUI 讓用戶選擇國家的時(shí)候那一長(zhǎng)排的列表)。而 CUI 則可以規(guī)避用戶信息過載,直接給出期望結(jié)果。這個(gè)特點(diǎn)的另一面是,GUI 因此是 informative 的,給不熟悉場(chǎng)景的用戶更多提示,或者比較結(jié)果的機(jī)會(huì)。 復(fù)合動(dòng)作:“明天后天,晚上最便宜的機(jī)票”——從用戶的操作和實(shí)際體驗(yàn)來看,GUI 無法一次給出結(jié)果,只能用戶先查一次明天的機(jī)票,再查一次后天的機(jī)票,然后手動(dòng)來對(duì)比。CUI 完勝——可以直接給出相關(guān)條件的檢索結(jié)果,前提是 AI 足夠優(yōu)秀。 ……

這里只是拋磚引玉,詳細(xì)更多特質(zhì)會(huì)不斷被開發(fā)者發(fā)掘出來。在這里就不詳細(xì)展開了。在另一篇《人工智能時(shí)代的產(chǎn)品經(jīng)理》文章當(dāng)中,會(huì)做更多關(guān)于 CUI 的分析。

什么樣的 AI Agent 能滿足 C 端的需求?

為什么現(xiàn)在的助理產(chǎn)品都是坑?很多團(tuán)隊(duì)不是底層的算法差,而是團(tuán)隊(duì)對(duì)產(chǎn)品的理解有問題。

要滿足 C 端用戶的需求,確實(shí)非常難。

10 次使用,有一次因?yàn)槿我庠虻氖?,用戶心理就?huì)開始有疑慮。從體驗(yàn)上來看,在用戶熟悉的場(chǎng)景下得全面理解用戶提出的需求;在用戶自身不清楚場(chǎng)景下,得自然的協(xié)助用戶挖掘需求;獲得需求后得幫助用戶做決策,并最終呈現(xiàn)結(jié)果。以此來看,對(duì)話式的 Agent 得至少滿足以下功能:

具備基于上下文的對(duì)話能力(contextual conversation) 具備理解口語中的邏輯 (logic understanding) 所有能理解的需求,都要有能力履行(full-fulfillment) 基于上下文的對(duì)話能力(contextual conversation)

在當(dāng)前,做助理的產(chǎn)品底層技術(shù)基本都是圍繞 NLU(自然語言理解)打造的,很多還沒有涉及到 NLP??墒菬o論是大公司還是小公司的 NLU 都是讓人失望的。

舉個(gè)簡(jiǎn)單的例子,在大公司的幾個(gè)產(chǎn)品上提出需求:我下周五要去北京,幫我查一下航班。

需要識(shí)別意圖:查機(jī)票 需要識(shí)別 entities:時(shí)間(下周五),目的地(北京),出發(fā)地(無 / 當(dāng)前地理位置)

我們看看結(jié)果,首先看三家的回復(fù),從左到右分別是蘋果的 Siri,微軟的 Cortana,Google 的 Allo。


沒有一個(gè)能識(shí)別出來意圖,全部用關(guān)鍵詞來檢索網(wǎng)頁 (SERP)。沒有識(shí)別出意圖,繼而也就沒有可能識(shí)別 Entity 所在的場(chǎng)景。對(duì)于 C 端用戶而言,這可能算是最基礎(chǔ)的服務(wù)之一,而三大巨頭提供的產(chǎn)品完全不能用。


不過當(dāng)我們看到國內(nèi)的創(chuàng)業(yè)公司,卻能按照需求識(shí)別出意圖,并且識(shí)別出對(duì)應(yīng)的 Entity,組合查詢出結(jié)果,看上去比幾個(gè)巨頭更強(qiáng)大。


我們繼續(xù)測(cè)試上下文的對(duì)話。比如,我是國航的會(huì)員,Agent 給出上面的結(jié)果里沒有國航的航班,我自然會(huì)問:“ 有沒有國航的?”

結(jié)果并沒有如期望那樣,在給出的列表里找到國航的航班,而是重新開始了一次查詢。


換一句話來說,沒有結(jié)合上下文的對(duì)話。我并不是為了黑,事實(shí)上這個(gè)產(chǎn)品在國內(nèi)的創(chuàng)業(yè)公司中也算不錯(cuò)的技術(shù)了。但是不會(huì)結(jié)合上下文的對(duì)話,會(huì)造成的最嚴(yán)重的問題就是這個(gè) Agent 基本不能獨(dú)立完成服務(wù)。因?yàn)橛脩舨粫?huì)在一個(gè)句子里把所有的條件都列出來。

以上是基本要素,就當(dāng)前的產(chǎn)品形態(tài)來看,只有非常少的產(chǎn)品能真正做到第一點(diǎn)。大部分號(hào)稱能做到的,都是濫竽充數(shù),連續(xù)問問題而已。

不能真正理解上下文的對(duì)話(機(jī)票查詢):

AGENT: 從哪里出發(fā)?

用戶:上海虹橋機(jī)場(chǎng)。

AGENT:到哪里?

用戶:還是從浦東走吧。

AGENT:好的,從虹橋出發(fā)到浦東的航班是……

在上面的對(duì)話,AI Agent 在問第二個(gè)問題的時(shí)候,不能理解用戶對(duì)前一個(gè)回答的修改(出發(fā)地從 “虹橋” 改為“浦東”),只是按照預(yù)先設(shè)計(jì)對(duì)話的順序,填上命名實(shí)體識(shí)別得來的 Entity。繼而查詢不到結(jié)果,給用戶的感覺就是笨。

真正理解上下文的對(duì)話(機(jī)票查詢):

Agent:從哪里出發(fā)?

用戶:上海虹橋機(jī)場(chǎng)。

Agent:到哪里?

用戶:算了,從浦東走吧。

Agent:好的,出發(fā)改為浦東。那到達(dá)城市呢?

用戶:北京。

Agent:好的,從浦東到北京的航班是……(給出正確的結(jié)果)

而具備真正上下文理解的對(duì)話,Agent 可以正確理解用戶第二個(gè)回答的內(nèi)容(從浦東走),其實(shí)是在修改上一問題的回答(出發(fā)機(jī)場(chǎng)),而不是真的在回答第二個(gè)問題(到達(dá)地在哪里)。

這只是上下文的例子,而對(duì)于服務(wù)類 Agent 而言,所有后續(xù)的 NLP 功能都基于上下文對(duì)話為前提。這些看上去其實(shí)都是非常簡(jiǎn)單的需求,但是當(dāng)前沒有任何一個(gè) 2C 的 Agent 可以做到。

可能有人會(huì)問,大部分用戶都應(yīng)該在第一時(shí)間把需求表達(dá)出來吧,為什么還需要對(duì)話?實(shí)際上,真正操作過大量案例的同學(xué)就會(huì)發(fā)現(xiàn),用戶不可能如此” 貼心 “地按照開發(fā)者的設(shè)計(jì)來提出需求。

“幫我看看下個(gè)星期五去北京,下午 3 點(diǎn)多,從虹橋出發(fā),國航的航班。”——這一類的表達(dá)方式在幾乎從來沒有出現(xiàn)過。哪怕是在用戶最熟悉的場(chǎng)景,也很難確保一個(gè)句子的表達(dá)里包含了所有必須的檢索條件。而且,用戶還會(huì)不停地補(bǔ)充更多個(gè)性化需求。

對(duì)于用戶自己比較了解的場(chǎng)景,如:訂機(jī)票需要提供到達(dá)地,用戶提出的大多數(shù)需求,在最初都非常簡(jiǎn)單,然后逐漸開始細(xì)化。所以需要當(dāng)用戶提出不完整需求的時(shí)候,根據(jù)其意圖,結(jié)合之前已經(jīng)給過的條件,通過對(duì)話,向用戶提出問題,再獲得答案來補(bǔ)全剩下還需要的條件,最后再完成服務(wù)。

對(duì)于用戶自己不熟悉的場(chǎng)景,用戶根本就不知道自己該提出哪些方面的需求。如:不懂酒的用戶,想買一瓶合適的威士忌。他就根本很難提出除了價(jià)格以外的需求,比如產(chǎn)地、年份、釀造原料、水源等等。因此,Agent 得以合適的方式來提問,引導(dǎo)用戶給出偏好,并且用對(duì)話提出推薦。

而且對(duì)于 Agent 而言,很難判斷哪些用戶對(duì)服務(wù)的認(rèn)知有多深。如果不做識(shí)別,就容易問 “老手” 一些 “新手問題”,繼而讓老手覺得我還不如自己下單;而給新手又留下“你在說什么我都不懂” 的印象,也是不聰明。

所以要有好的體驗(yàn),這是非常困難的。而基于上下文的對(duì)話,只是最基礎(chǔ)的用戶需求之一。

理解口語中的邏輯 (logic understanding)

在我們的實(shí)踐中,我們發(fā)現(xiàn)對(duì) “邏輯” 的理解直觀重要。原因也是因?yàn)橛脩舻恼?duì)話,大部分都不是開發(fā)者預(yù)設(shè)那樣的。

再做一個(gè)簡(jiǎn)單的測(cè)試,比如找餐廳,試試:幫我推薦一個(gè)附近的餐廳,不要日本菜。

這是一個(gè)簡(jiǎn)單邏輯,但是你看所有的服務(wù),這次包括剛剛那個(gè)國內(nèi)創(chuàng)業(yè)公司 C 一樣,都會(huì)是一個(gè)結(jié)果:全部推薦日本菜。


也讓朋友測(cè)試了亞馬遜 Echo 的 Alexa,結(jié)果也無法識(shí)別” 不要 “這個(gè)最簡(jiǎn)單的邏輯

這次其實(shí)比剛剛好多了,至少 4 家里面除了 Google Allo,都識(shí)別出來我的意圖是找餐廳——但是,當(dāng)我明確提出不要日本菜的時(shí)候,給出結(jié)果的三家全部都是日本菜…… 也就是說 “不要” 兩個(gè)字被完全忽略了。

觀察大量的用戶案例表明,當(dāng)用戶越是個(gè)性化需求強(qiáng)烈的時(shí)候,對(duì)話中出現(xiàn)邏輯和指代關(guān)系的頻次越高。

“有沒有更便宜的?”

“除了大床房以外的房間有么?”

“后天會(huì)比今天更冷么?”

“就要?jiǎng)倓偟哪莻€(gè) 2 千多的吧?!?/p>

“除了廉價(jià)航空,其他的航班都可以?!?/p>

以上這些是提需求的時(shí)候,在對(duì)話中經(jīng)常出現(xiàn)的表達(dá)方式,而且看似簡(jiǎn)單,但是目前沒有任何一個(gè) NLU 的系統(tǒng)或產(chǎn)品能夠正確的理解。主要的阻礙就是對(duì)邏輯的理解,還有在基于上下文對(duì)話中的指代關(guān)系的理解失敗。

NLP 不是全部,還要有能力履行(API 困境)

NLU 并不是智能助理發(fā)展的瓶頸,供給端的數(shù)據(jù)才是。

我們假設(shè)如果有一個(gè)黑科技出現(xiàn),使得 NLP 有了極大的進(jìn)步,以至于兩個(gè)條件:

基于上下文場(chǎng)景的對(duì)話; 口語邏輯,都能被理解了,甚至還能基于場(chǎng)景和上下文用 NLG 來生成各類問題——它能理解我們所有講出來的需求。

在用戶熟悉的范圍內(nèi),它能結(jié)合所有過去的對(duì)話、歷史記錄等等內(nèi)部外部條件,幫助用戶盡可能實(shí)現(xiàn) “不用開口,就知道我在這個(gè)的需求”。比如當(dāng)用戶提出 “推薦餐廳的需求”:

用戶:“女朋友周日過生日,推薦一個(gè)餐廳,找有江景的,最好桌子旁邊有一個(gè)大落地窗戶,能看到外面的夜景。吃的不要太貴,環(huán)境好點(diǎn),有現(xiàn)場(chǎng)音樂的最好是爵士,不要太吵的?!?(btw,這是一個(gè)真實(shí)需求)

Agent:“菜系有偏好么?”

用戶:“意大利餐和法餐都可以,對(duì)了不要離外灘太遠(yuǎn)了”

Agent 解析出以下選擇餐廳的條件:

周日晚(營業(yè)) 適合女朋友過生日 有江景 有大落地窗 不要太貴 環(huán)境好 有現(xiàn)場(chǎng)音樂,爵士 不能太吵 意大利餐或者法餐 距離外灘不能太遠(yuǎn)

然后它去哪里找到這樣的餐廳呢?在地圖服務(wù)提供商,或者點(diǎn)評(píng)的 API 提供的信息里只有 8,9 兩項(xiàng)能找到數(shù)據(jù)。假設(shè)評(píng)論中有這樣的數(shù)據(jù),該用什么方式來傳遞呢?

接口提供的都是結(jié)構(gòu)化的數(shù)據(jù),而 “環(huán)境好” 這樣的非結(jié)構(gòu)化數(shù)據(jù),最多以標(biāo)簽的方式來做,但是這樣的話,標(biāo)簽就會(huì)無止境得多也不現(xiàn)實(shí)。

這就是我們所謂的 “API 困境”——當(dāng)前基于 API 的數(shù)據(jù)傳遞方式,只能

承載結(jié)構(gòu)化數(shù)據(jù); 承載數(shù)量非常有限的結(jié)構(gòu)化數(shù)據(jù)。

當(dāng)前基于 GUI 的產(chǎn)品,都是用 API 來傳遞結(jié)構(gòu)化數(shù)據(jù)。但大量個(gè)性化數(shù)據(jù)往往是非結(jié)構(gòu)化的,以當(dāng)前 API 的方式很難被處理。這還是在使用場(chǎng)景或者服務(wù)比較簡(jiǎn)單的情況下。

在用戶不熟悉的場(chǎng)景下,Agent 面對(duì)稍微專業(yè)一點(diǎn)的服務(wù),就會(huì)遇到知識(shí)圖譜的問題。簡(jiǎn)單來講,Agent 要做推薦的前提是對(duì)推薦的內(nèi)容得先有了解。

好比,要向一位不懂酒的用戶推薦一款威士忌,那就不能依賴這位用戶自己提出的問題(很可能提不出要求),而得依賴 “懂行” 的自己對(duì)威士忌理解的方方面面來引導(dǎo)用戶做合適他的選擇。一個(gè)助理顯然無法擁有所有服務(wù)所需的知識(shí)圖譜。

從知識(shí)圖譜的結(jié)構(gòu)來看,是相對(duì)可被結(jié)構(gòu)化。一個(gè)服務(wù)可以以各種方式被拆解成多個(gè)方面,但大量的方面在當(dāng)前是沒有結(jié)構(gòu)化數(shù)據(jù)的(比如我們沒有每家餐廳的 “營業(yè)面積” 數(shù)據(jù));甚至很多方面無法用結(jié)構(gòu)化數(shù)據(jù)來表達(dá)(比如每家餐廳有否 “適合浪漫約會(huì)” 的環(huán)境)。

因此,智能助理就算有了強(qiáng)大的 NLP,還需要全面的知識(shí)圖譜(結(jié)構(gòu)化數(shù)據(jù))和處理并傳遞非結(jié)構(gòu)化數(shù)據(jù)的能力——而這兩點(diǎn),在目前是無解的。

總結(jié)

在”API 困境” 解決之前,再加上 NLP 本身還有很長(zhǎng)的路要走,基于人工智能的多任務(wù)服務(wù) Agent 不大可能達(dá)到 C 端滿意的水平。

創(chuàng)業(yè)團(tuán)隊(duì)各自最基礎(chǔ)的認(rèn)知計(jì)算的能力不會(huì)有太大的區(qū)別,都是踩在世界頂尖大牛的肩膀上——在這個(gè)領(lǐng)域創(chuàng)業(yè)團(tuán)隊(duì)想和大公司扛正面,不是很理性。

創(chuàng)業(yè)團(tuán)隊(duì)在垂直領(lǐng)域有些自己的技術(shù)突破可以創(chuàng)造一些階段性的優(yōu)勢(shì),但面對(duì)教育市場(chǎng)的大山而言,這點(diǎn)差異遠(yuǎn)不足以 make a difference。

在各自領(lǐng)域,開發(fā)者對(duì)人工智能相關(guān)技術(shù)的理解和其帶來的交互層面的有效應(yīng)用,可能會(huì)在垂直商業(yè)應(yīng)用上創(chuàng)造更大的差異——比較起 “95% VS 98% 的識(shí)別率” 而言。

題圖來源:MSi College


編者按:本文由 Mingke 原創(chuàng),轉(zhuǎn)載時(shí)已獲作者授權(quán)。轉(zhuǎn)載時(shí)已獲得作者授權(quán)。

我不是針對(duì)誰,只是在座現(xiàn)在所有做 C 端智能助理的都是坑。

- S 先生

對(duì)群嘲做一個(gè)限定

現(xiàn)在:在 “API 困境” 被解決之前(后詳)。 人工智能助理:這里指的是Intelligent Personal Assistant/Agent (IPA)又稱為 Virtual Personal Assistant/Agent(VPA)——幫助個(gè)人完成多項(xiàng)任務(wù)或多項(xiàng)服務(wù)的虛擬助理,當(dāng)前討論的核心驅(qū)動(dòng)力是人工智能。(什么你說用人來做處理單元?那是呼叫中心,也叫客服,最看不起掛羊頭賣狗肉的了。) 在座:不止是創(chuàng)業(yè)公司,大公司也搞不定,國內(nèi)國外無所謂。 都是坑:創(chuàng)業(yè)公司做消費(fèi)端的虛擬助理,一定無法實(shí)現(xiàn)消費(fèi)級(jí)產(chǎn)品效果。對(duì)于巨頭也是,我相信大部分的相關(guān)負(fù)責(zé)人都以 “進(jìn)步” 為目標(biāo),而不敢跟自家 CEO 擔(dān)保要以 “搞定” 為目標(biāo)。 什么是智能助理? 智能助理屬于對(duì)話式服務(wù)

兩者的邊界不是很清晰,智能助理的功能在前面解釋過了;而 “對(duì)話式服務(wù)(Conversational Service/Commerce)”——這是包含智能助理在內(nèi)的多個(gè)產(chǎn)品形態(tài)統(tǒng)稱,核心特點(diǎn)是:

對(duì)話式:人機(jī)交互的方式由圖形化交互(GUI-Graphical User Interface)變?yōu)橐詫?duì)話作為交互方式(CUI-Conversational User Interface 業(yè)界暫時(shí)還沒有定義,這是我自己瞎編的),就是用說話來代替觸摸或者鼠標(biāo),操作計(jì)算設(shè)備。 服務(wù):提供服務(wù),解決問題都算,如訂機(jī)票,購買禮物等。不包括信息查詢(如天氣)。


Facebook M, 真人和 AI 結(jié)合的服務(wù)

去年(2015)起來的這一波對(duì)話式服務(wù)在硅谷有多火?看看創(chuàng)業(yè)團(tuán)隊(duì)增長(zhǎng)的數(shù)量就知道了:2015 年的時(shí)候有 129 個(gè)類似的項(xiàng)目出現(xiàn),而 14 年的時(shí)候才 42 個(gè)。


Tracxn Report:Conversational Commerce

在各類科技博客上,對(duì)Conversational Commerce的討論也非常熱烈,尤其是在medium.com上有大量的探討。基本的觀點(diǎn)就是” 對(duì)話式的交互將會(huì)成為下一個(gè)風(fēng)口,大家趕緊上??!“。截止到 2016 年 6 月的時(shí)候,在Producthunt 上標(biāo)記為對(duì)話式服務(wù)(ConvComm)的有一百多個(gè)創(chuàng)業(yè)項(xiàng)目。

除了智能助理以外,還有很多類似的概念如 Digital Agent、Bot、Service Bot、 Chatbot、P2P 的電商。比如 Operator 現(xiàn)在用真人專家?guī)陀脩糇鱿M(fèi)決策,在過去嘗試過用 Bot/AI 但可惜達(dá)不到效果,或者 Magic 模式,完全是靠” 真人幫懶人用 app“驅(qū)動(dòng)運(yùn)營。

本文主要討論的是基于人工智能的智能助理——就像 IBM 提到的一樣,只有如此才能真正規(guī)模化。

智能助理應(yīng)該解決服務(wù)需求

巨頭的人工智能助理基本都已亮相了:

Facebook M Amazon Echo Google Assistant,Allo Apple Siri IBM Watson Microsoft Cortana

以上智能助理的服務(wù)范圍大都是在信息檢索,幫助用戶獲得資訊。絕大多數(shù)的內(nèi)容是不牽涉 “推理” 的查詢類信息服務(wù)。比如:

明天的天氣 找附近的星巴克 蘋果的股票信息 ……

如果用戶問到在基礎(chǔ)信息以上,一旦牽涉推理的問題,就無能為力了。比如:

明天這個(gè)天氣狀況會(huì)造成航班延誤么? 附近的星巴克可以用支付寶么? 我什么時(shí)候該買蘋果的股票?

使用體驗(yàn)方面,這些助理的服務(wù)范圍覆蓋面基本跟當(dāng)前所有引擎一樣。在設(shè)計(jì)邏輯上,基本都是基于用命名實(shí)體識(shí)別來代替打字輸入關(guān)鍵詞然后返回檢索結(jié)果 SERP。而信息檢索,離人們要完成的服務(wù)需求有很大的區(qū)別。

就好像 Viv.ai 的聯(lián)合創(chuàng)始人Dag Kittlaus 說的,當(dāng)初他創(chuàng)建 Siri 的時(shí)候,是想要重新挑戰(zhàn)移動(dòng)服務(wù),而不是造一個(gè) Chatbot。


Dag Kittlaus(中間)

除此以外,巨頭的助理與其關(guān)聯(lián)生態(tài)產(chǎn)生的操作關(guān)聯(lián)。比如 Siri 對(duì) iOS 和 macOS 的操作;Cortana 對(duì) Windows 的操作;Echo 對(duì)關(guān)聯(lián)智能家居設(shè)備的操作等等。此類操作的一個(gè)特點(diǎn),是對(duì)結(jié)果非常的確定,出現(xiàn)個(gè)性化選擇范圍非常的少。

另一方面,對(duì)于創(chuàng)業(yè)項(xiàng)目而言,因?yàn)椴痪邆漕愃频纳鷳B(tài)和硬件入口條件,大都定位在資訊和服務(wù)上。我們選擇 Producthunt 當(dāng)中排在最前 150 位的項(xiàng)目進(jìn)行分析,其中高達(dá) 70% 的項(xiàng)目定位都在 2C 的個(gè)人助理(Agent)上,其中大部分都想做切入服務(wù),包括垂直類的和多任務(wù)的。

這些助理服務(wù)當(dāng)中有 23.1% 是專業(yè)類型的服務(wù),主要是在醫(yī)療和理財(cái)方面。而剩下來 76.9% 的助理,干得最多的活兒是生活綜合幫助、出行安排、日程管理、購物訂餐廳等等——這一類是坑最大的地方——特別是那些試圖把生活上各種服務(wù)都打包進(jìn)去的產(chǎn)品。


Producthunt 上面 69.7% 的對(duì)話式服務(wù)都是智能助理產(chǎn)品(但并非所有都具備 AI)

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2016-11-24
為什么現(xiàn)在的人工智能助理都像人工智障?
本文主要討論的是基于人工智能的智能助理——就像 IBM 提到的一樣,只有如此才能真正規(guī)?;?。

長(zhǎng)按掃碼 閱讀全文