專訪簡(jiǎn)仁賢:如何用情感交互拯救智障的機(jī)器人

編者按:本期對(duì)話嘉賓為竹間智能創(chuàng)始人兼CEO簡(jiǎn)仁賢,他為何要另辟蹊徑做情緒情緒API,對(duì)目前語(yǔ)義理解難題有何解決辦法?又如何將人機(jī)交互解決方案成功應(yīng)用到各個(gè)領(lǐng)域。

專訪簡(jiǎn)仁賢:如何用情感交互拯救智障的機(jī)器人

本文系網(wǎng)易智能工作室(公眾號(hào)smartman 163)出品,此篇為《AI英雄》專訪第28期。聚焦AI,讀懂下一個(gè)大時(shí)代!

作者|小羿

我問(wèn)自己,為什么會(huì)愛(ài)上你

我感覺(jué)一切忽然都不重要了

我所掌握的所有執(zhí)念都消失了

我找不到明確的答案,我也不需要明確的答案

我相信自己,相信自己的感覺(jué)

我不想再嘗試成為,真實(shí)的我以外的東西

我希望你會(huì)接受這樣的我

——薩曼莎

這是電影《Her》中女主人公人工智能系統(tǒng)薩曼莎對(duì)身為人類的男主人公西奧多的愛(ài)情表白。這部電影獲得了第86屆奧斯卡最佳原創(chuàng)劇本獎(jiǎng),也勾起了人們對(duì)于未來(lái)世界的憧憬。簡(jiǎn)仁賢便是是深受這部電影影響的人之一。

作為前微軟(亞洲)互聯(lián)網(wǎng)工程院副院長(zhǎng),微軟小冰研發(fā)的奠基人之一,簡(jiǎn)仁賢在2015年為了讓機(jī)器人具備情緒情感,毅然走上了創(chuàng)業(yè)之路。如今,他創(chuàng)立的情緒情感識(shí)別公司竹間智能科技已經(jīng)走過(guò)了兩年的時(shí)間。

什么是情感識(shí)別?能否拯救智障的機(jī)器人

為什么現(xiàn)在的機(jī)器人感覺(jué)很智障,為什么它們的交流如此生硬機(jī)械?

在簡(jiǎn)仁賢看來(lái),人與人之間的交流是自然的交互,包括圖像視覺(jué)、聲音與文字,都是有情感在的。而要想達(dá)到自然的人機(jī)交互,就必須使機(jī)器具備情感識(shí)別和理解能力。兩年以來(lái),簡(jiǎn)仁賢將大部分經(jīng)歷放在了情緒情感技術(shù)的打磨上。采訪一開始,簡(jiǎn)仁賢就迫不及待地向網(wǎng)易智能等媒體展示了他們與Google在人臉情緒辨別上的對(duì)比測(cè)試成績(jī)單,并進(jìn)行了細(xì)致的解說(shuō)。

據(jù)簡(jiǎn)仁賢介紹,竹間智能的一家合作伙伴將竹間智能Emoti-Face API與Google cloud vision API的做了對(duì)比。

專訪簡(jiǎn)仁賢:如何用情感交互拯救智障的機(jī)器人

注:測(cè)試對(duì)比采用香港中文大學(xué)ExpW數(shù)據(jù)庫(kù)作為測(cè)試集,測(cè)試機(jī)里有9萬(wàn)多張人臉。

測(cè)試結(jié)果顯示,竹間智能的人臉情緒API可以辨識(shí)9種情緒,包括開心(Happy)、生氣(Angry)、哀傷(Sad)、驚訝(Surprise)、害怕(Fear)、反感(Disgust)、輕視(Cotempt)、困惑(Confused)、中性(Neutral)。但是Google的人臉情緒API只能辨識(shí)4種情緒,分別是憤怒(Anger)、喜悅(Joy)、悲痛(Sorrow)、驚訝(Surprise)。

在同一個(gè)測(cè)試集里,竹間智能的人臉識(shí)別的準(zhǔn)確率是96.68%,Google是81.52%。在人臉表情識(shí)別度上,簡(jiǎn)仁賢介紹,這個(gè)維度測(cè)試同一張照片場(chǎng)景中不同燈光、角度下的三個(gè)人臉情緒,還有六張不同人臉情緒的識(shí)別。最終結(jié)果顯示,竹間智能的準(zhǔn)確率達(dá)到了81.57,Google只有70.84,前者比后者高出15%。簡(jiǎn)仁賢總結(jié)說(shuō),開心是最好辨認(rèn)的情緒,在驚訝、哀傷的情緒上竹間智能領(lǐng)先Google的比較多,而生氣這個(gè)情緒很難辨認(rèn)。

與此同時(shí),簡(jiǎn)仁賢還向網(wǎng)易智能介紹了人臉情緒的識(shí)別規(guī)律,竹間智能采用的是對(duì)表情給一個(gè)幾率值,比如是0到1分?jǐn)?shù),哪個(gè)分值大就是哪種情緒。比如第一張臉系統(tǒng)判斷其他情緒值都是是0,只有開心值是1,就判斷整個(gè)情緒是開心的。而Google的做法是用四個(gè)值來(lái)衡量,Very Unlikely、Unlikely、Likely、Very Likely,用這個(gè)四個(gè)值的分?jǐn)?shù)去辨別情緒。

專訪簡(jiǎn)仁賢:如何用情感交互拯救智障的機(jī)器人

簡(jiǎn)仁賢稱,竹間智能對(duì)于人臉情緒識(shí)別的算法,大部分都是原創(chuàng)的,架構(gòu)訓(xùn)練和速度更快,不管是在CPU還是在GPU上測(cè)試,與其他算法相比都是運(yùn)算時(shí)間最少的。而且運(yùn)行存儲(chǔ)十分小,容易直接做到單機(jī)上,甚至低端手機(jī)上。簡(jiǎn)仁賢對(duì)自己的技術(shù)充滿了信心,“希望竹間智能能將自己的人臉情緒識(shí)別技術(shù)拿到業(yè)界做一個(gè)公開的評(píng)比。”

在人臉識(shí)別方面,除了9種情緒之外,竹間智能還對(duì)人臉做了22種屬性的識(shí)別,包括性別、膚色、皮膚質(zhì)量、頭發(fā)顏色、是否戴眼鏡、長(zhǎng)發(fā)還是短發(fā)、哪種胡子、年齡等等。

簡(jiǎn)仁賢稱,皮膚質(zhì)量公司最新做的人臉屬性,可以識(shí)別斑點(diǎn)、黑斑、痘痘、黑眼圈、深皺紋、淺皺紋、曬傷、紅斑、油性皮膚、干性皮膚等等,這部分已經(jīng)得到了應(yīng)用。

除了在人臉上進(jìn)行情緒識(shí)別和屬性的開發(fā)之外,竹間智能還做了22種語(yǔ)義的情緒(基于文字)和4種聲音的情緒(基于聲音)。人臉表情、語(yǔ)義文字、語(yǔ)音聲波,三種情緒識(shí)別融合在一起構(gòu)成了竹間智能最核心的情緒情感識(shí)別技術(shù)。

專訪簡(jiǎn)仁賢:如何用情感交互拯救智障的機(jī)器人

在數(shù)據(jù)積累上,簡(jiǎn)仁賢稱情緒情感的數(shù)據(jù)是買不到的,市面上多是一些只能做正負(fù)向兩個(gè)維度情緒的數(shù)據(jù)。為此,竹間智能除了少部分用公用數(shù)據(jù)外,大多數(shù)都是自己采集,從爬數(shù)據(jù)、清洗、標(biāo)注,累積了大量的數(shù)據(jù)、數(shù)據(jù)集、訓(xùn)練集、測(cè)試集,以及算法的迭代。“因?yàn)榍楦星榫w是非常難標(biāo)注的,所以我們累積了兩年,擁有超過(guò)100萬(wàn)張精確標(biāo)準(zhǔn)過(guò)的人臉。”簡(jiǎn)仁賢表示。

基于情感情緒做人機(jī)交互,這條路走得通嗎?

專訪簡(jiǎn)仁賢:如何用情感交互拯救智障的機(jī)器人

情緒情感的識(shí)別理解是竹間智能的核心技術(shù),在此之上,簡(jiǎn)仁賢把公司定位一家人機(jī)交互公司。

“竹間智能不是圖像公司、也不是語(yǔ)義公司,而是基于情感情緒的人機(jī)交互公司。”簡(jiǎn)仁賢這樣給自己的公司定位。

在簡(jiǎn)仁賢看來(lái),要做到好的人機(jī)交互,必須要從人臉視覺(jué)上、語(yǔ)音識(shí)別、文字理解上都做到情緒情感的理解,并把三者融合起來(lái)。“只有這樣才能讓機(jī)器人,甚至是AI交互技術(shù)實(shí)現(xiàn)突破,實(shí)現(xiàn)深層的人機(jī)交互和理解。”

”在人臉識(shí)別方面,我們著重的是對(duì)于人臉的理解,有別于其它的視覺(jué)公司是做安防、人臉驗(yàn)證、刷臉等技術(shù)。“簡(jiǎn)仁賢稱,竹間智能在人臉識(shí)別上只做情緒情感,其商業(yè)模式是在人臉識(shí)別上提供情緒情感的辨識(shí)和決策。

簡(jiǎn)仁賢表示,情緒情感的識(shí)別對(duì)機(jī)器人的語(yǔ)音識(shí)別、語(yǔ)義理解方面也有很大幫助。“我們有很多合作伙伴提供語(yǔ)料,都是用戶講了一大堆事情,關(guān)鍵詞就超過(guò)十個(gè),按照傳統(tǒng)的方式無(wú)法匹配,還要讓用戶一遍遍地去做選擇題。我們的做法是首先辨別情緒,如果情緒極端不滿,不管你講什么,先安撫和道歉,之后我再去判別你的意圖。”

“比如說(shuō)在機(jī)場(chǎng)的場(chǎng)景上,乘客可能會(huì)問(wèn)“北京到上海的這個(gè)班機(jī)在哪里值機(jī)?”如果機(jī)器人通過(guò)攝像頭識(shí)別出乘客很慌張,后臺(tái)馬上幫忙查詢航班,然后可能會(huì)先安撫乘客別著急,還有一個(gè)半小時(shí)才起飛,時(shí)間還來(lái)得及,我?guī)湍榈搅?,是在XX號(hào)值機(jī)窗口,從這邊往右轉(zhuǎn)...."簡(jiǎn)仁賢認(rèn)為,這才是真正的人機(jī)交互。

機(jī)器人根本聽(tīng)不懂你在說(shuō)什么?問(wèn)題在上下文理解和記憶

對(duì)于目前人機(jī)交互最難的語(yǔ)義理解技術(shù),簡(jiǎn)仁賢也發(fā)表了自己的看法。他說(shuō),當(dāng)下很多對(duì)話機(jī)器人或聊天機(jī)器人也好,或者是QA問(wèn)答系統(tǒng)也好,其實(shí)它是不理解語(yǔ)義的。

“比如說(shuō)你跟機(jī)器人講,某某明星好丑啊,然后機(jī)器人就說(shuō),是啊很丑??墒撬恢滥闶窃谥v誰(shuí)。如果我把某某明星換成敏感人物,形象、性別敏感的人物,這樣的就會(huì)造成言論的錯(cuò)誤。”簡(jiǎn)仁賢表示,如果只是隨便抓一條語(yǔ)料來(lái)回這個(gè)話,就很容易造成當(dāng)下的一問(wèn)一答關(guān)健詞的回話。”僅依靠關(guān)鍵詞匹配和后臺(tái)搜索是做不好語(yǔ)義理解的,它只會(huì)導(dǎo)致聊天的效果是不可控的,失去了人機(jī)交互的黏性。“簡(jiǎn)仁賢揭了bot們的底。

專訪簡(jiǎn)仁賢:如何用情感交互拯救智障的機(jī)器人

簡(jiǎn)仁賢認(rèn)為,語(yǔ)義理解應(yīng)該是包括上下文的理解和記憶兩部分。由上下文和記憶的理解再來(lái)理解情緒情感,然后識(shí)別意圖,才有辦法得到一個(gè)理解的結(jié)果。只有真正理解每句話的意圖,機(jī)器人才有辦法判斷如何回話。

“記憶包括短期記憶和長(zhǎng)期記憶,短期記憶指的是我們?cè)趯?duì)話的48小時(shí)之內(nèi)的東西,長(zhǎng)期記憶是有關(guān)于你的屬性,你喜歡什么,不喜歡什么,你的年齡,你的愛(ài)人是誰(shuí),你住哪里,老家哪里,你喜歡誰(shuí)的電影,喜歡聽(tīng)誰(shuí)的歌等等。”簡(jiǎn)仁賢對(duì)網(wǎng)易智能表示,對(duì)于記憶的部分,竹間智能是從對(duì)話里面用語(yǔ)義理解的技術(shù),去把這些抽出來(lái),然后去除隱私信息,再建立起來(lái)的。

但即便這樣,人機(jī)交互的語(yǔ)義理解部分還是存在的很大的問(wèn)題,尤其是中文,同一句話可能在不同的場(chǎng)合表示不同的意思。

簡(jiǎn)仁賢表示,目前在開放式領(lǐng)域,能夠精準(zhǔn)的判斷你的意圖是做不到的。但是如果限定在特定的對(duì)象或環(huán)境中,就比較好。“在開放式領(lǐng)域,比如我在家里說(shuō)太吵了,那我說(shuō)的是外面吵還是電視太吵?但是如果我對(duì)著電視講,太吵了,我的意圖是把聲音關(guān)小一點(diǎn)。”“我對(duì)證券業(yè)說(shuō),我的股票主力走了沒(méi),主力是什么意思?我對(duì)一個(gè)球隊(duì)說(shuō)橫打主力是誰(shuí),這個(gè)主力跟那個(gè)主力不一樣的。所以我對(duì)著特定領(lǐng)域的“主力”,這是代表不一樣的意思的。“簡(jiǎn)仁賢解釋到。

目前,竹間智能已經(jīng)根據(jù)特定領(lǐng)域做了幾百種意圖,這些意圖識(shí)別準(zhǔn)確率達(dá)到90%以上。“但是僅僅建立一個(gè)特定領(lǐng)域的理解還是不夠的,我們會(huì)配合合作伙伴,利用他們的數(shù)據(jù)來(lái)做一個(gè)適合他們的,這就成了解決方案。“簡(jiǎn)仁賢表示。

技術(shù)落地,如何將人機(jī)情感交互用到行業(yè)中?

技術(shù)搭建成熟以后,簡(jiǎn)仁賢發(fā)現(xiàn)還是不能達(dá)到真正的效果,所以他的團(tuán)隊(duì)將觸角伸向了應(yīng)用領(lǐng)域。“只有到行業(yè)里去應(yīng)用,才能夠拿到真實(shí)的用戶的使用數(shù)據(jù),對(duì)你的模型才能做更精進(jìn)。”簡(jiǎn)仁賢說(shuō)。

簡(jiǎn)仁賢認(rèn)為,在應(yīng)用領(lǐng)域,是一個(gè)快速迭代的過(guò)程,“像我們的情緒情感的模型做了四代了,我們的意圖引擎也重寫了四次了。包括我們的語(yǔ)義理解,語(yǔ)義理解的部分都重寫了兩次。就是因?yàn)槲覀儷@取到的的信息不一樣,但是我們的架構(gòu)很低耦合,可以讓我們做到快速迭代。所以場(chǎng)景的應(yīng)用是很重要的。“

目前,竹間智能的情緒情感的人機(jī)交互解決方案已經(jīng)用到了電商、金融和物聯(lián)網(wǎng)等領(lǐng)域。

在金融領(lǐng)域,竹間智能主要服務(wù)金融、證券、保險(xiǎn)三個(gè)子領(lǐng)域。“比如金融業(yè)務(wù)之前問(wèn)答系統(tǒng),用戶的黏性和效率都是很低的。傳統(tǒng)的問(wèn)答系統(tǒng)其實(shí)需要人工維護(hù),而且維護(hù)成本相當(dāng)高。因?yàn)樗麄円獙憥兹f(wàn)個(gè),甚至于十萬(wàn)個(gè)以上的模板來(lái)維護(hù),都是模板維護(hù),它不是人工智能。所以傳統(tǒng)的客戶系統(tǒng),他們是急需要智能的,用人工智能的技術(shù)來(lái)解決。”據(jù)簡(jiǎn)仁賢向網(wǎng)易智能透露,目前金融部分的業(yè)務(wù)已經(jīng)成為竹間智能的主要To B業(yè)務(wù)。

其次,電商、零售、快銷這些領(lǐng)域是竹間智能最開始接觸應(yīng)用場(chǎng)景。“比如電商客服場(chǎng)景,用戶進(jìn)來(lái)有可能說(shuō),我貨訂了這么久,為什么還沒(méi)收到?對(duì)于商家來(lái)講他需要知道你的意圖是什么,是要查物流嗎?可是首先我們通過(guò)情緒識(shí)別出不滿,先安撫,然后再查物流告知貨什么時(shí)候送到。”簡(jiǎn)仁賢稱,這樣的人機(jī)情感交互完全有別于傳統(tǒng)的機(jī)器人客服。“傳統(tǒng)的智能客服系統(tǒng)都是不智能的,如果用戶跟機(jī)器人講,我這個(gè)貨訂了好幾天了都還沒(méi)收到。機(jī)器人會(huì)回復(fù):我猜你要問(wèn)的是,1,2,3.......然后你再選,然后選完以后可能最后再給你選擇。”簡(jiǎn)仁賢說(shuō)到。

另外,竹間智能目前還利用22種人臉屬性以及9種時(shí)尚穿著識(shí)別,為美妝導(dǎo)購(gòu)產(chǎn)業(yè)服務(wù)。“包括快銷品、護(hù)膚品、化妝品,跟臉有關(guān)系的場(chǎng)景都可以用到,我們可以依據(jù)人臉屬性和情感情緒,做適時(shí)的個(gè)性化推薦和導(dǎo)購(gòu)。”簡(jiǎn)仁賢說(shuō)。

第三個(gè)落地場(chǎng)景是物聯(lián)網(wǎng)部分,包括機(jī)器人、手機(jī)、電視等。“這三個(gè)應(yīng)用領(lǐng)域是可以融合的,比如說(shuō)機(jī)器人公司將產(chǎn)品賣給銀行網(wǎng)點(diǎn)的,剛好我們有銀行的知識(shí),就可以用上了。我們的商業(yè)模式是一個(gè)體系的,這樣容易把服務(wù)串起來(lái)。”

專訪簡(jiǎn)仁賢:如何用情感交互拯救智障的機(jī)器人

簡(jiǎn)仁賢表示,公司的目標(biāo)是在未來(lái)兩到三年,通過(guò)融合視覺(jué)、聲音、文字三種情緒識(shí)別技術(shù),做出一套完整的多模態(tài)人機(jī)交互解決方案。當(dāng)然,這個(gè)解決方案是可以高度定制化的。

對(duì)于未來(lái)的商業(yè)模式,簡(jiǎn)仁賢認(rèn)為,情緒情感識(shí)別是非常專業(yè)和垂直的技術(shù),是在走大公司沒(méi)有專注的事情,也不會(huì)和市面上特別火的圖像識(shí)別公司產(chǎn)生沖突。,“其實(shí)在AI的領(lǐng)域里,只有靠小公司才有辦法在特定領(lǐng)域里做出來(lái)一些場(chǎng)景,大公司不可能為其它的公司需要AI場(chǎng)景的做定制化服務(wù)。”簡(jiǎn)仁賢表示,竹間智能未來(lái)會(huì)給一個(gè)標(biāo)準(zhǔn)的解決方案,然后在標(biāo)準(zhǔn)的解決方案上面為客戶進(jìn)行定制化。

“很多人說(shuō)服務(wù)機(jī)器人不看好,我說(shuō)服務(wù)機(jī)器人在未來(lái)三五年會(huì)很流行,特別是在無(wú)人店。”簡(jiǎn)仁賢表示,我們現(xiàn)在希望把服務(wù)機(jī)器人變得很智能,把情感元素加進(jìn)去,把意圖元素加進(jìn)去,融合各式各樣的場(chǎng)合。(完)

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-08-17
專訪簡(jiǎn)仁賢:如何用情感交互拯救智障的機(jī)器人
為什么現(xiàn)在的機(jī)器人感覺(jué)很智障,為什么它們的交流如此生硬機(jī)械?在簡(jiǎn)仁賢看來(lái),人與人之間的交流是自然的交互,包括圖像視覺(jué)、聲音與文字,都是有情感在的。而要想達(dá)到自然

長(zhǎng)按掃碼 閱讀全文