愛數(shù)智慧5周年 | 專訪田彪:多模態(tài)應用做到“眼耳并用” 數(shù)據(jù)是關鍵

我們是最早把多模態(tài)技術融合起來,最終做成一個應用產品的團隊。

要降低硬件成本,讓不同用戶能夠使用到,從而推動技術普惠化。

多模態(tài)技術只是設備的一部分,它還要和其他技術進行融合。

如何結合行業(yè)產品的具體需求去把算法的作用發(fā)揮出來,這是落地中的一個痛點。

未來趨勢上,多模態(tài)技術將從模態(tài)聯(lián)合走向模態(tài)融合,進而端到端多模態(tài)。

在CNCC大會前的專訪中,阿里巴巴達摩語音實驗室田彪接受采訪時表達的精彩觀點。

第十八屆中國計算機大會(CNCC 2021)將于10月28日在深圳國際會展中心舉行,CNCC由中國計算機學會(CCF)主辦,國家超級計算深圳中心承辦(深圳云計算中心),香港中文大學(深圳)協(xié)辦,是中國計算機領域最宏大的年度盛會。

值愛數(shù)智慧五周年之際,愛數(shù)智慧借助此次CNCC大會聯(lián)合產業(yè)界大咖主辦一場《人機交互的機遇與挑戰(zhàn)》分論壇。來自阿里巴巴達摩院語音實驗室的田彪現(xiàn)場做《多模態(tài)語音交互的技術實踐及發(fā)展趨勢》的主題報告。

在論壇正式開展前,論壇主辦方愛數(shù)智慧采訪了田彪,以下為采訪整理,希望給大家?guī)韱l(fā)。

愛數(shù)智慧5周年

田彪:阿里巴巴達摩院語音實驗室

以下為采訪正文

工業(yè)應用上 多模態(tài)起到“取長補短”作用

愛數(shù)智慧:現(xiàn)在多模態(tài)語音交互技術成為AI領域重要發(fā)展方向,您在語音信號方面有著豐富的研發(fā)經(jīng)驗,您認為多模態(tài)語音交互技術現(xiàn)在發(fā)展到哪個階段了?為什么?

田彪:多模態(tài)語音交互并不是一個新鮮的概念,從學術界看早在七八十年代就有各種模態(tài)融合的技術嘗試,比如借助視覺來提升語音交互,那時尚處在研究狀態(tài),所以不具備實用性。

從2013年開始,深度學習產生,多模態(tài)技術發(fā)生了質的提升。深度學習在視覺、語音等領域得到成功應用后,各個單獨模態(tài)本身的性能都實現(xiàn)了質的飛躍,集大家之所長的多模態(tài)語音交互領域也逐漸進入了結合行業(yè)需求的實際應用階段。

愛數(shù)智慧:您剛才說多模態(tài)已經(jīng)研究了幾十年,您覺得應用在工業(yè)界上,多模態(tài)有著怎樣的趨勢?

田彪:我認為多模態(tài)在具體應用中能夠起到“取長補短”的作用。在一些具體的應用場景中,單模態(tài)在識別率上挑戰(zhàn)性很大。比如我們研發(fā)的地鐵語音售票機就需要其他模態(tài)相互輔助。通常情況下,遠場語音交互需要喚醒詞來喚醒,但是地鐵環(huán)境嘈雜,遠場喚醒效果會很差。如果單純使用語音技術解決識別率,難度會非常高。我們就利用視覺技術輔助,讓產品真正落地。我認為多模態(tài)的發(fā)展趨勢在于,它能夠解決在一些場景下,單模態(tài)難以解決的問題。

多模態(tài)應用落地 獲國際權威媒體盛贊

愛數(shù)智慧:根據(jù)我們的了解,您在智能車機、智能交通、智慧法院、智能辦公、智能家居和智能語音芯片等語音交互技術方面有著豐富的創(chuàng)新算法實踐,并且被集成到阿里巴巴經(jīng)濟體內外多項重要語音AI產品中,您能否介紹一下,您和您的團隊在具體的多模態(tài)語音落地場景上,做了哪些具體的創(chuàng)新和嘗試?

田彪:我所在的團隊是「阿里巴巴達摩院語音實驗室」,在軌道交通、企業(yè)辦公、新零售和智能客服等領域都推出多模態(tài)相關的產品。其中,在2018年聯(lián)合上海地鐵與支付寶推出了可部署在嘈雜地鐵站的多模態(tài)語音售票機,這在全球尚屬首次,技術成果也獲得了國際權威媒體《MIT Technology Review》的盛贊。

以該產品為例,我們通過引入視覺智能技術,結合人臉檢測、麥克風陣列和聲源定位等多模態(tài)技術,創(chuàng)新性的解決了傳統(tǒng)遠場語音交互中不可避免的語音喚醒難題,既保障了高噪聲環(huán)境下接入語音交互的可靠性,也解決了用戶學習喚醒詞的高門檻問題,為AI產品真正走進千家萬戶的日常使用打好了技術基礎。

這也意味著,我們是最早把多模態(tài)技術融合起來,最終做成一個應用產品的團隊。目前在全國幾十個城市地鐵里投入使用的類似產品,用的都是我們的多模態(tài)技術。

愛數(shù)智慧:剛才您說的麥克風陣列、聲源定位等技術,將會在CNCC論壇現(xiàn)場做詳細的介紹吧?

田彪:對的,我會在CNCC論壇現(xiàn)場詳細展開來講。我們知道,傳統(tǒng)的模態(tài)一般說的是云識別或者視覺,但是聲學方面比如麥克風陣列等,在整個業(yè)界是比較匱乏的。大家都知道云識別、AI,如果提到聲學、麥克風陣列、聲源定位等很多人都比較陌生,因為它屬于聲學方面的技術,是融合在具體的產品里面的。這些技術我會在我的演講里詳細地講一下,因為這些技術也是我們的特色。

“眼耳并用”的無人前臺

愛數(shù)智慧:好的,我們期待您現(xiàn)場的分享。您曾參與過“釘釘智能無人前臺”的產品研發(fā)工作,這一產品用到哪些多模態(tài)技術,這一技術為產品帶來哪些良好的用戶體驗?

田彪:這個產品深度運用了剛才講到的達摩院多項AI技術,比如遠場拾音、聲源定位、人臉檢測與識別、語音識別和合成、自然語言理解和音視頻通信等,實現(xiàn)“多模態(tài)交互”技術的產品化,突破了智能設備有“眼”只能看,有“耳”只能聽,多感官各自獨立無協(xié)同交互的技術難題。

M2S是釘釘面向企業(yè)用戶推出的智能無人前臺產品,基于多模態(tài)交互,設備具備能聽、能說、會認人,甚至會思考的能力。這個設備非常小巧,但能夠跟釘釘?shù)恼麄€生態(tài)和組織能力結合起來,它能夠節(jié)省前臺同事一半精力,實際作用還是蠻明顯的。

M2S通過檢測人走近的行為,自動判斷身份并主動發(fā)起交互。如果是員工,自動進行人臉識別智能考勤。如果是訪客,M2S將會進行智能訪客接待,比如有人來訪,來訪人可以直接走到機器面前,說明要找某某人,機器會自動發(fā)起音視頻會議,雙方進行音視頻通話溝通,非常便捷高效。

降低硬件成本 推動技術普惠化

愛數(shù)智慧:目前多模態(tài)語音交互技術在落地應用時有哪些技術難點?

田彪:主要有兩個方面,一方面用于多模態(tài)技術的設備成本比較高,當然也和算法復雜有關。比如算法對攝像頭、麥克風陣列個數(shù)等輸入設備都會有較高的規(guī)格要求。需要算法的提升來降低對硬件的要求,甚至復用一些整機上已有的輸入設備。所以,首先要降低硬件成本,推動技術在各種產品各種場景下落地,讓不同用戶能夠使用到,從而推動技術普惠化。

另外,算法本身也比較復雜,對芯片算力有較高要求,需要探索如何降低算法復雜度的同時持續(xù)提升性能,從而降低芯片的算法規(guī)格,推動整體硬件成本降低。

另一方面是要結合行業(yè)需求,在技術上持續(xù)提升。針對一個應用場景,多模態(tài)技術只是設備的一部分,它還要和其他技術進行融合。所以,產品開發(fā)工作并不單單在多模態(tài)語音交互技術,還涉及到怎么對接、怎么集中到一起、怎么做測試等等。這些都是產品落地過程中要做的工作。

愛數(shù)智慧:是不是不同行業(yè),技術之間融合的難點都不一樣?

田彪:對,不同行業(yè)不同場景的需求不同,類似的技術可以放在售票系統(tǒng),也可以放在點餐系統(tǒng),但是兩個場景在技術要求上是不一樣的。例如售票系統(tǒng),用戶只購買一張票,但是點餐系統(tǒng),要應付用戶購買咖啡、面包等多種商品。

算法只是技術落地中的一部分,如何結合行業(yè)產品的具體需求去把算法的作用發(fā)揮出來,這是落地中的一個痛點,甚至所需要的人力投入遠大于算法研發(fā)。

多模態(tài)數(shù)據(jù)是提升模型性能的關鍵

愛數(shù)智慧:我們知道,多模態(tài)技術的發(fā)展當然需要大量多模態(tài)數(shù)據(jù)的支撐,您認為多模態(tài)數(shù)據(jù)在語音交互中將起到哪些積極地作用?

田彪:我覺得作用非常大。AI有三個關鍵要素,那就是「算法」、「算力」和「數(shù)據(jù)」,多模態(tài)AI技術也不例外,尤其是技術原型從實驗室走向產業(yè)落地的過程中,在不同的場景下,通過真實采集的多模態(tài)數(shù)據(jù),來驅動多模態(tài)深度學習模型的性能提升,這是所有產品研發(fā)中非常關鍵的一步。

包括我們在多模態(tài)地鐵語音售票機這個項目研發(fā)中,采集了不同光照條件下的圖像數(shù)據(jù)和真實場景下的語音數(shù)據(jù),通過這些數(shù)據(jù)來提升算法和模型在噪聲各異、光照各異等場景下效果。有了這些數(shù)據(jù),使得我們最后效果達到了上線要求。

愛數(shù)智慧:對于數(shù)據(jù)量的大小以及數(shù)據(jù)的精度對識別率的影響,您是怎么看的?

田彪:數(shù)據(jù)量越大識別率也會越好。我們的產品所用數(shù)據(jù),一般采集真實的數(shù)據(jù),語音一般在上百個小時,圖像一般在上千張,才能夠使一個產品在一個具體的場景下發(fā)揮更好的狀態(tài)。

數(shù)據(jù)質量的話,對于特殊場景的單模態(tài)數(shù)據(jù),其質量要求比較高。例如標一段視頻里的一段話,或者標視頻里的人臉數(shù)據(jù),涉及到多個模態(tài)。這些數(shù)據(jù)精度要求會高一些,標注難度也更高。

愛數(shù)智慧:未來多模態(tài)語音交互技術將呈現(xiàn)哪些演進趨勢?

田彪:目前,工業(yè)上能夠用得到的多模態(tài)技術,大部分屬于模態(tài)聯(lián)合的一個狀態(tài),即視覺處理視覺的,語音處理語音的,這與我們設想的多模態(tài)技術還存在一定差距。未來趨勢上,多模態(tài)技術將從模態(tài)聯(lián)合走向模態(tài)融合,進而端到端多模態(tài)。當然,這方面還需要持續(xù)的研究,從而不斷地提高人機交互技術的天花板。

愛數(shù)智慧:謝謝田彪老師能和大家交流。10月28日,讓我們一起期待CNCC2021《人機交互的機遇與挑戰(zhàn)》分論壇上嘉賓們更加精彩的分享。

愛數(shù)智慧5周年

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )