久久9精品,亚洲欧美卡通图区小说,国产亚洲AV无码成人网站

我們是最早把多模態(tài)技術融合起來，最終做成一個應用產品的團隊。

要降低硬件成本，讓不同用戶能夠使用到，從而推動技術普惠化。

多模態(tài)技術只是設備的一部分，它還要和其他技術進行融合。

如何結合行業(yè)產品的具體需求去把算法的作用發(fā)揮出來，這是落地中的一個痛點。

未來趨勢上，多模態(tài)技術將從模態(tài)聯(lián)合走向模態(tài)融合，進而端到端多模態(tài)。

在CNCC大會前的專訪中，阿里巴巴達摩語音實驗室田彪接受采訪時表達的精彩觀點。

第十八屆中國計算機大會(CNCC 2021)將于10月28日在深圳國際會展中心舉行，CNCC由中國計算機學會(CCF)主辦，國家超級計算深圳中心承辦(深圳云計算中心)，香港中文大學(深圳)協(xié)辦，是中國計算機領域最宏大的年度盛會。

值愛數(shù)智慧五周年之際，愛數(shù)智慧借助此次CNCC大會聯(lián)合產業(yè)界大咖主辦一場《人機交互的機遇與挑戰(zhàn)》分論壇。來自阿里巴巴達摩院語音實驗室的田彪現(xiàn)場做《多模態(tài)語音交互的技術實踐及發(fā)展趨勢》的主題報告。

在論壇正式開展前，論壇主辦方愛數(shù)智慧采訪了田彪，以下為采訪整理，希望給大家?guī)韱l(fā)。

愛數(shù)智慧5周年

田彪：阿里巴巴達摩院語音實驗室

以下為采訪正文

工業(yè)應用上多模態(tài)起到“取長補短”作用

愛數(shù)智慧：現(xiàn)在多模態(tài)語音交互技術成為AI領域重要發(fā)展方向，您在語音信號方面有著豐富的研發(fā)經(jīng)驗，您認為多模態(tài)語音交互技術現(xiàn)在發(fā)展到哪個階段了?為什么?

田彪：多模態(tài)語音交互并不是一個新鮮的概念，從學術界看早在七八十年代就有各種模態(tài)融合的技術嘗試，比如借助視覺來提升語音交互，那時尚處在研究狀態(tài)，所以不具備實用性。

從2013年開始，深度學習產生，多模態(tài)技術發(fā)生了質的提升。深度學習在視覺、語音等領域得到成功應用后，各個單獨模態(tài)本身的性能都實現(xiàn)了質的飛躍，集大家之所長的多模態(tài)語音交互領域也逐漸進入了結合行業(yè)需求的實際應用階段。

愛數(shù)智慧：您剛才說多模態(tài)已經(jīng)研究了幾十年，您覺得應用在工業(yè)界上，多模態(tài)有著怎樣的趨勢?

田彪：我認為多模態(tài)在具體應用中能夠起到“取長補短”的作用。在一些具體的應用場景中，單模態(tài)在識別率上挑戰(zhàn)性很大。比如我們研發(fā)的地鐵語音售票機就需要其他模態(tài)相互輔助。通常情況下，遠場語音交互需要喚醒詞來喚醒，但是地鐵環(huán)境嘈雜，遠場喚醒效果會很差。如果單純使用語音技術解決識別率，難度會非常高。我們就利用視覺技術輔助，讓產品真正落地。我認為多模態(tài)的發(fā)展趨勢在于，它能夠解決在一些場景下，單模態(tài)難以解決的問題。

多模態(tài)應用落地獲國際權威媒體盛贊

愛數(shù)智慧：根據(jù)我們的了解，您在智能車機、智能交通、智慧法院、智能辦公、智能家居和智能語音芯片等語音交互技術方面有著豐富的創(chuàng)新算法實踐，并且被集成到阿里巴巴經(jīng)濟體內外多項重要語音AI產品中，您能否介紹一下，您和您的團隊在具體的多模態(tài)語音落地場景上，做了哪些具體的創(chuàng)新和嘗試?

田彪：我所在的團隊是「阿里巴巴達摩院語音實驗室」，在軌道交通、企業(yè)辦公、新零售和智能客服等領域都推出多模態(tài)相關的產品。其中，在2018年聯(lián)合上海地鐵與支付寶推出了可部署在嘈雜地鐵站的多模態(tài)語音售票機，這在全球尚屬首次，技術成果也獲得了國際權威媒體《MIT Technology Review》的盛贊。

以該產品為例，我們通過引入視覺智能技術，結合人臉檢測、麥克風陣列和聲源定位等多模態(tài)技術，創(chuàng)新性的解決了傳統(tǒng)遠場語音交互中不可避免的語音喚醒難題，既保障了高噪聲環(huán)境下接入語音交互的可靠性，也解決了用戶學習喚醒詞的高門檻問題，為AI產品真正走進千家萬戶的日常使用打好了技術基礎。

這也意味著，我們是最早把多模態(tài)技術融合起來，最終做成一個應用產品的團隊。目前在全國幾十個城市地鐵里投入使用的類似產品，用的都是我們的多模態(tài)技術。

愛數(shù)智慧：剛才您說的麥克風陣列、聲源定位等技術，將會在CNCC論壇現(xiàn)場做詳細的介紹吧?

田彪：對的，我會在CNCC論壇現(xiàn)場詳細展開來講。我們知道，傳統(tǒng)的模態(tài)一般說的是云識別或者視覺，但是聲學方面比如麥克風陣列等，在整個業(yè)界是比較匱乏的。大家都知道云識別、AI，如果提到聲學、麥克風陣列、聲源定位等很多人都比較陌生，因為它屬于聲學方面的技術，是融合在具體的產品里面的。這些技術我會在我的演講里詳細地講一下，因為這些技術也是我們的特色。

“眼耳并用”的無人前臺

愛數(shù)智慧：好的，我們期待您現(xiàn)場的分享。您曾參與過“釘釘智能無人前臺”的產品研發(fā)工作，這一產品用到哪些多模態(tài)技術，這一技術為產品帶來哪些良好的用戶體驗?

田彪：這個產品深度運用了剛才講到的達摩院多項AI技術，比如遠場拾音、聲源定位、人臉檢測與識別、語音識別和合成、自然語言理解和音視頻通信等，實現(xiàn)“多模態(tài)交互”技術的產品化，突破了智能設備有“眼”只能看，有“耳”只能聽，多感官各自獨立無協(xié)同交互的技術難題。

M2S是釘釘面向企業(yè)用戶推出的智能無人前臺產品，基于多模態(tài)交互，設備具備能聽、能說、會認人，甚至會思考的能力。這個設備非常小巧，但能夠跟釘釘?shù)恼麄€生態(tài)和組織能力結合起來，它能夠節(jié)省前臺同事一半精力，實際作用還是蠻明顯的。

M2S通過檢測人走近的行為，自動判斷身份并主動發(fā)起交互。如果是員工，自動進行人臉識別智能考勤。如果是訪客，M2S將會進行智能訪客接待，比如有人來訪，來訪人可以直接走到機器面前，說明要找某某人，機器會自動發(fā)起音視頻會議，雙方進行音視頻通話溝通，非常便捷高效。

降低硬件成本推動技術普惠化

愛數(shù)智慧：目前多模態(tài)語音交互技術在落地應用時有哪些技術難點?

田彪：主要有兩個方面，一方面用于多模態(tài)技術的設備成本比較高，當然也和算法復雜有關。比如算法對攝像頭、麥克風陣列個數(shù)等輸入設備都會有較高的規(guī)格要求。需要算法的提升來降低對硬件的要求，甚至復用一些整機上已有的輸入設備。所以，首先要降低硬件成本，推動技術在各種產品各種場景下落地，讓不同用戶能夠使用到，從而推動技術普惠化。

另外，算法本身也比較復雜，對芯片算力有較高要求，需要探索如何降低算法復雜度的同時持續(xù)提升性能，從而降低芯片的算法規(guī)格，推動整體硬件成本降低。

另一方面是要結合行業(yè)需求，在技術上持續(xù)提升。針對一個應用場景，多模態(tài)技術只是設備的一部分，它還要和其他技術進行融合。所以，產品開發(fā)工作并不單單在多模態(tài)語音交互技術，還涉及到怎么對接、怎么集中到一起、怎么做測試等等。這些都是產品落地過程中要做的工作。

愛數(shù)智慧：是不是不同行業(yè)，技術之間融合的難點都不一樣?

田彪：對，不同行業(yè)不同場景的需求不同，類似的技術可以放在售票系統(tǒng)，也可以放在點餐系統(tǒng)，但是兩個場景在技術要求上是不一樣的。例如售票系統(tǒng)，用戶只購買一張票，但是點餐系統(tǒng)，要應付用戶購買咖啡、面包等多種商品。

算法只是技術落地中的一部分，如何結合行業(yè)產品的具體需求去把算法的作用發(fā)揮出來，這是落地中的一個痛點，甚至所需要的人力投入遠大于算法研發(fā)。

多模態(tài)數(shù)據(jù)是提升模型性能的關鍵

愛數(shù)智慧：我們知道，多模態(tài)技術的發(fā)展當然需要大量多模態(tài)數(shù)據(jù)的支撐，您認為多模態(tài)數(shù)據(jù)在語音交互中將起到哪些積極地作用?

田彪：我覺得作用非常大。AI有三個關鍵要素，那就是「算法」、「算力」和「數(shù)據(jù)」，多模態(tài)AI技術也不例外，尤其是技術原型從實驗室走向產業(yè)落地的過程中，在不同的場景下，通過真實采集的多模態(tài)數(shù)據(jù)，來驅動多模態(tài)深度學習模型的性能提升，這是所有產品研發(fā)中非常關鍵的一步。

包括我們在多模態(tài)地鐵語音售票機這個項目研發(fā)中，采集了不同光照條件下的圖像數(shù)據(jù)和真實場景下的語音數(shù)據(jù)，通過這些數(shù)據(jù)來提升算法和模型在噪聲各異、光照各異等場景下效果。有了這些數(shù)據(jù)，使得我們最后效果達到了上線要求。

愛數(shù)智慧：對于數(shù)據(jù)量的大小以及數(shù)據(jù)的精度對識別率的影響，您是怎么看的?

田彪：數(shù)據(jù)量越大識別率也會越好。我們的產品所用數(shù)據(jù)，一般采集真實的數(shù)據(jù)，語音一般在上百個小時，圖像一般在上千張，才能夠使一個產品在一個具體的場景下發(fā)揮更好的狀態(tài)。

數(shù)據(jù)質量的話，對于特殊場景的單模態(tài)數(shù)據(jù)，其質量要求比較高。例如標一段視頻里的一段話，或者標視頻里的人臉數(shù)據(jù)，涉及到多個模態(tài)。這些數(shù)據(jù)精度要求會高一些，標注難度也更高。

愛數(shù)智慧：未來多模態(tài)語音交互技術將呈現(xiàn)哪些演進趨勢?

田彪：目前，工業(yè)上能夠用得到的多模態(tài)技術，大部分屬于模態(tài)聯(lián)合的一個狀態(tài)，即視覺處理視覺的，語音處理語音的，這與我們設想的多模態(tài)技術還存在一定差距。未來趨勢上，多模態(tài)技術將從模態(tài)聯(lián)合走向模態(tài)融合，進而端到端多模態(tài)。當然，這方面還需要持續(xù)的研究，從而不斷地提高人機交互技術的天花板。

愛數(shù)智慧：謝謝田彪老師能和大家交流。10月28日，讓我們一起期待CNCC2021《人機交互的機遇與挑戰(zhàn)》分論壇上嘉賓們更加精彩的分享。

愛數(shù)智慧5周年

（免責聲明：本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內容或斷開相關鏈接。）

愛數(shù)智慧5周年 | 專訪田彪：多模態(tài)應用做到“眼耳并用” 數(shù)據(jù)是關鍵