AI「改造」鼠標(biāo),百度AI全面賦能羅技啟示錄

語音行業(yè)在2000年左右,迎來了第一個產(chǎn)業(yè)高潮,起因是1997年IBM推出了一款語音錄入軟件ViaVoice。

當(dāng)時人們把這個軟件安裝到PC上,就可以在計算機(jī)前面朗讀報紙或者新聞內(nèi)容,或者錄入一些簡單的日常用語,識別率也還不錯。于是工業(yè)界有了一次大規(guī)模連續(xù)語音識別的產(chǎn)業(yè)化應(yīng)用的熱潮。

但由于當(dāng)時PC是一個固定的環(huán)境,消費者已經(jīng)習(xí)慣了鍵盤打字而不是對著屏幕說話,ViaVoice并沒有獲得廣泛認(rèn)可。最終IBM于2003年將這個產(chǎn)品賣了。

但語音識別的產(chǎn)業(yè)化應(yīng)用熱潮卻并沒有停止。4月12日,微軟公布了公司歷史上第二大金額的收購案,目標(biāo)是語音識別巨頭Nuance Communications,交易價值達(dá)197億美元。

有意思的是,Nuance正是蘋果Siri語音分析背后的技術(shù)供應(yīng)商。

而幾乎是同一時間,在大洋彼岸百度和羅技也宣布了一場圍繞語音識別的戰(zhàn)略合作。

4月13日,百度正式發(fā)布“語音輸入服務(wù)”并宣布百度大腦和羅技達(dá)成合作,將領(lǐng)先的AI技術(shù)全面賦能羅技外設(shè)硬件,首款產(chǎn)品即是羅技即將發(fā)售的VOICE M380「智能鼠標(biāo)」。這款鼠標(biāo)嵌入了百度AI技術(shù),支持多國語言語音輸入、中英自由說和智能翻譯等創(chuàng)新功能。

某種意義上,這可以看作是ViaVoice的一種精神繼承,也是對微軟收購Nuance的價值肯定。

百度AI全面賦能羅技硬件

ViaVoice被變賣的6年后,語音技術(shù)產(chǎn)業(yè)應(yīng)用迎來了第二波高潮,這一波熱潮以互聯(lián)網(wǎng)需求和實現(xiàn)為基礎(chǔ)。今天我們隨處可見的機(jī)器對話,也是在這一波高潮的基礎(chǔ)之上發(fā)展而來。

如今我們常在社交媒體上看到,一個大學(xué)生利用簡單工具+一塊芯片的結(jié)構(gòu),就能設(shè)計出可以語音操控的DIY設(shè)備。

當(dāng)技術(shù)進(jìn)步、產(chǎn)業(yè)成熟、消費者習(xí)慣養(yǎng)成、交互認(rèn)知足夠以及場景需求等等因素疊加,使得語音交互有了快速發(fā)展的沃土。

這些都可算作是百度AI對羅技產(chǎn)品賦能的充分條件,也是羅技迫切實現(xiàn)產(chǎn)品智能化的來由。

但落實到具體產(chǎn)品上,有兩個不能忽視的因素:

在鼠標(biāo)上加入「語音識別服務(wù)」模塊,對技術(shù)提供商的水平要求很高;

融合語音識別服務(wù)的傳統(tǒng)輸入設(shè)備,是滿足需求還是創(chuàng)造需求。

簡單點說,「智能鼠標(biāo)」作為一個「新物種」,我們要重點關(guān)注的就兩個方面:好不好用和誰會用。

先說第一個因素。VOICE M380支持中、英、日三國語言,同時也支持中英文自由夾雜語音輸入,以及7種方言的混合語音輸入。同時,VOICE M380支持中譯英、中譯日、中譯韓、中譯法、中譯西、中譯泰、英譯中、日譯中8種語音翻譯。

從功能上看,VOICE M380基本覆蓋了日常生活、學(xué)習(xí)、商務(wù)等場景的語音和翻譯需要。從語音識別服務(wù)的技術(shù)內(nèi)核看,這一次百度是將百度大腦的優(yōu)勢技術(shù)語音識別和機(jī)器翻譯功能拿出來優(yōu)先賦能羅技,其2019年百度推出并上線使用的流式多級的截斷注意力模型SMLTA,已經(jīng)令中文語音識別率達(dá)到98.6%,且可以同時實現(xiàn)中英文混合識別、方言混合識別。

在機(jī)器翻譯方面,百度已經(jīng)支持203個語種的準(zhǔn)確翻譯,現(xiàn)在每天響應(yīng)超過千億字符的翻譯請求,相當(dāng)于2000部大英百科全書。而百度提出的語義單元驅(qū)動的AI同傳模型,已經(jīng)達(dá)到了與人類相當(dāng)?shù)姆g水平。

再說第二個因素。實際上,「智能鼠標(biāo)」既是滿足需求也是創(chuàng)造需求。

一方面,「智能鼠標(biāo)」在學(xué)習(xí)、游戲、商務(wù)場景下,可以很好的滿足用戶跨語種的交流需要,譬如游戲、商務(wù)郵件。

另一方面,對于小孩、老人、視覺障礙人群等日常打字輸入比較不方便的群體,語音輸入顯然更方便,這又是「智能鼠標(biāo)」創(chuàng)造需求的一種體現(xiàn)。

而且,得益于百度AI技術(shù)的加持,VOICE M380在輸入效率上語音輸入每分鐘可高達(dá)400字,而多數(shù)打字員的輸入則為80-200字每分鐘。

無疑,具備語音識別服務(wù)的VOICE M380,可以使用戶擺脫大量敲擊鍵盤產(chǎn)生的疲勞感,輕松實現(xiàn)所說即所得。

搞明白了好不好用和給誰用這兩個因素,再回過頭看這一次百度AI對羅技的賦能,實際上是一次典型的定制化AI技術(shù)輸出,說明百度AI的技術(shù)落地已經(jīng)可以實現(xiàn)模塊化運作,更具靈活性的按需輸出。同時,「智能鼠標(biāo)」這樣的新物種出現(xiàn),也是對其它硬件設(shè)備的一種啟示,萬物皆可AI,萬物皆可語音。

而且,就雙方宣布的信息來看,羅技旗下的設(shè)備還將繼續(xù)接入百度AI的技術(shù),進(jìn)而實現(xiàn)全面的智能化升級。

為什么是百度?

2019年11月28日,在百度大腦語音能力引擎論壇上,百度CTO王海峰博士對外公布了一組數(shù)據(jù),百度大腦語音能力引擎日均調(diào)用量已經(jīng)超過100億次。

而只過了不到一年時間,到2020年7月,這個數(shù)字就已超過155億次。

這155億次的語音能力調(diào)用量,除了百度App、百度地圖、小度音箱、百度輸入法等百度產(chǎn)品外,更多是來自被百度AI開放平臺賦能的產(chǎn)業(yè)公司。

在百度AI開放平臺官網(wǎng),可以在「合作伙伴」這一欄下找到多達(dá)220家大大小小的公司,這些公司無一不是利用百度AI技術(shù)實現(xiàn)產(chǎn)業(yè)改造和升級。

而與語音技術(shù)有關(guān)的公司,可以舉兩個比較典型的案例,一個是創(chuàng)維電視,另一個是瓴岳科技信貸。

大屏IoT的行業(yè)痛點在于信息檢索難和設(shè)備控制操作復(fù)雜,而如果增加語音交互能力,則相當(dāng)于重構(gòu)了整個AIoT設(shè)備生態(tài)的交互體驗?;诎俣華I技術(shù),創(chuàng)維已經(jīng)在10個電視芯片型號、2500萬臺電視上為消費者提供語音交互功能。

瓴岳科技信貸將百度大腦的語音技術(shù)應(yīng)用在貸后領(lǐng)域,依托百度大腦呼叫中心實時語音識別等AI服務(wù)對用戶語音的準(zhǔn)確識別,瓴岳打造了降本提效的智能機(jī)器人。通過貸后智能機(jī)器人、智能語音質(zhì)檢的應(yīng)用,貸后人力投入降低61.47%,有效實現(xiàn)了合規(guī)和高效的運營體系,提高了客戶體驗。

這次百度將百度大腦所具備優(yōu)勢的語音識別和實時翻譯技術(shù)拿出來,全面賦能于羅技鍵盤、鼠標(biāo)產(chǎn)品,也是百度首次通過羅技鼠標(biāo),在PC端實現(xiàn)了中英文自由夾雜語音輸入。

而這也恰恰說明,百度AI的技術(shù)落地具有足夠的靈活性。并且,通過這一次賦能羅技,外界也能清晰的感受到,AI所帶來的產(chǎn)業(yè)升級和改造,并不僅僅是滿足現(xiàn)有需求,更多的是創(chuàng)造需求,這就意味著傳統(tǒng)硬件設(shè)備在AI技術(shù)加持下,能夠產(chǎn)生新的溢價價值。

當(dāng)然,迫切想要實現(xiàn)產(chǎn)業(yè)智能化改造和升級的合作伙伴,仍要看AI技術(shù)提供商的「底色」。

單以語音識別服務(wù)來說,作為國內(nèi)AI領(lǐng)域的頭雁,百度的語音技術(shù)無論從準(zhǔn)確率還是識別速度角度,對比市面上其他的一些產(chǎn)品都是具備優(yōu)勢的,而且百度還針對羅技桌面級的場景進(jìn)行了單獨的優(yōu)化和適配,具備較強(qiáng)技術(shù)壁壘。

而所謂的優(yōu)勢,無疑正是百度自研的鴻鵠芯片。

去年4月百度發(fā)布了自研的鴻鵠芯片,語音喚醒率更高,尤其高噪聲下首次喚醒率提升10%以上,語音語義識別也更準(zhǔn)確,識別錯誤率平均降低30%,同時待機(jī)功耗更低,相比傳統(tǒng)芯片下降90%。

換句話說,今天的語音技術(shù)競爭已經(jīng)從云端開始向端側(cè)芯片延伸,而一顆芯片完成端側(cè)信號處理和喚醒成為一個明顯的市場需求。

這種AI語音芯片能夠顯著降低音箱的成本,并且提供更高精度的喚醒和識別能力。在汽車車載導(dǎo)航領(lǐng)域,AI語音芯片可以保證主芯片的負(fù)載安全,提升駕駛安全。

2020年,百度在智能音箱、車載導(dǎo)航和智能電視控制方面,落地了百度鴻鵠語音芯片

結(jié)尾

實際上,羅技VOICE M380鼠標(biāo)并不是市面上唯一的語音交互鼠標(biāo)產(chǎn)品,早在幾年前訊飛、小米、聯(lián)想等品牌也推出過類似的產(chǎn)品。而百度與上述企業(yè)有所不同,作為語音技術(shù)服務(wù)提供商,百度已經(jīng)跳出了技術(shù)輸出這一階段,它所提供的服務(wù)已經(jīng)是一站式AIOT語音解決方案。

譬如在TCL發(fā)布的C12量子點Mini LED智屏上,"度家-AIOT語音語義平臺"不僅為TCL提供語音識別單項調(diào)用服務(wù),還提供語音語義全鏈路調(diào)用以及設(shè)備管理功能。

這或許是百度與其他語音技術(shù)服務(wù)提供商的最大區(qū)別之一,也是羅技選擇百度的理由之一。

但從科技產(chǎn)業(yè)的變革來看,語音交互將是未來十年甚至二十年的主要內(nèi)容。

市場調(diào)研機(jī)構(gòu)Strategy Analytics此前發(fā)布報告稱,到2023年,全球智能家居市場規(guī)模將達(dá)到1570億美元,而語音交互作為智能家居的底層交互系統(tǒng)之一,無疑將會得到空前的普及。

與此同時,在汽車電動化的進(jìn)程中,車載語音也將成為一個汽車的標(biāo)準(zhǔn)化產(chǎn)品。所以,語音技術(shù)的未來發(fā)展想象空間是非常大的。

而百度作為中國AI發(fā)展的標(biāo)桿、AI新型基礎(chǔ)設(shè)施,正持續(xù)對外輸出領(lǐng)先AI技術(shù),加速產(chǎn)業(yè)智能化升級。

百度與羅技在發(fā)布會上還提到,基于百度大腦技術(shù)引擎,在未來將持續(xù)推動更多百度AI技術(shù)賦能羅技各類優(yōu)秀硬件設(shè)備。

這也讓我們有所期待,AI技術(shù)可以全面落實在人們的衣食住行各個方面,未來用戶在每個場景都能享受到百度AI帶來的便利。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-04-14
AI「改造」鼠標(biāo),百度AI全面賦能羅技啟示錄
語音行業(yè)在2000年左右,迎來了第一個產(chǎn)業(yè)高潮,起因是1997年IBM推出了一款語音錄入軟件ViaVoice。當(dāng)時人們把這個...

長按掃碼 閱讀全文