百度輸入法開啟AI輸入時代,瞄準Z世代

從機械鍵盤被發(fā)明開始,人們對于輸入法就有著特殊的感情,一面對“鍵盤”有太多的不舍,即便全觸屏的智能手機早已普及,輸入時依舊要依賴于“虛擬鍵盤”;一面又急于尋找更為高效的輸入方案,比如篤定語音交互將成為主流的人機交互方式。

1月16日的百度輸入法發(fā)布會上,百度輸入法AI探索版正式亮相,不僅將全語音輸入作為默認輸入方式,并開啟了調(diào)動表情、肢體的全感官輸入2.0時代。曾經(jīng)困擾人們多年的鍵盤輸入糾結癥,終于有了新答案。

輸入法AI化,先來解決三個痛點

智能手機的誕生已經(jīng)有了十多個年頭,可為何語音輸入取代鍵盤的一幕直到2019年才開始出現(xiàn)?要回答這個問題,先要看語音輸入面臨的三個痛點:

1、準確率能否再高一點?

早在幾年前,百度、科大訊飛等相繼宣布語音識別準確率高達97%,并不懷疑數(shù)字的真實性,Attention模型已經(jīng)較為成熟,各家也在實驗室里進行了大量的機器學習,但在實際應用中卻存在兩個用戶體驗上的“盲點”。

一個是流式解碼的問題。諸如谷歌LAS等傳統(tǒng)Attention模型,大多是基于整句的建模,客觀上需要整句語音上傳到服務器后,才開始聲學打分計算和解碼,勢必會產(chǎn)生較長的用戶等待時間。

另一個是長句建模的精度下降。Attention模型的核心思想是基于整句的全局信息,通過機器學習選擇和當前建模單元最匹配的特征,于是句子越長,識別難度就越大,出錯的概率越高,錯誤前后傳導的概率也越高。

為了解決這些“盲點”,百度創(chuàng)新性地提出了流式多級截斷注意力模型SMLTA,先使用CTC算法對連續(xù)語音流進行截斷,然后對每一個階段的語音進行建模,把原來整句的建模,變成了局部語音小段的Attention建模,同時引入多級Attention機制避免CTC的插入刪除錯誤對系統(tǒng)的影響,最終在識別精度上提升了15%,并在保持計算量、解碼速度等方面和傳統(tǒng)CTC模型持平。

2、離線狀態(tài)下該怎么玩?

作為一款基礎工具,輸入法要應對各種場景,比如在地鐵、電梯等信號弱,或者人流密集的環(huán)境下,傳統(tǒng)的“虛擬鍵盤”似乎不會有太多影響,全語音輸入?yún)s要回答另一個疑問:如何在離線狀態(tài)下保證語音識別效率?

為了解決用戶的多元輸入場景需求,百度輸入法持續(xù)優(yōu)化了Deep Peak 2系統(tǒng),除了SMLTA上的創(chuàng)新,還大幅提升了離線語音的識別準確率,相較于行業(yè)平均水平提升了35%,不斷縮小離線識別和在線識別在準確率上的差距。

百度語音技術總監(jiān)高亮在發(fā)布會上進行了一場離線PK,參賽選手分別是百度輸入法AI探索版、訊飛輸入法和搜狗輸入法,結果顯示百度輸入法的識別準確率和識別速度要明顯高于另外兩家友商的產(chǎn)品?;蛟S離線識別還不夠完美,至少百度輸入法已經(jīng)可以滿足離線場景先的精準輸入。

3、語言混合輸入如何解?

語言在不斷進化,年輕人群尤為如此,明明在說漢語,卻夾雜著各種英文詞匯,有時還會蹦出兩個日語或韓語單詞;有時候前一句是普通話,下一句可能冒出一句家鄉(xiāng)話……輸入法的使命儼然是順應潮流,那么也就必須解決漢語和外語、方言與方言、方言和普通話來回切換等特殊場景。

常見的解決方案是“手動切換”,比如你想要用四川話進行語音輸入,先要到輸入法的設置中將語言設定為四川話,說普通話的時候再去切換回來。如此不僅未能解決語言混輸?shù)膯栴},還進一步增加了用戶的學習成本,體驗自然不盡如人意。

百度輸入法的優(yōu)勢在于,不局限在國內(nèi)市場的布局,百度海外輸入法已經(jīng)擴充到了120門語言,百度輸入法的語音團隊也在配合市場布局持續(xù)發(fā)力,陸續(xù)上線了日語、英語、印地語、西班牙語、印度英語等語言識別,為了適應一些國家語言混輸?shù)奶攸c,百度輸入法很早就推出本了地語言和英語混輸?shù)墓δ?。有了海外市場的成熟?jīng)驗,應對國內(nèi)市場的“中英混輸”自然不在話下。

此外為了解決方言混輸?shù)碾y題,百度輸入法將普通話和六大方言融合成一個語音識別模型,進而實現(xiàn)了方言與方言、方言與普通話的混合語音輸入。截止到目前,百度輸入法還是唯一實現(xiàn)高精度中英文混合語音輸入、方言免切換語音輸入的輸入法產(chǎn)品。

為何要先于行業(yè)邁出第一步,或許會陰謀家給出“炫技”的論調(diào),但百度語音技術總監(jiān)高亮的觀點值得借鑒:“我們有一個理念,技術只有在產(chǎn)品上使用、讓用戶真正體驗到才是真正的技術,我們絕不會為了技術而技術?!碑吘乖谳斎敕ǖ娜∩徇^程中,用戶擺脫雙手的需求早已出現(xiàn),只是百度的視野會止于此嗎?

輸入多點AI,百度瞄準了Z世代

如果僅僅從創(chuàng)新的角度來審視百度輸入法的進化,未免會低估百度的野心,在將全語音輸入作為默認輸入方式的同時,諸如拍立活、秀場、表情秀、凌空手寫等新表達和新探索,可以說是整場發(fā)布會的另一大焦點。

比如拍立活可以對人及動物的臉部關鍵點進行識別,利用貼圖及骨骼蒙皮技術還原出角色的3D模型,然后利用自研的面部行為編碼系統(tǒng)驅(qū)動角色做出豐富的表情,還可以隨意疊加各種AR表情素材,讓表情的制作更加簡單、有趣。

再比如凌空手寫功能,開創(chuàng)了全新的文字識別技術,區(qū)別于其他實驗室中的類似概念,百度輸入法的凌空手寫,不需要特殊的手寫筆,也不需要深度攝像頭或多目攝像頭等硬件支持,普通的RGB攝像頭就可以完美支持。

由此不難看到,技術范的百度正在以自身擅長的玩法,向崛起的Z世代拋出橄欖枝。

先解釋下什么是Z世代,巴克萊銀行在一份報告中,將1995年后出生的人群從時間調(diào)度定義為“Z世代”,并給出了Z世代的典型特征:數(shù)字原住民。并不難理解,Z世代自出生開始就生活在互聯(lián)網(wǎng)的海洋里,對于其他年齡層的用戶而言,互聯(lián)網(wǎng)可能還只是生活的一小部分,在Z世代的眼中無異于生活的全部。于是相比于其他年齡層的用戶,Z世代往往是新技術、新科技、新理念的忠實擁躉。

在CBNData發(fā)布的《2018互聯(lián)網(wǎng)消費生態(tài)大數(shù)據(jù)報告》中,給95后貼上了“懶”的標簽,成為外賣等上門服務的核心消費。當然也可折射了95后對于效率的追求,對傳統(tǒng)行為方式的不滿足,如果只盯著“懶”的一面,注定會誤解新一代消費者,很可能和潛在的商業(yè)前景失之交臂。

百度輸入法顯然深諳于此,較于傳統(tǒng)、低效的鍵盤,Z世代對語音輸入有著更強烈的訴求,也是語音輸入撬動鍵盤輸入的重要支點。拍立活、凌空手寫等近一步印證了百度輸入法打入年輕人群內(nèi)部的野心,想要和年輕用戶溝通對話,勢必要選擇年輕人樂意接受的方式,解決了產(chǎn)品“盲點”的語音輸入本就是如此,百度輸入法又加上了更多有趣的籌碼,打出一套面向年輕用戶的組合拳。

在巴克萊銀行給出的數(shù)據(jù)中,預計到2020年Z世代將成為全球最大的消費群體,或?qū)⒄紦?jù)美國、歐洲和金磚四國消費市場的40%份額。隱約可以看到,百度輸入法之所以推崇全語音輸入,并向Z世代拋出橄欖枝,絕非是無意之舉。

尾記

創(chuàng)新的車輪從未停滯,古老而又活力四射的輸入法早已成為用戶行為的風向標,如同80后們大多已經(jīng)忘了70后“必修”的五筆,90后對九宮格輸入法的青睞又被00后們嫌棄……可以預見,當Z世代以及更年輕的世代崛起后,傳統(tǒng)的輸入法難逃被淘汰的命運,取而代之的將是語音、表情、肢體等“AI輸入”。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2019-01-16
百度輸入法開啟AI輸入時代,瞄準Z世代
一面對“鍵盤”有太多的不舍,即便全觸屏的智能手機早已普及,輸入時依舊要依賴于“虛擬鍵盤”;一面又急于尋找更為高效的輸入方案。

長按掃碼 閱讀全文