百度輸入法開啟AI輸入時(shí)代,瞄準(zhǔn)Z世代

從機(jī)械鍵盤被發(fā)明開始,人們對(duì)于輸入法就有著特殊的感情,一面對(duì)“鍵盤”有太多的不舍,即便全觸屏的智能手機(jī)早已普及,輸入時(shí)依舊要依賴于“虛擬鍵盤”;一面又急于尋找更為高效的輸入方案,比如篤定語音交互將成為主流的人機(jī)交互方式。

1月16日的百度輸入法發(fā)布會(huì)上,百度輸入法AI探索版正式亮相,不僅將全語音輸入作為默認(rèn)輸入方式,并開啟了調(diào)動(dòng)表情、肢體的全感官輸入2.0時(shí)代。曾經(jīng)困擾人們多年的鍵盤輸入糾結(jié)癥,終于有了新答案。

輸入法AI化,先來解決三個(gè)痛點(diǎn)

智能手機(jī)的誕生已經(jīng)有了十多個(gè)年頭,可為何語音輸入取代鍵盤的一幕直到2019年才開始出現(xiàn)?要回答這個(gè)問題,先要看語音輸入面臨的三個(gè)痛點(diǎn):

1、準(zhǔn)確率能否再高一點(diǎn)?

早在幾年前,百度、科大訊飛等相繼宣布語音識(shí)別準(zhǔn)確率高達(dá)97%,并不懷疑數(shù)字的真實(shí)性,Attention模型已經(jīng)較為成熟,各家也在實(shí)驗(yàn)室里進(jìn)行了大量的機(jī)器學(xué)習(xí),但在實(shí)際應(yīng)用中卻存在兩個(gè)用戶體驗(yàn)上的“盲點(diǎn)”。

一個(gè)是流式解碼的問題。諸如谷歌LAS等傳統(tǒng)Attention模型,大多是基于整句的建模,客觀上需要整句語音上傳到服務(wù)器后,才開始聲學(xué)打分計(jì)算和解碼,勢(shì)必會(huì)產(chǎn)生較長(zhǎng)的用戶等待時(shí)間。

另一個(gè)是長(zhǎng)句建模的精度下降。Attention模型的核心思想是基于整句的全局信息,通過機(jī)器學(xué)習(xí)選擇和當(dāng)前建模單元最匹配的特征,于是句子越長(zhǎng),識(shí)別難度就越大,出錯(cuò)的概率越高,錯(cuò)誤前后傳導(dǎo)的概率也越高。


百度輸入法開啟AI輸入時(shí)代,瞄準(zhǔn)Z世代


為了解決這些“盲點(diǎn)”,百度創(chuàng)新性地提出了流式多級(jí)截?cái)嘧⒁饬δP蚐MLTA,先使用CTC算法對(duì)連續(xù)語音流進(jìn)行截?cái)?,然后?duì)每一個(gè)階段的語音進(jìn)行建模,把原來整句的建模,變成了局部語音小段的Attention建模,同時(shí)引入多級(jí)Attention機(jī)制避免CTC的插入刪除錯(cuò)誤對(duì)系統(tǒng)的影響,最終在識(shí)別精度上提升了15%,并在保持計(jì)算量、解碼速度等方面和傳統(tǒng)CTC模型持平。

2、離線狀態(tài)下該怎么玩?

作為一款基礎(chǔ)工具,輸入法要應(yīng)對(duì)各種場(chǎng)景,比如在地鐵、電梯等信號(hào)弱,或者人流密集的環(huán)境下,傳統(tǒng)的“虛擬鍵盤”似乎不會(huì)有太多影響,全語音輸入?yún)s要回答另一個(gè)疑問:如何在離線狀態(tài)下保證語音識(shí)別效率?

為了解決用戶的多元輸入場(chǎng)景需求,百度輸入法持續(xù)優(yōu)化了Deep Peak 2系統(tǒng),除了SMLTA上的創(chuàng)新,還大幅提升了離線語音的識(shí)別準(zhǔn)確率,相較于行業(yè)平均水平提升了35%,不斷縮小離線識(shí)別和在線識(shí)別在準(zhǔn)確率上的差距。

百度語音技術(shù)總監(jiān)高亮在發(fā)布會(huì)上進(jìn)行了一場(chǎng)離線PK,參賽選手分別是百度輸入法AI探索版、訊飛輸入法和搜狗輸入法,結(jié)果顯示百度輸入法的識(shí)別準(zhǔn)確率和識(shí)別速度要明顯高于另外兩家友商的產(chǎn)品?;蛟S離線識(shí)別還不夠完美,至少百度輸入法已經(jīng)可以滿足離線場(chǎng)景先的精準(zhǔn)輸入。

3、語言混合輸入如何解?

語言在不斷進(jìn)化,年輕人群尤為如此,明明在說漢語,卻夾雜著各種英文詞匯,有時(shí)還會(huì)蹦出兩個(gè)日語或韓語單詞;有時(shí)候前一句是普通話,下一句可能冒出一句家鄉(xiāng)話……輸入法的使命儼然是順應(yīng)潮流,那么也就必須解決漢語和外語、方言與方言、方言和普通話來回切換等特殊場(chǎng)景。

常見的解決方案是“手動(dòng)切換”,比如你想要用四川話進(jìn)行語音輸入,先要到輸入法的設(shè)置中將語言設(shè)定為四川話,說普通話的時(shí)候再去切換回來。如此不僅未能解決語言混輸?shù)膯栴},還進(jìn)一步增加了用戶的學(xué)習(xí)成本,體驗(yàn)自然不盡如人意。


百度輸入法開啟AI輸入時(shí)代,瞄準(zhǔn)Z世代


百度輸入法的優(yōu)勢(shì)在于,不局限在國(guó)內(nèi)市場(chǎng)的布局,百度海外輸入法已經(jīng)擴(kuò)充到了120門語言,百度輸入法的語音團(tuán)隊(duì)也在配合市場(chǎng)布局持續(xù)發(fā)力,陸續(xù)上線了日語、英語、印地語、西班牙語、印度英語等語言識(shí)別,為了適應(yīng)一些國(guó)家語言混輸?shù)奶攸c(diǎn),百度輸入法很早就推出本了地語言和英語混輸?shù)墓δ堋S辛撕M馐袌?chǎng)的成熟經(jīng)驗(yàn),應(yīng)對(duì)國(guó)內(nèi)市場(chǎng)的“中英混輸”自然不在話下。

此外為了解決方言混輸?shù)碾y題,百度輸入法將普通話和六大方言融合成一個(gè)語音識(shí)別模型,進(jìn)而實(shí)現(xiàn)了方言與方言、方言與普通話的混合語音輸入。截止到目前,百度輸入法還是唯一實(shí)現(xiàn)高精度中英文混合語音輸入、方言免切換語音輸入的輸入法產(chǎn)品。

為何要先于行業(yè)邁出第一步,或許會(huì)陰謀家給出“炫技”的論調(diào),但百度語音技術(shù)總監(jiān)高亮的觀點(diǎn)值得借鑒:“我們有一個(gè)理念,技術(shù)只有在產(chǎn)品上使用、讓用戶真正體驗(yàn)到才是真正的技術(shù),我們絕不會(huì)為了技術(shù)而技術(shù)。”畢竟在輸入法的取舍過程中,用戶擺脫雙手的需求早已出現(xiàn),只是百度的視野會(huì)止于此嗎?

輸入多點(diǎn)AI,百度瞄準(zhǔn)了Z世代

如果僅僅從創(chuàng)新的角度來審視百度輸入法的進(jìn)化,未免會(huì)低估百度的野心,在將全語音輸入作為默認(rèn)輸入方式的同時(shí),諸如拍立活、秀場(chǎng)、表情秀、凌空手寫等新表達(dá)和新探索,可以說是整場(chǎng)發(fā)布會(huì)的另一大焦點(diǎn)。

比如拍立活可以對(duì)人及動(dòng)物的臉部關(guān)鍵點(diǎn)進(jìn)行識(shí)別,利用貼圖及骨骼蒙皮技術(shù)還原出角色的3D模型,然后利用自研的面部行為編碼系統(tǒng)驅(qū)動(dòng)角色做出豐富的表情,還可以隨意疊加各種AR表情素材,讓表情的制作更加簡(jiǎn)單、有趣。

再比如凌空手寫功能,開創(chuàng)了全新的文字識(shí)別技術(shù),區(qū)別于其他實(shí)驗(yàn)室中的類似概念,百度輸入法的凌空手寫,不需要特殊的手寫筆,也不需要深度攝像頭或多目攝像頭等硬件支持,普通的RGB攝像頭就可以完美支持。

由此不難看到,技術(shù)范的百度正在以自身擅長(zhǎng)的玩法,向崛起的Z世代拋出橄欖枝。


百度輸入法開啟AI輸入時(shí)代,瞄準(zhǔn)Z世代


先解釋下什么是Z世代,巴克萊銀行在一份報(bào)告中,將1995年后出生的人群從時(shí)間調(diào)度定義為“Z世代”,并給出了Z世代的典型特征:數(shù)字原住民。并不難理解,Z世代自出生開始就生活在互聯(lián)網(wǎng)的海洋里,對(duì)于其他年齡層的用戶而言,互聯(lián)網(wǎng)可能還只是生活的一小部分,在Z世代的眼中無異于生活的全部。于是相比于其他年齡層的用戶,Z世代往往是新技術(shù)、新科技、新理念的忠實(shí)擁躉。

在CBNData發(fā)布的《2018互聯(lián)網(wǎng)消費(fèi)生態(tài)大數(shù)據(jù)報(bào)告》中,給95后貼上了“懶”的標(biāo)簽,成為外賣等上門服務(wù)的核心消費(fèi)。當(dāng)然也可折射了95后對(duì)于效率的追求,對(duì)傳統(tǒng)行為方式的不滿足,如果只盯著“懶”的一面,注定會(huì)誤解新一代消費(fèi)者,很可能和潛在的商業(yè)前景失之交臂。

百度輸入法顯然深諳于此,較于傳統(tǒng)、低效的鍵盤,Z世代對(duì)語音輸入有著更強(qiáng)烈的訴求,也是語音輸入撬動(dòng)鍵盤輸入的重要支點(diǎn)。拍立活、凌空手寫等近一步印證了百度輸入法打入年輕人群內(nèi)部的野心,想要和年輕用戶溝通對(duì)話,勢(shì)必要選擇年輕人樂意接受的方式,解決了產(chǎn)品“盲點(diǎn)”的語音輸入本就是如此,百度輸入法又加上了更多有趣的籌碼,打出一套面向年輕用戶的組合拳。

在巴克萊銀行給出的數(shù)據(jù)中,預(yù)計(jì)到2020年Z世代將成為全球最大的消費(fèi)群體,或?qū)⒄紦?jù)美國(guó)、歐洲和金磚四國(guó)消費(fèi)市場(chǎng)的40%份額。隱約可以看到,百度輸入法之所以推崇全語音輸入,并向Z世代拋出橄欖枝,絕非是無意之舉。

尾記

創(chuàng)新的車輪從未停滯,古老而又活力四射的輸入法早已成為用戶行為的風(fēng)向標(biāo),如同80后們大多已經(jīng)忘了70后“必修”的五筆,90后對(duì)九宮格輸入法的青睞又被00后們嫌棄……可以預(yù)見,當(dāng)Z世代以及更年輕的世代崛起后,傳統(tǒng)的輸入法難逃被淘汰的命運(yùn),取而代之的將是語音、表情、肢體等“AI輸入”。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-01-16
百度輸入法開啟AI輸入時(shí)代,瞄準(zhǔn)Z世代
一面對(duì)“鍵盤”有太多的不舍,即便全觸屏的智能手機(jī)早已普及,輸入時(shí)依舊要依賴于“虛擬鍵盤”;一面又急于尋找更為高效的輸入方案。

長(zhǎng)按掃碼 閱讀全文