百度輸入法語音輸入日均3.35億次背后,百度AI正帶來產(chǎn)品的新一輪爆發(fā)

原標(biāo)題:百度輸入法語音輸入日均3.35億次背后,百度AI正帶來產(chǎn)品的新一輪爆發(fā)

眾所周知,在每個(gè)人每天高頻使用的手機(jī)應(yīng)用清單中,有一個(gè)低調(diào)而重要的存在:手機(jī)輸入法。賽諾不久前發(fā)布的《2018上半年中國手機(jī)輸入法分析報(bào)告》顯示:2018年手機(jī)輸入法市場規(guī)模將突破9.8億,環(huán)比增長22.5%,其中活躍用戶占比超過54%,用戶規(guī)模和數(shù)量都保持持續(xù)增長。

這并不難理解,輸入法是目前人機(jī)交互最重要的入口之一。而經(jīng)過二十余年發(fā)展,手機(jī)輸入法在“文字鍵入”這條單一路徑上,已幾乎抵達(dá)技術(shù)演化的盡頭——頗為欣喜的是,如今,在智能語音等AI技術(shù)的加持下,手機(jī)輸入法這個(gè)最接地氣的入口,正在擺脫文字鍵入的單一束縛,開拓新的發(fā)展路徑,甚至在一定程度上擔(dān)當(dāng)著新技術(shù)“橋頭堡”的使命。

譬如百度8月1日公布的2018年第二季度未經(jīng)審計(jì)的財(cái)務(wù)報(bào)告顯示,百度營收260億元人民幣(約合39.3億美元),同比增長32%,凈利潤64億元(約合9.67億美元),同比增長45%。其中AI對百度業(yè)務(wù)的驅(qū)動(dòng)力顯著,除了DuerOS和Apollo,百度AI也為百度APP、信息流、手機(jī)輸入法等移動(dòng)端業(yè)務(wù)帶來了高效增長,李彥宏表示,百度輸入法語音輸入請求量短短一年時(shí)間內(nèi)成長到日均3.35億次。相比于去年3月百度AI技術(shù)平臺體系(AIG)成立時(shí),日均語音請求量增長5倍。在我看來,這種迅猛上揚(yáng),一方面受益于百度語音識別自身體驗(yàn)的日趨完善;另一方面則受益于語音輸入已渡過市場教育階段,正在處于大規(guī)模爆發(fā)的風(fēng)口。

而通過百度輸入法的不斷迭代可以發(fā)現(xiàn),作為一款具備入口意義的應(yīng)用,手機(jī)輸入法早已不再是一個(gè)簡單的“插件”,而是AI時(shí)代一款需要不斷打磨用戶體驗(yàn)的服務(wù)型產(chǎn)品。

效率至上

如你所知,在最新一版百度輸入法中,除了支持拼音、筆畫、五筆、手寫和智能英文等基礎(chǔ)功能,最關(guān)鍵的技術(shù)躍遷,是智能語音輸入和AR表情兩大全新功能的上線,這極大豐富了用戶的輸入體驗(yàn)。

先說語音。

從諾基亞到iPhone,從功能機(jī)到智能機(jī),整個(gè)移動(dòng)時(shí)代,就是一部人機(jī)交互難度不斷下降,交互方式不斷豐富的歷史。而誠如“互聯(lián)網(wǎng)女皇”米克爾所言:在最近數(shù)十年,人機(jī)交互每隔十年就會(huì)發(fā)生一次重大創(chuàng)新,語音則是當(dāng)下最高效的輸入方式。

在如今所有語音場景之中,大多數(shù)人最先接觸到的,就是手機(jī)輸入法的語音輸入功能。相較于手寫和拼音等傳統(tǒng)方式,語音輸入效率更高,交互方式更自然,無論是主動(dòng)的技術(shù)嘗鮮者,還是快節(jié)奏生活下的被動(dòng)選擇,這種巨大的便捷性,都讓輸入法從文字向語音的大規(guī)模遷徙(至少在不方便打字的情景下),成為不可逆的演化趨勢。

數(shù)據(jù)也證明這一點(diǎn):《2018上半年中國手機(jī)輸入法分析報(bào)告》就顯示,在輸入方式選擇上,語音輸入占比已提升至41%,用戶習(xí)慣日趨養(yǎng)成;此外,更像是某種交叉印證,最近搜狗發(fā)布的第二季度財(cái)報(bào)顯示,其日均語音請求量也超3億次(頗值得玩味的是,作為一家“非專門”做輸入法的公司,百度輸入法官方公布的日均語音請求量是超過3.35億次,和搜狗不相上下)。

總之,一切都指向一點(diǎn):語音正在成為更多人輸入方式的必選項(xiàng),且他們一旦開始用上語音,產(chǎn)生的黏性往往非常高,屬于典型的“一旦用上就離不開”系列。

不過,語音輸入的順暢,必須拜深厚的技術(shù)功底所賜,倘若準(zhǔn)確率不堪重用,反而會(huì)造成效率下降——所以說,“準(zhǔn)”是語音輸入最基本的素養(yǎng)。

令人欣喜的是,依托“百度大腦”的進(jìn)化,作為百度AI技術(shù)率先落地的產(chǎn)品之一,百度輸入法凝聚了百度深耕多年的語音、圖像、NLP和知識圖譜等AI能力——尤其是AI語音技術(shù),業(yè)內(nèi)皆知,目前識別率高達(dá)97%的百度語音曾入選MIT“全球十大突破技術(shù)”,并且在手機(jī)百度和百度地圖等產(chǎn)品中早已廣泛應(yīng)用,而隨著DuerOS朋友圈的持續(xù)擴(kuò)張,也會(huì)不斷“反哺”百度的語音技術(shù),這種得天獨(dú)厚的技術(shù)和生態(tài)優(yōu)勢,是其他公司不具備的,也勢必會(huì)夯實(shí)百度輸入法語音請求量的領(lǐng)先地位。

當(dāng)然,在提高識別準(zhǔn)確率方面,百度輸入法并未停止進(jìn)化腳步,最近一次重大突破,就是其搭載了百度第二代深度尖峰技術(shù)(Deep Peak2)?!癉eepPeak2模型”的全稱是基于LSTM和CTC的上下文無關(guān)音素組合建模,它最大的技術(shù)蛻變,就是將高頻出現(xiàn)的音素聯(lián)合在一起,形成一個(gè)音素組合體,然后將這個(gè)音素組合體視作一個(gè)基本建模單元。

這意味著,與在過往數(shù)十年業(yè)界常用的上下文相關(guān)建模方式相比,DeepPeak2能最大程度發(fā)揮神經(jīng)網(wǎng)絡(luò)模型的參數(shù)優(yōu)勢,大幅提升中英文,多種口音和多種風(fēng)格(譬如朗讀,聊天,輕聲)混合輸入的穩(wěn)定性和準(zhǔn)確度,目前其相對正確率較行業(yè)領(lǐng)先水平提升20%。另外,難能可貴的一點(diǎn)是,不同于一些輸入法遇上“中英混輸”后瞬間變成“車禍現(xiàn)場”,DeepPeak2同時(shí)支持中英文混合建模,讓百度輸入法具備了非常強(qiáng)大的中英文混合識別能力。

事實(shí)上,此次百度輸入法的技術(shù)突破,并不令人意外。百度是中國最早通過深度學(xué)習(xí)技術(shù)在語音識別領(lǐng)域取得突破的公司之一,早在2012年就率先上線了基于DNN的語音識別模型。過去6年,百度語音一直沒有停止進(jìn)化,幾乎每年都會(huì)上線新的語音識別技術(shù)——如今DeepPeak2的上線,亦是語音科技史上的一次巨大躍遷,要知道,之前國際上也曾有過類似建模方式,但卻沒法避免建模時(shí)出現(xiàn)的過擬合問題,而百度通過聲學(xué)模型學(xué)習(xí)和語言信息學(xué)習(xí)相分離的特殊訓(xùn)練方法,將建模單元數(shù)目減少了10倍,從本質(zhì)上解決過渡擬合的問題,極大提升了識別準(zhǔn)確率,殊為不易。

而除了準(zhǔn)確率上的不斷精益,百度輸入法在語音輸入功能上,也不斷產(chǎn)生驚喜。譬如,百度輸入法具備輕聲識別能力,無論會(huì)場還是課堂,都能降低語音輸入的尷尬;它還具備語音速記功能,在這一功能的“多人模式”場景下,聲紋識別技術(shù)可以自動(dòng)區(qū)分發(fā)言人,大幅降低工作者后期處理的成本;除此之外,百度輸入法支持中文普通話,中文粵語,英語和日語等多語種識別;且能讓用戶通過語音完成語音撥號和語音搜索等功能,后者尤為重要,企業(yè)基因所致,百度輸入法擁有很強(qiáng)的搜索元素,你知道,聊天時(shí)突然出現(xiàn)搜索需求,是很常見的交叉應(yīng)用場景,通過百度輸入法自帶的搜索功能,可免去切換應(yīng)用帶來的時(shí)間折損。

總之不難發(fā)現(xiàn),在效率維度,百度正不斷推陳出新,讓輸入法成為人們?nèi)粘W钪档醚稣痰墓ぞ撸ㄟ^不斷夯實(shí)用戶的語音輸入習(xí)慣,延續(xù)著移動(dòng)時(shí)代人機(jī)交互難度不斷下降,交互方式不斷豐富的歷史脈絡(luò)。

打磨用戶體驗(yàn)

如果說“效率至上”是一款輸入法的基本素養(yǎng),那么“可玩性”——或者說愉悅感,則能進(jìn)一步豐富用戶體驗(yàn)的維度。而考慮到社交是手機(jī)輸入法應(yīng)用最多的場景(數(shù)據(jù)顯示,社交類APP中輸入法占比高達(dá)74%),百度輸入法也一直在提升用戶在社交場景下的愉悅感。

舉個(gè)例子,百度輸入法中有70%是90后,其中60%的人經(jīng)常玩“斗圖”。針對于此,百度手機(jī)輸入法開發(fā)了AR表情功能,基于百度多模態(tài)人臉識別系統(tǒng)(支持104點(diǎn)基礎(chǔ)模型加眼睛、嘴部、眉毛單例模型;全臉識別278點(diǎn)),能準(zhǔn)確識別面部輪廓和表情,用戶可制作出只屬于自己的表情、感覺和動(dòng)作,并直接通過輸入法搜索,語音輸入和鍵盤輸入時(shí)展示出來。且受益于AR表情功能識別速度快,表情文件小等特點(diǎn),用戶可在聊天中輕松使用,刻畫出自己在虛擬世界中的獨(dú)特形象。

百度AR趣味表情

AR表情功能的上線也意味著,百度輸入法是首家同時(shí)支持2D、3D表情以及通過人臉控制虛擬形象制作表情。而我相信,在可預(yù)見的未來,AI和AR等新技術(shù)對輸入法產(chǎn)品的作用會(huì)越來越大,將會(huì)有更多新技術(shù)被添置到輸入法中。在百度的帶領(lǐng)下,作為新技術(shù)“橋頭堡”的輸入法,有可能進(jìn)入一個(gè)更靈動(dòng)的全感官輸入時(shí)代。

未來由現(xiàn)在筑造。不難發(fā)現(xiàn),依托百度強(qiáng)大的AI基礎(chǔ),無論是在“準(zhǔn)”這個(gè)基本面上的不斷深耕,輸入功能的不斷完善,還是可玩性和愉悅感的不斷提升,都是百度在輸入領(lǐng)域全方位了解用戶需求,不斷打磨用戶體驗(yàn)的體現(xiàn)。這種對用戶體驗(yàn)的打磨,也讓昔日功能單一的手機(jī)輸入法,具備了“語音助手”,“效率工具”和“聊天伴侶”等多重身份,并在不同用戶手上,得到不同程度的釋放。

正如百度高級副總裁、AI技術(shù)平臺體系(AIG)總負(fù)責(zé)人王海峰所言:“AI的發(fā)展最終還是要回到‘服務(wù)用戶需求’的本質(zhì),這是我們每一位人工智能從業(yè)者都需要銘記在心的。利用好人工智能來服務(wù)好我們的用戶和客戶,以及更好地打磨AI能力來推動(dòng)各行各業(yè)的效率提升,是每一位人工智能領(lǐng)域從業(yè)者的期望?!?/p>

作為你我最重要的工具伴侶,手機(jī)輸入法本身正在變得“復(fù)雜”,卻讓生活和工作變得更為簡單。在我看來,這才是技術(shù)的本分。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-08-01
百度輸入法語音輸入日均3.35億次背后,百度AI正帶來產(chǎn)品的新一輪爆發(fā)
原標(biāo)題:百度輸入法語音輸入日均3.35億次背后,百度AI正帶來產(chǎn)品的新一輪爆發(fā)眾所周知,在每個(gè)人每天高頻使用的手機(jī)應(yīng)用清單中,有一個(gè)低調(diào)而重要的存在:手機(jī)輸入法。

長按掃碼 閱讀全文