語音輸入技術的未來是什么樣的?將會經(jīng)歷4個階段

2016年10月18日晚,老羅在上海梅賽德斯-奔馳文化中心發(fā)布了新的旗艦手機——M1,在這場發(fā)布會,除了老羅的脫口秀和手機外,另一個讓人印象深刻的情節(jié)是,訊飛輸入法在其中的植入。當晚,當老羅用訊飛輸入法在寫字板上輸入文字,同時文字以幾乎100%的正確率出現(xiàn)時,全場一陣歡呼。隨后當老羅問起:現(xiàn)場有誰不知道訊飛輸入法時,全場至少一半人舉起了手。

有人說錘子這場發(fā)布會最大的受益者是訊飛輸入法,這個說法不無道理,因為借助老羅的影響力,語音輸入法的價值第一次被更多人認識到。

語音輸入法是一個輸入法,但本質(zhì)屬于人工智能的范疇,語音技術不只是輸入文字,最終將是根據(jù)人類的語音指示幫助人類處理任務,完成人類指令的智能。

11月22日,百度語音開放平臺三周年主題活動在北京召開,尋空受百家號鍍金計劃X百度語音邀請參與了這次活動?!鞍俣却竽X”的負責人吳恩達在這次大會公開宣布開放四大語音技術——情感合成、遠場方案、喚醒二期、長語音方案,為開發(fā)者提供免費接入入口。從發(fā)布會來看,百度并不是要推廣百度語音技術和輸入法這么簡單,更是讓語音技術作為“百度大腦”的組成部分,成為百度人工智能戰(zhàn)略的先行軍。

從現(xiàn)場吳恩達的演講和我個人對語音技術的經(jīng)驗來看,語音輸入法的未來有4個階段。

第一階段:代替打字的語音輸入。這是語音輸入法的最基本功能,市面上不少輸入法都有這個功能,但是并不是所有輸入法的識別率都是一樣的,其背后依托的是對于人類語言、語法以及語意的識別和分析。這個階段產(chǎn)品對于語音的識別率應該說依賴于產(chǎn)品背后的數(shù)據(jù)和技術。

第二階段:簡單任務處理。當你對著語音軟件說“明天天氣怎么樣?”時,語音軟件會告訴你明天準確的天氣信息,當你對著電視說打開CCTV5時,電視會自動跳到CCTV5,這些屬于簡單的任務處理。這個階段的目標總得來說是讓人類的生活更便捷。

現(xiàn)場愛奇藝的技術總監(jiān)吳桂林打開視頻應用“愛奇藝”的手機客戶端,說“VIP續(xù)費”,系統(tǒng)便跳轉(zhuǎn)到了相應的充值頁。

愛奇藝的這種任務處理應該說高于“明天天氣怎么樣”這樣的任務處理,但即便這樣的任務大部分語音技術依然沒有實現(xiàn),比如你對著語音軟件說“叫一輛從家到公司的出租車”,這樣的任務并不屬于特別復雜的任務,但依然沒有實現(xiàn)。這個階段突破并不難,在可預見的時間內(nèi)一定會越來越完善。

第三階段:物聯(lián)語音。吳恩達在發(fā)布會中舉了一個例子:“在智能家居的場景,我們希望未來你回家以后可以使用語音跟你的電視、遙控器、音箱、窗簾講話,比如說希望你未來可以向你的電燈說,“電燈請打開”,它就明白你的命令,或者對遙控器說話,它就能非常方便的滿足你的需求?!边@個階段我將其定義為物聯(lián)語音,相對物聯(lián)網(wǎng)來說,這些有聯(lián)網(wǎng)屬性的家居、物品全都可以與語音技術相連,并且可以通過語音來控制,同時這些家居、物品會在語音的指示下完成不那么復雜的任務。

第四階段:物聯(lián)語音+復雜任務處理。在電影《她》中,男主角在開場便演示了這種場景。他說一句“放一首傷感的歌曲”,設備便開始放(順便說一下我用某語音助手說了同樣的話,它給我的推薦中有《爸爸去哪》,并且需要自己點一下);他說瀏覽郵件,設備便開始自動讀郵件內(nèi)容;他在“瀏覽”新聞時,說“下一條”,設備便會自動讀內(nèi)容,當他聽到某明星性感裸照流出時,他停下并拿出設備,設備上便是這條新聞的圖片,當然男主角在聽到某明星性感裸照流出時,如果戴著未來的Google glass類設備,那他就可以在眼前的屏幕上欣賞裸照,而不用拿出手機鬼鬼祟祟地欣賞了。當然電影中展示的更高級形態(tài)是虛擬的“她”,這個語音助手加情人,讓男主人分不出她到底是機器還是人。

可以說到了這個階段,語音處理就不僅是語音處理,而同樣是人工智能的表現(xiàn)形態(tài)。我覺得這就是“百度大腦”期望的未來了。

今年2月,百度深度語音識別系統(tǒng)Deep Speech 2入選MIT 2016十大突破技術。包括語音技術在內(nèi)的百度大腦,入選2016第三屆烏鎮(zhèn)世界互聯(lián)網(wǎng)大會15大領先科技成果。未來,百度的船票就在這里面了。

作者微信公眾號:xunkong2005

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2016-11-23
語音輸入技術的未來是什么樣的?將會經(jīng)歷4個階段
語音技術不只是輸入文字,最終將是根據(jù)人類的語音指示幫助人類處理任務,完成人類指令的智能。

長按掃碼 閱讀全文