從搜狗語音的進(jìn)化,看未來智能語音時(shí)代如何開啟?

文|李東樓

又到年末,回顧一年來人工智能的發(fā)展,語音識(shí)別技術(shù)正處于快速發(fā)展階段。正如在之前由國際知名科技期刊《麻省理工科技評(píng)論》(MIT Technology Review)評(píng)選出的“2016年十大突破技術(shù)”,語音接口技術(shù)位列其中,該技術(shù)可將語音識(shí)別和自然語言理解相結(jié)合,為全球互聯(lián)網(wǎng)市場創(chuàng)造切實(shí)可用的語音接口。

在東樓看來,隨著場景聲音辨識(shí)技術(shù)的加速完善,語音識(shí)別技術(shù)有望迎來真正的拐點(diǎn),未來發(fā)展空間將進(jìn)一步擴(kuò)大。而國外的谷歌、蘋果,以及國內(nèi)的科大訊飛、搜狗等公司都是這一領(lǐng)域的大玩家。

從智能語音識(shí)別、語義理解到如今最熱的實(shí)時(shí)翻譯,搜狗語音并不是一開始就有如此優(yōu)秀的表現(xiàn),而是經(jīng)過了數(shù)年的產(chǎn)品演進(jìn)和技術(shù)進(jìn)化才達(dá)到今天這樣的水平。而回顧搜狗在智能語音技術(shù)方面的進(jìn)化歷史,甚至還能夠看到未來的智能語音技術(shù)發(fā)展的方向和前景。

智能語音的進(jìn)化史

首先讓時(shí)間回到移動(dòng)互聯(lián)網(wǎng)的爆發(fā)初期的2012年,當(dāng)時(shí)由于蘋果Siri功能推出,語音助手軟件曾經(jīng)風(fēng)行一時(shí)。不僅包括搜狗、百度等搜索引擎公司基于自身的搜索引擎的基因,紛紛推出了獨(dú)立的語音助手應(yīng)用,還有一些創(chuàng)業(yè)公司也希望能夠從語音搜索入手,期望成為下一代搜索引擎入口。不過,與Siri一樣,這些語音助手產(chǎn)品不僅語音識(shí)別率低,而且還經(jīng)常答非所問,且只能提供一些簡單的詢問天氣、介紹餐廳等初級(jí)功能,無法進(jìn)行復(fù)雜的多輪交互對(duì)話,因此在經(jīng)過了短暫的市場預(yù)熱之后迅速進(jìn)入低潮,而這些語音助手們也紛紛沉寂,甚至停止了更新。

在此之后,包括搜狗在內(nèi)的這些提供智能語音服務(wù)的公司紛紛轉(zhuǎn)入技術(shù)積累的低調(diào)期,并陸續(xù)推出了基于云服務(wù)推出語音云開放平臺(tái),希望能夠開放自己的語音識(shí)別、語義理解等語音技術(shù)能力,吸引更多的第三方合作伙伴,一起搭建生活服務(wù)入口。不過,盡管搜狗在智能語音的技術(shù)一直在向前演進(jìn),語音識(shí)別率越來越高,但是由于更多將服務(wù)轉(zhuǎn)向了b端,因此并不被普通用戶熟悉。直到羅永浩在對(duì)錘子手機(jī)功能的演示時(shí)提及,才使得人們第一次意識(shí)到原來智能語音技術(shù)已經(jīng)演進(jìn)到了現(xiàn)在這個(gè)地步。

實(shí)際上,第一次引爆智能語音技術(shù)并讓其受到追捧的人并不是羅永浩,而是搜狗CEO王小川。就在今年7月,搜狗CEO王小川在參加極客公園“奇點(diǎn)·創(chuàng)新者峰會(huì)”上已經(jīng)完成進(jìn)化的搜狗語音來了一次”首秀“。利用搜狗公司的語音識(shí)別技術(shù),王小川的演講內(nèi)容在現(xiàn)場實(shí)時(shí)生成了滾動(dòng)字幕顯示,目測準(zhǔn)確率高達(dá)95%以上。同步的字幕引起了現(xiàn)場觀眾極大的興趣,紛紛起立拍照。不僅如此,王小川甚至還現(xiàn)場邀請(qǐng)了一位觀眾上臺(tái)體驗(yàn)了搜狗輸入法的新功能“語音修改”。用戶對(duì)著手機(jī)說出一段文字后,再通過自然語言的方式將語音識(shí)別錯(cuò)誤的地方進(jìn)行修正,贏得了現(xiàn)場熱烈的掌聲。

緊接著,搜狗馬不停蹄的在今年8月初發(fā)布了語音交互引擎“知音”,繼續(xù)展示其在智能語音技術(shù)方面取得的重大突破,不僅在語音識(shí)別率方面達(dá)到業(yè)界領(lǐng)先的97%,而且還能進(jìn)行快速糾錯(cuò),更解決了此前一直困擾業(yè)界的復(fù)雜多輪交互的問題。簡單的說,就是不僅要實(shí)現(xiàn)“能聽會(huì)說”,還要求具有“能理解會(huì)思考”的能力,這使得智能語音的應(yīng)用場景被大大延伸。而搜狗還宣布,已經(jīng)將智能語音技術(shù)應(yīng)用到了包括搜狗搜索、搜狗輸入法、搜狗地圖等全線產(chǎn)品當(dāng)中。至此,搜狗的語音技術(shù)完成再次進(jìn)化,在智能語音方面的能力已經(jīng)到達(dá)了國內(nèi)領(lǐng)先的水平。

而在11月烏鎮(zhèn)舉行的第三屆世界互聯(lián)網(wǎng)大會(huì)上,王小川在分論壇演講現(xiàn)場更是發(fā)布了搜狗人工智能新產(chǎn)品——機(jī)器同傳,展示了實(shí)時(shí)機(jī)器翻譯技術(shù),將演講嘉賓的中文講話實(shí)時(shí)語音識(shí)別并同步翻譯為英文上屏顯示,引起轟動(dòng)。這也是全球首次基于神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)機(jī)器翻譯技術(shù)在大型活動(dòng)上的展示,效果可靠、準(zhǔn)確率已接近人類同傳翻譯結(jié)果。

基于大數(shù)據(jù)和深度學(xué)習(xí),搜狗語音實(shí)時(shí)翻譯涵蓋了搜狗自主研發(fā)的語音識(shí)別、機(jī)器翻譯兩項(xiàng)重要技術(shù),代表著這兩大技術(shù)在實(shí)時(shí)性和實(shí)用性上邁出了較大的一步,并且高效的結(jié)合了起來。

未來,智能語音技術(shù)該如何演進(jìn)?

另一方面,前面提到,目前搜狗在語音識(shí)別率方面已經(jīng)達(dá)到97%,并能夠進(jìn)行快速糾錯(cuò)和處理復(fù)雜的多輪交互對(duì)話,而且已經(jīng)應(yīng)用到搜狗的全線產(chǎn)品當(dāng)中。那么,接下來,智能語音技術(shù)還會(huì)向那些方面演進(jìn)呢?我認(rèn)為主要有以下三個(gè)突破點(diǎn):

首先,需要繼續(xù)提升智能語音的識(shí)別率,突破最后的3%。實(shí)際上,目前搜狗使用新開發(fā)的語音修改功能,通過自然語言交互的形式修改所輸入的文字,比“將弓長張改為立早章”等,已經(jīng)在一定程度上解決了語音識(shí)別準(zhǔn)確率最后3%的差距,達(dá)到了解放用戶雙手和提高用戶輸入效率的目的。而搜狗之所以能夠在智能語音技術(shù)方面率先取得突破,一方面與其多年來的深耕積累密不可分,另一方面也與其搜索引擎公司基因密不可分。按照王小川的話說,搜狗本身就是一家人工智能公司,作為搜索引擎公司之所以能夠向用戶提供精準(zhǔn)的搜索結(jié)果,其技術(shù)原理就是不斷的進(jìn)行數(shù)據(jù)積累和機(jī)器學(xué)習(xí),從而使得其能夠準(zhǔn)確理解用戶輸入文字背后的真實(shí)意圖,從而給出最為精準(zhǔn)的答案,而智能語音的原理與此類似,因此與搜狗輸入法一樣,搜狗有先天優(yōu)勢能讓其在智能語音技術(shù)方面能夠率先獲得突破,達(dá)到領(lǐng)先行業(yè)的高識(shí)別率。

其次,復(fù)雜多輪交互能力的提升依然是智能語音技術(shù)的突破點(diǎn)。實(shí)際上,在眾多關(guān)于人工智能的科幻電影當(dāng)中,對(duì)于人類與機(jī)器的交互描述的最理想狀態(tài)就是讓機(jī)器能夠理解自然語言,實(shí)現(xiàn)完全無障礙的復(fù)雜的多輪交互對(duì)話,而只有做到這一點(diǎn)才真正能夠觸發(fā)“奇點(diǎn)來臨”,人工智能時(shí)代才算真正開啟。因此,在解決最后的3%的語音識(shí)別率的同時(shí),在語義理解方面繼續(xù)提升機(jī)器對(duì)人類自然語言的理解能力,以及對(duì)于不同語境下的復(fù)雜對(duì)話的處理能力也非常重要,而這些技術(shù)等突破甚至還需要情感識(shí)別技術(shù)的應(yīng)用,將是更難的技術(shù)突破點(diǎn)。

而在這方面,搜狗依然具有優(yōu)勢,因?yàn)橄裾Z義理解這樣的人工智能技術(shù)的提升,同樣是一個(gè)數(shù)據(jù)積累和機(jī)器學(xué)習(xí)的過程,而這意味著具有龐大的用戶量和數(shù)據(jù)量能夠提供為機(jī)器學(xué)習(xí)更多的機(jī)會(huì)。首先,與其它沒有搜索引擎基因公司相比,搜狗搜索是一家國內(nèi)排名前三的搜索引擎廠商,擁有足夠多的用戶和足夠大的數(shù)據(jù)量,這是其擁有讓人工智能技術(shù)成長的“土壤”,而搜狗搜索語音搜索次數(shù)增長超過4倍也恰好印證了這一點(diǎn);而與其它搜索引擎公司相比,搜狗還有國內(nèi)用戶量最大的搜狗輸入法作為搜狗語音的“訓(xùn)練師”,其不僅擁有海量詞庫,日均語音輸入更是超過1.9億次。因此,這兩大優(yōu)勢相加,使得搜狗基本上可以“跑贏”目前市面上所有的智能語音產(chǎn)品。

最后,智能語音的技術(shù)必須更加通用化和行業(yè)化。也難怪人們此前對(duì)于智能語音能夠達(dá)到97%的識(shí)別率的“驚訝”,因?yàn)槌鞘怯浾?、作家等文字工作者有語音轉(zhuǎn)文字這樣的需求,大部分人在日常的交流當(dāng)中,極少情況下會(huì)有語音轉(zhuǎn)文字的需求,因此盡管智能語音的技術(shù)不斷進(jìn)步,但人們卻絲毫沒有感覺到。因此,在下一階段的發(fā)展過程中,智能語音技術(shù)必須走下“神壇”,不能再是普通人不需要的“黑科技”,而是應(yīng)該成為企業(yè)和個(gè)人都能因此受益的通用技術(shù)和解決方案。

目前來看,搜狗已經(jīng)率先展開了對(duì)于智能語音技術(shù)在行業(yè)應(yīng)用中的探索。就在不久前,魅族召開發(fā)布會(huì)發(fā)布了其首款電視智能盒子--魅族盒子,其中就內(nèi)置了搜狗智能語音技術(shù),用戶通過魅族盒子的智能遙控器,用戶只要說出自己想看的內(nèi)容,視頻、歌曲、學(xué)習(xí)、健身等內(nèi)容就會(huì)一呼即應(yīng)。與此同時(shí),搜狗智能語音技術(shù)

在車載導(dǎo)航的應(yīng)用方面也有動(dòng)作,最近國內(nèi)車載導(dǎo)航的領(lǐng)先企業(yè)飛歌推出飛的歌黃金G8Ⅱ智能車機(jī)產(chǎn)品,該車機(jī)就載了搜狗車載語音解決方案的趣駕行車助手,并將語音與服務(wù)進(jìn)行深度整合,實(shí)現(xiàn)了以輕應(yīng)用的形式將搜狗智能語音技術(shù)在飛歌黃金G8Ⅱ上呈現(xiàn),邁出了向車聯(lián)網(wǎng)探索的第一步。除此之外,搜狗還正在醞釀與VR、智能電視等第三方在智能語音技術(shù)方面展開合作。因此,可以預(yù)見的是,智能語音技術(shù)在家居、汽車、教育、醫(yī)療等領(lǐng)域的應(yīng)用不斷深入,用戶將能夠在更多的場景下,享受到智能語音技術(shù)發(fā)展所帶來的優(yōu)秀體驗(yàn)和服務(wù)。

總的來看,智能語音技術(shù)不僅僅需要在語音識(shí)別準(zhǔn)確率、多輪復(fù)雜交互能力方面繼續(xù)提升,還需要真正能夠轉(zhuǎn)化成為企業(yè)和用戶都需要的服務(wù),這樣才能夠真正體現(xiàn)出價(jià)值,也才能夠迎來一個(gè)真正屬于智能語音時(shí)代的到來。

李東樓是著名的泛科技和營銷類自媒體。除了這里,他還是新浪優(yōu)秀專欄作者和科技名博,并是鈦媒體、百度百家、新浪創(chuàng)事記、創(chuàng)業(yè)邦、快鯉魚等多個(gè)專業(yè)科技網(wǎng)站專欄作者,搜狐IT、今日頭條自媒體認(rèn)證作者,百度閱讀認(rèn)證作家、《經(jīng)理人雜志》、《東方國門》等傳統(tǒng)媒體長期撰稿人。微信公眾號(hào):瑞萊觀點(diǎn)

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2016-12-14
從搜狗語音的進(jìn)化,看未來智能語音時(shí)代如何開啟?
智能語音技術(shù)不僅僅需要在語音識(shí)別準(zhǔn)確率、多輪復(fù)雜交互能力方面繼續(xù)提升,還需要真正能夠轉(zhuǎn)化成為企業(yè)和用戶都需要的服務(wù),這樣才能夠真正體現(xiàn)出價(jià)值,也才能夠迎來一個(gè)真正屬于智能語音時(shí)代的到來。

長按掃碼 閱讀全文