語音交互爆發(fā)前夜,新一輪變革由誰引領?

在漫長的5000年人類文明史中,有4000多年人類的交互行為只在人與人、人與自然物品之間進行。直到1946年,馮諾伊曼在賓夕法尼亞大學研制出世界上第一臺現(xiàn)代計算機EDVAC,這才改變了人類交互的歷史。而時至今日,人類社會正在經(jīng)歷著另一次交互變革——智能語音交互。

巨頭紛紛秀肌肉,行業(yè)正迎來爆發(fā)期

智能語音交互是一個站在風口且具備足夠想象力的領域,對科技巨頭來說,這已經(jīng)成為兵家必爭的一塊巨大市場。

根據(jù)Research and Markets 發(fā)布的調查數(shù)據(jù)顯示,到2020年,全球智能語音市場規(guī)模預計將達到191.7億美元。而中國工信部的調查報告則指出,2016年全球智能語音產(chǎn)業(yè)規(guī)模將接近九十億美元,近五年間復合增長率高達35.1%。

事實上國內外諸多科技巨頭早已看到了語音交互行業(yè)的潛力,并紛紛在這一領域大展拳腳。

亞馬遜兩年前推出了家庭智能語音交互產(chǎn)品Amazon Echo,其成為了語音交互和AI領域的代表產(chǎn)品,這項新產(chǎn)品帶來的遠大前景也成為了亞馬遜的未來核心業(yè)務。

而蘋果的Siri更被視為史上首個語音交互產(chǎn)品,Siri以問答交互形式開啟了語音交互新世界的大門,這是智能手機終端的一次重大突破,也引發(fā)了智能助理機器人行業(yè)變革。

除此之外,微軟旗下定位于商務助理的Cortana也是語音交互領域的代表產(chǎn)品之一。Cortana作為一款個人智能助理,可以讓設備像人一樣與你交流,能理解自然語言并做出回應。微軟希望Cortana能比單純檢索信息做更多的事情,并最終能處理通信、管理日歷、滿足各種需求。

當然這個領域的參與者遠遠不止這三家公司,谷歌、Facebook等巨頭都在進行著探索,而在大洋彼岸的國內,也有著不少玩家在語音交互領域大展拳腳,其中的佼佼者則有科大訊飛、搜狗和百度。伴隨著巨頭的紛紛布局,語音交互技術誕生至今,很顯然已經(jīng)到了爆發(fā)的臨界點。

國內市場多強爭霸,殊途同歸卻重心不同

語音交互領域中國市場不缺參與者,科大訊飛和搜狗兩家公司則是其中的佼佼者。從最終目的來看,這兩家公司很顯然都希望能夠引領人機交互的革命,但兩者的發(fā)展路徑卻呈現(xiàn)出很大的不同。

作為智能語音交互領跑企業(yè)科大訊飛并不是一家互聯(lián)網(wǎng)公司,其主要業(yè)務是企業(yè)級應用。其在C端消費者市場雖然也有科大訊飛輸入法,但對科大訊飛來說如何服務好企業(yè)用戶,才是其首先思考的事情。發(fā)力語音交互很大程度上則是因為企業(yè)用戶需求的上升以及對更智能的交互方式的探索。

在語音交互領域,當然也有其他重要公司,BAT三巨頭也在探索如何將語音交互技術運用到他們龐大的業(yè)務線中。而相比科大訊飛,具有濃厚技術基因的搜狗顯得相對低調,但我們同樣不應該忽視。事實上,搜狗在探索人工智能和語音交互等新興技術領域的布局同樣非常值得關注。

近兩年間在搜狗人工智能的投入不可小覷,目前搜狗在AI領域的研發(fā)已經(jīng)全面展開,僅2015年搜狗就投入了年收入的22%用作研發(fā),今年6月更捐贈1.8億給清華大學并聯(lián)合成立研究院,致力于人工智能技術的研發(fā)。

與其他友商不同,相較訊飛走的大而全的企業(yè)服務方向,搜狗在語音交互領域的發(fā)展路徑則顯得更為從容?;诙嗄暝谳斎敕ê退阉饕骖I域沉積,搜狗發(fā)現(xiàn)了一個簡單的事實:通過輸入一個關鍵詞得到十數(shù)條答案的搜索反饋并不能稱之為讓人滿意的交互,人們真正需要的是輸入一個問題得到一個精準的答案。

而正是基于這種思考,搜狗探索的方向更多是整合旗下新聞、地圖等領域資源做出適用于垂直語音交互場景的產(chǎn)品。一個簡單的例子是搜狗車載語音系統(tǒng)和生活服務進行了整合,能夠提供車內場景全套智能解決方案,比如天氣、股票行情、導航信息、新聞推薦、聊天小助手等功能。

時至今日,搜狗已經(jīng)交出了一份優(yōu)秀的答卷,最近一年力搜狗搜索日均語音搜索次數(shù)增長超過4倍,手機輸入法日均語音輸入超過1.9億次,已經(jīng)成為了國內語音輸入功能使用量最大的移動手機產(chǎn)品。

誰將引領變革?更自然的交互或許會是未來

語音交互技術發(fā)展至今,成果無疑是喜人的,但整個行業(yè)仍然存在諸多不足之處。僅以國內市場為例子,目前,國內的一些語音產(chǎn)品則存在說話速度快則無法識別或識別出現(xiàn)無意義錯詞的問題,這與語音識別的準確度有著直接關系,而這嚴重影響了消費者們對智能語音產(chǎn)品的接受程度。試想若機器回復用戶的第一句話就錯字連篇詞不達意,用戶如果進行繼續(xù)對話交互?

我們知道語言在5000年文明里已經(jīng)扎根人類基因,因此諸多語音產(chǎn)品遠遜人類的響應速度難言用戶體驗。所以只有更自然的語音交互,才能解決語音交互叫好不叫座的窘境,這導致的結果就是用戶的使用頻次變高,語音交互也就成為了新的交互入口。很明顯,市場需要的是一種更準確更自然的語音識別技術。

而隨著人工智能浪潮的來臨,以及物聯(lián)網(wǎng)場景下應用需求的不斷擴大,智能語音產(chǎn)業(yè)越來越受到市場的青睞。搜狗早已確定了自然交互和知識計算作為其在人工智能領域的兩大戰(zhàn)略方向。如今搜狗在智能語音領域已經(jīng)取得了重大突破,而“知音”引擎正是搜狗在自然交互方面的重要成果。

事實上,相較其他友商,搜狗語音產(chǎn)品知音引擎已經(jīng)在一定程度上解決了不夠自然的問題。搜狗語音擁有超過97%的識別率和每分鐘可輸入400字以上的領先技術水準,加上語音修改功能,更精準這一特性幫助其解決了語速快無法識別和識別出現(xiàn)錯字的問題。

此外搜狗語音還實現(xiàn)了低于0.5秒的響應時間,并支持男女多音色個性定制。在業(yè)內,一秒的語音回復速度被認定為人與人之間的自然交互。搜狗語音還同時支持在和識別率超過98%的離線語音識別,這更令用戶能感受到人機對話交互的自然流暢,大大提升了使用搜狗語音的用戶體驗。

在實現(xiàn)更自然的語音交互之后,使用場景隨之變得尤為重要,而這幾乎決定了這項新技術未來能夠走多遠。搜狗的車載語音通過數(shù)據(jù)閉環(huán)、智能推薦和精準搜索能力的整合,實現(xiàn)了理解用戶場景和消費歷史理解用戶語音請求背后的意圖,并做進一步的智能推薦服務。

而這只是語音交互技術高速發(fā)展歷程中的一個縮影而已,語音交互顯然會給人類社會的發(fā)展帶來翻天覆地的變化,這會是一個值得期許的未來。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2016-11-16
語音交互爆發(fā)前夜,新一輪變革由誰引領?
智能語音交互是一個站在風口且具備足夠想象力的領域,對科技巨頭來說,這已經(jīng)成為兵家必爭的一塊巨大市場。

長按掃碼 閱讀全文