語音交互:4G之上的人工交互革命

語音交互是智能手機(jī)等終端產(chǎn)品最便利的輸入工具,從2011年iPhone 4s首次集成siri至今,語音交互應(yīng)用歷程僅僅走過三四年時(shí)間,但其價(jià)值和效應(yīng)已經(jīng)得到凸顯。而隨著目前3G、4G網(wǎng)絡(luò)全面繁盛的狀態(tài),未來的語音交互將在生活、通訊、學(xué)習(xí)和工作中扮演更重要的角色。在未來,隨著物聯(lián)網(wǎng)、車聯(lián)網(wǎng)等新興技術(shù)的興起,語音交互在聲控命令、操作方式以及人工智能方面均有望產(chǎn)生更大的價(jià)值。

但語音交互在達(dá)到這個(gè)期望階段的成長過程中,卻也需要沉淀技術(shù)、語料庫、語義理解等工作,并且語音交互作為相對單一且枯燥的工作,研究者能否在這條路上專注,這也決定了語音交互的未來發(fā)展結(jié)果。另外,從現(xiàn)在的情形來看,語音交互的發(fā)展與高速移動網(wǎng)絡(luò)有關(guān),因此未來能否為語音交互提供超越4G之上的移動網(wǎng)絡(luò),這也直接決定了語音交互的發(fā)展結(jié)果。

1、手機(jī)語音交互:siri開創(chuàng)先河

2011年,蘋果公司發(fā)布新產(chǎn)品iPhone 4s,蘋果首席執(zhí)行官提姆.庫克在發(fā)布會上重點(diǎn)講述了其應(yīng)用功能siri。之后,隨著iPhone 4s發(fā)貨量普及全球,這款有著中規(guī)中矩發(fā)聲的語音助理軟件也隨之走向世界,并從此成為行業(yè)產(chǎn)品的示范。在這之后的數(shù)代蘋果產(chǎn)品中,蘋果公司都無一例外地內(nèi)置了該款應(yīng)用,并且使其通過語義學(xué)習(xí)而變得更加智能、便利和精確,今天的iPhone、iPad等蘋果設(shè)備上,siri已經(jīng)成為數(shù)以億計(jì)普通用戶查詢生活信息的必備工具。

siri雖然只是一款普通的語音助理軟件,但其卻對后續(xù)的智能手機(jī)發(fā)展產(chǎn)生了重大的意義,這在它盛行后有大量的追隨者相繼涌現(xiàn)的現(xiàn)象便可一窺究竟。在產(chǎn)品價(jià)值上,siri解放了用戶雙手,讓用戶在操控智能手機(jī)的時(shí)候有更多選擇,另外,siri的語音控制方式還能讓用戶在獲取查詢結(jié)果方面更便利。相對于所有的輸入設(shè)備來說,語音交互的聲控方式是一種進(jìn)化,這種方式對于普通用戶,正是一種全新的體驗(yàn)和嘗試。

但siri的天生自豪之外,卻是它的天生難堪——它成名于傲慢的蘋果世家。

蘋果公司擁有無與倫比的設(shè)計(jì)與產(chǎn)品體驗(yàn)優(yōu)勢,能為全世界的用戶創(chuàng)造超越想像力之外的創(chuàng)新產(chǎn)品,但在siri身上,蘋果公司并未讓它的這些天賦在siri身上得到全面的綻放。因?yàn)?,siri作為一款領(lǐng)先的智能語音交互工具,其誕生的早幾年只在英語市場有著強(qiáng)烈應(yīng)用頻率,而在其他語種地區(qū),siri的表現(xiàn)就不再出眾。比如siri的中文語言,是在距離英文語言之后的很久時(shí)間后才得以推出,且早期時(shí)候的中文版siri并不精確。

siri這種顧此失彼的情況造就的結(jié)果,則使得大多非英語地區(qū)的市場迎來了全新的自我成長空間,在中國,科大訊飛旗下的訊飛語音、搜狗、百度等等公司在語音領(lǐng)域方面進(jìn)行了進(jìn)擊和嘗試。在目前的智能手機(jī)上,除了iPhone之外,國內(nèi)的小米、魅族、中興星星2號、OPPO等廠商均推出了各自的語音助手產(chǎn)品,只是大多廠商采取的是在科大訊飛的語音輸入方式上集成自己的皮膚,而中興等廠商則通過自主研發(fā)。

2、趨勢:語音交互融合智能終端

iPhone之后,其他手機(jī)廠商紛紛介入語音助理領(lǐng)域,間接帶動了其他智能終端設(shè)備的語音交互進(jìn)程化。

這種趨勢帶來的結(jié)果是多方面的。一方面,大家爭先恐后的涉足直接推動了語音交互的流行程度,但另一方面,不同廠家因?yàn)椴煌夹g(shù)實(shí)力差異而導(dǎo)致的語音交互體驗(yàn)差距,也讓不同消費(fèi)者的感受是不一樣的。這其中的主要緣由,在于大多廠商都是在基于第三方語音識別的基礎(chǔ)上進(jìn)行二次優(yōu)化或開發(fā),但大多開發(fā)者因?yàn)榧夹g(shù)水平的不同,因此導(dǎo)致了最后真正做出有語音識別交互水準(zhǔn)的往往都是大公司。

蘋果公司早在推出siri的前6年就開始籌備相關(guān)項(xiàng)目,而中國本土最富盛名的語音識別公司科大訊飛,其業(yè)務(wù)本身就是一家專業(yè)處理語音識別技術(shù)的公司。而百度、搜狗等公司在語音識別方面的優(yōu)勢則在于大數(shù)據(jù)——它們依賴搜索引擎進(jìn)行海量的語料庫累積,這些語料庫被當(dāng)作為語音識別的參考資料庫的情況下,其為用戶提供的語音識別功能也即有了無可比擬的優(yōu)勢。

這種優(yōu)勢體現(xiàn)在產(chǎn)品身上的直接結(jié)果,便是消費(fèi)者可以直接享用到天然的技術(shù)積累優(yōu)勢,但一些廠商卻并不滿意這樣“站在”別人的技術(shù)肩膀上,而是通過自主研發(fā)方式進(jìn)入這一領(lǐng)域。中興在智能手機(jī)領(lǐng)域聲勢不如小米,但卻發(fā)力語音交互,其最新的產(chǎn)品不僅可以讓消費(fèi)者通過語音控制完成拍照、應(yīng)用開啟及駕駛模式下的導(dǎo)航與音樂等生活娛樂功能,而且在語音技術(shù)的基礎(chǔ)上還融入了體感技術(shù),讓語音操作在便捷的同時(shí)也更自然。

特斯拉廣為人知的緣由是其屬于電動車,但事實(shí)上,通過語音交互實(shí)現(xiàn)駕駛者更多需求的功能探索,目前也已經(jīng)成為包括特斯拉在內(nèi)的大多汽車廠商在研發(fā)的焦點(diǎn)。對于在行駛途中有額外交互需求的駕駛者來說,語音交互是最為合適和恰當(dāng)?shù)姆绞?。在其他領(lǐng)域如醫(yī)學(xué)、教育、精密儀器等等領(lǐng)域,語音交互的高效和便利一樣適用。

諸如此類,這些依靠語音交互而實(shí)現(xiàn)體驗(yàn)更加便利的方式,正是時(shí)下智能手機(jī)正在踐行著的事,而在其他終端領(lǐng)域,語音交互的應(yīng)用實(shí)踐也在一步一步地顯現(xiàn)。未來的語音交互不僅僅只局限于智能手機(jī),汽車、家庭娛樂中心、政府部門或是其他相關(guān)機(jī)構(gòu),都能借助語音交互方式實(shí)現(xiàn)人力成本的減少但工作效率的提升。

3、4G潮流:智能手機(jī)提攜語音交互

語音交互在過去很長一段時(shí)間里并未受到重視,這是由當(dāng)時(shí)的網(wǎng)絡(luò)狀況決定的,在過去的時(shí)代里,3G剛剛誕生、2G無力承擔(dān)一切的情況下,再優(yōu)秀的語音交互也無法施展全部風(fēng)采。但在信息技術(shù)的浪潮下,4G時(shí)代的全面來臨,給予了語音交互巨大的成長空間。正是在這種3G鼎盛、4G繁盛、虛擬運(yùn)營商也接踵而出的背景下,移動網(wǎng)絡(luò)的時(shí)代正全面到來。

智能手機(jī)上的語音交互應(yīng)用可為用戶提供信息查詢、需求處理、生活服務(wù)處理等需求,因此基于高速的3G和4G網(wǎng)絡(luò),語音交互可以無障礙地實(shí)現(xiàn)生活、工作和學(xué)習(xí)的更高效率化。這種狀況在過去需要依賴114等信息臺幫助完成的情況,在今天卻只需要消費(fèi)者個(gè)人直接對智能手機(jī)說出需求即可。

當(dāng)前的語音交互在使用與練習(xí)過程中,會通過不斷的自我學(xué)習(xí)達(dá)到新的理解程度。在現(xiàn)有的大數(shù)據(jù)、云計(jì)算和人工智能日趨取得突破的前提下,語音交互借助3G、4G高速移動網(wǎng)絡(luò)的時(shí)代已經(jīng)全面來臨。特別與智能手機(jī)形成相輔相成的方式,更讓語音交互在未來更加細(xì)致地融入每個(gè)人的生活與學(xué)習(xí)。

而目前隨著科大訊飛、中興等在語音交互方面的發(fā)力,未來不久遠(yuǎn)的語音交互或許將邁上一個(gè)新的臺階。

4、語音交互挑戰(zhàn):急利于心or靜煉修成

語音交互作為最適合當(dāng)前智能終端使用的輸入式方式,目前其作用已經(jīng)得到應(yīng)證,未來隨著越來越多行業(yè)的加入和發(fā)展,其價(jià)值和商業(yè)效應(yīng)還會得到更大的體現(xiàn)。在控制、傳達(dá)、理解與協(xié)調(diào)等日常程序中,語音交互的便捷、易傳達(dá)、高效、便利等特征將會帶來事半功倍的效果。特別對于無法打字或知識文化水平有限的用戶來說,語音交互的實(shí)質(zhì)價(jià)值將影響更深遠(yuǎn)。

不過,語音交互作為一項(xiàng)需要深厚技術(shù)積累、海量的語料庫積累而成的新型信息科學(xué),需要以時(shí)間、優(yōu)秀的精準(zhǔn)人才,以及強(qiáng)有力的技術(shù)及硬件作為支撐,在經(jīng)過周密而繁復(fù)的分析和計(jì)算之后,才能得到些許科學(xué)成果。這是一項(xiàng)枯燥且投入巨大的工作,沒有充足的回報(bào)誘惑,很難在短期內(nèi)獲得成功。

正是在這樣的情況下,一些急功近利的機(jī)構(gòu)或個(gè)人無法保持科研的初心,依靠各種取巧方式試圖走捷徑。這種方法雖然于情于理都不會被容許,特別對于科研精神和科研態(tài)度而言,這種走捷徑的方式雖然一直不恥于業(yè)界,但近年來仍有個(gè)別公司一直未放棄這種“努力”。

然而,所幸還有一些領(lǐng)先的語音交互研發(fā)公司保持了對技術(shù)的堅(jiān)持,科大訊飛、中興、百度、騰訊等等公司在這方面都已取得不錯(cuò)成績;而在成果轉(zhuǎn)化和落實(shí)方面,一些革新二代語音交互手機(jī)產(chǎn)品的問世,也已經(jīng)為行業(yè)掀起熱潮。隨著這股潮流,未來的其他智能終端產(chǎn)品身上不再設(shè)置其他輸入設(shè)備,而是通過各種語音交互方式,使得消費(fèi)者用聲控方式即可完成一切操控,這在目前看來已經(jīng)不再遙遠(yuǎn)。

--完--

作者簡介:朱翊,中國第一批blogger作者(11年blog寫作經(jīng)歷)。知名意見領(lǐng)袖、互聯(lián)網(wǎng)媒體人,逐一傳媒公司創(chuàng)辦者。長期關(guān)注互聯(lián)網(wǎng)商業(yè)趨勢與案例研究,涉獵TMT、移動互聯(lián)網(wǎng)、電子商務(wù)、品牌傳播與管理、家電數(shù)碼等領(lǐng)域;目前從事公關(guān)、營銷、品牌等管理工作。個(gè)人微信號:izhuyi;個(gè)人公眾平臺帳號掃描下圖:

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2015-01-10
語音交互:4G之上的人工交互革命
語音交互是智能手機(jī)等終端產(chǎn)品最便利的輸入工具,從2011年iPhone 4s首次集成siri至今,語音交互應(yīng)用歷程僅僅走過三四年時(shí)間,但其價(jià)值和效

長按掃碼 閱讀全文