移動(dòng)互聯(lián)網(wǎng)之后智能互聯(lián)網(wǎng)時(shí)代已然來(lái)臨。不過(guò),究竟什么是人工智能?AlphaGo戰(zhàn)勝人類(lèi)棋手除了可以作為談資之外其實(shí)與大多數(shù)人沒(méi)關(guān)系,用人工智能技術(shù)調(diào)度外賣(mài)配送員我們普通人也感受不到其威力。在我看來(lái),人工智能技術(shù)最典型且最先普及的應(yīng)該是語(yǔ)音——如果說(shuō)人工智能是互聯(lián)網(wǎng)上的皇冠,那么,語(yǔ)音技術(shù)就是這顆皇冠上最璀璨的那顆明珠。
種種跡象表明,智能語(yǔ)音正在改變我們的生活或者生產(chǎn)方式:
在上海一家肯德基餐廳內(nèi),度秘可接收顧客的語(yǔ)音命令幫客人點(diǎn)餐;
Amazon Echo和Google Home為代表的智能音箱,正在成為家庭的新入口;
阿里云棲大會(huì)和天貓雙11晚會(huì)上,演講嘉賓的話(huà)被實(shí)時(shí)轉(zhuǎn)化為文字,準(zhǔn)確率近100%;
錘子M1L發(fā)布時(shí),訊飛語(yǔ)音輸入法成為這場(chǎng)發(fā)布會(huì)的最大亮點(diǎn);
手機(jī)天貓的商品評(píng)論功能已經(jīng)支持語(yǔ)音輸入,大幅提升了用戶(hù)的評(píng)論意愿;
……
由于更加自然、快速和簡(jiǎn)單,語(yǔ)音正在逐步取代“打字”成為主流交互方式,各行各業(yè)都在思考如何利用語(yǔ)音技術(shù),手機(jī)電視等硬件廠商加入語(yǔ)音將之當(dāng)做賣(mài)點(diǎn),O2O服務(wù)平臺(tái)加入語(yǔ)音搜索便于用戶(hù)下單,電商平臺(tái)加入語(yǔ)音評(píng)論功能降低互動(dòng)門(mén)檻,售后服務(wù)加入語(yǔ)音降低客服壓力,企業(yè)借助于語(yǔ)音工具記錄會(huì)議內(nèi)容……
語(yǔ)音技術(shù)大規(guī)模爆發(fā)
語(yǔ)音進(jìn)入大眾視野已有許多年歷史,事實(shí)上,Siri早在2011年就已經(jīng)發(fā)布,當(dāng)時(shí)國(guó)內(nèi)也有不少跟隨者,為什么5年之后的今天語(yǔ)音才進(jìn)入爆發(fā)期呢?最關(guān)鍵的原因在于:
1、技術(shù)進(jìn)入成熟可用階段。當(dāng)識(shí)別率只有90%的時(shí)候,語(yǔ)音就會(huì)被吐槽為玩具,然而,隨著深度學(xué)習(xí)技術(shù)被引入語(yǔ)音之中,語(yǔ)音技術(shù)就實(shí)現(xiàn)了從90%到99%的跨越。百度有基于百度大腦深度學(xué)習(xí)技術(shù)的Deep-Speed技術(shù),訊飛有“訊飛超腦”,搜狗也與清華大學(xué)聯(lián)合建立人工智能實(shí)驗(yàn)室,人工智能驅(qū)動(dòng)語(yǔ)音技術(shù)走向成熟,變得可用,是語(yǔ)音技術(shù)今天爆發(fā)的第一個(gè)背景。
2、4G網(wǎng)絡(luò)普及速度超預(yù)期。不論是Siri、度秘還是語(yǔ)音輸入法,要能準(zhǔn)確、快速識(shí)別出語(yǔ)音的前提是終端要接入網(wǎng)絡(luò),并且要高速網(wǎng)絡(luò),4G網(wǎng)絡(luò)在最近兩三年的普及速度超過(guò)了所有人的預(yù)期,5G商用也越來(lái)越近了,高速的網(wǎng)絡(luò)環(huán)境給語(yǔ)音提供了便利的基礎(chǔ)設(shè)施。
3、大數(shù)據(jù)和云計(jì)算普及應(yīng)用。人工智能算法生效的前提是對(duì)海量數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),同時(shí)要通過(guò)云端大規(guī)模集群進(jìn)行并發(fā)式計(jì)算。語(yǔ)音技術(shù)需要對(duì)大量的語(yǔ)料進(jìn)行計(jì)算,大數(shù)據(jù)和云計(jì)算在這幾年成為互聯(lián)網(wǎng)基礎(chǔ)設(shè)施,成為語(yǔ)音技術(shù)爆發(fā)的又一個(gè)前提。
4、語(yǔ)音應(yīng)用場(chǎng)景大幅增加。這幾年,后移動(dòng)互聯(lián)網(wǎng)時(shí)代迎來(lái)了幾波潮流:O2O、智能硬件(智能汽車(chē)、智能家居、智能可穿戴等等)還有互聯(lián)網(wǎng)+,這些場(chǎng)景給語(yǔ)音提供了大量的應(yīng)用場(chǎng)景。
語(yǔ)音爆發(fā)在即,開(kāi)發(fā)者并不具備研發(fā)語(yǔ)音底層技術(shù)的能力,但可以將巨頭開(kāi)放的語(yǔ)音技術(shù)與自身業(yè)務(wù)緊密結(jié)合,成為語(yǔ)音技術(shù)的應(yīng)用者。市面上有不少語(yǔ)音開(kāi)放平臺(tái),有的收費(fèi)、有的免費(fèi),現(xiàn)在最普及的語(yǔ)音開(kāi)放平臺(tái),來(lái)自于百度。百度語(yǔ)音平臺(tái)在2013年11月正式開(kāi)放,在當(dāng)時(shí)我的看法是“百度語(yǔ)音開(kāi)放可以成為推動(dòng)這一市場(chǎng)蓬勃興起的催化劑”,現(xiàn)在看來(lái)這是對(duì)的。
百度語(yǔ)音開(kāi)放平臺(tái)如何崛起?
11月22日,在百度語(yǔ)音開(kāi)放平臺(tái)三周年大會(huì)上,百度首席科學(xué)家吳恩達(dá)介紹,百度語(yǔ)音開(kāi)放之后,2013年每天的在線(xiàn)語(yǔ)音識(shí)別請(qǐng)求量是500萬(wàn),今天這個(gè)數(shù)據(jù)變?yōu)?.4億請(qǐng)求量;在線(xiàn)合成從2014年的1.2千萬(wàn)到現(xiàn)在超過(guò)2億;開(kāi)發(fā)者數(shù)量從2014年1萬(wàn)增加到今天超過(guò)14萬(wàn)開(kāi)發(fā)者,百度的語(yǔ)音開(kāi)發(fā)者生態(tài)浮出水面。
鑒于11月23日即今天下午是科大訊飛2016年度發(fā)布會(huì),百度語(yǔ)音在11月22日前高調(diào)召開(kāi)發(fā)布會(huì),截胡之意十分明顯。百度語(yǔ)音開(kāi)放平臺(tái)的玩法,讓我想起百度地圖與高德之爭(zhēng):百度免費(fèi)讓高德不得不跟進(jìn),最終實(shí)現(xiàn)了互聯(lián)網(wǎng)化??拼笥嶏w2009年成立,百度語(yǔ)音團(tuán)隊(duì)在2012年才成立,作為后來(lái)者,百度語(yǔ)音憑什么能做成呢?
第一點(diǎn),也是非常重要的一點(diǎn),百度語(yǔ)音率先使用了深度學(xué)習(xí)技術(shù),進(jìn)而在語(yǔ)音技術(shù)上取得突破。這是吳恩達(dá)加盟百度之后著重做的第一件事情,基于深度學(xué)習(xí)的DeepSpeech2語(yǔ)音識(shí)別系統(tǒng)準(zhǔn)確率達(dá)到了97%,這個(gè)成果被評(píng)為MIT評(píng)為2016年十大技術(shù)突破,同時(shí),在噪音環(huán)境下的表現(xiàn)很好。在百度大腦被公布之后,訊飛才跟進(jìn)成立“訊飛超腦”,深度學(xué)習(xí)技術(shù)是百度語(yǔ)音能夠做成的關(guān)鍵?,F(xiàn)在,百度正在語(yǔ)音情感合成、遠(yuǎn)場(chǎng)語(yǔ)音交互、語(yǔ)音喚醒技術(shù)等領(lǐng)域發(fā)力,做深做細(xì),強(qiáng)化技術(shù)壁壘。
第二點(diǎn),百度在語(yǔ)義理解技術(shù)上優(yōu)勢(shì)明顯。語(yǔ)義理解不只是要求機(jī)器聽(tīng)得到,還要聽(tīng)得明白,甚至可以基于上下文對(duì)話(huà)。這需要自然語(yǔ)言處理技術(shù)的配合,去理解識(shí)別到的語(yǔ)音中的語(yǔ)義。百度是搜索引擎起家,在自然語(yǔ)言處理尤其是中文處理上優(yōu)勢(shì)明顯,再結(jié)合任何智能技術(shù),在語(yǔ)音交互上有度秘表現(xiàn)比Siri、Google Allo更好,甚至支持多輪交互,在語(yǔ)音應(yīng)用上有自然語(yǔ)言翻譯,這些都體現(xiàn)出百度在語(yǔ)義理解上的優(yōu)勢(shì),百度語(yǔ)音開(kāi)放平臺(tái)也支持50多個(gè)垂直領(lǐng)域的語(yǔ)義理解,支持人機(jī)多輪對(duì)話(huà)。
第三點(diǎn),則是非常獨(dú)特的一點(diǎn),百度不只是有語(yǔ)音開(kāi)放技術(shù),開(kāi)發(fā)者往往會(huì)需要使用多種技術(shù)能力,一個(gè)App不能只有語(yǔ)音,可能還需要LBS位置能力,百度地圖是最大的開(kāi)發(fā)者平臺(tái);還有在人工智能上,百度提供語(yǔ)音合成技術(shù)、圖像識(shí)別技術(shù)、自然語(yǔ)言處理技術(shù)、用戶(hù)畫(huà)像技術(shù)以及機(jī)器學(xué)習(xí)技術(shù)的開(kāi)放,這些可能也是開(kāi)發(fā)者所看中的,這也是百度相對(duì)于只提供語(yǔ)音技術(shù)能力的平臺(tái)的優(yōu)勢(shì)。
第四點(diǎn),百度所開(kāi)放的不只是技術(shù),還有用戶(hù)、數(shù)據(jù)和計(jì)算資源。許多開(kāi)放平臺(tái)開(kāi)放的是API,即技術(shù)能力,但開(kāi)發(fā)者需要的不只是技術(shù)能力,互聯(lián)網(wǎng)巨頭都有自己的生態(tài),它們可以吸引開(kāi)發(fā)者的原因就在于用戶(hù)、數(shù)據(jù)和計(jì)算資源,百度產(chǎn)品矩陣擁有數(shù)億用戶(hù),其中不少用戶(hù)有語(yǔ)音習(xí)慣,還有就是用戶(hù)行為大數(shù)據(jù)以及云計(jì)算資源,這些都是開(kāi)發(fā)者看重的。
語(yǔ)音大戰(zhàn)新的主戰(zhàn)場(chǎng)是什么?
不過(guò),語(yǔ)音技術(shù)進(jìn)入爆發(fā)期,還有許多應(yīng)用空間,開(kāi)發(fā)者有復(fù)雜多樣的需求,百度語(yǔ)音開(kāi)放平臺(tái)將切下一塊蛋糕,但不會(huì)吃掉所有的。接下來(lái),語(yǔ)音技術(shù)還有許多重點(diǎn)領(lǐng)域要克服,除了抗噪、口音兩大問(wèn)題之外,語(yǔ)音接下來(lái)的關(guān)鍵競(jìng)爭(zhēng)點(diǎn)在于:
1、語(yǔ)音喚醒技術(shù)。
我們通過(guò)“Hey Siri”“Ok Google”喚醒語(yǔ)音助手,這讓語(yǔ)音助手隨時(shí)待命,不過(guò)對(duì)移動(dòng)設(shè)備來(lái)說(shuō)有較高的功耗壓力(Google Home和Amazon Echo音箱一直插電,不用考慮功耗問(wèn)題),還有就是喚醒準(zhǔn)確率存在問(wèn)題,要么手機(jī)聽(tīng)不到,要么誤判。還有就是喚醒的語(yǔ)句固定、不能區(qū)分用戶(hù)身份,體驗(yàn)不夠好。百度語(yǔ)音開(kāi)放平臺(tái)三周年時(shí)選擇開(kāi)放喚醒二期技術(shù),功耗是友商的三分之一,喚醒準(zhǔn)確率達(dá)95%,支持“茄子”啟動(dòng)拍照這樣的自定義喚醒詞,相信之后還會(huì)引入聲紋識(shí)別技術(shù)區(qū)別身份。
2、遠(yuǎn)場(chǎng)語(yǔ)音交互。
現(xiàn)在語(yǔ)音交互技術(shù)對(duì)人與設(shè)備之間的距離有要求,要“對(duì)著手機(jī)說(shuō)”,這其實(shí)是很傻的,我們?cè)谏钪信c人對(duì)話(huà),可不會(huì)距離這么近。在家里我們要控制電視機(jī),還得對(duì)著遙控板說(shuō)。遠(yuǎn)場(chǎng)語(yǔ)音交互技術(shù)解決的就是這個(gè)問(wèn)題,它讓機(jī)器可以聽(tīng)到幾米外的人說(shuō)的話(huà),挑戰(zhàn)也很大,有回音,有噪音,有衰減,百度已經(jīng)自主研發(fā)了支持3-5米的遠(yuǎn)場(chǎng)語(yǔ)音技術(shù),這意味著之后我們可以睡覺(jué)時(shí)讓熱水器啟動(dòng),或者坐在沙發(fā)上直接對(duì)著電視發(fā)號(hào)施令了。
3、語(yǔ)音合成技術(shù)。
現(xiàn)在機(jī)器說(shuō)話(huà)都很死板,我們很容易聽(tīng)出來(lái)一段話(huà)是人還是機(jī)器說(shuō)的。接下來(lái)語(yǔ)音合成技術(shù)的關(guān)鍵是,讓機(jī)器說(shuō)話(huà)聲音更像真人,不只是“音色”接近真人,而是更有情感,抑揚(yáng)頓挫、飽含深情。百度語(yǔ)音開(kāi)放平臺(tái)基于大數(shù)據(jù)和深度學(xué)習(xí)建模方式,在情感合成上有較好的表現(xiàn),語(yǔ)音開(kāi)放平臺(tái)增加的一個(gè)新能力就是語(yǔ)音合成技術(shù)。
4、長(zhǎng)語(yǔ)音識(shí)別。
輸入一大段話(huà)的識(shí)別,過(guò)去對(duì)機(jī)器來(lái)說(shuō)很有難度,涉及到斷句等諸多方面,現(xiàn)在輸入法,包括大會(huì)上演講者的聲音識(shí)別都有不錯(cuò)的表現(xiàn),這表明長(zhǎng)語(yǔ)音識(shí)別技術(shù)正趨于成熟。不過(guò),要實(shí)現(xiàn)同聲傳譯、用語(yǔ)音發(fā)郵件、寫(xiě)文章,甚至進(jìn)行會(huì)議紀(jì)要,短期內(nèi)還是很困難的,李彥宏、王小川等大佬們的說(shuō)法也是“未來(lái)會(huì)取代同聲傳譯”。當(dāng)然,隨著長(zhǎng)語(yǔ)音識(shí)別技術(shù)的成熟,接下來(lái)語(yǔ)音還有更多應(yīng)用場(chǎng)景,比如智能客服、內(nèi)容紀(jì)要等等,取代同聲傳譯不會(huì)這么快,但是最終一定會(huì)。
5、語(yǔ)義理解技術(shù)。
語(yǔ)義理解能力進(jìn)一步提升,中文博大精深,很多話(huà)文字一樣,不同場(chǎng)景表達(dá)意思不一樣,語(yǔ)音技術(shù)要跟場(chǎng)景結(jié)合去理解語(yǔ)義,還要結(jié)合上下文。甚至要跟別的智能技術(shù)結(jié)合去理解,比如用戶(hù)可能會(huì)指著一個(gè)物體說(shuō)“請(qǐng)問(wèn)它的英文怎么說(shuō)”,只有語(yǔ)音技術(shù)就解決不了這樣的交互,還得有圖像識(shí)別技術(shù);再比如用戶(hù)會(huì)問(wèn)“我們這里的天氣怎么樣”,這需要LBS技術(shù)的配合。總之,基于場(chǎng)景、結(jié)合人工智能綜合技術(shù)的語(yǔ)義理解,可能會(huì)是語(yǔ)音技術(shù)接下來(lái)攻克的重點(diǎn)。
每個(gè)行業(yè)都在利用人工智能技術(shù),而人工智能里面最先普及的,必然會(huì)是語(yǔ)音技術(shù)。隨著IoT時(shí)代到來(lái),越來(lái)越多的聯(lián)網(wǎng)設(shè)備會(huì)遍布在我們周?chē)謾C(jī)、電視、電燈、汽車(chē)…都會(huì)具備語(yǔ)音交互能力,隨時(shí)待命,聆聽(tīng)我們的聲音并做出響應(yīng)。因?yàn)檎Z(yǔ)音技術(shù)的成熟,我們與這個(gè)世界對(duì)話(huà)將越來(lái)越多,我們的雙手將被解放,我們的世界將更加美好,未來(lái)已來(lái)。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋(píng)果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢(qián)通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱(chēng)塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋(píng)果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開(kāi)展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車(chē)整車(chē)股盤(pán)初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。