百度開放大批語音黑科技,人機(jī)交互大變革將至

11月22日,百度語音開放平臺三周年慶活動在京舉辦,百度宣布將向公眾開放四個全新的語音技術(shù)接口。據(jù)百度公司首席科學(xué)家吳恩達(dá)介紹,這四項(xiàng)語音技術(shù)分別為情感合成、遠(yuǎn)場方案、喚醒二期技術(shù)和長語音方案,即日起這幾項(xiàng)旨在提升語音交互用戶體驗(yàn)和推動語音交互落地普及的技術(shù),將免費(fèi)開放給用戶和開發(fā)者共享。

智能語音交互,前景與問題交織

智能語音交互作為一個依仗新興技術(shù)而誕生發(fā)展的行業(yè),不僅有著充足的發(fā)展?jié)摿?,更隨著近年相關(guān)技術(shù)的快速迭代迎來了爆發(fā)期。

中國工信部的報(bào)告指出,2016年全球智能語音產(chǎn)業(yè)規(guī)模為82.3億美元,近五年復(fù)合增長率高達(dá)35.1%,而根據(jù)Research and Markets 發(fā)布的調(diào)查數(shù)據(jù)顯示,2020年全球智能語音市場規(guī)模預(yù)計(jì)將達(dá)到191.7億美元。因此對于科技巨頭來說,這一領(lǐng)域已經(jīng)成為兵家必爭之地。

事實(shí)上國內(nèi)外諸多科技巨頭近年來都已意識到了語音交互行業(yè)的發(fā)展?jié)摿Γ⒓娂娫谶@一領(lǐng)域大展拳腳。亞馬遜旗下家庭智能語音交互產(chǎn)品Amazon Echo就幫助其占據(jù)了智能家居語音交互領(lǐng)域的半壁江山,蘋果的Sir更以問答交互形式開啟了語音交互新世界的大門,除此之外,微軟、谷歌、Facebook、百度、訊飛等國內(nèi)外巨頭都早已在這一領(lǐng)域爭相競逐。

但在巨頭紛紛布局的今天,智能語音行業(yè)仍然存在不少問題。語音交互產(chǎn)品在識別快速話語時,往往或難以識別或頻頻出錯,而這與開發(fā)者語音識別技術(shù)的不到位有著直接關(guān)系。此外,語音交互助手目前的應(yīng)用場景仍然談不上寬泛,當(dāng)前一些已知的應(yīng)用場景不要說智能化,甚至給人一種生搬硬造應(yīng)用場景的感覺。

事實(shí)上,不同于移動互聯(lián)網(wǎng)技術(shù)的全面開花,當(dāng)前的智能語音交互行業(yè)很大程度上都是各家企業(yè)在閉門造車,行業(yè)環(huán)境不夠開放是最大的問題。技術(shù)上的缺乏交流制約著行業(yè)的進(jìn)一步提升。而本次百度開放關(guān)鍵性技術(shù)則對改善上述問題明顯有著重要意義,通過多項(xiàng)關(guān)鍵技術(shù)的開源共享,行業(yè)死水將被盤活,當(dāng)前行業(yè)因技術(shù)障礙存在的問題,比如語音識別距離短,語音喚醒率不盡如人意等勢必將得到改善。

百度的四項(xiàng)技術(shù),應(yīng)用與指導(dǎo)意義

本次百度宣布開放共享的情感合成、遠(yuǎn)場方案、喚醒二期技術(shù)和長語音方案這四項(xiàng)技術(shù),實(shí)質(zhì)上包含的是語音交互領(lǐng)域的合成,識別,喚醒和理解這四大基礎(chǔ)板塊。

語音合成技術(shù)歷來給用戶的印象或許就是機(jī)械,刻板的電子聲,而這種不自然的聲音也在一定程度上影響了用戶群體對智能語音產(chǎn)品的接受程度。而百度的情感合成技術(shù)通過百小時級別以上的語音音控大數(shù)據(jù)采集和獨(dú)有的人類發(fā)言韻律停頓預(yù)測技術(shù)處理后,電子聲變得更加接近真人聲音,一個典型的例子是百度今年早些時候曾利用此技術(shù),復(fù)原已逝明星張國榮的聲音。

而遠(yuǎn)場方案則對解決智能語音交互技術(shù)的應(yīng)用場景不夠?qū)挿簡栴}有重要意義,這項(xiàng)技術(shù)得到分享之后,開發(fā)者可以利用這一接口,使語音識別距離增加到3到5米,同時擁有93%以上的語音識別率,這將為語音技術(shù)帶來遠(yuǎn)比現(xiàn)在更多的想象空間,而不只是遙控電視或解鎖手機(jī)。

作為業(yè)界公認(rèn)的智能語音交互的基礎(chǔ)組成技術(shù),所謂喚醒可以簡單的視為給智能語音產(chǎn)品加上了一雙“耳朵”,有了這一能力,產(chǎn)品才能聽到用戶的呼喚并響應(yīng)操作。百度語音喚醒技術(shù)則有以下幾個特點(diǎn):支持用戶自定義喚醒詞,不僅滿足了用戶的個性化需求,在與系統(tǒng)指令喚醒詞相結(jié)合之后還提升了產(chǎn)品性能,比如可同時下達(dá)拍照和照明的指令;加入雙層解號器,提高了喚醒準(zhǔn)確率,目前百度語音喚醒準(zhǔn)確率高達(dá)95%,誤報(bào)次數(shù)被控制在24小時一次以內(nèi);在喚醒功耗方面,百度語音喚醒的功耗則是國內(nèi)很多競品的三分之一。

當(dāng)前市場上的主流語音識別應(yīng)用,其絕大部分都是短語音識別。比如搜索使用的是關(guān)鍵詞,地圖語音輸入的是地址,語音助手輸入的是指令,輸入法使用語音看似是長語音,實(shí)際上最長支持不超過60秒。因此,長語音識別技術(shù)再次拓寬了智能語音交互的應(yīng)用場景,一個簡單的例子就是語音輸入法不再受時間限制,用戶可以用口述“寫文章”,“寫日記”。而長語音使用環(huán)境下,語音識別的準(zhǔn)確率既是重點(diǎn),也是難點(diǎn),百度長語音技術(shù)則從多個方面實(shí)現(xiàn)了突破:使用了LSTM對語音進(jìn)行噪聲進(jìn)行建模,切分準(zhǔn)確率超過99%;生成模型使用了說話人自適應(yīng),保證了每個人說話時間越長識別效果就會越好;還實(shí)現(xiàn)了對識別結(jié)果的智能糾錯,從結(jié)果層面保證了識別準(zhǔn)確率。

不難看出,百度開放的這四項(xiàng)全新技術(shù)對于當(dāng)前智能語音交互領(lǐng)域技術(shù)的推進(jìn)、落地和產(chǎn)品的優(yōu)化有著重要作用。事實(shí)上,這些技術(shù)并不僅僅存在于理論上或?qū)嶒?yàn)室中,百度已經(jīng)在多個實(shí)際場景中成功運(yùn)用了這些技術(shù),與包括聯(lián)想、中興、長虹、康佳、SONY、特斯拉、途勝、惠普、艾米通訊等手機(jī)、家居、汽車、服務(wù)行業(yè)的眾多企業(yè)均展開了合作,新興技術(shù)的成功落地應(yīng)用對整個語音交互行業(yè)走下云端普惠C端有著一定的指導(dǎo)作用。

新一輪變革在即,產(chǎn)業(yè)化時代來臨

到目前為止,百度語音開放平臺已經(jīng)交出了一份令人滿意的答卷,平臺開發(fā)者數(shù)量已超過14萬,每天識別的在線請求數(shù)在1億以上,合成的在線請求數(shù)在2億以上,百度語音搜索的整體用戶量在2015年增長超過3倍。

而在此之前,百度也已經(jīng)開源了深度學(xué)習(xí)開源平臺PaddlePaddle、人工智能技術(shù)平臺Warp-CTC等,同樣推動了新興技術(shù)的傳播與發(fā)展,對業(yè)界產(chǎn)生了積極影響。隨著語音交互領(lǐng)域多項(xiàng)先進(jìn)技術(shù)的開源,這一領(lǐng)域的競爭將變得更加激烈,同時將有更多科技巨頭愿意分享先進(jìn)技術(shù),推動行業(yè)發(fā)展。

更重要的是,傳統(tǒng)的語音交互技術(shù)將受到極大挑戰(zhàn),例如百度當(dāng)前的語音交互架構(gòu)相對于工業(yè)界主流的CLDNN 結(jié)構(gòu),錯誤率相對降低了10%以上,共享技術(shù)之后,當(dāng)前主流架構(gòu)將被逐漸淘汰已經(jīng)在情理之中。同時,在快速發(fā)展、迭代的語音技術(shù)下,組建新知識產(chǎn)權(quán)產(chǎn)業(yè)聯(lián)盟已經(jīng)勢在必行,業(yè)界先例是2015年底百度開放上百項(xiàng)智能語音專利并與海爾、京東、中興通訊在內(nèi)的 20 多家企業(yè)組建了智能語音知識產(chǎn)權(quán)產(chǎn)業(yè)聯(lián)盟,

隨著語音交互技術(shù)的進(jìn)一步開放,這種開放式創(chuàng)新和開放式知識產(chǎn)權(quán)許可的結(jié)合,或許會取代傳統(tǒng)的語音專利池,成為智能語音未來的產(chǎn)業(yè)核心模式。事實(shí)上,在百度、谷歌、亞馬遜等國內(nèi)外科技巨頭的緊逼下,智能語音行業(yè)格局已然改變,傳統(tǒng)語音技術(shù)巨頭Nuance集團(tuán)在2014年還占據(jù)語音交互領(lǐng)域60%市場份額,2015年末就遭到腰斬,僅為31%,隨著行業(yè)技術(shù)的開放和發(fā)展,產(chǎn)業(yè)格局將繼續(xù)發(fā)生變化。

可以說,隨著技術(shù)的開放和進(jìn)步,語音交互的應(yīng)用場景將更加寬泛,落地商用速度也將加快,語音交互領(lǐng)域即將進(jìn)入大規(guī)模產(chǎn)業(yè)化的時代,新一輪的變革來臨之際,核心技術(shù)和能力比拼正是個中關(guān)鍵,誰能掌握這兩點(diǎn),誰就能獲得領(lǐng)跑的資格,而對于用戶群體來說,智能語音交互的未來足夠光明值得期待。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2016-11-23
百度開放大批語音黑科技,人機(jī)交互大變革將至
智能語音交互作為一個依仗新興技術(shù)而誕生發(fā)展的行業(yè),不僅有著充足的發(fā)展?jié)摿?,更隨著近年相關(guān)技術(shù)的快速迭代迎來了爆發(fā)期。

長按掃碼 閱讀全文