從SwiftScribe說起 回顧百度在語音技術(shù)的七年積累

人與機(jī)器的自然交互一直是人類孜孜不倦的奮斗目標(biāo)。隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代的發(fā)展,聲音與圖片成為了人機(jī)交互更為自然的表達(dá)方式。作為最核心的入口,語音技術(shù)就成為了科技巨頭們爭(zhēng)相攻下的堡壘。而人工智能的進(jìn)步與發(fā)展也讓語音技術(shù)的識(shí)別率突飛猛進(jìn),也使其有了產(chǎn)品化的機(jī)會(huì)。

李彥宏曾在劍橋名家講堂等多個(gè)公開場(chǎng)合說過,百度大腦涉及百度最為核心的人工智能內(nèi)容,具體包括語音、圖像、自然語言理解和用戶畫像等四個(gè)核心能力,此外還有機(jī)器學(xué)習(xí)平臺(tái);吳恩達(dá)也在公開場(chǎng)合演講時(shí)表達(dá)了同樣的觀點(diǎn)。

3 月 14 日,百度硅谷研究院于推出了一款基于人工智能的轉(zhuǎn)錄應(yīng)用 SwiftScribe ?;诎俣扔?2015 年年底推出的語音識(shí)別產(chǎn)品 Deep Speech 2,其神經(jīng)網(wǎng)絡(luò)通過輸入數(shù)千小時(shí)的標(biāo)記音頻數(shù)據(jù),從中學(xué)習(xí)特定的單詞與詞組。百度推出 SwiftScribe 主要面向經(jīng)常需要使用轉(zhuǎn)錄功能的企業(yè)及個(gè)人,甚于它的使用廣泛性,SwiftScribe認(rèn)為能夠讓一大批用戶受益,包括醫(yī)學(xué)健康、法律部門、商業(yè)媒體等領(lǐng)域。

語音技術(shù)主要分為識(shí)別與合成兩大領(lǐng)域,對(duì)于百度而言,歷年來的研究院技術(shù)突破也讓識(shí)別性能有了重大的提升。雷鋒網(wǎng)整理了百度在語音技術(shù)的相關(guān)研究成果,借此拋磚引玉,得以一窺百度在語音領(lǐng)域的技術(shù)積累。

語音識(shí)別

viayuyin.baidu

早在 2010 年,百度開始進(jìn)行智能語音及相關(guān)技術(shù)研發(fā),并于同年 10 月在掌上百度上推出語音搜索,當(dāng)時(shí)的宣傳語是這樣說的:「語音搜索就用掌上百度」,這也是第一代基于云端識(shí)別的互聯(lián)網(wǎng)應(yīng)用。

在 2012 年左右,研究者們開始采用 DNN 進(jìn)行語音識(shí)別的相關(guān)研究。經(jīng)過近兩年的發(fā)酵,2012 年 11 月百度上線了第一款基于 DNN 的漢語語音搜索系統(tǒng),這讓百度成為最早采用 DNN 技術(shù)進(jìn)行商業(yè)語音服務(wù)的公司之一。研究顯示百度在當(dāng)時(shí)就呈現(xiàn)了優(yōu)秀的語音識(shí)別能力,「在安靜情況下,百度的普通話識(shí)別率已達(dá)到 95% 以上」。

在 2013 年 1 月,李彥宏提出百度成立深度學(xué)習(xí)研究院,并于同年 4 月設(shè)立了硅谷人工智能實(shí)驗(yàn)室,彼時(shí)雷鋒網(wǎng)也做過相關(guān)覆蓋與報(bào)道。而隔年百度硅谷人工智能實(shí)驗(yàn)室(SVAIL)正式成立,加上吳恩達(dá)的加盟,更多的研究與投入也讓百度開始在語音技術(shù)上展露頭角。

根據(jù)吳恩達(dá)在百度語音開放平臺(tái)三周年大會(huì)上的演講,百度于 2014 年采用 Sequence Discriminative Training(序列區(qū)分度訓(xùn)練),當(dāng)時(shí)的識(shí)別準(zhǔn)確率為 91.5%。

在同年年底,吳恩達(dá)帶領(lǐng)團(tuán)隊(duì)發(fā)布了第一代深度語音識(shí)別系統(tǒng) Deep Speech的研究論文,系統(tǒng)采用了端對(duì)端的深度學(xué)習(xí)技術(shù),也就是說,系統(tǒng)不需要人工設(shè)計(jì)組件對(duì)噪聲、混響或揚(yáng)聲器波動(dòng)進(jìn)行建模,而是直接從語料中進(jìn)行學(xué)習(xí)。

團(tuán)隊(duì)采用 7000 小時(shí)的干凈語音語料,通過添加人工噪音的方法生成 10 萬小時(shí)的合成語音語料,并在 SWITCHBOARD(沿用近20年的標(biāo)準(zhǔn)語料庫(kù),被視為識(shí)別的“試金石”) 上獲得了 16.5% 的 WER(詞錯(cuò)誤率,是一項(xiàng)語音識(shí)別的通用評(píng)估標(biāo)準(zhǔn))。當(dāng)時(shí)的實(shí)驗(yàn)顯示,百度的語音識(shí)別效果比起谷歌、Bing 與 Apple API 而言優(yōu)勢(shì)明顯。

雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))AI科技評(píng)論了解到,近年來在 ImageNet 的競(jìng)賽中,CNN 的網(wǎng)絡(luò)結(jié)構(gòu)在不斷加深(比如微軟亞洲研究院的 152 層深度殘差網(wǎng)絡(luò)),錯(cuò)誤率則逐步下降。百度通過借鑒這一研究進(jìn)展,將深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域的進(jìn)展應(yīng)用于語音識(shí)別,嘗試將 Deep CNN 架構(gòu)配合 HMM (隱含馬爾科夫模型)語音識(shí)別系統(tǒng),也呈現(xiàn)出很好的表現(xiàn)。

而 2015 年初基于 LSTM-HMM 的語音識(shí)別技術(shù)也逐步發(fā)展為基于 LSTM-CTC (Connectionist Temporal Classification)的端對(duì)端語音識(shí)別技術(shù),通過將機(jī)器學(xué)習(xí)領(lǐng)域的 LSTM 建模與 CTC 訓(xùn)練引入傳統(tǒng)的語音識(shí)別框架里,提出了具有創(chuàng)新性的漢字語音識(shí)別方法。

2015 年 8 月,百度研究院新增了漢語的識(shí)別能力,準(zhǔn)確率高達(dá) 94%。這也讓端到端的深度學(xué)習(xí)算法成為語音識(shí)別提升最重要的手段之一。在 2015 年 9 月份的百度世界大會(huì)上,吳恩達(dá)也在較為嘈雜的情況下,驗(yàn)證了機(jī)器的語音識(shí)別已經(jīng)超過人類;而李彥宏彼時(shí)也宣布,百度語音識(shí)別的準(zhǔn)確率能夠達(dá)到 97%。

而在 2015 年年底,百度 SVAIL 推出了Deep Speech 2,它能夠通過深度學(xué)習(xí)網(wǎng)絡(luò)識(shí)別嘈雜環(huán)境下的兩種完全不同的語言——英語與普通話,而端到端的學(xué)習(xí)能夠使系統(tǒng)處理各種條件下的語音,包括嘈雜環(huán)境、口音及區(qū)別不同語種。而在 Deep Speech 2 中,百度應(yīng)用了 HPC 技術(shù)識(shí)別縮短了訓(xùn)練時(shí)間,使得以往在幾個(gè)星期才能完成的實(shí)驗(yàn)只需要幾天就能完成。在基準(zhǔn)測(cè)試時(shí),系統(tǒng)能夠呈現(xiàn)與人類具有競(jìng)爭(zhēng)力的結(jié)果。(雷鋒網(wǎng)按:HPC 指的是使用多處理器或某一集群中的數(shù)臺(tái)計(jì)算機(jī)搭建的計(jì)算系統(tǒng)與環(huán)境,百度所應(yīng)用的 HPC 技術(shù)實(shí)際上是 OpenMPIRing Allreduce的修改版本。)

得益于在語音交互的突破,百度的深度語音識(shí)別技術(shù)在 2016 年入選 MIT 十大突破技術(shù)。

根據(jù)研究院的官方消息,百度 SVAIL 已于2017 年 2 月成功將HPC 技術(shù)移植到深度學(xué)習(xí)平臺(tái),借此加速 GPU 之間的數(shù)據(jù)傳輸速率。該算法以庫(kù)和Tensorflow補(bǔ)丁的形式向開發(fā)者開源,分別為baidu-allreduce 和tensorflow-allreduce,目前已在 GitHub 上線。

3 月 14 日,百度硅谷研究院也推出了一款基于 Deep Speech2 的 AI 轉(zhuǎn)錄應(yīng)用 SwiftScribe,其神經(jīng)網(wǎng)絡(luò)通過輸入數(shù)千小時(shí)的標(biāo)記音頻數(shù)據(jù),從中學(xué)習(xí)特定的單詞與詞組。

語音合成

viayuyin.baidu

如果說語音識(shí)別是讓機(jī)器聽懂人類的語言,那么語音合成便是讓機(jī)器開口說話。

語音合成即文本轉(zhuǎn)換技術(shù)(TTS),根據(jù)百度官網(wǎng)的介紹,它是“實(shí)現(xiàn)人機(jī)語音交互,建立一個(gè)有聽和講能力的交互系統(tǒng)所必需的關(guān)鍵技術(shù),是將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的口語輸出的技術(shù)”。

早期的語音合成做法是機(jī)械地將預(yù)先錄制好的聲音拼接在一起,也就是我們經(jīng)常聽到的拼接式合成(concatenative TTS),采用語音編碼技術(shù)存儲(chǔ)合適的語音單元,在合成時(shí)通過解碼與波形編輯拼接處理后生成相應(yīng)的語句,一般合成的內(nèi)容也比較有限,比如自動(dòng)報(bào)時(shí)或報(bào)站等相對(duì)固定的內(nèi)容,便適合采用這樣的方法。

而參數(shù)合成法(parametric TTS)則相對(duì)復(fù)雜,涉及對(duì)語音信號(hào)的分析并提取參數(shù),再由人工控制參數(shù)的合成。但實(shí)現(xiàn)合成的全過程可謂兼具高難度與強(qiáng)工作量:首先需要涵蓋語音在合成出所有可能出現(xiàn)的聲音;隨后根據(jù)文本的內(nèi)容選擇對(duì)應(yīng)的聲學(xué)參數(shù),再實(shí)現(xiàn)合成。

在 2015 年,手機(jī)百度小說頻道上線了情感語音合成模塊,系統(tǒng)可提供「磁性男聲」的朗讀版本;而百度新聞也支持語音播報(bào)。實(shí)際上這兩個(gè)技術(shù)都涉及語音合成技術(shù)(TTS)。此外,百度還采用此技術(shù)復(fù)原了張國(guó)榮的聲音,目前可達(dá)到接近真人的發(fā)聲效果。

百度 SVAIL 在今年正式推出了 Deep Voice,即一個(gè)實(shí)時(shí)語音合成的神經(jīng)網(wǎng)絡(luò)系統(tǒng)(Real-Time Neural Text-to-Speech for Production),目前論文已經(jīng)投遞 ICML 2017。實(shí)驗(yàn)顯示,在同樣的 CPU 與 GPU 上,系統(tǒng)比起谷歌 DeepMind 在去年 9 月發(fā)布的原始音頻波形深度生成模型 WaveNet 要快上 400 倍。

在去年年末的百度語音開放平臺(tái)三周年大會(huì)上,吳恩達(dá)就已經(jīng)表示,「現(xiàn)在百度在中國(guó)語音合成的能力已經(jīng)達(dá)到業(yè)界領(lǐng)先的水平。」可見百度在語音合成領(lǐng)域已經(jīng)是胸有成竹了。

兩大應(yīng)用方向

目前百度的語音技術(shù)分為兩大應(yīng)用方向:語音識(shí)別(及語音喚醒)還有語音合成。

在語音識(shí)別領(lǐng)域,結(jié)合自然語言處理技術(shù),百度能夠提供高精度的語音識(shí)別服務(wù),實(shí)現(xiàn)多場(chǎng)景的智能語音交互:

手機(jī)百度和百度輸入法自不必說,它們能夠直接通過語音輸入匹配搜索結(jié)果,提升輸入效率。

主要合作伙伴:艾米智能行車助手;樂視語音助手;海爾智能家居;陌陌;神武游戲等。

而百度的語音喚醒則支持自定義設(shè)置語音指令,為應(yīng)用提供流暢對(duì)話。比如:

通過百度語音喚醒技術(shù)可以喚醒度秘,滿足用戶真人化的需求;

在百度 Carlife 、 百度CoDriver 及百度地圖中,語音喚醒技術(shù)能夠幫助駕駛員實(shí)現(xiàn)撥打電話、播放音樂、導(dǎo)航等多項(xiàng)操作。

在語音合成領(lǐng)域,最典型的例子莫過于人聲朗讀了。

百度地圖利用合成技術(shù)生成導(dǎo)航語音,能夠幫助用戶實(shí)現(xiàn)流暢的人機(jī)交互;

iReader 也采用了百度語音合成技術(shù)實(shí)現(xiàn)語音朗讀效果,目前支持中文普通話播報(bào)、中英文混讀播報(bào),音色支持男聲和女聲。

主要合作伙伴:塔讀文學(xué)、AA拼車等。

吳恩達(dá)在接受華爾街日?qǐng)?bào)采訪時(shí)表示了對(duì)語音技術(shù)的信心與期待:「至少在中國(guó),我們會(huì)在接下來幾年時(shí)間普及語音識(shí)別應(yīng)用,讓人機(jī)溝通成為一件非常自然的事。你會(huì)很快習(xí)慣與機(jī)器流暢交流的時(shí)光,而忘記以前是如何與機(jī)器交互的?!估卒h網(wǎng)也相信,百度未來會(huì)在語音技術(shù)上取得更大突破,并讓人們獲得良好的人機(jī)交互體驗(yàn)。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-03-16
從SwiftScribe說起 回顧百度在語音技術(shù)的七年積累
人與機(jī)器的自然交互一直是人類孜孜不倦的奮斗目標(biāo)。隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代的發(fā)展,聲音與圖片成為了人機(jī)交互更為自然的表達(dá)方式。作為最核心的入口,語音技術(shù)就成為了科技巨頭

長(zhǎng)按掃碼 閱讀全文