智能語(yǔ)音私有化,百度地圖邁入AI時(shí)代下一個(gè)強(qiáng)“音”

詹姆斯· 弗拉霍斯在《智能語(yǔ)音時(shí)代》中有一個(gè)大膽的預(yù)測(cè):智能語(yǔ)音有可能成為最有感情的技術(shù)。

不過(guò)在太多人眼中,當(dāng)下的合成語(yǔ)音很難和情感特征相關(guān)聯(lián),韻律表現(xiàn)上不夠靈活,聲音變化上相對(duì)死板。幾乎無(wú)法讓人相信那些冷冰冰的機(jī)械音可以承載豐富的情感,直到百度地圖的一場(chǎng)發(fā)布會(huì)。

用戶只需要在百度地圖App上錄制20句話,然后等待15分鐘左右的時(shí)間,即可生成有自己聲音特色的個(gè)性化語(yǔ)音包。有些預(yù)料之外的是,原本被某手機(jī)廠商預(yù)定的朋友圈,猛然被百度地圖語(yǔ)音定制的截圖刷了屏。

以至于有人在朋友圈中寫下了這樣一句話:充滿“人氣”的導(dǎo)航語(yǔ)音定制,正在打破語(yǔ)音時(shí)代的“花園圍墻”。

只要20分鐘,聽(tīng)見(jiàn)自己的聲音

作為對(duì)新技術(shù)永遠(yuǎn)有著嘗鮮欲望的泛極客,我在第一時(shí)間去AppStore更新了最新版的百度地圖,滿懷期待地錄制了自己的語(yǔ)音包。為了方便大家對(duì)“語(yǔ)音定制功能”的理解,這里將整個(gè)體驗(yàn)分為三個(gè)過(guò)程:

第一步,錄制環(huán)境的準(zhǔn)備。

語(yǔ)音導(dǎo)航早已不是什么新事物,之所以在過(guò)去那么長(zhǎng)時(shí)間里沒(méi)有出現(xiàn)個(gè)性化定制的語(yǔ)音包,最大的門檻就在于錄制條件:首先要找到一個(gè)專業(yè)的錄音棚,然后錄制上萬(wàn)句導(dǎo)航文本,最后花上半年的時(shí)間進(jìn)行處理。即便是定制化的明星語(yǔ)音包,也需要在通用語(yǔ)音庫(kù)的基礎(chǔ)上錄制一兩千句語(yǔ)音,大概要在錄音棚里待兩個(gè)禮拜的時(shí)間,再花兩個(gè)月的時(shí)間用語(yǔ)音技術(shù)生成語(yǔ)音包。

“想要定制自己的導(dǎo)航語(yǔ)音,要么你爸爸是王健林,要么你自己是王思聰?!贝蟾啪褪呛芏嗳藢?duì)語(yǔ)音定制的原始印象。

但在最新版的百度地圖App中,只需要語(yǔ)音喚醒“小度小度”后說(shuō)“錄制我的語(yǔ)音”,或者在個(gè)人中心中找到“語(yǔ)音定制”的按鈕,即可進(jìn)入到語(yǔ)音定制的界面。不需要跑到專業(yè)的錄音棚中,只要不是那么嘈雜的環(huán)境,達(dá)到系統(tǒng)自動(dòng)檢測(cè)的噪音標(biāo)準(zhǔn)后,即可在手機(jī)上定制屬于自己的語(yǔ)音包。

第二步,語(yǔ)音定制的過(guò)程。

進(jìn)入語(yǔ)音定制的界面后,百度地圖提供了個(gè)性化的選擇,在性別上可以選擇男聲、女聲以及童聲女和童聲男,可供選擇的錄制文本包括推薦文本、卡通文本、電影臺(tái)詞和超短文本。比較貼心的是,卡通文本中可以看到《喜羊羊與灰太狼》、《超級(jí)飛俠》、小豬佩奇等時(shí)下熱門動(dòng)畫片的臺(tái)詞,并且在朗讀文本前設(shè)定了“自動(dòng)跟讀”,針對(duì)兒童群體進(jìn)行了一系列細(xì)節(jié)上的打磨優(yōu)化。

占用5分鐘的時(shí)間錄制20句左右的文本,然后等待15分鐘上下的時(shí)間進(jìn)行云端語(yǔ)音處理,即可下載自己專屬的語(yǔ)音包。

簡(jiǎn)單的對(duì)比即可以發(fā)現(xiàn),百度地圖已然最大程度的降低了語(yǔ)音定制的門檻,原本動(dòng)輒幾個(gè)月的語(yǔ)音包生產(chǎn)過(guò)程,被壓縮到幾分鐘的時(shí)間,重新定義語(yǔ)音包生產(chǎn)模式的同時(shí),也讓語(yǔ)音定制進(jìn)一步普惠化。不再局限在幾個(gè)明星的語(yǔ)音包,人人都可以是“大明星”。

第三步,場(chǎng)景體驗(yàn)的感受。

市面上并不缺少商用語(yǔ)音合成的產(chǎn)品和服務(wù),但絕大多數(shù)都是構(gòu)建在傳統(tǒng)的TTS框架上,至于語(yǔ)音合成的效果,往往少不了合成語(yǔ)音的機(jī)械感。

關(guān)于百度地圖“語(yǔ)音定制”的體驗(yàn),最大的感受就是驚艷。

首先在音色上,合成語(yǔ)音和原始聲音的相似度在90%以上,或許一些實(shí)驗(yàn)室里可以做到95%左右的水平,考慮到百度地圖的規(guī)?;瘧?yīng)用,這樣的成績(jī)已經(jīng)足夠令人興奮。同樣讓人驚嘆的是,僅僅錄制了20個(gè)短句,有個(gè)人特色的短句方式被完美保留,比如我在讀一個(gè)長(zhǎng)句時(shí)習(xí)慣在中間進(jìn)行停頓,百度地圖的語(yǔ)音包中精準(zhǔn)呈現(xiàn)了這一細(xì)節(jié)。

其次在場(chǎng)景上,本以為只是應(yīng)用在路線導(dǎo)航的特定場(chǎng)景中,在使用自己的語(yǔ)音包后,每次在百度地圖中喚醒“小度小度”,聽(tīng)到的居然是自己的聲音,進(jìn)一步深入體驗(yàn)后發(fā)現(xiàn)定制的語(yǔ)音包可以在景區(qū)智能語(yǔ)音導(dǎo)覽、智能語(yǔ)音交互、導(dǎo)航等全部場(chǎng)景使用。

不客氣地說(shuō),如果Siri的出現(xiàn)開(kāi)啟了語(yǔ)音助理的時(shí)代,百度地圖的“語(yǔ)音定制功能”開(kāi)啟了智能語(yǔ)音規(guī)?;瘧?yīng)用的先河。告別冷冰冰的機(jī)械感,自然、有情感、高表現(xiàn)力的聲音,將是語(yǔ)音技術(shù)進(jìn)一步在生活中滲透的開(kāi)始。

7年技術(shù)打磨,語(yǔ)音合成的進(jìn)階

羅馬不是一天建成的,語(yǔ)音技術(shù)也是如此。

原先幾個(gè)月才能搞定的語(yǔ)音包,百度為何在15分鐘的時(shí)間內(nèi)完成,百度語(yǔ)音首席架構(gòu)師賈磊在百度地圖的發(fā)布會(huì)上進(jìn)行了“揭秘”:

先來(lái)熟悉下百度在語(yǔ)音技術(shù)上的深耕,也許是讀懂百度語(yǔ)音合成技術(shù)躍遷的關(guān)鍵。

我在之前的文章中梳理過(guò)語(yǔ)音識(shí)別的進(jìn)化簡(jiǎn)史,比如百度2012年開(kāi)始把深度學(xué)習(xí)技術(shù)DNN技術(shù)用于語(yǔ)音搜索,2013年開(kāi)始基于CNN模型進(jìn)行研究,2015年初推出基于LSTM –HMM的語(yǔ)音識(shí)別,年底發(fā)展出基于LSTM-CTC的端對(duì)端語(yǔ)音識(shí)別系統(tǒng),今年1月份又發(fā)布了流式多級(jí)的截?cái)嘧⒁饬δP汀?/p>

其實(shí)百度的語(yǔ)音技術(shù)進(jìn)化還存在另一條曲線,即語(yǔ)音合成技術(shù)的創(chuàng)新進(jìn)化史。2013年就已啟動(dòng)TSS研發(fā),2014年實(shí)現(xiàn)了HTS離線參數(shù)合成,2016年在基于深度學(xué)習(xí)的語(yǔ)音合成產(chǎn)品落地上持續(xù)發(fā)力,并打造了世界上第一個(gè)能在云端提供大規(guī)模WaveRNN實(shí)時(shí)語(yǔ)音合成服務(wù)的系統(tǒng)……

僅以WaveRNN技術(shù)為例,傳統(tǒng)的RNN技術(shù)是單點(diǎn)遞推的,只有計(jì)算完當(dāng)前的音頻點(diǎn),才能計(jì)算下一個(gè)音頻點(diǎn),而百度創(chuàng)新的并行WaveRNN技術(shù),可以把一句話分成若干個(gè)音節(jié),每個(gè)音節(jié)同時(shí)并行合成,從而實(shí)現(xiàn)了WaveRNN技術(shù)可以線上大規(guī)模使用,為語(yǔ)音合成的商業(yè)化應(yīng)用奠定了基礎(chǔ)。

當(dāng)然作為普通的“吃瓜群眾”,我們無(wú)須熟知上述提到的專有名詞,在討論百度地圖的語(yǔ)音定制功能時(shí),還要從百度獨(dú)創(chuàng)的風(fēng)格遷移技術(shù)Meitron模型說(shuō)起,特點(diǎn)主要體現(xiàn)在音色轉(zhuǎn)換、多情感朗讀和韻律遷移三個(gè)方面。

關(guān)于“音色轉(zhuǎn)換”可能很多人并不陌生,在動(dòng)畫片《名偵探柯南》中,柯南正是通過(guò)胸口的“蝴蝶結(jié)變聲器”模仿其他人的聲音?,F(xiàn)實(shí)中的“音色轉(zhuǎn)換”少了些魔法的光環(huán),需要收集大量的聲音數(shù)據(jù),生成訓(xùn)練模型,再通過(guò)個(gè)性化的學(xué)習(xí)完成音色的變換。但在百度的Meitron模型中,可以利用少量語(yǔ)音快速合成一個(gè)人的專屬音庫(kù)。

“多情感朗讀”顧名思義就是讓合成語(yǔ)音擁有自然、有情感的聲音,常見(jiàn)的思路是從說(shuō)話人的情感語(yǔ)音語(yǔ)料中獲得平均音模型,對(duì)說(shuō)話人的情感說(shuō)句進(jìn)行自適應(yīng)變換,構(gòu)建目標(biāo)情感的聲學(xué)參數(shù)模型,繼而合成出目標(biāo)說(shuō)話人的情感語(yǔ)音效果。同樣的,Meitron模型減少了語(yǔ)音庫(kù)中的個(gè)體差異,只需要少量語(yǔ)料,就能在合成的語(yǔ)音中注入不同的情感。

“韻律遷移”通俗的說(shuō)就是一個(gè)人的聲音可以講出不同風(fēng)格的文本,比如一個(gè)人說(shuō)話時(shí)的音調(diào)、音節(jié)、停頓等,目的是讓合成語(yǔ)音正確表達(dá)語(yǔ)義,聽(tīng)起來(lái)更加自然。倘若缺少韻律前移模型,無(wú)法無(wú)法精確控制語(yǔ)音的發(fā)聲,語(yǔ)音的表現(xiàn)力和自然地也就無(wú)從談起。百度地圖的“語(yǔ)音定制功能”之所以可以實(shí)現(xiàn)個(gè)性化的語(yǔ)音合成,與“韻律遷移”方面的方面的深厚積累無(wú)不關(guān)系。

從時(shí)間上來(lái)看,百度并非是第一家進(jìn)行語(yǔ)音合成研究的公司,然而百度地圖“語(yǔ)音定制”的國(guó)民級(jí)應(yīng)用,無(wú)疑闡述了這樣一個(gè)事實(shí):那些動(dòng)輒需要幾十個(gè)小時(shí)的語(yǔ)音采集,消耗幾個(gè)月的時(shí)間進(jìn)行拼接合成的語(yǔ)音技術(shù)已經(jīng)過(guò)時(shí),在人工智能技術(shù)的賦能下,語(yǔ)音合成技術(shù)正在創(chuàng)造無(wú)限可能。

分鐘級(jí)語(yǔ)音定制,開(kāi)啟大生產(chǎn)時(shí)代

在體驗(yàn)和技術(shù)之外,不應(yīng)該被忽略的是,百度地圖選擇在這個(gè)時(shí)間點(diǎn)上線“語(yǔ)音定制功能”,本質(zhì)上在于解決了兩個(gè)棘手問(wèn)題:

一是語(yǔ)音合成技術(shù)本身,業(yè)已實(shí)現(xiàn)了核心技術(shù)的突破,以及與工業(yè)級(jí)應(yīng)用的結(jié)合;

二是語(yǔ)音合成的成本控制,百度深度學(xué)習(xí)平臺(tái)飛槳實(shí)現(xiàn)了純端側(cè)的廉價(jià)GPU部署,無(wú)疑是個(gè)性化語(yǔ)音合成技術(shù)規(guī)模化落地的關(guān)鍵。

由此來(lái)看,百度語(yǔ)音技術(shù)的想象空間遠(yuǎn)沒(méi)有局限在百度地圖的個(gè)性化語(yǔ)音包上,開(kāi)始從積累和沉淀進(jìn)入商業(yè)化的爆發(fā)期。

就應(yīng)用場(chǎng)景而言,除了導(dǎo)航語(yǔ)音之外,電子閱讀、智能硬件、智能音箱、機(jī)器人等都將是個(gè)性化語(yǔ)音的潛在市場(chǎng)。特別是即將到來(lái)的5G時(shí)代,或?qū)⒂猩习賰|臺(tái)設(shè)備入網(wǎng),作為萬(wàn)物互聯(lián)以及AIoT的一個(gè)重要入口,智能語(yǔ)音賽道終將成為搜索、電商、社交之外的下一個(gè)“現(xiàn)金奶?!?。

就情感維系來(lái)說(shuō),鍵盤、觸控乃至現(xiàn)階段的語(yǔ)音,以往的人機(jī)交互都是效率主導(dǎo)的,在很大程度上缺少了人情味兒,但百度的個(gè)性化語(yǔ)音定制已經(jīng)釋放了積極的信號(hào),語(yǔ)音不僅是高效的交互方式,也是情感的載體,人類與機(jī)器之間的隔閡勢(shì)必會(huì)進(jìn)一步縮小,取而代之的是親和力。

同時(shí)對(duì)于百度這樣的互聯(lián)網(wǎng)巨頭而言,過(guò)去幾十年中的技術(shù)深耕,注定會(huì)在人工智能進(jìn)入大生產(chǎn)時(shí)代時(shí)一步步變現(xiàn)。

作者 | Alter 公眾號(hào) | Alter聊IT

作者系獨(dú)立撰稿人,微信號(hào)imhefei

鈦媒體2018十大作者

品途商業(yè)評(píng)論2018十佳專欄作者

百家號(hào)千分好文出彩創(chuàng)作者

人人都是產(chǎn)品經(jīng)理年度作者

入駐虎嗅、創(chuàng)業(yè)邦、界面等50余家科技媒體

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2019-09-20
智能語(yǔ)音私有化,百度地圖邁入AI時(shí)代下一個(gè)強(qiáng)“音”
詹姆斯· 弗拉霍斯在《智能語(yǔ)音時(shí)代》中有一個(gè)大膽的預(yù)測(cè):智能語(yǔ)音有可能成為最有感情的技術(shù)。不過(guò)在太多人眼中,當(dāng)下的合成語(yǔ)音很難和情感特征相關(guān)聯(lián),韻律表現(xiàn)上不夠靈活,聲音變化上相對(duì)死板。幾乎無(wú)法讓人相信那些冷冰冰的機(jī)械音可以承載豐富的情感,直到百度地圖的一場(chǎng)發(fā)布會(huì)。

長(zhǎng)按掃碼 閱讀全文