火山語(yǔ)音7篇論文入選國(guó)際頂會(huì)Interspeech

日前,火山語(yǔ)音團(tuán)隊(duì)七篇論文成功入選國(guó)際頂會(huì)Interspeech2022,內(nèi)容涵蓋音頻合成、音頻理解等多個(gè)技術(shù)方向的創(chuàng)新突破。Interspeech作為國(guó)際語(yǔ)音通信協(xié)會(huì)ISCA組織的語(yǔ)音研究領(lǐng)域的頂級(jí)會(huì)議之一,也被稱為全球最大的綜合性語(yǔ)音信號(hào)處理盛會(huì),在世界范圍內(nèi)享有極高聲譽(yù),并受到全球各地語(yǔ)言領(lǐng)域人士的廣泛關(guān)注。下面我們就入選論文進(jìn)行全面解讀,一同了解火山語(yǔ)音技術(shù)的重要進(jìn)展吧!

音頻合成方向——

針對(duì)語(yǔ)音合成有聲書(shū)的自動(dòng)化配樂(lè)系統(tǒng)

An Automatic Soundtracking System for Text-to-Speech Audiobooks

通常在有聲小說(shuō)中,適宜的背景音樂(lè)可以大幅提升聽(tīng)感,增強(qiáng)用戶的沉浸式體驗(yàn)。該論文首創(chuàng)性提出了基于篇章級(jí)情節(jié)理解的有聲小說(shuō)配樂(lè)系統(tǒng),能夠自動(dòng)化地挑選并組合出貼合文章情節(jié)、烘托感情氛圍的背景音樂(lè),同時(shí)與語(yǔ)音合成的有聲小說(shuō)音頻進(jìn)行精準(zhǔn)的時(shí)間戳對(duì)齊和混音,極大節(jié)省了后期配樂(lè)的人力投入。

具體來(lái)說(shuō)該系統(tǒng)可以分為情節(jié)劃分(Plot Partition)、情節(jié)分類(lèi)(Plot Classification) 和 音樂(lè)選擇(Novel Selection) 三個(gè)部分。前兩部分主要通過(guò)NLP技術(shù)實(shí)現(xiàn)了篇章級(jí)語(yǔ)意理解,能夠自動(dòng)將小說(shuō)文本進(jìn)行片段式的情節(jié)劃分,做到預(yù)測(cè)多達(dá)十二類(lèi)的情節(jié);第三部分則實(shí)現(xiàn)了基于語(yǔ)意及小說(shuō)音頻長(zhǎng)度的啟發(fā)式規(guī)則,自動(dòng)化地從音樂(lè)庫(kù)中選擇合適的音樂(lè)片段并與小說(shuō)音頻進(jìn)行自動(dòng)混音。該系統(tǒng)在與人工配樂(lè)的對(duì)比實(shí)驗(yàn)中,目前的合格率已追平人工水平(均為88.75%);優(yōu)秀率也高達(dá)45%,但對(duì)比人工 52.5%的數(shù)據(jù)指標(biāo)還略有差距。

有聲小說(shuō)自動(dòng)化配樂(lè)系統(tǒng)框架

在語(yǔ)音合成有聲小說(shuō)的場(chǎng)景和業(yè)務(wù)中,自動(dòng)化精配背景音樂(lè)的加入不僅能夠大幅度提升用戶的聽(tīng)覺(jué)感受和代入感,還極大降低了音頻后期的人力投入成本。目前,自動(dòng)化精配背景音樂(lè)已經(jīng)在番茄小說(shuō)等業(yè)務(wù)中開(kāi)始應(yīng)用。

一種借助聲學(xué)參考特征和對(duì)比學(xué)習(xí)的高品質(zhì)歌唱轉(zhuǎn)換方法

TOWARDS HIGH-FIDELITY SINGING VOICE CONVERSION WITH ACOUSTIC REFERENCE AND CONTRASTIVE PREDICTIVE CODING

近年來(lái)伴隨語(yǔ)音后驗(yàn)概率(Phonetic PosteriorGrams,PPG)特征的廣泛使用,語(yǔ)音轉(zhuǎn)換效果取得了顯著提升,但PPG特征在聲學(xué)信息上的缺失導(dǎo)致了在風(fēng)格和自然度方面的轉(zhuǎn)換效果并不盡如人意,尤其對(duì)于「歌唱」這種對(duì)聲學(xué)表現(xiàn)力極高要求的場(chǎng)景。

基于上述考量,本篇論文在端到端歌唱轉(zhuǎn)換模型的基礎(chǔ)上,一方面嘗試使用了梅爾譜、無(wú)監(jiān)督聲學(xué)表征和語(yǔ)音識(shí)別模型中間層表征等多種附加特征來(lái)補(bǔ)足歌唱轉(zhuǎn)換模型對(duì)聲學(xué)信息的需求,同時(shí)確保音色效果不受影響,最終通過(guò)對(duì)比明確了無(wú)監(jiān)督聲學(xué)表征的效果優(yōu)勢(shì)。

另一方面,針對(duì)轉(zhuǎn)換模型的編碼器輸出結(jié)果,團(tuán)隊(duì)選擇增加一個(gè)對(duì)比預(yù)測(cè)編碼(Contrastive Predictive Coding,CPC)模塊以提高編碼結(jié)果的連貫性,增強(qiáng)模型對(duì)聲學(xué)信息的建模能力。通過(guò)與基礎(chǔ)模型的主觀評(píng)測(cè)對(duì)比,團(tuán)隊(duì)提出的優(yōu)化方案獲得了明顯收益,主觀評(píng)測(cè)MOS分提升了0.18;同時(shí)該方法也被證明可以提升語(yǔ)音音色的歌唱能力,音準(zhǔn)客觀指標(biāo)提升了6%,達(dá)到較好的跨域轉(zhuǎn)換效果。

結(jié)合附加聲學(xué)特征和CPC模塊的歌唱轉(zhuǎn)換系統(tǒng)框架

如今語(yǔ)音轉(zhuǎn)換和歌唱轉(zhuǎn)換已在視頻和歌曲創(chuàng)作方面有相關(guān)的應(yīng)用,而論文提出的方法可以進(jìn)一步提升直播場(chǎng)景以及視頻創(chuàng)作中的語(yǔ)音轉(zhuǎn)換和歌唱轉(zhuǎn)換的自然度,提升用戶體驗(yàn)的同時(shí)降低創(chuàng)作門(mén)檻。

音頻理解方向——

結(jié)合對(duì)話上下文的流式 RNN-T 語(yǔ)音識(shí)別

Bring dialogue-context into RNN-T for streaming ASR

日常生活中,人們說(shuō)出的語(yǔ)音內(nèi)容通常與所處的上下文(context)相關(guān),而在對(duì)話任務(wù)中,憑借歷史輪次的對(duì)話文本所包含的與當(dāng)前句有關(guān)的信息,可以提升語(yǔ)音識(shí)別效果?;诖?,該論文提出將對(duì)話歷史作為 context 輸入到流式RNN-T模型中,總結(jié)出幾種不同的引入對(duì)話歷史的方法和訓(xùn)練策略,最終獲得了比單句 ASR 提升5%+的識(shí)別效果。

(a)基礎(chǔ) RNN-T 結(jié)構(gòu) (b)引入對(duì)話歷史到 predictor 的結(jié)構(gòu) (c)引入對(duì)話歷史到 encoder 的結(jié)構(gòu)

 

首先針對(duì) RNN-T的結(jié)構(gòu)特點(diǎn),論文提出將對(duì)話歷史更早地引入到 RNN-T 的 predictor(上圖(b)) 和 encoder(上圖(c)),從而可以更充分地將對(duì)話歷史信息融入到 RNN-T 模型中。其次論文提出了兩種訓(xùn)練策略:有/無(wú)對(duì)話歷史輸入模型的聯(lián)合訓(xùn)練(joint training)和對(duì)話歷史添加隨機(jī)擾動(dòng)(context perturbation)。Joint training 策略降低了模型在對(duì)話歷史缺失情況下的性能損失,而 context perturbation 則解決了對(duì)話歷史含有的識(shí)別錯(cuò)誤對(duì) context-aware ASR 模型的干擾。最后論文通過(guò)在神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(neural network language model,NNLM)中引入對(duì)話歷史,來(lái)獲得更好的語(yǔ)言模型,并用于 beam-search 解碼,進(jìn)一步提升識(shí)別效果。

在 Switchboard-2000h 的公開(kāi)數(shù)據(jù)中,采用論文方法引入對(duì)話歷史,將基于RNN-T的語(yǔ)音識(shí)別系統(tǒng)的性能在兩個(gè)測(cè)試集上相對(duì)提升了4.8% / 6.0%(無(wú)語(yǔ)言模型的情況下) 和 10.6% / 7.8%(有語(yǔ)言模型的情況下)。

基于連續(xù)整合發(fā)放機(jī)制的融合說(shuō)話人差異和語(yǔ)音內(nèi)容的字級(jí)別說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)

Token-level Speaker Change Detection Using Speaker Difference and Speech
Content via Continuous Integrate-and-fire

說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)(Speaker Change Detection, SCD)任務(wù)常常作為說(shuō)話人分聚類(lèi)子任務(wù)或者語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)模型的前端模塊被研究者人員所了解。目前該領(lǐng)域提出的大部分解決方案都只應(yīng)用了說(shuō)話人特征的差異,而忽略了語(yǔ)音內(nèi)容可以在SCD任務(wù)中發(fā)揮作用這一方向。

基于此,火山語(yǔ)音團(tuán)隊(duì)提出一種綜合考慮“說(shuō)話人差異”與“語(yǔ)音內(nèi)容”兩條線索的說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)方法,主要通過(guò)連續(xù)整合發(fā)放機(jī)制(Continuous Integrate-and-fire,CIF)來(lái)達(dá)成。目前該方式能夠獲取到字級(jí)別的說(shuō)話人差異和語(yǔ)音內(nèi)容,在同樣的表示粒度上融合了兩部分線索之后,就可以在字的聲學(xué)邊界處成功進(jìn)行說(shuō)話人轉(zhuǎn)換點(diǎn)的判斷。

基于 CIF 的融合兩條線索的字級(jí)別說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè)方案

在真實(shí)錄制的會(huì)議數(shù)據(jù)集AISHELL-4上,基于該方法提出的方案相比于目前比較有競(jìng)爭(zhēng)力的基線方法,獲得了絕對(duì)2.45%的等純度覆蓋度(Equal Purity Coverage,EPC)提升。

同時(shí)也通過(guò)實(shí)驗(yàn)證明“說(shuō)話人差異”與“語(yǔ)音內(nèi)容”都能作為說(shuō)話人轉(zhuǎn)換點(diǎn)判斷的線索使用,而且同時(shí)使用兩條線索才是目前最優(yōu)的方案。此外,該方法所提出的在字符的聲學(xué)邊界處進(jìn)行說(shuō)話人轉(zhuǎn)換點(diǎn)檢測(cè),相比于逐幀進(jìn)行檢測(cè)更具優(yōu)勢(shì),做到直接處理多說(shuō)話人的語(yǔ)音并輸出字序列以及說(shuō)話人轉(zhuǎn)換的位置。應(yīng)用場(chǎng)景上,適用于多人參與且快速交替對(duì)話的場(chǎng)景,例如會(huì)議等語(yǔ)音場(chǎng)景。

注意機(jī)制編解碼器端到端語(yǔ)音識(shí)別模型中基于上下文矢量學(xué)習(xí)的內(nèi)部語(yǔ)言模型估計(jì)

Internal Language Model Estimation Through Explicit Context Vector Learning for Attention-based Encoder-decoder ASR (https://arxiv.org/abs/2201.11627)

目前,端到端語(yǔ)音識(shí)別模型建模已經(jīng)成為語(yǔ)音界主流建模方法,其顯著優(yōu)點(diǎn)在于建模操作簡(jiǎn)單、所建模型性能突出且致密,即無(wú)需對(duì)字典、聲學(xué)模型和語(yǔ)言模型單獨(dú)建模,而是將三者合而為一。換言之,端到端語(yǔ)音識(shí)別模型既具有聲學(xué)模型功能,又具有語(yǔ)言模型功能。

但這種致密性在一定條件下會(huì)給模型的適用性和靈活性帶來(lái)不利影響。譬如端到端識(shí)別模型和語(yǔ)言模型之間的融合不再滿足傳統(tǒng)的貝葉斯后驗(yàn)概率原理,而是一個(gè)后驗(yàn)概率和條件概率的相加。當(dāng)具備這樣的條件,如更多的文本語(yǔ)料以及將模型自適應(yīng)到某一特定領(lǐng)域識(shí)別的時(shí)候,傳統(tǒng)的端到端識(shí)別模型和語(yǔ)言模型的融合只能帶來(lái)次優(yōu)的結(jié)果,使模型優(yōu)越性不能得到充分發(fā)揮。

對(duì)于此,論文基于貝葉斯后驗(yàn)概率原理,將端到端估計(jì)的后驗(yàn)概率拆解成似然概率和“內(nèi)部語(yǔ)言模型”概率乘積形式,目標(biāo)是更好地估計(jì)“內(nèi)部語(yǔ)言模型”,從而讓模型更高效地與外部語(yǔ)言模型融合,進(jìn)而提出兩個(gè)“內(nèi)部語(yǔ)言模型”的估計(jì)方法,分別是一次性靜態(tài)上下文矢量學(xué)習(xí)方法以及基于輕量級(jí)神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)上下文矢量學(xué)習(xí)方法,兩種估計(jì)方法無(wú)需任何額外假設(shè),在多種語(yǔ)料以及多種環(huán)境下驗(yàn)證了提出方法的有效性。在跨域條件下相對(duì)傳統(tǒng)的語(yǔ)言模型融合方法,我們提出的方法能取得19.05% 相對(duì)正向收益; 在域內(nèi)條件下,新方法也能取得7.4%的正向收益。

使用原始序列流利度特征提升口語(yǔ)流利度打分性能

Using Fluency Representation Learned from Sequential Raw Features for Improving Non-native Fluency Scoring

對(duì)于英語(yǔ)口語(yǔ)學(xué)習(xí)者而言,除了發(fā)音標(biāo)準(zhǔn)之外,流利程度也可以在某種程度上反映學(xué)習(xí)者的英語(yǔ)水平。作為評(píng)價(jià)學(xué)習(xí)者英語(yǔ)能力的重要維度之一,口語(yǔ)流利度主要反映了學(xué)習(xí)者發(fā)音語(yǔ)速的快慢以及是否出現(xiàn)異常停頓等發(fā)音現(xiàn)象。

對(duì)此火山語(yǔ)音團(tuán)隊(duì)提出了一種基于原始序列特征的英語(yǔ)口語(yǔ)流利度建模方法,利用原始序列特征來(lái)替換傳統(tǒng)的手工設(shè)計(jì)特征,如語(yǔ)速,停頓次數(shù)等,即在音素層級(jí)提取出音素時(shí)長(zhǎng)以及聲學(xué)特征并對(duì)其進(jìn)行建模;此外還將靜音作為一種特殊音素,用于表征詞和詞之間的停頓現(xiàn)象。

a. 原始序列特征提取 b. 流利度建模

這種基于原始特征序列建模方法超過(guò)了領(lǐng)域內(nèi)其他方案, 在機(jī)器預(yù)測(cè)結(jié)果和人類(lèi)專(zhuān)家打分之間相關(guān)性達(dá)了0.817,接近專(zhuān)家和專(zhuān)家之間的相關(guān)性 0.831。該方案將原始時(shí)長(zhǎng)、停頓和聲學(xué)信息融合到一個(gè)序列建??蚣苤校寵C(jī)器自動(dòng)去學(xué)習(xí)和任務(wù)相關(guān)的流利度特征,更好用于流利度打分。應(yīng)用場(chǎng)景方面,該方法可被應(yīng)用于有流利度自動(dòng)評(píng)估的需求場(chǎng)景中,例如口語(yǔ)考試以及各種在線口語(yǔ)練習(xí)等。

基于多任務(wù)和遷移學(xué)習(xí)方法的MOS自動(dòng)打分

A Multi-Task and Transfer Learning based Approach for MOS Prediction

語(yǔ)音質(zhì)量是反映語(yǔ)音合成(Text-To-Speech, TTS)、語(yǔ)音轉(zhuǎn)換(Voice Conversion, VC)等系統(tǒng)性能的主要指標(biāo);而MOS(Mean Opinion Score)則是標(biāo)注人員對(duì)合成音頻進(jìn)行聽(tīng)力測(cè)試后,針對(duì)該音頻的語(yǔ)音質(zhì)量進(jìn)行的主觀評(píng)價(jià)分?jǐn)?shù)。在Interspeech 2022語(yǔ)音質(zhì)量打分挑戰(zhàn)(VoiceMOS)中,火山語(yǔ)音團(tuán)隊(duì)在主領(lǐng)域賽道斬獲第四名。

針對(duì)兩種領(lǐng)域賽道,火山語(yǔ)音團(tuán)隊(duì)提出了一種多任務(wù)學(xué)習(xí)方法,利用較多的主領(lǐng)域數(shù)據(jù)來(lái)協(xié)助子領(lǐng)域部分模塊訓(xùn)練,同時(shí)將自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR)的知識(shí)遷移到MOS打分任務(wù)。在wav2vec2.0上構(gòu)建ASR系統(tǒng),然后將系統(tǒng)wav2vec2.0部分作為MOS打分模型的編碼器,通過(guò)兩種不同領(lǐng)域的解碼器來(lái)對(duì)不同領(lǐng)域的數(shù)據(jù)進(jìn)行MOS評(píng)分。

多任務(wù)的MOS打分結(jié)構(gòu)

針對(duì)不同語(yǔ)音轉(zhuǎn)換(VC)系統(tǒng)的合成音頻打分任務(wù),上述方案在主領(lǐng)域測(cè)試集上,SRCC指標(biāo)和該比賽中最好的方案相差0.3%;在子領(lǐng)域測(cè)試集上,SRCC指標(biāo)與該比賽中最好的方案相差0.2%。MOS自動(dòng)打分的目標(biāo)是利用機(jī)器對(duì)合成音頻自動(dòng)打分來(lái)替換掉標(biāo)注人員的人工評(píng)分,節(jié)約大量人力物力,達(dá)到省時(shí)省錢(qián)的效果,這對(duì)于推進(jìn)語(yǔ)音合成(TTS)和語(yǔ)音轉(zhuǎn)換(VC)的技術(shù)發(fā)展具有重要意義。

關(guān)于火山語(yǔ)音團(tuán)隊(duì)

火山語(yǔ)音,字節(jié)跳動(dòng) AI Lab Speech & Audio 智能語(yǔ)音與音頻團(tuán)隊(duì)。一直以來(lái)面向字節(jié)跳動(dòng)內(nèi)部各業(yè)務(wù)線以及火山引擎ToB行業(yè)與創(chuàng)新場(chǎng)景,提供全球領(lǐng)先的語(yǔ)音AI技術(shù)能力以及卓越的全棧語(yǔ)音產(chǎn)品解決方案。自 2017 年成立以來(lái),團(tuán)隊(duì)專(zhuān)注研發(fā)行業(yè)領(lǐng)先的 AI 智能語(yǔ)音技術(shù),不斷探索AI 與業(yè)務(wù)場(chǎng)景的高效結(jié)合,以實(shí)現(xiàn)更大的用戶價(jià)值。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )