「ACL 2023」:火山語音團(tuán)隊(duì)多篇論文中選,涉多方向技術(shù)創(chuàng)新突破

日前 ACL 2023的論文錄用結(jié)果公布,火山語音團(tuán)隊(duì)多篇論文成功入選,內(nèi)容涵蓋音頻合成、歌聲合成以及語音翻譯等多個(gè)前沿技術(shù)領(lǐng)域的創(chuàng)新突破。ACL(Annual Meeting of the Association for Computational Linguistics)每年由國際計(jì)算語言學(xué)協(xié)會(huì)舉辦,是自然語言處理與計(jì)算語言學(xué)領(lǐng)域最高級(jí)別的學(xué)術(shù)會(huì)議,也是中國計(jì)算機(jī)學(xué)會(huì)(CCF)A類推薦會(huì)議,在世界范圍內(nèi)享有極高聲譽(yù),并受到全球各地語言領(lǐng)域人士的廣泛關(guān)注。

結(jié)合視覺信息的端到端語音翻譯( AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation)

研究背景:眾所周知,語音到語音翻譯(S2ST)對(duì)于打破語言壁壘與溝通障礙非常有益。近年來業(yè)內(nèi)利用自監(jiān)督模型獲得的離散單元,構(gòu)建無文本且端到端的 S2ST 系統(tǒng)逐漸成為主流,但當(dāng)前的S2ST模型在帶噪的環(huán)境中仍然存在明顯退化,并且無法翻譯視覺語音(即唇動(dòng))。在這項(xiàng)工作提升中,火山語音團(tuán)隊(duì)聯(lián)合浙江大學(xué)提出了AV-TranSpeech,業(yè)內(nèi)首個(gè)借助視頻信息的無文本語音到語音翻譯(AV-S2ST)模型,通過視覺信息補(bǔ)充音頻流,以提高系統(tǒng)的穩(wěn)健性,并開辟了一系列應(yīng)用前景,例如口述、為檔案電影配音等。

方法介紹:為了緩解AV-S2ST數(shù)據(jù)稀缺,團(tuán)隊(duì)率先探索使用無標(biāo)記音視頻數(shù)據(jù)進(jìn)行自監(jiān)督預(yù)訓(xùn)練,以學(xué)習(xí)上下文表示;此外使用在純音頻語料庫上訓(xùn)練的S2ST模型引入跨模態(tài)蒸餾,進(jìn)一步降低對(duì)視覺數(shù)據(jù)的要求。在兩種語言對(duì)的實(shí)驗(yàn)結(jié)果表明,無論噪聲類型如何,AV-TranSpeech在所有設(shè)置下都優(yōu)于純音頻模型,尤其是在低資源數(shù)據(jù)(10小時(shí)、30小時(shí))下,跨模態(tài)蒸餾可提高7.6 個(gè)BLEU點(diǎn)。“如圖所示,我們使用自監(jiān)督HuBERT來獲得目標(biāo)語音的離散單元;建立視聽語音到單元轉(zhuǎn)換(AV-S2UT)和應(yīng)用單獨(dú)訓(xùn)練的基于單元的聲碼器以將轉(zhuǎn)換的單元轉(zhuǎn)換成波形。”火山語音團(tuán)隊(duì)表示。

為了緩解音頻和視頻表示之間的長度不匹配,團(tuán)隊(duì)還添加了一個(gè)隨機(jī)初始化的模態(tài)適配器層,該層由音頻和視頻流之間的步長為2的單個(gè)一維卷積層組成。“為了防止模型在聯(lián)合模型中過度依賴音頻流,我們?cè)谌诤弦纛l和視覺輸入之前,包括一個(gè)概率為p=50%的模態(tài)Dropout,迫使視覺編碼器學(xué)習(xí)上下文表示。”

圖1:AV-TranSpeech模型架構(gòu)圖

呈現(xiàn)效果:總結(jié)翻譯準(zhǔn)確性和語音自然度,火山語音發(fā)現(xiàn):大規(guī)模多模式預(yù)訓(xùn)練在很大程度上提高了性能,這主要是因?yàn)長RS3-T是一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集,有很大一部分視頻是從TED演講中收集的,顯示了在不依賴中間文本或輔助多任務(wù)訓(xùn)練下S2ST的難度。此外,視覺模態(tài)的引入能夠帶來平均2.0個(gè) BLEU點(diǎn)的增益,即用視覺信息補(bǔ)充音頻流,開辟了一系列實(shí)際應(yīng)用,比方說實(shí)現(xiàn)無聲聽寫或?yàn)闄n案無聲電影配音。對(duì)于語音質(zhì)量,由于團(tuán)隊(duì)?wèi)?yīng)用了公開可用的預(yù)訓(xùn)練單元聲碼器,該聲碼器主要控制輸出語音的自然度并保持不變,AV-TranSpeech表現(xiàn)出高質(zhì)量的語音生成。

利用文本-語音對(duì)比學(xué)習(xí)提出針對(duì)語音合成的韻律文本表征 (CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-Training)

研究背景:提高文本表征是實(shí)現(xiàn)富有韻律的語音合成系統(tǒng)的重要途徑,然而現(xiàn)有的工作通常采用基于語言模型 (BERT) 的文本表征來提升合成語音的韻律的方法,這就帶來了使用預(yù)測(cè)掩碼標(biāo)記(masked token prediction)任務(wù)進(jìn)行預(yù)訓(xùn)練,更關(guān)注的卻是文本的語義信息而非語音的韻律,從而導(dǎo)致訓(xùn)練效率低以及韻律建模困難等問題。

方法介紹:基于上述觀察,火山語音團(tuán)隊(duì)聯(lián)合浙江大學(xué)提出了CLAPSpeech,這是一個(gè)跨文本-語音模態(tài)的對(duì)比預(yù)訓(xùn)練方法。與現(xiàn)有工作不同,它從相同文本標(biāo)記在不同語境下的韻律變化中學(xué)習(xí),因而能夠顯式高效地從文本中提取韻律相關(guān)的信息。具體而言,首先我們巧妙設(shè)計(jì)一個(gè)文本編碼器和韻律編碼器,鼓勵(lì)模型在聯(lián)合跨模態(tài)空間中將文本上下文與其對(duì)應(yīng)的韻律模式連接起來;第二團(tuán)隊(duì)引入了多尺度預(yù)訓(xùn)練方案,以在音素、詞匯等不同層次上捕獲韻律模式;最后展示了如何將CLAPSpeech整合到現(xiàn)有的TTS模型中以獲得更好的韻律。

圖2: CLAPSpeech的文本-語音跨模態(tài)對(duì)比學(xué)習(xí)訓(xùn)練流程

呈現(xiàn)效果:在兩個(gè)1000小時(shí)級(jí)別的中英文語音合成數(shù)據(jù)集完成的實(shí)驗(yàn)均表明,采用CLAPSpeech提供的文本表征可以顯著提升現(xiàn)有TTS方法的韻律建模;實(shí)驗(yàn)同時(shí)還證明了CLAPSpeech的泛化能力,可以適應(yīng)多語言和多說話人的復(fù)雜語音合成任務(wù)?,F(xiàn)有的語音合成、歌聲合成等系統(tǒng)都可以很方便地使用CLAPSpeech預(yù)訓(xùn)練模型的文本表征以提升合成音頻的韻律自然程度。

基于跨模態(tài)對(duì)齊的從語音到歌聲轉(zhuǎn)換( AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment)

研究背景:從語音到歌聲轉(zhuǎn)換(Speech-to-Singing,STS)任務(wù)的目標(biāo)是將語音樣本轉(zhuǎn)換為內(nèi)容(歌詞)一致的歌聲樣本,同時(shí)保證說話人的音色不變。在轉(zhuǎn)換的過程中,需要提供目標(biāo)音高作為轉(zhuǎn)換的參考,相關(guān)的研究與技術(shù)不僅有助于探索人類聲音的合成規(guī)律,也對(duì)計(jì)算機(jī)輔助音樂制作等領(lǐng)域有幫助。通常STS任務(wù)與傳統(tǒng)人聲轉(zhuǎn)換任務(wù)(Voice Conversion,VC)不同的一點(diǎn)是其需要轉(zhuǎn)換兩個(gè)獨(dú)立特征:第一個(gè)是節(jié)奏,即時(shí)間模態(tài),是音素在時(shí)域上的排列方式;第二個(gè)是音高,即頻率模態(tài)。以往的STS方法側(cè)重于音高的轉(zhuǎn)換,忽略了音素位置在語音和歌聲兩者之間的差距,這會(huì)導(dǎo)致合成的音素含混不清、順序混亂,同時(shí)由于歌曲制作中常見的一字多音等情況,字符序列在給定的音高序列中的位置分配情也是是一個(gè)復(fù)雜的概率分布。

圖3:AlignSTS模型架構(gòu)圖

方法介紹:對(duì)此,本方法提出了跨模態(tài)對(duì)齊的解決方案。重要的一點(diǎn),團(tuán)隊(duì)提出了一個(gè)更簡潔高效的時(shí)間模態(tài)表示,即節(jié)奏特征。該特征被用于縮小語音內(nèi)容和目標(biāo)音高之間的模態(tài)差異,可被視為一種軟化的時(shí)長標(biāo)注。根據(jù)經(jīng)驗(yàn)觀察,人類總能在給定歌詞序列和音高序列的前提下創(chuàng)作出聽感合理的歌詞節(jié)奏,說明連接這兩者的節(jié)奏特征的概率分布可被良好定義。本方法先對(duì)輸入語音信息進(jìn)行破壞和解耦,接著使用交叉注意力機(jī)制建模目標(biāo)節(jié)奏特征,并使用節(jié)奏特征對(duì)語音特征進(jìn)行重排列和重對(duì)齊,最后再使用擴(kuò)散模型作為聲學(xué)特征解碼器以提高音質(zhì)。

呈現(xiàn)效果:在多輪實(shí)驗(yàn)中,本方法在總質(zhì)量MOS評(píng)分和韻律MOS評(píng)分中獲得了平均0.39和0.36的提升;同時(shí)在零樣本測(cè)試中,只在純歌聲數(shù)據(jù)集上訓(xùn)練的模型能夠在未見語音數(shù)據(jù)上獲得0.11的提升,展現(xiàn)了良好的泛化性能。

針對(duì)口吃語音提出的自動(dòng)化語音編輯系統(tǒng)(FluentSpeech: A Stutter-Oriented Automatic Speech Editing System)

研究背景:最近基于文本的語音編輯受到業(yè)界的廣泛關(guān)注,其中口吃消除作為語音編輯的一個(gè)關(guān)鍵子任務(wù),有著十分廣泛的應(yīng)用場(chǎng)景,如短視頻、電影、播客、YouTube視頻,講座等,能夠?yàn)槊襟w制作人提供極大的便利。然而之前的語音編輯工作仍然存在諸多不足之處,例如:

· 音質(zhì)較低。生成的mel聲譜圖通常是模糊的,并且缺乏高頻細(xì)節(jié),導(dǎo)致修改區(qū)域出現(xiàn)不自然的聲音;

· 沒有針對(duì)口吃語音進(jìn)行設(shè)計(jì)。當(dāng)需要編輯的語音充滿口吃時(shí),由于文本和口吃語音內(nèi)容之間的差異,導(dǎo)致文本到語音的對(duì)齊過程受到影響,使得系統(tǒng)的魯棒性降低;

· 口吃區(qū)域需要手動(dòng)定位,這對(duì)媒體制作人來說既費(fèi)時(shí)又費(fèi)力。

對(duì)此該論文首創(chuàng)性地針對(duì)口吃語音提出了一個(gè)自動(dòng)化語音編輯系統(tǒng),也就是FluentSpeech。這是首個(gè)針對(duì)口吃消除任務(wù)進(jìn)行優(yōu)化的語音編輯系統(tǒng),可以自動(dòng)檢測(cè)口吃區(qū)域?qū)⑵淙コ?,并同時(shí)生成具有豐富細(xì)節(jié)的流暢語音。此外它也在其他語音編輯任務(wù)(如增、刪、改等)達(dá)到了SOTA效果,能夠完成多場(chǎng)景下的零樣本語音編輯,極大節(jié)省了配音人員、媒體制作者的人力投入。

圖4:FluentSpeech模型架構(gòu)圖

方法介紹:首先團(tuán)隊(duì)采用了一種上下文感知的擴(kuò)散模型,該模型可以顯式理解待編輯語音的上下文信息(如基頻、持續(xù)時(shí)間、口吃信息等)并利用這些信息作為條件來指導(dǎo)擴(kuò)散和反向過程,這有助于FluentSpeech生成高質(zhì)量而過渡自然的結(jié)果。“為了提高對(duì)口吃語音的魯棒性,我們?cè)谟?xùn)練過程中引入了一種條件口吃預(yù)測(cè)器,該預(yù)測(cè)器定位口吃區(qū)域,并將口吃信息注入幀級(jí)隱序列,以減少文本和口吃語音之間的信息差異。”此外預(yù)測(cè)的口吃區(qū)域可以被用于自動(dòng)口吃去除過程。另外還提出了一個(gè)新的數(shù)據(jù)集,稱為“面向口吃的自動(dòng)語音編輯數(shù)據(jù)集”,該數(shù)據(jù)集包含具有時(shí)間對(duì)齊的口吃標(biāo)簽的語音數(shù)據(jù),可以用于相關(guān)語音編輯系統(tǒng)的訓(xùn)練。

呈現(xiàn)效果:該系統(tǒng)在VCTK數(shù)據(jù)集上與最新的基線系統(tǒng)進(jìn)行了對(duì)比實(shí)驗(yàn),在常規(guī)語音編輯任務(wù)中,音質(zhì)主觀評(píng)測(cè)MOS分?jǐn)?shù)提升了0.18,說話人相似度主觀評(píng)測(cè)MOS分?jǐn)?shù)提升了0.15。在該論文新收集的口吃語音數(shù)據(jù)集的實(shí)驗(yàn)中,系統(tǒng)對(duì)口吃語音具有很高的魯棒性,其口吃區(qū)域預(yù)測(cè)的幀級(jí)別準(zhǔn)確度為80.5%,能夠顯著提高口吃語音的流暢性。

一直以來,火山語音團(tuán)隊(duì)面向字節(jié)跳動(dòng)內(nèi)部各業(yè)務(wù)線,提供優(yōu)質(zhì)的語音AI技術(shù)能力以及全棧語音產(chǎn)品解決方案,并通過火山引擎對(duì)外提供服務(wù)。自 2017 年成立以來,團(tuán)隊(duì)專注研發(fā)行業(yè)領(lǐng)先的 AI 智能語音技術(shù),不斷探索AI 與業(yè)務(wù)場(chǎng)景的高效結(jié)合,以實(shí)現(xiàn)更大的用戶價(jià)值。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )