自動語音合成對于眾多智能應用十分重要,其中聲學特征轉換為音頻輸出的聲碼器在語音合成過程中具有十分重要的作用。雖然WaveGlow可以實現并行化的語音合成,但其龐大的計算量使得本地和邊緣設備無法承受,基于云計算的語音合成使得網絡延時和用戶隱私問題無法有效解決。
為了解決語音合成中計算效率的問題,來自加州大學伯克利分校的研究人員提出了一種超輕量級的聲碼器模型SqueezeWave,通過對WaveGlow的結構和計算方法進行優(yōu)化大幅提升了模型計算效率,相較于WaveGlow減小了61-214倍的計算量,在眾多邊緣設備上——甚至是樹莓派上——都能有效部署實現高效的實時語音合成。
一、TTS從云端向邊緣
從車載地圖應用到語音助手,眾多設備都開始采用了豐富的語音交互技術來處理各種任務。但想要得到高質量的文本到語音轉換,需要復雜的機器學習模型和龐大的云計算資源支撐。但隨著硬件的發(fā)展,邊緣設備的計算能力大幅提升使得語音合成模型在本地運行成為可能。其次消費者對于隱私的擔憂與日俱增,在移動端運行機器學習模型消除用戶數據向云端泄漏的威脅。此外隨著消費者對于語音助手的依賴逐漸加深,對于用戶體驗的關注也逐漸增加。為了提供低延時的語音服務,降低網絡連接質量帶來的影響,本地運行的語音合成模型比云端模型更有優(yōu)勢。
典型的現代語音合成模型主要包含兩個部分:合成器和聲碼器。其中合成器用于從文字輸入生成聲學特征,而后利用聲碼器從聲學特征生成波形輸出。現存的高質量語音合成器都需要消耗十分可觀的計算資源,SqueezeWave的主要目的在于提升合成器的效率。例如WaveNet及其變體基于自回歸的方法,意味著每一個生成的樣本都依賴于先前的樣本,這種串行的處理方式阻礙了硬件的并行加速;而基于流的WaveGlow可以在每一次前傳中生成許多樣本,雖然這一方法具有并行優(yōu)勢但卻需要消耗十分巨大的計算量。例如生成1s22kHz的語音需要消耗229G MACs的計算量,遠遠超過了移動端處理器所能承受的范圍。盡管WaveFlow可以在最新的V100顯卡上達到超過實時的性能,但卻不適合在邊緣設備部署。
在這篇論文中研究人員提出了一種輕量級的基于流的聲碼器SqueezeWave用于邊緣設備的語音合成。研究人員重新設計了WaveGlow的架構,通過重整音頻張量、采用深度可分離卷積以及相關優(yōu)化使其比WaveGlow少消耗61-214倍的計算量,可在筆記本端實現每秒123-303K樣本的生成,在樹莓派上3B+上也能實現15.6K的實時水平。
二、重新審視WaveGlow的計算復雜度
與直接進行卷積操作不同,WaveGlow首先將鄰近的樣本聚類構建多通道的輸入,其中L為時域維度的長度,Cg為每個時間步上的聚類組合的樣本數量。波形中的樣本總數量為.波形隨后被一系列雙邊映射進行轉換,其中每一個都會利用的輸入得到輸出。在每個雙邊映射中,輸入信號首先被可逆的逐點卷積處理,而后將結果沿通道拆分為和。其中被用于計算仿射耦合系數。其中將被應用于的后續(xù)計算。而則為類似wavenet的函數,為編碼音頻的梅爾譜Lm為梅爾譜的時間長度,Cm為頻率分量的數目。隨后仿射變換層將通過下式計算:其中代表逐元素相乘。最終將在通道方向上組合得到最后的輸出。
WaveGlow最主要的計算量來自于WN函數,其計算流程如上圖所示。輸入首先通過逐點卷積進行處理(圖中start),卷積使得的通道數從增加到非常大的數目,在WaveGlow中start的輸出維度為256維。隨后核為3的一維膨脹卷積將繼續(xù)對上述結果進行處理(圖中in_layer所示)同時梅爾譜也被饋入到網絡中。由于梅爾譜的時域長度遠小于波形長度,所以需要對其進行上采樣來進行維度匹配。
而后in_layer和cond_layer輸出按照WaveNet的方式通過門函數進行合并,隨后傳輸到res_skip_layer。其輸出長度為L=2000,通道數為512.隨后將按照通道拆分為兩部分。這一結構將重復八次,并在最后的res_skip_layer輸出與end進行逐點卷積,計算出轉換因子
并將通道從512壓縮到8。在WaveGlow的源碼中,每秒的計算量為229G MACs,其中in_layer占據了47%,cond_layer占據了39%, res_skip_layer則為14%。這對這樣的情況,研究人員將對原始的網絡結構進行改進以減少計算量提高計算效率。
12下一頁>(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )