“聽見”更好的世界,StyleTTS端到端合成框架再創(chuàng)搜狗語音新突破

隨著社會進(jìn)步和技術(shù)創(chuàng)新的日益加快,“黑科技”的產(chǎn)業(yè)運用持續(xù)加速,對人們生活的影響與改變也不斷加深。

近期,業(yè)內(nèi)領(lǐng)先的搜狗AI語音合成再突破,創(chuàng)新提出“StyleTTS端到端合成框架”,將語音合成技術(shù)再次向前推進(jìn)一步,在準(zhǔn)確傳遞信息之外,更重視個性化及情感表達(dá),讓合成的語音更具表現(xiàn)力,更“逼真”。搜狗聯(lián)合搜狐新聞客戶端于5月推出的演員柳巖同款明星“數(shù)字人”就是基于該技術(shù)的支持,實現(xiàn)了無縫切換河南、湖南、四川、陜西、東北等多種方言的能力。目前,該技術(shù)也為騰訊QQ瀏覽器“小說AI聽書”功能提供支持,助力其實現(xiàn)了聽書、聽小說的全新升級。

搜狗語音AI業(yè)內(nèi)領(lǐng)先,幫助“聽見”更好世界

作為機(jī)器的“嘴巴”,語音合成已經(jīng)被廣泛應(yīng)用于新聞播報、小說閱讀、地圖導(dǎo)航、人機(jī)交互等諸多場景中。從2010年以前經(jīng)典的統(tǒng)計機(jī)器學(xué)習(xí)方法,到DNN/LSTM為代表的深度神經(jīng)網(wǎng)絡(luò),再到Tacotron/FastSpeech/Durian等具有更強建模能力的端到端模型,結(jié)合神經(jīng)聲碼器的突破,語音合成技術(shù)的發(fā)展正在從“穩(wěn)定可懂”迭代到“更高表現(xiàn)力和逼真度,甚至媲美真人錄音的水平”。

搜狗AI語音合成有著雄厚的技術(shù)積累,2018年曾獲得Blizzard Challenge語音合成挑戰(zhàn)賽停頓和可懂兩項子任務(wù)第一名,2019年推出首個真人變聲功能實現(xiàn)“任意說話人聲音(源)向指定說話人聲音(目標(biāo))的實時變換”,展現(xiàn)了搜狗在語音表征學(xué)習(xí)、語音合成等領(lǐng)域的多個關(guān)鍵性技術(shù)突破。此外,以新華社AI合成主播“新小浩”和自有形象合成主播“雅妮”為代表的搜狗數(shù)字人也已升級至“第七代”,這些AI數(shù)字人的聲音真實度、表現(xiàn)力已可媲美真人,展現(xiàn)了在多模態(tài)合成領(lǐng)域的行業(yè)領(lǐng)先性。

在此基礎(chǔ)上,搜狗又提出了StyleTTS端到端合成框架,該框架主要包含Encoder文本特征編碼、Prosody Extractor/Predictor韻律特征編碼與建模、Decoder音色建模三大模塊,通過不同人(聲)的韻律模型和音色模型重組搭配,能夠?qū)崿F(xiàn)跨發(fā)音人的風(fēng)格控制合成,并擁有抑揚頓挫的韻律節(jié)奏和豐富立體的情感表達(dá)。此外,模型還加入說話人特征編碼、語種特征編碼以及GAN對抗學(xué)習(xí)等經(jīng)典方法,進(jìn)一步提升建模能力。相較而言,傳統(tǒng)語音合成技術(shù)的重點在于“信息的正確傳遞”,而搜狗AI語音合成技術(shù)除了正確傳遞信息,更重視個性化與情感共鳴,合成效果也具有更高的自然度、辨識度,同時還能實現(xiàn)對語音轉(zhuǎn)換的風(fēng)格、口音、情感等進(jìn)行靈活選擇與控制,從而滿足不同場景的需求。

“聽見”更好的世界,StyleTTS端到端合成框架再創(chuàng)搜狗語音新突破

(圖:搜狗StyleTTS結(jié)構(gòu)圖)

以對騰訊QQ瀏覽器“AI聽書”的支持為例,區(qū)別于其他機(jī)器合成聲音的機(jī)械式發(fā)音,搜狗AI合成語音節(jié)奏更分明、情緒更自然,能夠更好的解放雙眼,而除了堪比真人的高保真音色,支持“方言語音”、“動漫語音”等的選擇,在讀書過程中,用戶還可以根據(jù)場景和心情進(jìn)行播單設(shè)置、語速調(diào)節(jié)等個性化操作,這些都能夠提供更好的使用體驗,幫助用戶“聽見”更好的世界。

聲音+產(chǎn)業(yè)構(gòu)建,前瞻“布局”未來生活

“聲音+”市場呈爆發(fā)式增長,已步入千億量級市場。數(shù)據(jù)顯示,在閱讀領(lǐng)域,“看”已不是閱讀的唯一方式,十個人當(dāng)中就超過兩個人在聽書;在音頻領(lǐng)域,有聲書實現(xiàn)了從貢獻(xiàn)流量到商業(yè)變現(xiàn)的路徑打通,正在成長為喜馬拉雅FM等各大音頻平臺的支撐或主流業(yè)務(wù);在智能硬件領(lǐng)域,僅智能音箱一項,未來五年銷量將突破3億臺超過PC規(guī)模……未來10 年,“聲音+”整合產(chǎn)業(yè)規(guī)模將達(dá)到萬億美金級別。

隨著智能社會的到來,聲音作為最自然、最便利的人機(jī)交互方式,上接互聯(lián)網(wǎng)、下接物聯(lián)網(wǎng)、中間連接人工智能,既是出口也是入口,而作為“聲音+”產(chǎn)業(yè)的基礎(chǔ)設(shè)施之一,語音合成孕育著一個巨大的藍(lán)海市場。

對此,搜狗已經(jīng)進(jìn)行前瞻性布局和產(chǎn)業(yè)化落地。在AI語音合成技術(shù)方面,圍繞“自然交互+知識計算”這一AI理念,搜狗不斷加大投入構(gòu)建技術(shù)“護(hù)城河”,持續(xù)累積領(lǐng)先優(yōu)勢;在創(chuàng)新性平臺方面,搜狗打造了“搜狗聲咖”、“搜狗AI開放平臺”等,基于語音技術(shù)提供語音識別、語音合成、語義理解、同聲傳譯等AI服務(wù);在產(chǎn)業(yè)落地方面,搜狗不僅積極推動與清華天工研究院等學(xué)術(shù)機(jī)構(gòu),與暢游、千龍網(wǎng)、學(xué)而思等商業(yè)機(jī)構(gòu),乃至于與黃子韜、梁寧等明星和意見領(lǐng)袖等的合作,運用了搜狗語音技術(shù)的搜狗AI合成主播也被廣泛使用于傳媒、法律、金融等各行各業(yè)。

隨著時代發(fā)展與科技進(jìn)步,智能語音將會變得越來越普及,得益于搜狗領(lǐng)先的人工智能技術(shù),以及在語言領(lǐng)域、聲音領(lǐng)域的強大積累,搜狗語音能夠提供一整套科學(xué)、高效的“AI語音解決方案”,為人賦能,幫助人們更好的進(jìn)行“有聲創(chuàng)作”、幫助各種機(jī)構(gòu)更好的提供“有聲服務(wù)”,從根本上推動“聲音產(chǎn)業(yè)”和“人工智能產(chǎn)業(yè)”的發(fā)展,從這個意義上來說,其未來發(fā)展具有廣闊的空間。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )