国精品无码A区一区二区,精品一区高潮喷吹在线播放,91色色

隨著社會進步和技術(shù)創(chuàng)新的日益加快，“黑科技”的產(chǎn)業(yè)運用持續(xù)加速，對人們生活的影響與改變也不斷加深。

近期，業(yè)內(nèi)領(lǐng)先的搜狗AI語音合成再突破，創(chuàng)新提出“StyleTTS端到端合成框架”，將語音合成技術(shù)再次向前推進一步，在準確傳遞信息之外，更重視個性化及情感表達，讓合成的語音更具表現(xiàn)力，更“逼真”。搜狗聯(lián)合搜狐新聞客戶端于5月推出的演員柳巖同款明星“數(shù)字人”就是基于該技術(shù)的支持，實現(xiàn)了無縫切換河南、湖南、四川、陜西、東北等多種方言的能力。目前，該技術(shù)也為騰訊QQ瀏覽器“小說AI聽書”功能提供支持，助力其實現(xiàn)了聽書、聽小說的全新升級。

搜狗語音AI業(yè)內(nèi)領(lǐng)先，幫助“聽見”更好世界

作為機器的“嘴巴”，語音合成已經(jīng)被廣泛應(yīng)用于新聞播報、小說閱讀、地圖導航、人機交互等諸多場景中。從2010年以前經(jīng)典的統(tǒng)計機器學習方法，到DNN/LSTM為代表的深度神經(jīng)網(wǎng)絡(luò)，再到Tacotron/FastSpeech/Durian等具有更強建模能力的端到端模型，結(jié)合神經(jīng)聲碼器的突破，語音合成技術(shù)的發(fā)展正在從“穩(wěn)定可懂”迭代到“更高表現(xiàn)力和逼真度，甚至媲美真人錄音的水平”。

搜狗AI語音合成有著雄厚的技術(shù)積累，2018年曾獲得Blizzard Challenge語音合成挑戰(zhàn)賽停頓和可懂兩項子任務(wù)第一名，2019年推出首個真人變聲功能實現(xiàn)“任意說話人聲音(源)向指定說話人聲音(目標)的實時變換”，展現(xiàn)了搜狗在語音表征學習、語音合成等領(lǐng)域的多個關(guān)鍵性技術(shù)突破。此外，以新華社AI合成主播“新小浩”和自有形象合成主播“雅妮”為代表的搜狗數(shù)字人也已升級至“第七代”，這些AI數(shù)字人的聲音真實度、表現(xiàn)力已可媲美真人，展現(xiàn)了在多模態(tài)合成領(lǐng)域的行業(yè)領(lǐng)先性。

在此基礎(chǔ)上，搜狗又提出了StyleTTS端到端合成框架，該框架主要包含Encoder文本特征編碼、Prosody Extractor/Predictor韻律特征編碼與建模、Decoder音色建模三大模塊，通過不同人(聲)的韻律模型和音色模型重組搭配，能夠?qū)崿F(xiàn)跨發(fā)音人的風格控制合成，并擁有抑揚頓挫的韻律節(jié)奏和豐富立體的情感表達。此外，模型還加入說話人特征編碼、語種特征編碼以及GAN對抗學習等經(jīng)典方法，進一步提升建模能力。相較而言，傳統(tǒng)語音合成技術(shù)的重點在于“信息的正確傳遞”，而搜狗AI語音合成技術(shù)除了正確傳遞信息，更重視個性化與情感共鳴，合成效果也具有更高的自然度、辨識度，同時還能實現(xiàn)對語音轉(zhuǎn)換的風格、口音、情感等進行靈活選擇與控制，從而滿足不同場景的需求。

“聽見”更好的世界，StyleTTS端到端合成框架再創(chuàng)搜狗語音新突破

(圖：搜狗StyleTTS結(jié)構(gòu)圖)

以對騰訊QQ瀏覽器“AI聽書”的支持為例，區(qū)別于其他機器合成聲音的機械式發(fā)音，搜狗AI合成語音節(jié)奏更分明、情緒更自然，能夠更好的解放雙眼，而除了堪比真人的高保真音色，支持“方言語音”、“動漫語音”等的選擇，在讀書過程中，用戶還可以根據(jù)場景和心情進行播單設(shè)置、語速調(diào)節(jié)等個性化操作，這些都能夠提供更好的使用體驗，幫助用戶“聽見”更好的世界。

聲音+產(chǎn)業(yè)構(gòu)建，前瞻“布局”未來生活

“聲音+”市場呈爆發(fā)式增長，已步入千億量級市場。數(shù)據(jù)顯示，在閱讀領(lǐng)域，“看”已不是閱讀的唯一方式，十個人當中就超過兩個人在聽書;在音頻領(lǐng)域，有聲書實現(xiàn)了從貢獻流量到商業(yè)變現(xiàn)的路徑打通，正在成長為喜馬拉雅FM等各大音頻平臺的支撐或主流業(yè)務(wù);在智能硬件領(lǐng)域，僅智能音箱一項，未來五年銷量將突破3億臺超過PC規(guī)模……未來10 年，“聲音+”整合產(chǎn)業(yè)規(guī)模將達到萬億美金級別。

隨著智能社會的到來，聲音作為最自然、最便利的人機交互方式，上接互聯(lián)網(wǎng)、下接物聯(lián)網(wǎng)、中間連接人工智能，既是出口也是入口，而作為“聲音+”產(chǎn)業(yè)的基礎(chǔ)設(shè)施之一，語音合成孕育著一個巨大的藍海市場。

對此，搜狗已經(jīng)進行前瞻性布局和產(chǎn)業(yè)化落地。在AI語音合成技術(shù)方面，圍繞“自然交互+知識計算”這一AI理念，搜狗不斷加大投入構(gòu)建技術(shù)“護城河”，持續(xù)累積領(lǐng)先優(yōu)勢;在創(chuàng)新性平臺方面，搜狗打造了“搜狗聲咖”、“搜狗AI開放平臺”等，基于語音技術(shù)提供語音識別、語音合成、語義理解、同聲傳譯等AI服務(wù);在產(chǎn)業(yè)落地方面，搜狗不僅積極推動與清華天工研究院等學術(shù)機構(gòu)，與暢游、千龍網(wǎng)、學而思等商業(yè)機構(gòu)，乃至于與黃子韜、梁寧等明星和意見領(lǐng)袖等的合作，運用了搜狗語音技術(shù)的搜狗AI合成主播也被廣泛使用于傳媒、法律、金融等各行各業(yè)。

隨著時代發(fā)展與科技進步，智能語音將會變得越來越普及，得益于搜狗領(lǐng)先的人工智能技術(shù)，以及在語言領(lǐng)域、聲音領(lǐng)域的強大積累，搜狗語音能夠提供一整套科學、高效的“AI語音解決方案”，為人賦能，幫助人們更好的進行“有聲創(chuàng)作”、幫助各種機構(gòu)更好的提供“有聲服務(wù)”，從根本上推動“聲音產(chǎn)業(yè)”和“人工智能產(chǎn)業(yè)”的發(fā)展，從這個意義上來說，其未來發(fā)展具有廣闊的空間。

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

“聽見”更好的世界，StyleTTS端到端合成框架再創(chuàng)搜狗語音新突破

“聽見”更好的世界，StyleTTS端到端合成框架再創(chuàng)搜狗語音新突破