AI音為虛擬人注入靈魂 時域科技要打造音頻技術(shù)生態(tài)

很多歌迷都不得不面對一個苦澀現(xiàn)實,一些喜歡的歌手十年都出不了一張新專輯。背后的原因可能是歌手的發(fā)展規(guī)劃限制、能力高峰期已過,甚至歌手本人已經(jīng)離世。

如果有一個AI可以完全還原idol聲音演唱任何歌曲,是不是就能完成大家隨時隨地聽偶像新歌的愿望?

實際上這已不再是夢想。隨著人工智能技術(shù)的發(fā)展,相比十年前虛擬歌手生硬的合成音,當下的技術(shù)已經(jīng)能夠準確還原一個人的聲音并以此合成歌曲。

“其實還原人聲對我們來講已經(jīng)是非?;A(chǔ)的事了,我們現(xiàn)在做的事不僅是合成像人一樣自然(life-like)的歌聲、說話聲。同時,要讓AI的聲音具備極高的情感表現(xiàn)力(rich-emotion),比如讓AI可以達到甚至超過專業(yè)歌手的演唱表達,從而為人類提供情感價值。”時域科技創(chuàng)始人兼CEO郭靖告訴億邦動力,公司正在基于這個能力,為虛擬偶像、數(shù)字人提供聲音技術(shù)支持。

時域科技是一家專注于AI領(lǐng)域的科技公司,致力于讓虛擬人滿足人類的情感需求,通過“富情感”人聲合成技術(shù),賦予虛擬人表現(xiàn)情感的能力。其創(chuàng)始團隊由來自騰訊、字節(jié)等互聯(lián)網(wǎng)大廠的產(chǎn)品技術(shù)人員以及華納、傳媒大學(xué)等藝術(shù)背景的人員組成。

時域科技旗下產(chǎn)品ACE Studio能夠快速生成媲美錄音室錄制的人聲和歌曲。

作為一家要為虛擬人“注入靈魂”的公司,成立僅3年的時域科技已經(jīng)拿下了五源資本、順為資本、知春資本、萬物資本的投資,其中五源資本連續(xù)加碼四輪,包括種子輪、天使輪、preA輪、A輪。

時域科技與國內(nèi)頂級虛擬歌姬洛天依制作了AI聲音建模,為騰訊旗下的虛擬偶像“外來人員·童和光”提供的AI聲音模型登上了央視1套的五四特別晚會,在聲音合成領(lǐng)域技術(shù)能力排名世界前列。

有感情的聲音也能量產(chǎn) “AI音”為虛擬人注入“靈魂”

當下個人PC已經(jīng)發(fā)展超過40年,智能手機也已經(jīng)普及到全球大眾手中,從文字到圖片再到當下的視頻都已經(jīng)產(chǎn)生了大量的計算機框架和建模,完成了智能化改造,但有一個領(lǐng)域始終未能被計算機智能化,這就是聲音。

做為能夠觸達人類靈魂深處的交流媒介,聲音的信息傳達過程和形式極為復(fù)雜,從復(fù)雜的語言體系到豐富的演唱技巧再到所有能發(fā)出聲音的器具。聲音的互聯(lián)網(wǎng)化,截至目前也僅產(chǎn)生了語音通話、語音播客、音樂、提示音效、合成器等少數(shù)幾種。

“聲音內(nèi)容的制作周期長、成本高,其中人聲應(yīng)用范圍最廣,但好的人聲可遇不可求。有辨識度的人聲想合作排隊都排不上?!惫父嬖V億邦動力,市場缺少低成本有辨識度的人聲,既有優(yōu)質(zhì)人聲的合作周期和產(chǎn)量都無法滿足市場需求,這是阻礙聲音市場發(fā)展的核心原因。“就看音樂市場,一首歌想要走紅,有作詞作曲還不夠,有一把好嗓子唱出來才行?!?/p>

人聲通過AI技術(shù)建模制作成AI合成聲,可以解決人聲內(nèi)容的產(chǎn)量問題,這一技術(shù)近些年已經(jīng)應(yīng)用于AI智能外呼領(lǐng)域。但怎樣批量生產(chǎn)在各種情緒下都具有統(tǒng)一辨識度的AI合成人聲,并建立起海量的AI合成人聲建模?

這在技術(shù)之上,還需要大量工作。

郭靖表示:“我們可以去找有特色的人聲買斷版權(quán)、進行建模,這種方法適合企業(yè)打造自己的聲音IP。相對于這種挖掘全新優(yōu)質(zhì)人聲的方法,我們現(xiàn)在在做的是通過AI技術(shù)合成新的‘人聲’,我們叫做AI音。這種聲音既像人聲一樣順滑完美,又有著高辨識度讓人喜歡?!?/p>

時域科技在服務(wù)洛天依等客戶的同時,已經(jīng)將這一套技術(shù)產(chǎn)品化,現(xiàn)已推出聲音合成系統(tǒng)ACE Studio,用于虛擬演唱,可以幫助創(chuàng)作人在灌入詞曲的10分鐘內(nèi)甚至數(shù)秒間,生成比肩專業(yè)錄音室制作的完整歌曲。

“使用一臺普通配置電腦,單人半日就能將一首歌制作好?!惫笍娬{(diào)。這將大幅縮短音樂的制作流程,創(chuàng)作歌曲不再需要大量專業(yè)設(shè)備專業(yè)人員配合,徹底改造音樂產(chǎn)業(yè)。

相比于容易陷入版權(quán)糾紛的人聲,時域科技正在投入大量技術(shù)力量在遷移學(xué)習(xí)技術(shù)領(lǐng)域,以期批量制作出具有高辨識度的AI聲。遷移技術(shù)的核心就是通過AI技術(shù)學(xué)習(xí)具有辨識度人聲的聲音特征,然后以此為標準合成新的高辨識度AI聲。

“利用AI技術(shù)合成的聲音,已經(jīng)可以接近甚至超過人類的情感表現(xiàn)力?!惫笍娬{(diào)到。而帶有情感的聲音相當于虛擬人的靈魂,能夠幫助虛擬人快速觸達用戶的情感,能夠一定程度彌補AI智能服務(wù)中理解能力的不足,讓用戶更自然接受有缺陷的人工智能。

億級市場空間 所有應(yīng)用都可以用AI音再做一遍

當合成人聲以低成本在市場高質(zhì)高量的落地應(yīng)用之后,整體市場將會迎來一輪新的改造,互聯(lián)網(wǎng)將是第一波迎來改造。

自從進入互聯(lián)網(wǎng)時代,圖文視頻形態(tài)快速衍生出的海量產(chǎn)品形態(tài)及商業(yè)模式,在互聯(lián)網(wǎng)告訴發(fā)展的30年里,音頻相關(guān)產(chǎn)品及商業(yè)模式卻停滯不前,甚至受困于互聯(lián)網(wǎng)免費模式,原有的音頻市場快速萎縮崩塌。當下的市場里,音頻相關(guān)的內(nèi)容產(chǎn)品既不豐富,門檻又高,商業(yè)化與用戶需求不相匹配。

高質(zhì)高量低價的合成人聲將改變這一局面。

“現(xiàn)在國內(nèi)每年僅游戲行業(yè)的配音市場在10億左右,配音率在15%,游戲里大量場景和NPC角色都是沒有配音的。利用合成人聲技術(shù)配音率可以無限提高,配音率提高之后,對于聲音市場來說是一個非常大的增量空間;另一方面能還提高游戲的體驗,增強游戲的故事性、沉浸感,延長其生命周期?!惫赶騼|邦動力舉了一個可以明確市場空間的案例。

而時域科技當下服務(wù)的虛擬偶像行業(yè),更是想象力巨大的潛力市場。

“為每個虛擬偶像、數(shù)字人都賦予獨特而高情感表現(xiàn)力的AI聲音,可以不僅在虛擬偶像、虛擬歌手、數(shù)字人領(lǐng)域發(fā)揮重要價值,更可以改變游戲、社交、電商領(lǐng)域的格局,讓AI更好的服務(wù)于人,為人類提供情感價值。而我們的技術(shù)在打造這樣的AI聲音基礎(chǔ)設(shè)施,是具有很低的邊際成本的?!惫父嬖V

虛擬偶像背后IP價值是難以想象的金礦,而AI音也帶來了超越傳統(tǒng)音樂工業(yè)的商業(yè)模式。對比真人偶像低產(chǎn)量和不確定性,以AI音為基礎(chǔ)的虛擬偶像就相當于一個個平臺,創(chuàng)作人可以隨時創(chuàng)作歌曲并使用工具讓虛擬偶像演唱出來。AI音合成工具直接將音樂創(chuàng)作人從冗長的行業(yè)運作機制中解放出來,隨時隨地將自己的創(chuàng)作靈感通過技術(shù)和互聯(lián)網(wǎng)傳播給全球每一個人。同時,大量具有高辨識度和受人喜愛的AI音,提高了新歌的打爆幾率,擴大了創(chuàng)作人的商業(yè)價值。

這也僅僅是音樂市場的變化。面向教育、心理健康、陪伴、游戲和影視等對聲音有著高要求的市場,使用AI音將能研發(fā)出更多專業(yè)應(yīng)用。例如:影視行業(yè)可以大幅減少配音演員,縮短工作流程;游戲行業(yè)可以通過大幅增加NPC角色配音,來豐富游戲的故事性;即便是當下火熱的網(wǎng)文小說領(lǐng)域為了獲得更大的用戶群,還需要找專業(yè)配音團隊進行音頻化,而在AI音技術(shù)下,網(wǎng)文小說作家可以省去所有中間步驟,從一開始就是基于音頻合成軟件創(chuàng)作聲音劇。基于聲音劇,動漫創(chuàng)作者、演員可以自發(fā)的進行二次創(chuàng)作,低成本實現(xiàn)影視劇體驗。

郭靖表示,時域科技正在研發(fā)多語言版本的AI音合成器。

“Yamaha Vocaloid當年做虛擬歌手的初心,是提供標準的音源工具賦能創(chuàng)作者,節(jié)約錄音的成本和人力的不確定性。但由于當時的技術(shù)局限,合成音比較機械,雖然誕生了初音未來、洛天依等優(yōu)秀的虛擬歌手。但成為標準音源工具的初心并沒有實現(xiàn)。而今天的技術(shù)做出的AI聲音,可以重新拾起Vocaloid當年的議題,讓AI聲音成為歌曲、游戲、影視等有聲內(nèi)容創(chuàng)作中的標準生產(chǎn)力工具?!?/p>

以聲音為核心的交互模式,能用更低的軟硬件成本為用戶提供服務(wù),畢竟智能音箱價格早已降到百元以下。而結(jié)合AI音技術(shù)能將更精確的情緒傳達給用戶,相比各種屏幕中的圖形交互界面,也是一種更自然更健康的互聯(lián)網(wǎng)體驗。

接下來的AI音的應(yīng)用生態(tài)會是什么樣?郭靖表示:“所有跟聲音有關(guān)的媒介,未來都會有大量AI音的存在?!?/p>

直達心智的AI營銷來了?虛擬人唱跳帶貨將近

打造專業(yè)的應(yīng)用服務(wù)永遠是最難的,而基于現(xiàn)有技術(shù)帶來的高質(zhì)高量低成本特性,來為商家品牌做商業(yè)化服務(wù),則有更多簡單路徑。

時域科技一邊在研發(fā)更先進的技術(shù)模型以調(diào)教出更優(yōu)秀的AI音,一邊正緊鑼密鼓地推出商業(yè)化AI音合成服務(wù)ACE Studio,另一邊也在為各種企業(yè)定制專屬AI音。

“用戶可以按月按年來訂閱我們的ACE Studio,一年的費用幾千塊,最終價格我們還沒有定。企業(yè)定制專屬AI音報價則在10萬到幾十萬不等,因為有些企業(yè)只需要將合作的配音老師的聲音做AI建模,有些則會要求重新合成新的聲音,成本是不一樣的?!惫副硎?。

在當下商家品牌在直播短視頻中投放日益增高的背景下,擁有一個優(yōu)質(zhì)的能夠代表企業(yè)形象且能保持高質(zhì)高量低成本生產(chǎn)的聲音,對于企業(yè)來說將是一筆恒定的品牌IP資產(chǎn)。AI音的出現(xiàn)既能保證企業(yè)視頻內(nèi)容中高信息量地輸出企業(yè)宣傳信息,又能保證視頻制作的質(zhì)量和數(shù)量,對于企業(yè)來說,將成為必不可少的運營工具。

實際上不止如此。

去年蜜雪冰城靠著一首洗腦歌曲成功在全網(wǎng)刷屏,從而成功破圈,成為國內(nèi)知名品牌。這是國內(nèi)大部分品牌尚未嘗試過的音樂營銷方法。相比當下流行的圖文視頻廣告形式,音樂營銷更容易觸達用戶心智,在潛意識里形成長久的記憶點。這種優(yōu)質(zhì)的營銷媒介,因為成本和爆款幾率問題,在國內(nèi)鮮有嘗試。蜜雪冰城也是靠著龐大的線下店面體量,才得以進行實踐。

而在AI音合成技術(shù)的支持下,音樂營銷的可能性被大大提高。

“基于我們的工具的話,制作一首專業(yè)歌曲只需要半人日,成本可以壓到很低。這個品質(zhì)是跟錄音棚的效果是一樣的,當然這個是不考慮創(chuàng)作全新詞曲這種不確定周期的?!惫副硎?。

而實際上當下市場中存在大量公共版權(quán)曲譜,蜜雪冰城的洗腦歌曲即是采用公共版權(quán)的美國民謠《Oh!Suzanna》,公共版權(quán)的好處就是無論用于何種用途都無需支付版權(quán)費用,且可隨意二次加工。

利用公共版權(quán)曲譜,商家品牌足以在直播短視頻平臺做好音樂營銷。而已有公共版權(quán)的曲譜,運營只需填詞就可直接合成歌曲。時域科技目前推出的C端APP ACE虛擬歌姬,就可以在現(xiàn)有歌曲中以簡單填詞的玩法十分鐘內(nèi)做出一首全新歌曲。

這種模式配合虛擬人唱跳玩法制作視頻內(nèi)容,將進一步提升商業(yè)價值。而與虛擬人直播帶貨模式結(jié)合之后,則可以以唱跳的形式回答用戶提問,宣傳產(chǎn)品特色,形如2021年爆火的美少女蹦迪帶貨。

當下虛擬演唱會市場正在快速成熟,虛擬人唱跳帶貨結(jié)合主題虛擬演唱會,距離落地并不遙遠。

針對接下來的市場發(fā)展,郭靖表示:“以富情感的AI聲音合成為切入,我們會不斷探索AI滿足人類情感需求的應(yīng)用場景,最終成為虛擬人與人類社交必不可少的基礎(chǔ)設(shè)施,推動AI與人類共生的時代到來?!?/p>

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-05-31
AI音為虛擬人注入靈魂 時域科技要打造音頻技術(shù)生態(tài)
利用公共版權(quán)曲譜,商家品牌足以在直播短視頻平臺做好音樂營銷。而已有公共版權(quán)的曲譜,運營只需填詞就可直接合成歌曲。時域科技可以在現(xiàn)有歌曲中以簡單填詞的玩法十分鐘內(nèi)做出一首全新歌曲。

長按掃碼 閱讀全文