商湯如影AI隨形,打造高質(zhì)量、低門(mén)檻的數(shù)字人視頻生成平臺(tái)

隨著移動(dòng)互聯(lián)網(wǎng)的普及,視頻已經(jīng)成為人與人互動(dòng)交流、品牌開(kāi)展?fàn)I銷(xiāo)活動(dòng)的重要媒介。但無(wú)論是短視頻的制作還是視頻直播,都需要在內(nèi)容策劃和拍攝、剪輯等環(huán)節(jié)消耗大量資源和精力。如今,在AI大模型的技術(shù)革新下,AI數(shù)字人視頻生成技術(shù)成為降低視頻創(chuàng)作成本,突破質(zhì)量和效率天花板的有效路徑。

前不久,商湯科技公布了其自主研發(fā)的“日日新SenseNova”大模型體系,并推出基于該體系下的“商湯如影SenseAvatar”AI數(shù)字人視頻生成平臺(tái)。該平臺(tái)基于AI數(shù)字人視頻生成算法、語(yǔ)言大模型、AI文生圖、AIGC等多種能力,能夠輕松實(shí)現(xiàn)高質(zhì)量、高效率的數(shù)字人視頻內(nèi)容創(chuàng)作,推動(dòng)視頻內(nèi)容創(chuàng)作的范式革新。

 image001.gif 

如影數(shù)字人生成方案只需一次真人素材錄入,就能生成超寫(xiě)實(shí)的數(shù)字分身,實(shí)現(xiàn)視頻制作效率的指數(shù)級(jí)提升。作為全棧式的AI數(shù)字人視頻生成平臺(tái),“如影”平臺(tái)旨在幫助企業(yè)和個(gè)人輕松開(kāi)展數(shù)字人短視頻、直播等內(nèi)容創(chuàng)作,同時(shí)也可為教育培訓(xùn)、企業(yè)宣傳,娛樂(lè)文化等領(lǐng)域提供視頻解決方案,提高品牌知名度和用戶(hù)粘性。

大模型+大算力,讓數(shù)字人生成效果好、速度快

“大模型”和“大算力”是實(shí)現(xiàn)高質(zhì)量、高效率數(shù)字人生成的核心驅(qū)動(dòng)力。在商湯“日日新SenseNova”大模型體系和AI大裝置SenseCore的支持下,“如影”平臺(tái)在生成效率和效果方面雙雙突破,引領(lǐng)行業(yè)前沿。

出眾的生成效果源于大模型強(qiáng)大的數(shù)據(jù)學(xué)習(xí)能力。通過(guò)對(duì)海量真人基礎(chǔ)數(shù)據(jù)的有效學(xué)習(xí),“如影”平臺(tái)生成的數(shù)字人外貌更真實(shí)、動(dòng)作表情更自然,對(duì)輸入的素材也更加魯棒。其中真人相似度高達(dá)90%~95%,口型匹配度可達(dá)95%,遠(yuǎn)超業(yè)界平均水平。大模型更強(qiáng)的泛化能力,也讓“如影”平臺(tái)能夠更好地支持不同類(lèi)型、不同風(fēng)格的數(shù)字人生成,并覆蓋更多種語(yǔ)言。

高效的生成速度則依托全自動(dòng)化的處理流程和AI大裝置強(qiáng)大的算力利用能力。通過(guò)打通從上傳視頻、處理數(shù)據(jù)、訓(xùn)練模型、轉(zhuǎn)換模型到模型部署的自動(dòng)化閉環(huán),“如影”平臺(tái)可將傳統(tǒng)視頻制作流程中的人工處理時(shí)間大幅減少90%,模型訓(xùn)練時(shí)間減少60%,只需1天,即能完成各類(lèi)定制數(shù)字人訓(xùn)練。結(jié)合商湯AI大裝置SenseCore的強(qiáng)大算力和并發(fā)處理效率,平臺(tái)更可以做到數(shù)字人的批量生產(chǎn),同時(shí)滿(mǎn)足不同客戶(hù)的定制化需求。

依托大模型和大算力,無(wú)論是2D數(shù)字人還是3D數(shù)字人的視頻生成,“如影”平臺(tái)均能夠?yàn)榭蛻?hù)提供低門(mén)檻的創(chuàng)作工具,賦能客戶(hù)將質(zhì)量、效率發(fā)揮到極致。

僅需5分鐘真人視頻,就能打造超寫(xiě)實(shí)2D數(shù)字分身

2D數(shù)字人如同用戶(hù)的數(shù)字分身,可以代替真人出鏡開(kāi)展視頻創(chuàng)作,實(shí)現(xiàn)效率躍遷。基于強(qiáng)大領(lǐng)先的AI生成能力和便捷易用的使用體驗(yàn),“如影”平臺(tái)僅需一段5分鐘手機(jī)拍攝的真人視頻素材,就能生成動(dòng)作、表情、口型都能如真人一般自然逼真,且多語(yǔ)種精通的數(shù)字分身。平臺(tái)還打通了從文生文、文生視頻的整個(gè)流程,通過(guò)文字驅(qū)動(dòng),即可自由無(wú)門(mén)檻地開(kāi)展各類(lèi)視頻內(nèi)容制作。

 image002.gif 

以文案創(chuàng)作為例,用戶(hù)只需要輸入粗略想法,平臺(tái)就會(huì)自動(dòng)生成相關(guān)視頻文案。從換裝到換背景,素材選擇同樣靈活自由。用戶(hù)不僅可以使用平臺(tái)內(nèi)置的豐富的已有素材或上傳自己的素材,還可以借助平臺(tái)的AI文生圖能力,給定相應(yīng)的提示詞,生成“腦中所想”的其他素材,并直接應(yīng)用于視頻創(chuàng)作。

 image003.gif 

對(duì)于有跨國(guó)交流需求的用戶(hù),“如影”平臺(tái)還支持多語(yǔ)言文本生成及多語(yǔ)言語(yǔ)音合成,涵蓋超過(guò)100個(gè)國(guó)家和地區(qū)。用戶(hù)通過(guò)簡(jiǎn)單操作,就可直接將生成好的視頻切換成不同語(yǔ)言版本,發(fā)音、口型自動(dòng)匹配,輕松完成“本土化”內(nèi)容創(chuàng)作。

image004.png 

創(chuàng)建鮮活飽滿(mǎn)的3D數(shù)字人

3D數(shù)字人虛擬主播或“虛擬IP”,有著更靈活廣泛的使用場(chǎng)景,但制作成本更高。

和現(xiàn)實(shí)世界的交互,不僅需要一顆聰明的大腦來(lái)生成可靠的文字,還需要通過(guò)靈動(dòng)自然、語(yǔ)義契合的動(dòng)作,來(lái)增加3D數(shù)字人的表現(xiàn)力和感染力。

基于商湯原創(chuàng)OpenXRLab擴(kuò)展現(xiàn)實(shí)平臺(tái)的領(lǐng)先算法,打造了一套多模態(tài)的動(dòng)作生成解決方案,無(wú)需專(zhuān)業(yè)設(shè)備進(jìn)行動(dòng)捕,就能夠根據(jù)文字語(yǔ)義和聲音韻律生成風(fēng)格多樣、語(yǔ)義準(zhǔn)確、長(zhǎng)時(shí)間自然連貫的表情和動(dòng)作。

 image005.jpg 

得益于全棧生成式AI能力,讓用戶(hù)輕松開(kāi)啟直播之旅?;谏虦恼Z(yǔ)言大模型,針對(duì)直播帶貨場(chǎng)景進(jìn)行了優(yōu)化,可以根據(jù)產(chǎn)品內(nèi)容快速生成多風(fēng)格的帶貨文本,配合多風(fēng)格的聲音及動(dòng)作生成,讓你一鍵擁有百變主播。借助商湯大模型的精細(xì)化3D物件生成能力和文生圖大模型,數(shù)字人的交互能力和直播場(chǎng)景中的內(nèi)容元素亦可持續(xù)拓展。 

直播過(guò)程中,數(shù)字人還可以自主完成帶貨、粉絲互動(dòng)、疑難解答等實(shí)時(shí)交互,以更低的運(yùn)營(yíng)成本實(shí)現(xiàn)24小時(shí)直播運(yùn)營(yíng),全天候觸達(dá)用戶(hù)。 

除視頻、直播場(chǎng)景外,數(shù)字人也可廣泛適用于文旅、展館、金融、教育、商超等各類(lèi)線下場(chǎng)景,提供多樣化服務(wù)。在今年上海車(chē)展期間,商湯展示了數(shù)字人在車(chē)艙場(chǎng)景的應(yīng)用,既能自動(dòng)提煉郵件關(guān)鍵信息,還會(huì)整理會(huì)議紀(jì)要,是一位智能有溫度的絕佳行車(chē)伴侶。

 image006.jpg 

在推動(dòng)AI數(shù)字人視頻生成技術(shù)創(chuàng)新和應(yīng)用的過(guò)程中,商湯還致力于打造“可信數(shù)字人”,在可信原則的指導(dǎo)下推動(dòng)虛擬人市場(chǎng)健康、可持續(xù)、高質(zhì)量發(fā)展。每個(gè)在“如影”平臺(tái)創(chuàng)作的數(shù)字人,都經(jīng)過(guò)了嚴(yán)格的可信認(rèn)證,確保其不被盜用或篡改。同時(shí),由中國(guó)信通院牽頭,商湯科技參編的《可信虛擬人生成內(nèi)容管理系統(tǒng)技術(shù)要求》已完成立項(xiàng),將于年內(nèi)出臺(tái)團(tuán)體標(biāo)準(zhǔn),推動(dòng)可信數(shù)字人行業(yè)標(biāo)準(zhǔn)建立,讓數(shù)字人生成內(nèi)容與真人意愿不“脫鉤”,數(shù)字人產(chǎn)業(yè)快速發(fā)展不從監(jiān)管“脫韁”,肖像權(quán)、所有權(quán)與現(xiàn)實(shí)約束不“脫節(jié)”。 

目前,“如影SenseAvatar”平臺(tái)已面向多家企業(yè)開(kāi)放服務(wù),幫助各行各業(yè)突破原有內(nèi)容制作模式的瓶頸,打破內(nèi)容創(chuàng)意的天花板,讓更易用、更智能的數(shù)字人生成技術(shù),成為智能時(shí)代的全新生產(chǎn)力工具。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )