隨著AIGC時(shí)代的到來,數(shù)字人生成技術(shù)正逐漸成為焦點(diǎn)。出門問問自主研發(fā)的照片數(shù)字人引擎,憑借持續(xù)的技術(shù)創(chuàng)新,讓用戶僅需一張照片就能快速生成可以說話、講故事的動(dòng)態(tài)視頻。目前,這一引擎已成功應(yīng)用于國內(nèi)產(chǎn)品「奇妙元」以及國際產(chǎn)品「DupDub」。
出門問問不斷迭代照片數(shù)字人引擎
自2023年推出WetaAvatar 3.0數(shù)字人系統(tǒng)及其照片數(shù)字人引擎以來,出門問問憑借其易用性和生動(dòng)的生成效果,迅速贏得了用戶的青睞,進(jìn)行了形式豐富的內(nèi)容創(chuàng)作。為了進(jìn)一步提升用戶體驗(yàn),我們推出了最新一代的照片數(shù)字人引擎——WetaAvatar 4.0-Talking Photo。這一版本不僅優(yōu)化了視頻生成的清晰度和真實(shí)感,還顯著加快了合成過程。同時(shí),我們也在積極開發(fā)照片數(shù)字人實(shí)時(shí)對(duì)話引擎,不斷推動(dòng)技術(shù)創(chuàng)新的邊界。
在新一代照片數(shù)字人引擎WetaAvatar 4.0-Talking Photo中,用戶可以體驗(yàn)到以下優(yōu)化:
合成速度翻倍:合成速度顯著提升,大幅縮短等待時(shí)間。
背景渲染優(yōu)化:視頻背景渲染精準(zhǔn),與原圖色彩無縫匹配。
人物背景分離增強(qiáng):確保人物與背景之間的高度解耦,提升視頻質(zhì)量。
牙齒與嘴型精準(zhǔn)復(fù)現(xiàn):細(xì)節(jié)處理更出色,確保牙齒和嘴型的真實(shí)性和自然性。
大模型賦能 自然語音輸出
用戶僅需提供文本內(nèi)容,便可借助出門問問的MeetVoice Pro語音大模型,生成自然流暢的語音輸出。之后,結(jié)合我們的數(shù)字人系統(tǒng),這些語音將被轉(zhuǎn)化為精確同步的嘴形動(dòng)作和自然的表情變化,創(chuàng)造出動(dòng)作流暢、表現(xiàn)力豐富的數(shù)字人視頻,為用戶提供一種全新的互動(dòng)體驗(yàn)和內(nèi)容創(chuàng)作方式。
兩大技術(shù)模塊 促成高質(zhì)量效果
WetaAvatar 4.0-Talking Photo是一個(gè)高效的雙模塊引擎,專為生成逼真的照片數(shù)字人視頻而設(shè)計(jì),包含兩個(gè)核心組件:運(yùn)動(dòng)預(yù)測(cè)模塊和人臉驅(qū)動(dòng)模塊。運(yùn)動(dòng)預(yù)測(cè)模塊:此模塊利用先進(jìn)的語音分析技術(shù),從輸入的語音中提取關(guān)鍵參數(shù),這些參數(shù)隨后用于精確生成與之匹配的嘴型動(dòng)畫。這個(gè)過程涉及到復(fù)雜的算法,能夠確保嘴型與語音的節(jié)奏和強(qiáng)度完美同步,從而創(chuàng)造出自然流暢的說話效果。人臉驅(qū)動(dòng)模塊:此模塊則進(jìn)一步增強(qiáng)了視頻的真實(shí)感。它結(jié)合了預(yù)先生成的驅(qū)動(dòng)視頻和用戶輸入的靜態(tài)圖片,通過算法生成一個(gè)全面的運(yùn)動(dòng)場。這個(gè)運(yùn)動(dòng)場不僅包含了嘴型變化,還能夠模擬出豐富的面部表情和微妙的肌肉運(yùn)動(dòng)。隨后,這個(gè)運(yùn)動(dòng)場可以用來驅(qū)動(dòng)輸入圖片,生成具有高度表現(xiàn)力和動(dòng)態(tài)變化的數(shù)字人視頻。基于以上兩個(gè)模塊,在新一代Talking Photo引擎中,不論是人物正臉或側(cè)臉驅(qū)動(dòng),其表現(xiàn)均優(yōu)于前代,技術(shù)指標(biāo)Sync-C的數(shù)值普遍高于WetaAvatar 3.0-Talking Photo引擎。
Sync-C (SyncNet Confidence):使用預(yù)訓(xùn)練的衡量音畫同步性的模型 SyncNet 計(jì)算的音畫同步置信度。相同的驅(qū)動(dòng)音頻和驅(qū)動(dòng)視頻,數(shù)值越高越好。
更多創(chuàng)作形式盡在探索
目前,「奇妙元」平臺(tái)已經(jīng)搭載WetaAvatar 4.0-Talking Photo引擎,用戶能夠釋放創(chuàng)意潛力,將風(fēng)格各異的人物照片驅(qū)動(dòng),生成高質(zhì)量的動(dòng)態(tài)視頻,實(shí)現(xiàn)人物自然地說話、講述,甚至唱歌的視頻效果。
「奇妙元」支持對(duì)皮克斯風(fēng)格照片進(jìn)行人物驅(qū)動(dòng),效果與真實(shí)人物幾乎無異。
如照片中的人物有胡子等面部遮擋物,「奇妙元」依然能夠精準(zhǔn)捕捉面部特征,保證圖像生成的準(zhǔn)確性。
對(duì)于年代久遠(yuǎn)的老照片,「奇妙元」能夠進(jìn)行精準(zhǔn)上色和高清渲染處理,進(jìn)而驅(qū)動(dòng)照片中的人物,讓這些珍貴的記憶煥發(fā)出新的活力。
展望未來
出門問問技術(shù)團(tuán)隊(duì)致力于推動(dòng)數(shù)字人技術(shù)的發(fā)展,目前正專注于基于WetaAvatar 4.0-Talking Photo的實(shí)時(shí)照片對(duì)話引擎的研發(fā)工作,預(yù)計(jì)不久將投入使用。我們不僅注重技術(shù)的創(chuàng)新,更著眼于提升用戶體驗(yàn),旨在通過生成更真實(shí)的表情和豐富的動(dòng)作,打造出具有高度情感表現(xiàn)力的照片數(shù)字人。隨著大模型時(shí)代的到來,出門問問數(shù)字人團(tuán)隊(duì)也將持續(xù)深入探索基于大模型的數(shù)字人生成技術(shù),以Sora模型的問世為里程碑,期待在大模型的加持下,創(chuàng)造出更加生動(dòng)、真實(shí)的數(shù)字人,為用戶提供更加豐富和深入的交互體驗(yàn)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )