兵馬俑跳科目三,通義千問新功能火了

只要一張照片就能生成一段舞蹈視頻,又一個(gè)大模型應(yīng)用出圈!

2024年第一個(gè)工作日開始,兵馬俑、馬斯克以及各地網(wǎng)友跳科目三和網(wǎng)紅舞的視頻就陸續(xù)在國內(nèi)社交媒體和朋友圈刷屏。這些大約10秒左右的視頻都不是真人出鏡,均由大模型生成,這種低門檻的「跳舞」方式引發(fā)了網(wǎng)友的廣泛體驗(yàn),掀起了一波斗舞潮。各路網(wǎng)友金句頻出:AI治愈了我的四肢不協(xié)調(diào)、科目三的風(fēng)吹到了考古界、再也不用擔(dān)心跳科目三崴腳……

圖片1.jpg

這是阿里云通義千問APP上線的免費(fèi)功能,在通義千問APP內(nèi)輸入“通義舞王”、“全民舞王”等口令后,即可進(jìn)入體驗(yàn)頁面。用戶按照提示要求上傳照片后,十幾分鐘即可生成神形兼?zhèn)涞奈璧敢曨l,生成的視頻能較好地保留原形象的面部表情、身材比例、服裝以及背景等特征。目前,通義千問首批為用戶提供了科目三、蒙古舞、劃槳步、鬼步舞等12種熱門舞蹈模板。

圖片2.jpg

據(jù)悉,該功能背后的算法為阿里通義實(shí)驗(yàn)室自研視頻生成模型Animate Anyone。早在11月底,該研究便在推特、Youtube等海外社交媒體平臺(tái)爆火,相關(guān)視頻播放量超1億,項(xiàng)目在Github上的Star短短數(shù)日就超過1萬,是近期大模型領(lǐng)域最受歡迎的大模型算法之一,國外開發(fā)者和網(wǎng)友集體稱贊該算法效果,并發(fā)出“開放體驗(yàn)入口”的呼聲。

圖片3.jpg

除了驚艷的生成效果之外,該算法的技術(shù)路線也被廣泛關(guān)注。視頻生成是大模型領(lǐng)域最熱門的研究方向之一,谷歌、Meta、Runway等國外科技公司都在積極布局,但一直以來,人物形象的視頻生成面臨諸多技術(shù)挑戰(zhàn),例如人物形象一致、動(dòng)作流暢可控、時(shí)序無瑕疵的人物動(dòng)作視頻。

根據(jù)公開論文顯示,Animate Anyone集成了多項(xiàng)創(chuàng)新技術(shù),引入了ReferenceNet,用于捕捉和保留原圖像信息,可高度還原人物、表情及服裝細(xì)節(jié);此外,該算法使用了高效的Pose Guider姿態(tài)引導(dǎo)器 ,保證了動(dòng)作的精準(zhǔn)可控;另外,通過時(shí)序生成模塊,有效保證視頻幀間的連貫流暢性。在相同數(shù)據(jù)集的測(cè)試下,Animate Anyone的性能表現(xiàn)顯著優(yōu)于國內(nèi)外同類模型。

今年9月,通義千問成國內(nèi)首批通過備案的大模型,通義千問APP上線后功能持續(xù)升級(jí),目前可提供文本對(duì)話、語音對(duì)話、翻譯、PPT大綱助手、小紅書文案、視頻生成等幾十項(xiàng)功能。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2024-01-04
兵馬俑跳科目三,通義千問新功能火了
只要一張照片就能生成一段舞蹈視頻,又一個(gè)大模型應(yīng)用出圈!

長按掃碼 閱讀全文