快手發(fā)布對標(biāo)Sora的視頻生成大模型「可靈」 已開放邀測體驗

在OpenAI文生視頻大模型Sora發(fā)布后,國內(nèi)企業(yè)爭相入局,國產(chǎn)文生視頻大模型邁入加速階段。近日,又一國產(chǎn)視頻大模型加入戰(zhàn)局,快手“可靈”視頻生成大模型官網(wǎng)正式上線。相較此前各家放出的視頻大模型以展示視頻為主,本次亮相的可靈大模型不但效果對標(biāo)Sora,且已在快手旗下的快影App開放邀測體驗。

可靈大模型官網(wǎng)

作為短視頻領(lǐng)域頭部玩家,快手在短視頻視頻技術(shù)方面有多年的深入積累,其視頻生成大模型也有天然、廣泛的應(yīng)用場景??伸`大模型為快手AI團隊自研,采用類Sora的技術(shù)路線并結(jié)合多項自研創(chuàng)新技術(shù),具備諸多優(yōu)勢:1、能夠生成大幅度的合理運動;2、能夠模擬物理世界特性;3、具備強大的概念組合能力和想象力;4、生成的視頻分辨率高達1080p,時長高達2分鐘(幀率30fps),且支持自由的寬高比。具體而言:

可靈大模型能夠生成大幅度的合理運動??伸`采用了3D時空聯(lián)合注意力機制,能夠更好地建模視頻中的復(fù)雜時空運動。因此,可靈大模型不僅能夠生成較大幅度的運動,且更符合客觀運動規(guī)律,能夠真正做到讓想象力動起來。下面宇航員在月球上奔跑的例子中,隨著鏡頭慢慢抬升,我們可以看到宇航員跑步的動作流暢輕盈,步態(tài)和影子的運動合理恰當(dāng)。

prompt:一名宇航員在月球表面奔跑,低角度鏡頭展現(xiàn)了月球的廣闊背景,動作流暢且顯得輕盈(視頻詳見可靈官網(wǎng))

能夠模擬真實物理世界的特性。得益于自研模型架構(gòu)及Scaling Law激發(fā)出的強大建模能力,可靈大模型為我們構(gòu)建起了一個無限逼近現(xiàn)實的想象空間,無論是真實世界的光影反射,重力影響下的流體運動,還是與物理世界的交互,可靈大模型都能夠生成符合物理規(guī)律的視頻。下面是小男孩吃漢堡的生成視頻,一口咬下去,漢堡被咬掉一個大大的缺口,并在視頻中一直保持。可以看到小孩咀嚼漢堡的享受表情,臉部的肌肉動態(tài)非常逼真

prompt:一個戴眼鏡的中國男孩在快餐店內(nèi)閉眼享受美味的芝士漢堡(視頻詳見可靈官網(wǎng))

具備強大的概念組合能力和想象力。憑借模型對文本-視頻語義的深刻理解和基于 Diffusion Transformer 架構(gòu)學(xué)到的強大概念組合能力,可靈大模型能夠?qū)⒂脩糌S富的想象力轉(zhuǎn)化為具體的畫面,讓創(chuàng)意觸手可及。下面的視頻展示了熊貓吉他手坐在湖邊彈著吉唱著歌的想象場景。

prompt:一只大熊貓在湖邊彈吉他(視頻詳見可靈官網(wǎng))

可靈大模型生成的視頻分辨率高達1080p、時長高達2分鐘(幀率30fps),且支持自由的輸出視頻寬高比??伸`大模型的自研3D VAE能夠?qū)⒁曨l編碼到緊湊的隱空間并解碼成帶有豐富細(xì)節(jié)的視頻,可以生成高達1080p分辨率30fps的視頻。得益于高效的訓(xùn)練基礎(chǔ)設(shè)施、極致的推理優(yōu)化和可擴展的基礎(chǔ)架構(gòu),可靈大模型能夠生成長達2分鐘的視頻。在推理過程中,還可以做到同樣內(nèi)容輸出多種視頻寬高比。同時,可靈官網(wǎng)還展示了分鐘級的視頻生成效果,可以跟隨鏡頭看到,小男孩騎自行車游覽花園,在一鏡到底中穿越春夏秋冬四季的風(fēng)景。

大模型的生成效果取決于數(shù)據(jù)的規(guī)模和質(zhì)量、以及大規(guī)模訓(xùn)練的效率??伸`大模型在研發(fā)過程中,配套建設(shè)了高效的大規(guī)模自動化數(shù)據(jù)解決方案,覆蓋了海量視頻挖掘、多維打標(biāo)篩選、視頻描述增強、及數(shù)據(jù)驅(qū)動的效果質(zhì)量評估等多個方面。在訓(xùn)練過程中,采用了多種計算優(yōu)化和通信優(yōu)化方案,極大提升了GPU和網(wǎng)絡(luò)帶寬利用率,并通過自動故障檢測和failover等機制,提供了分鐘級故障恢復(fù)能力。保障了短時間內(nèi)模型效果的快速提升。

快影App的AI創(chuàng)作功能中已正式開放文生視頻功能的邀測,支持創(chuàng)作者申請并體驗可靈大模型最新的文生視頻功能,圖生視頻功能也將于近期開放。

此外,基于可靈大模型,更多應(yīng)用方向也已經(jīng)或即將落地。例如,基于肢體驅(qū)動的“AI舞王”功能已在快手和快影App成功落地,用戶只需上傳一張全身或半身照片,即可體驗一鍵跳舞的樂趣。近期還將首發(fā)上線“AI唱跳”新玩法,可以同時驅(qū)動表情和肢體動作,僅需一張照片就能生成唱跳“愛你”的生動視頻。

隨著AI大模型時代來臨,作為頭部短視頻公司,快手已展開全面布局。公開資料顯示,快手已先后發(fā)布通用大語言模型“快意”、文生圖大模型產(chǎn)品“可圖”,還推出了Direct-a-Video、Video-LaVIT、I2V-Adapter、UNIAA等視頻關(guān)鍵技術(shù),引發(fā)了廣泛關(guān)注。據(jù)悉,伴隨此次可靈大模型的發(fā)布,快手將持續(xù)加速大模型的研發(fā)與應(yīng)用,帶來更加多元的AI創(chuàng)作與互動體驗。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )