愛詩科技發(fā)布PixVerse V2,更快更長更一致的AI視頻生成來了

7月24日,愛詩科技正式發(fā)布視頻生成產(chǎn)品 PixVerse V2,全球同步開放,致力用AI視頻大模型為每一個用戶釋放創(chuàng)意可能。

PixVerse V2 采用 Diffusion+Transformer(DiT)基礎(chǔ)架構(gòu),并在各方面進行技術(shù)創(chuàng)新,提供了更長、更一致、更有趣的視頻生成能力。在模型能力提升的同時,PixVerse V2還帶來了AI視頻生成的全新玩法:在保證一致性的前提下,一次生成多個視頻片段,可實現(xiàn)單片段8秒,和多片段40秒的視頻生成。

一、以DiT架構(gòu)為基礎(chǔ),實現(xiàn)多項技術(shù)創(chuàng)新

PixVerse V2 采用了 DiT 模型架構(gòu),用行業(yè)頂尖的模型訓(xùn)練效率實踐了視頻大模型的Scaling Law,同時在多個方面運用了獨創(chuàng)的技術(shù)實現(xiàn)了卓越的生成效果。

在時空建模方面,PixVerse V2 引入了自研的時空注意力機制,不僅超越了傳統(tǒng)的時空分離和 fullseq 架構(gòu),而且顯著提升了對空間和時間的感知能力,使得在處理復(fù)雜場景時表現(xiàn)更為出色。

在文本理解方面,PixVerse V2 利用了有更強大理解能力的多模態(tài)模型來提取prompt的表征,有效實現(xiàn)了文本信息與視頻信息的精準(zhǔn)對齊,進一步增強了模型的理解和表達能力。

此外,PixVerse V2在傳統(tǒng)flow模型的基礎(chǔ)上進行了優(yōu)化,通過加權(quán)損失,促進了模型更快更優(yōu)的收斂,從而提升整體訓(xùn)練效率。

二、用戶第一,提升AI視頻創(chuàng)作生產(chǎn)力

基于大量用戶反饋和社區(qū)討論,愛詩團隊深刻洞察到一致性是AI視頻創(chuàng)作的核心挑戰(zhàn),因此,PixVerse V2 在設(shè)計和優(yōu)化上進行了針對性突破:支持一鍵生成1-5段連續(xù)的視頻內(nèi)容,且片段之間會保持主體形象、畫面風(fēng)格和場景元素的一致。這一創(chuàng)新功能,讓用戶能夠圍繞特定主題進行高效而便捷的視頻創(chuàng)作。

PixVerse V2 還支持對生成結(jié)果進行二次編輯,通過智能識別內(nèi)容和自動聯(lián)想功能,用戶可以靈活替換調(diào)整視頻主體、動作、風(fēng)格和運鏡,進一步豐富創(chuàng)作的可能性。愛詩團隊希望在模型性能和美學(xué)效果之間尋求平衡,預(yù)計未來3個月內(nèi)還將進行多次迭代升級,提供更好的AI視頻生成體驗。

PixVerse V2 致力讓更多用戶感受到AI視頻創(chuàng)作的樂趣,無論是記錄日常腦海中的靈光乍現(xiàn),還是講述引人入勝的視頻故事,都能變得觸手可及。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )