9月 19 日,在杭州云棲大會上,阿里云CTO周靖人宣布通義萬相全面升級,并發(fā)布全新視頻生成模型,可生成影視級高清視頻,可應用于影視創(chuàng)作、動畫設計、廣告設計等領域。即日起,所有用戶可通過通義APP及通義萬相官網(wǎng)免費體驗。
據(jù)介紹,通義萬相首批上線文生視頻、圖生視頻功能,在文生視頻功能中,用戶輸入任意文字提示詞,即可生成一段高清視頻,支持中英文多語言輸入,并可以通過靈感擴寫功能智能豐富視頻內(nèi)容表現(xiàn)力,支持16:9、9:16等多種比例生成;在圖生視頻功能中,支持用戶將任意圖片轉(zhuǎn)化為動態(tài)視頻,按照上傳的圖像比例或預設比例進行生成,同時可以通過提示詞來控制視頻運動。
現(xiàn)場,阿里云演示了該模型強大的運動生成和概念組合能力,輸入「穿著滑冰鞋的小兔子在冰面上靈活移動的可愛場景」,通義萬相僅用數(shù)分鐘就能生成一段高清、逼真的視頻。
通義萬相視頻生成大模型集成了多項創(chuàng)新技術,有效解決畫面表現(xiàn)力和大幅度運動等視頻生成技術難題。針對運動生成和物理模擬等難點優(yōu)化算法,實現(xiàn)了大幅度主體運動和運鏡控制,并有效模擬真實世界物理特性;設計了高壓縮比、高質(zhì)量視頻VAE框架,有效降低視頻信息冗余,并保持高質(zhì)量視頻重構能力;同時,基于輕量微調(diào)框架和精選數(shù)據(jù)集優(yōu)化訓練,在中式傳統(tǒng)元素、風格化視頻生成上表現(xiàn)更好。
去年7月,通義萬相圖像生成大模型首次亮相,目前已累計生成7500萬張圖片。云棲大會現(xiàn)場,通義萬相宣布視覺生成大模型全面升級為Diffusion Transformer框架,同時結(jié)合通義千問復雜提示詞解釋能力,有效提升畫面表現(xiàn)力、語義理解能力、可控生成能力。隨著通義萬相視頻生成模型的發(fā)布,通義大模型已覆蓋文本生成、圖像理解、視頻理解、音頻理解、圖像生成、視頻生成等全模態(tài)場景。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )