2024 年 2 月 16 日凌晨,OpenAI 發(fā)布了 " 文生視頻 "(text-to-video)工具 Sora,在全世界引發(fā) " 科技海嘯 "。
不同語言的人們在全球的社交媒體上驚呼:現(xiàn)實,已被顛覆。
多日以來,圍繞 Sora 的討論不絕于耳,或欣喜激動,多擔憂緊張。從股市到好萊塢,從國內(nèi)大咖到國際頂尖專家,都做出了不同程度的反應。本文將為您詳細盤點。
01
Sora 有何魅力?
Sora 一經(jīng)發(fā)布就席卷全球,更在龍年首個交易日在 A 股掀起 AI 熱潮。
同花順 App 顯示,截至 2 月 19 日收盤,人工智能板塊漲 6.30%。多支 Sora 相關概念股上漲,其中,當虹科技、因賽集團、萬興科技等股價漲停。
作為開年 AI 王炸,Sora 到底是什么?
Sora 是 OpenAI 發(fā)布的文生視頻模型。它能夠按照用戶輸入的提示詞、文本指令或靜態(tài)圖像,來創(chuàng)造出長達一分鐘的逼真且充滿想象力的視頻場景。視頻不僅邏輯性和連貫性極佳,還能實現(xiàn)多角度鏡頭的自然切換。
在發(fā)布中,OpenAI 展示了 Sora 文本生成的視頻:
△ Sora 生成視頻截圖
而該視頻的文本僅有幾句話:
一位時尚的女人走在東京的街道上,街道上到處都是溫暖的發(fā)光霓虹燈和動畫城市標志。她身穿黑色皮夾克,紅色長裙,黑色靴子,背著一個黑色錢包。她戴著墨鏡,涂著紅色口紅。她自信而隨意地走路。街道潮濕而反光,營造出五顏六色的燈光的鏡面效果。許多行人四處走動。
眾多媒體人表示,Sora 的推出對于視頻內(nèi)容的制作方式可能帶來革命性的變化,相比較目前的 AI 視頻制作,Sora 具有顛覆性特點:
文本到視頻的轉(zhuǎn)換:用戶只需提供文字、圖片描述,Sora 就能將這些描述轉(zhuǎn)化為具體的視頻內(nèi)容,極大地簡化了視頻制作流程。
視頻質(zhì)量和逼真度更高:Sora 生成的視頻內(nèi)容分辨率高、畫面流暢,視頻效果不輸業(yè)內(nèi)專業(yè)人士的制作。
長時間視頻生成:相比其他模型,Sora 可以生成長達一分鐘的視頻。要知道,Sora 的競爭對手 Runway 去年 8 月推出的第二代模型,每次還只能生成最高 18 秒的視頻。
時空一致性:根據(jù) Sora 演示來看,即便對視頻進行擴展,它也能夠賦予模型 " 前瞻性 ",確保視頻主題在畫幅外也能保持不變,達到更符合邏輯的時空一致性。
Sora 的制作團隊有多年輕?
除了超強的文本視頻生成能力,Sora 的年輕化制作團隊也引發(fā)關注。
據(jù)悉,Sora 兩位主要負責人 Tim Brooks 和 William ( Bill ) Peebles 都在 2023 年剛剛博士畢業(yè)。
Tim Brooks,DALL-E 3 作者之一,GitHub 5.7k 星項目 InstructPix2Pix 作者,2021-2022 年在英偉達實習時,就是視頻生成研究的項目負責人。
William ( Bill ) Peebles,和謝賽寧合作,創(chuàng)作出了 Sora 的技術基礎之一 DiT(擴散 Transformer),論文還曾入圍 CVPR 2022 最佳論文候選。
00 后選手和多位華人也讓 Sora 的隊伍充滿了多元化。團隊中的 "00 后 "Will DePue,2022 年從密西根大學計算機系本科畢業(yè)。他在高中時候就已經(jīng)參與了很多項目開發(fā),并成立了自己的公司。2023 年 7 月,其加入 OpenAI,2024 年 1 月加入 Sora 項目組。
Sora 項目組中的華人 Li Jing 是 DALL-E 3 的共同一作,2014 年本科畢業(yè)于北京大學物理系,2019 年獲得 MIT 物理學博士學位,2022 年加入 OpenAI。
華人作者中還有 Ricky Wang,今年一月剛剛從 Meta/Instagram 跳槽到 OpenAI。
另外兩位 Yufei Guo、Clarence Ng 還未公開資料。
正是這樣一支年輕化隊伍打磨的文生視頻 APP,剛上線就引發(fā)好萊塢等影視行業(yè)的震驚。
02
Sora 出現(xiàn),將打破視頻制作壁壘
Sora 的騰空出世,給影視行業(yè)帶來史詩級變革。
與國內(nèi)大 A 不同的是,Sora 發(fā)布后,幾家美國科技公司的股價應聲跌落。Adobe 股價暴跌超 7%;美國圖片庫、圖片素材、Shutterstock 跌超 5%;Lumiere 的谷歌母公司股價下挫 1.58%。
影像創(chuàng)意行業(yè)認為 Sora 生成的視頻質(zhì)量足以縮短電影拍攝周期,電影生產(chǎn)方式本身的高壁壘和獨斷性將會被打破。
AI 產(chǎn)品 " 奇襲 ",引發(fā)影視制作行業(yè)緊張和擔憂。
實際上在 2023 年,好萊塢就曾進行了長達半年的罷工。原因之一是巨頭們有意使用 AI 取代一部分編劇的工作,此次罷工被認為是人類抵抗 AI 威脅的首次集體行動。
雖然好萊塢罷工已經(jīng)平息,AI 產(chǎn)品改變影視制作仍有眾多需要改進的環(huán)節(jié),但年初發(fā)布的 Sora 指數(shù)級飛躍速度再次讓人們陷入擔憂。
電影導演兼視覺效果專家邁克爾 · 格雷西表示:" 看看我們在圖像生成的一年里取得了什么進展。一年后我們會在哪里?"
《綜藝》評論稱 " 自從上周 OpenAI 發(fā)布文本生成視頻模型 Sora 以來,人們對于這種 AI 功能的預測越來越‘惶恐’,畢竟與之前的同類工具相比,OpenAI 似乎帶來巨大的飛躍 "。Sora 是迄今為止最令人印象深刻的視頻生成模型之一,其 " 現(xiàn)實主義效果 " 將有望在高端娛樂中發(fā)揮作用。
《人工智能革命:超級智能之路》的作者、著名科技作家蒂姆 · 厄本據(jù)此預測:"21 世紀將實現(xiàn) 20 世紀 1000 倍的進步。"
而正在舉行的柏林電影節(jié)上,Sora 也成為電影人熱議的話題。
洛杉磯導演戴夫 · 克拉克 ( Dave Clark ) 認為:創(chuàng)作者需要接受人工智能技術來制作尚未想象或?qū)崿F(xiàn)的內(nèi)容,而不是感到威脅。
德國視覺特效工作室 Trixter 董事總經(jīng)理克里斯蒂娜 · 卡斯珀斯 - 羅默 ( Christina Caspers-Roemer ) 則表示,像 Sora 這樣的人工智能工具被證明在工作流程中更高效、更快。
Sora 在視頻生成領域的優(yōu)越能力為塑造影視產(chǎn)業(yè)業(yè)態(tài)開啟了新方式,或許在未來,特效師、高難度動作、科幻題材、大場面制作只要幾行字就能打造出恢宏場景,相關行業(yè)更是將其稱之為 " 潘多拉魔盒 "。
因此,眾多行業(yè)專家也紛紛下場預測 Sora 未來應運前景。
03
Sora 狂飆,未來前景將如何發(fā)展?
在游戲行業(yè),Share Creators 創(chuàng)始人兼 CEO Ada Liu 認為,視頻生成帶來的改變將是 " 跨時代 " 的。" 在游戲行業(yè), AI 可以幫助生成前期的概念圖,UI icon 等。計算機圖形制作的流程非常長,從 3D 制作,到渲染、合成,每個環(huán)節(jié)都需要投入大量專業(yè)的人員。尤其在風格探索階段,如果直接生產(chǎn)出視頻,相當于直接跳到最后一步,節(jié)省了大量的制作時間和成本。"
在影視制作行業(yè),Sora 發(fā)布之初,周鴻祎就預言 Sora" 可能給廣告業(yè)、電影預告片、短視頻行業(yè)帶來巨大的顛覆,但它不一定那么快擊敗 TikTok,更可能成為 TikTok 的創(chuàng)作工具 "。
中國社會科學院法學研究所副研究員唐林垚表示:" 如果 Sora 的能力真如官方公布一樣強大,且之后可以像 ChatGPT 一樣便捷訪問,那么 Sora 將給廣告行業(yè)、影視行業(yè)和特效行業(yè)帶來極大的沖擊。"
對 AI 產(chǎn)業(yè),IDC 中國研究總監(jiān)盧言霞表示:Sora 的發(fā)布,以及后續(xù)科技巨頭的跟進,有望對 AI 產(chǎn)業(yè)帶來再一輪爆發(fā)式的增長。
雖然 Sora 在全球掀起了驚濤駭浪,但是其細節(jié)和邏輯還有一些瑕疵。根據(jù) Sora 生成的人類考古視頻,椅子在畫面中憑空出現(xiàn),而且不受重力影響飄浮在空中。
△ Sora 生成視頻截圖
對此,AI 圈大佬對于 Sora 的物理引擎提出了新的問題:Sora 到底懂不懂物理世界?
圖靈獎得主 Yann LeCun 表示 Sora 生成視頻的過程與基于世界模型的因果預測完全不同,更理想的做法是生成視頻后續(xù)內(nèi)容的抽象表達,并消除與我們可能所采取動作無關的場景中的細節(jié)。
Keras 之父 François Chollet 則闡述了更細致的觀點。他認為,像 Sora 這樣的視頻生成模型確實嵌入了「物理模型」,但問題是:這個物理模型是否準確?它能否泛化到新的情況,即那些不僅僅是訓練數(shù)據(jù)插值的情形?
Chollet 表示以上問題至關重要,因為它們決定了生成圖像的應用范圍 —— 是僅限于媒體生產(chǎn),還是可以用作現(xiàn)實世界的可靠模擬。
針對 Sora 的弱點,知名 AI 學者、Meta AI 研究科學家田淵棟認為 Sora 是否有潛力學到精確的物理(當然現(xiàn)在還沒有),其背后的關鍵問題是:為什么像「預測下一個 token」或「重建」這樣簡單的思路會產(chǎn)生如此豐富的表示?
其并提出建議:為了更好地理解事物,我們確實需要揭開 Transformers 的黑匣子,檢查給定反向傳播的訓練動態(tài),以及如何學習隱藏的特征結(jié)構(gòu),并探索如何進一步改進學習過程。
04
其實類似的文生視頻模型也早有端倪。例如谷歌的 VideoPoet,能夠執(zhí)行包括文本到視頻、圖像到視頻、視頻風格化等操作;Meta 的 Emu Video,能夠基于文本和圖像輸入生成視頻剪輯;Runway 的 Gen2 不僅解決了 AI 生成視頻中每幀之間連貫性過低的問題,在從圖像生成視頻的過程中也能給出很好的結(jié)果,因此還被稱為 "AI 視頻界的 MidJourney";以及文生視頻軟件 Pika,也在推出之初就引發(fā)了 AI 視頻的應用熱潮。
可以說 Sora 的出現(xiàn)受傷最大的是友商。Sora 發(fā)布后,Runway 的 CEO 克里斯托瓦爾 · 巴倫蘇埃拉在 X 平臺上給出了一個簡短的宣言:"Game On(比賽開始了)。"
Sora 的出現(xiàn),點亮了人們對影視行業(yè)未來發(fā)展的展望,用小說生成電視劇,人人做導演或許將在未來變成可能。
但在視頻生成技術廣泛使用和 AI 模型層出不窮的背景下,Sora 想要克服物理邏輯,并且實現(xiàn) AI 模型的透明度和可解釋性,可能還要 " 再飛一會 "......
關于瑞承
瑞承作為專為高凈值人士、企業(yè)家群體提供服務的品牌,致力于圍繞企業(yè)家客戶群體的 " 企、傳、投 " 需求提供綜合咨詢服務解決方案。
長期深耕企業(yè)家 " 企、傳、投 " 服務,通過多年資產(chǎn)配置能力、科技能力、國際化能力和綜合服務能力的持續(xù)建設,為客戶在資產(chǎn)配置、家族傳承、企業(yè)發(fā)展與提升、品質(zhì)生活、公益金融等方面提供全方位服務,長期陪伴企業(yè)家客戶的企業(yè)、個人和家庭成長,奔赴更加美好的事業(yè)與生活。
參考信息:
1、全網(wǎng)刷屏的 Sora,有多可怕?
2、Sora 火爆全網(wǎng) 相關股掀漲停潮
3、Sora 爆火 48 小時:楊立昆揭秘論文,參數(shù)量或僅 30 億
4、Sora 到底懂不懂物理世界?一場頭腦風暴正在 AI 圈大佬間展開
5、Sora" 轟炸 " 影視圈,普通人的風口來了
6、Sora 讓好萊塢緊張了!
7、引爆 A 股的 Sora,到底是啥?一文看懂
8、全網(wǎng)刷屏的 Sora,有多可怕?
9、爆火的 Sora,摩拳擦掌的出海人
10、IDC:Sora 正式發(fā)布前、多模態(tài)大模型爆發(fā)前夜的十大思考
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )