2月22日消息,OpenAI的文生視頻模型Sora案例視頻集一經(jīng)推出,就成為科技圈的熱門話題。
繼ChatGPT后,Sora的文生視頻能力再次驚艷AI圈子,大有不談Sora就out了的氛圍。
Sora文生視頻效果驚艷
根據(jù)OpenAI官方給出的介紹,Sora是一個通用的視覺數(shù)據(jù)模型,它可以生成不同持續(xù)時間、寬高比和分辨率的視頻和圖像,最高可達(dá)一分鐘的高清視頻。
OpenAI發(fā)布了48個視頻,這些均是由Sora模型(Creating video from text)通過對文字理解而生成的視頻。
第一個視頻就是根據(jù)文本:“一位時尚的女士走在東京的街道上,街道上充滿了溫暖的霓虹燈和生動的城市標(biāo)志。她穿著黑色皮夾克、紅色長裙和黑色靴子,手里拿著一個黑色錢包。她戴著太陽鏡和紅色口紅。她走路自信而隨意。街道潮濕且反光,形成了彩色燈光的鏡面效果。許多行人走來走去。”(Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.)生成的視頻。
Sora出現(xiàn)之前,在文生視頻領(lǐng)域,美國初創(chuàng)企業(yè)Runway和Pika被認(rèn)為是視頻生成賽道的領(lǐng)先者。
然而,Sora的出現(xiàn),瞬間秒殺了“領(lǐng)先者”們。
從公布的視頻來看,Sora通過文字生成的視頻表現(xiàn)明顯突出:
首先,時長更長。Sora生成60秒視頻,Pika是3秒,Runway是4秒;
第二,Sora的視頻有多角度鏡頭,分鏡切換符合邏輯,并且視頻主體移動時與背景保持高度穩(wěn)定和流暢;
第三,Sora的視頻對光影反射、運(yùn)動方式、鏡頭移動等細(xì)節(jié)處理得更好。
總之,就是Sora生成的視頻極大地提升了視頻的“真實(shí)感”,讓人看了感覺像是真實(shí)拍攝的。
繼“有圖有真相”破碎后,視頻也不再等于真相了。
目前,OpenAI尚未向公眾開放Sora,僅對部分研究人員和學(xué)者開放測試資格。
國內(nèi)用戶無渠道參與試用Sora。
但這也不妨礙科技圈大牛們對Sora的研究興趣。
OpenAI 官網(wǎng)上公開的信息,48個Sora文生視頻案例、Sora的技術(shù)報(bào)告《Video generation models as world simulators》(中文譯《把視頻生成模型作為世界模擬器》)成為各方人士研究Sora的主要抓手和窗口。
多少有些隔岸旁觀、盲人摸象的感覺,短短幾天,對Sora的關(guān)注和討論就形成了多個“派別”。
技術(shù)派:挖掘Sora背后的技術(shù)邏輯
國外社交媒體上的AI大牛,國內(nèi)微博技術(shù)大V、知乎技術(shù)博主們紛紛發(fā)文分析Sora的核心技術(shù)。
這些分析主要根據(jù)OpenAI給的技術(shù)報(bào)告《Video generation models as world simulators》及報(bào)告中羅列的32篇技術(shù)文獻(xiàn)提及的技術(shù)而來。
技術(shù)大牛們挖掘出的Sora模型創(chuàng)新主要有2個關(guān)鍵:
一, Spacetime Patch(時空Patch)技術(shù)
技術(shù)報(bào)告原文:LLMs have text tokens, Sora has visual patches.
解放思想,從大型語言模型中獲得靈感。
如同LLM將各種類型的文本內(nèi)容轉(zhuǎn)化為Tokens后,實(shí)現(xiàn)對大規(guī)模文本內(nèi)容的訓(xùn)練;
用Spacetime Patch對所有類型的視頻內(nèi)容進(jìn)行統(tǒng)一表示,進(jìn)而能夠?qū)σ曨l生成模型進(jìn)行大規(guī)模數(shù)據(jù)訓(xùn)練。
圖片來源于《Video generation models as world simulators》
值得注意的是,Spacetime Patch除了包括視頻信息元素的空間信息還有時間信息。
圖片就是單幀的視頻,把圖片按正確的發(fā)生時間順序顯示出來,就將是一個邏輯正確的視頻。
二, Diffusion Transformer(DiT,擴(kuò)散型 Transformer)架構(gòu)。
技術(shù)報(bào)告原文:Sora is a diffusion transformer。
和其他文生視頻產(chǎn)品所用的底層架構(gòu)不同,Sora 使用的是Diffusion Transformer架構(gòu)。
Diffusion Transformer論文(26號論文)的作者之一William Peebles,現(xiàn)在是OpenAI工程師,負(fù)責(zé)開發(fā)Sora。
《Video generation models as world simulators》羅列的技術(shù)文獻(xiàn)
Sora能獲取現(xiàn)有的靜態(tài)圖像并從中生成視頻,還能獲取現(xiàn)有視頻,進(jìn)行擴(kuò)展或填充缺失內(nèi)容。
技術(shù)大牛們認(rèn)為,Transformer強(qiáng)在前后文的理解和保持連續(xù)性,這讓Sora在時間軸上的延伸性非常出色,可以生成開頭不同但結(jié)尾完全一致的視頻片段。
哲思派:人工智能的能力到了什么階段?
以周鴻祎為代表的國內(nèi)技術(shù)大佬們對AI能力進(jìn)化的思考又進(jìn)一步。
Sora生成的視頻發(fā)布后,周鴻祎就稱“Sora意味著AGI實(shí)現(xiàn)將從10年縮短到兩三年”。
此后,短短3天時間,周鴻祎已發(fā)布7個小視頻來闡述自己對Sora的思考。
周鴻祎認(rèn)為,“Sora應(yīng)該還是模擬了人類去觀察世界、描繪世界和表現(xiàn)世界的方法?!?/p>
“Sora表面上是一個文生視頻的工具,實(shí)際上是一個現(xiàn)實(shí)世界模擬器。它也不僅僅是用來模擬現(xiàn)實(shí)世界,它意味著通用人工智能對這個世界的理解能力又一次得到了突破。GPT對人類語言和知識的理解達(dá)到了一個突破點(diǎn),而除了人類的語言和這個世界的人類之間做交互的知識之外,這個世界還有很多規(guī)律,人工智能對物理世界的規(guī)律缺乏理解的話,那么它是殘缺的,不可能真正變成通用人工智能?!?/p>
“Sora做出的視頻之所以讓人感覺真是,不是畫面有多優(yōu)美,是因?yàn)樽屓祟惪雌饋?,所有的動作是符合這個世界的運(yùn)行規(guī)律的。它對這個世界的規(guī)律有了一個比較更為完整的了解。這就說明人工智能的能力又上了一個臺階?!?/p>
搞錢派:售賣課程、追漲股票、投資建廠搞芯片
現(xiàn)在,針對Sora熱搜引發(fā)的“搞錢派”也分不同段位。
最基本的一類是,根據(jù)信息差來賣課、賣賬號的。
Sora根本還沒對外開放使用,現(xiàn)在就來這樣搞錢實(shí)在太無厘頭了。
然而,還真有人買單。
某電商平臺26.6元的學(xué)習(xí)包,居然已經(jīng)售出10多份。
第二類是追漲AI概念股搞錢的,人也不少。
春節(jié)后A股開門紅,AI相關(guān)概念股全線上揚(yáng),Sora板塊多模態(tài)模型概念、ChatGPT、虛擬人、AIGC、算力等相關(guān)概念均有所上漲,算是給A股的朋友們一個新年紅包。
最高段位的,還是直接針對大模型“核心能力”—— 算力出奇跡進(jìn)行投資的富豪們。
上圖從左往右分別是Sora使用 1 倍資源、4 倍資源、16 倍資源訓(xùn)練時的生成效果。
圖片來自《Video generation models as world simulators》
可見,算力,仍然是卡住AI發(fā)展脖子的角色。
就在Sora發(fā)布后,軟銀創(chuàng)始人孫正義正尋求籌資1000億美元(約合人民幣7000億元),用于創(chuàng)立一家AI芯片企業(yè),旨在挑戰(zhàn)英偉達(dá)的消息傳出。
OpenAI創(chuàng)始人 Sam Altman籌建7萬億打造AI芯片帝國的計(jì)劃也被曝出向美政府尋求政策支持。
找差距、威脅派
就在Sora露面后的2天,2月18日,國家互聯(lián)網(wǎng)信息辦公室關(guān)于發(fā)布第四批深度合成服務(wù)算法備案信息,該批共有266個算法通過備案。此前三批分別有41、110、129個算法通過備案。
這意味著截至目前,國內(nèi)總計(jì)已經(jīng)有546款深度合成服務(wù)算法獲得備案。
追問“國內(nèi)何時有自己的Sora?”“國內(nèi)企業(yè)距離趕上Sora還要多久?”的聲音毫無意外的再次響起。
當(dāng)然,Sora生成視頻太逼真而引發(fā)犯罪不可控的擔(dān)憂聲也不少,生成的視頻是否會影響到人身安全、社會穩(wěn)定、企業(yè)安全等等。
迎接“Sora們”開放,法律、社會、技術(shù)等層面是否都做好了準(zhǔn)備?
如IDC分析師所言,生成式AI產(chǎn)品不可預(yù)測的未來:具體哪些公司能在什么時間點(diǎn)推出與 Sora 類似的產(chǎn)品,不可預(yù)測。當(dāng)前 Sora 生成的是1分鐘的視頻,下一步何時能生成2分鐘5分鐘以上的視頻,不可預(yù)測。
但是,對于個人而言,生成式AI產(chǎn)品已經(jīng)在潛移默化的改變我們的生活方式,每一個人都可以認(rèn)真考慮該類產(chǎn)品如何能夠助力我們的生活與工作。
還是那句話,每一項(xiàng)新技術(shù)進(jìn)入人們的生活時,總是伴隨著興奮和質(zhì)疑。那么就讓Sora們 多飛一會兒!
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期:成本高昂 效果欠佳
- OpenAI宣布o(jì)3系列大模型:能力較o1大幅提升 Codeforces測試強(qiáng)于OpenAI首席科學(xué)家
- 豆包大模型全面升級,相關(guān)概念股瘋漲,字節(jié)發(fā)布緊急警示
- 奇富科技發(fā)布AI產(chǎn)品小奇等金融AI大模型成果
- 揭秘:OpenAI 即將推出 o3,新一代AI推理王者,能否顛覆業(yè)界?
- “蘋果智能”引發(fā)討論:AI總結(jié)新聞?wù)龃箦e
- Grammarly重磅新功能:收購AI公司Coda,推出大模型LLM助手,語法檢查更高效
- 谷歌攜手Apptronik引領(lǐng)人形機(jī)器人商業(yè)化浪潮:AI+機(jī)器人新紀(jì)元揭幕
- AI初創(chuàng)公司Perplexity完成新一輪融資 估值從年初5億美元升至90億美元
- 哥倫比亞大學(xué)研究:大語言模型能否超越人類大腦引發(fā)深思
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。