久久久久影院美女国产主播,向日葵视频安装版

2月22日消息，OpenAI的文生視頻模型Sora案例視頻集一經(jīng)推出，就成為科技圈的熱門話題。

繼ChatGPT后，Sora的文生視頻能力再次驚艷AI圈子，大有不談Sora就out了的氛圍。

Sora文生視頻效果驚艷

根據(jù)OpenAI官方給出的介紹，Sora是一個(gè)通用的視覺(jué)數(shù)據(jù)模型，它可以生成不同持續(xù)時(shí)間、寬高比和分辨率的視頻和圖像，最高可達(dá)一分鐘的高清視頻。

OpenAI發(fā)布了48個(gè)視頻，這些均是由Sora模型（Creating video from text）通過(guò)對(duì)文字理解而生成的視頻。

第一個(gè)視頻就是根據(jù)文本：“一位時(shí)尚的女士走在東京的街道上，街道上充滿了溫暖的霓虹燈和生動(dòng)的城市標(biāo)志。她穿著黑色皮夾克、紅色長(zhǎng)裙和黑色靴子，手里拿著一個(gè)黑色錢包。她戴著太陽(yáng)鏡和紅色口紅。她走路自信而隨意。街道潮濕且反光，形成了彩色燈光的鏡面效果。許多行人走來(lái)走去?！保≒rompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.）生成的視頻。

Sora出現(xiàn)之前，在文生視頻領(lǐng)域，美國(guó)初創(chuàng)企業(yè)Runway和Pika被認(rèn)為是視頻生成賽道的領(lǐng)先者。

然而，Sora的出現(xiàn)，瞬間秒殺了“領(lǐng)先者”們。

從公布的視頻來(lái)看，Sora通過(guò)文字生成的視頻表現(xiàn)明顯突出：

首先，時(shí)長(zhǎng)更長(zhǎng)。Sora生成60秒視頻，Pika是3秒，Runway是4秒；

第二，Sora的視頻有多角度鏡頭，分鏡切換符合邏輯，并且視頻主體移動(dòng)時(shí)與背景保持高度穩(wěn)定和流暢；

第三，Sora的視頻對(duì)光影反射、運(yùn)動(dòng)方式、鏡頭移動(dòng)等細(xì)節(jié)處理得更好。

總之，就是Sora生成的視頻極大地提升了視頻的“真實(shí)感”，讓人看了感覺(jué)像是真實(shí)拍攝的。

繼“有圖有真相”破碎后，視頻也不再等于真相了。

目前，OpenAI尚未向公眾開放Sora，僅對(duì)部分研究人員和學(xué)者開放測(cè)試資格。

國(guó)內(nèi)用戶無(wú)渠道參與試用Sora。

但這也不妨礙科技圈大牛們對(duì)Sora的研究興趣。

OpenAI 官網(wǎng)上公開的信息，48個(gè)Sora文生視頻案例、Sora的技術(shù)報(bào)告《Video generation models as world simulators》(中文譯《把視頻生成模型作為世界模擬器》)成為各方人士研究Sora的主要抓手和窗口。

多少有些隔岸旁觀、盲人摸象的感覺(jué)，短短幾天，對(duì)Sora的關(guān)注和討論就形成了多個(gè)“派別”。

技術(shù)派：挖掘Sora背后的技術(shù)邏輯

國(guó)外社交媒體上的AI大牛，國(guó)內(nèi)微博技術(shù)大V、知乎技術(shù)博主們紛紛發(fā)文分析Sora的核心技術(shù)。

這些分析主要根據(jù)OpenAI給的技術(shù)報(bào)告《Video generation models as world simulators》及報(bào)告中羅列的32篇技術(shù)文獻(xiàn)提及的技術(shù)而來(lái)。

技術(shù)大牛們挖掘出的Sora模型創(chuàng)新主要有2個(gè)關(guān)鍵：

一， Spacetime Patch（時(shí)空Patch）技術(shù)

技術(shù)報(bào)告原文：LLMs have text tokens, Sora has visual patches.

解放思想，從大型語(yǔ)言模型中獲得靈感。

如同LLM將各種類型的文本內(nèi)容轉(zhuǎn)化為Tokens后，實(shí)現(xiàn)對(duì)大規(guī)模文本內(nèi)容的訓(xùn)練；

用Spacetime Patch對(duì)所有類型的視頻內(nèi)容進(jìn)行統(tǒng)一表示，進(jìn)而能夠?qū)σ曨l生成模型進(jìn)行大規(guī)模數(shù)據(jù)訓(xùn)練。

圖片來(lái)源于《Video generation models as world simulators》

值得注意的是，Spacetime Patch除了包括視頻信息元素的空間信息還有時(shí)間信息。

圖片就是單幀的視頻，把圖片按正確的發(fā)生時(shí)間順序顯示出來(lái)，就將是一個(gè)邏輯正確的視頻。

二， Diffusion Transformer（DiT，擴(kuò)散型 Transformer）架構(gòu)。

技術(shù)報(bào)告原文：Sora is a diffusion transformer。

和其他文生視頻產(chǎn)品所用的底層架構(gòu)不同，Sora 使用的是Diffusion Transformer架構(gòu)。

Diffusion Transformer論文（26號(hào)論文）的作者之一William Peebles，現(xiàn)在是OpenAI工程師，負(fù)責(zé)開發(fā)Sora。

《Video generation models as world simulators》羅列的技術(shù)文獻(xiàn)

Sora能獲取現(xiàn)有的靜態(tài)圖像并從中生成視頻，還能獲取現(xiàn)有視頻，進(jìn)行擴(kuò)展或填充缺失內(nèi)容。

技術(shù)大牛們認(rèn)為，Transformer強(qiáng)在前后文的理解和保持連續(xù)性，這讓Sora在時(shí)間軸上的延伸性非常出色，可以生成開頭不同但結(jié)尾完全一致的視頻片段。

哲思派：人工智能的能力到了什么階段？

以周鴻祎為代表的國(guó)內(nèi)技術(shù)大佬們對(duì)AI能力進(jìn)化的思考又進(jìn)一步。

Sora生成的視頻發(fā)布后，周鴻祎就稱“Sora意味著AGI實(shí)現(xiàn)將從10年縮短到兩三年”。

此后，短短3天時(shí)間，周鴻祎已發(fā)布7個(gè)小視頻來(lái)闡述自己對(duì)Sora的思考。

周鴻祎認(rèn)為，“Sora應(yīng)該還是模擬了人類去觀察世界、描繪世界和表現(xiàn)世界的方法?！?/p>

“Sora表面上是一個(gè)文生視頻的工具，實(shí)際上是一個(gè)現(xiàn)實(shí)世界模擬器。它也不僅僅是用來(lái)模擬現(xiàn)實(shí)世界，它意味著通用人工智能對(duì)這個(gè)世界的理解能力又一次得到了突破。GPT對(duì)人類語(yǔ)言和知識(shí)的理解達(dá)到了一個(gè)突破點(diǎn)，而除了人類的語(yǔ)言和這個(gè)世界的人類之間做交互的知識(shí)之外，這個(gè)世界還有很多規(guī)律，人工智能對(duì)物理世界的規(guī)律缺乏理解的話，那么它是殘缺的，不可能真正變成通用人工智能?！?/p>

“Sora做出的視頻之所以讓人感覺(jué)真是，不是畫面有多優(yōu)美，是因?yàn)樽屓祟惪雌饋?lái)，所有的動(dòng)作是符合這個(gè)世界的運(yùn)行規(guī)律的。它對(duì)這個(gè)世界的規(guī)律有了一個(gè)比較更為完整的了解。這就說(shuō)明人工智能的能力又上了一個(gè)臺(tái)階?！?/p>

搞錢派：售賣課程、追漲股票、投資建廠搞芯片

現(xiàn)在，針對(duì)Sora熱搜引發(fā)的“搞錢派”也分不同段位。

最基本的一類是，根據(jù)信息差來(lái)賣課、賣賬號(hào)的。

Sora根本還沒(méi)對(duì)外開放使用，現(xiàn)在就來(lái)這樣搞錢實(shí)在太無(wú)厘頭了。

然而，還真有人買單。

某電商平臺(tái)26.6元的學(xué)習(xí)包，居然已經(jīng)售出10多份。

第二類是追漲AI概念股搞錢的，人也不少。

春節(jié)后A股開門紅，AI相關(guān)概念股全線上揚(yáng)，Sora板塊多模態(tài)模型概念、ChatGPT、虛擬人、AIGC、算力等相關(guān)概念均有所上漲，算是給A股的朋友們一個(gè)新年紅包。

最高段位的，還是直接針對(duì)大模型“核心能力”—— 算力出奇跡進(jìn)行投資的富豪們。

上圖從左往右分別是Sora使用 1 倍資源、4 倍資源、16 倍資源訓(xùn)練時(shí)的生成效果。

圖片來(lái)自《Video generation models as world simulators》

可見(jiàn)，算力，仍然是卡住AI發(fā)展脖子的角色。

就在Sora發(fā)布后，軟銀創(chuàng)始人孫正義正尋求籌資1000億美元（約合人民幣7000億元），用于創(chuàng)立一家AI芯片企業(yè)，旨在挑戰(zhàn)英偉達(dá)的消息傳出。

OpenAI創(chuàng)始人 Sam Altman籌建7萬(wàn)億打造AI芯片帝國(guó)的計(jì)劃也被曝出向美政府尋求政策支持。

找差距、威脅派

就在Sora露面后的2天，2月18日，國(guó)家互聯(lián)網(wǎng)信息辦公室關(guān)于發(fā)布第四批深度合成服務(wù)算法備案信息，該批共有266個(gè)算法通過(guò)備案。此前三批分別有41、110、129個(gè)算法通過(guò)備案。

這意味著截至目前，國(guó)內(nèi)總計(jì)已經(jīng)有546款深度合成服務(wù)算法獲得備案。

追問(wèn)“國(guó)內(nèi)何時(shí)有自己的Sora？”“國(guó)內(nèi)企業(yè)距離趕上Sora還要多久？”的聲音毫無(wú)意外的再次響起。

當(dāng)然，Sora生成視頻太逼真而引發(fā)犯罪不可控的擔(dān)憂聲也不少，生成的視頻是否會(huì)影響到人身安全、社會(huì)穩(wěn)定、企業(yè)安全等等。

迎接“Sora們”開放，法律、社會(huì)、技術(shù)等層面是否都做好了準(zhǔn)備？

如IDC分析師所言，生成式AI產(chǎn)品不可預(yù)測(cè)的未來(lái)：具體哪些公司能在什么時(shí)間點(diǎn)推出與 Sora 類似的產(chǎn)品，不可預(yù)測(cè)。當(dāng)前 Sora 生成的是1分鐘的視頻，下一步何時(shí)能生成2分鐘5分鐘以上的視頻，不可預(yù)測(cè)。

但是，對(duì)于個(gè)人而言，生成式AI產(chǎn)品已經(jīng)在潛移默化的改變我們的生活方式，每一個(gè)人都可以認(rèn)真考慮該類產(chǎn)品如何能夠助力我們的生活與工作。

還是那句話，每一項(xiàng)新技術(shù)進(jìn)入人們的生活時(shí)，總是伴隨著興奮和質(zhì)疑。那么就讓Sora們多飛一會(huì)兒！

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

讓Sora多飛一會(huì)兒

下一篇