2023《幻境法典》現(xiàn)世 AI大師NVIDIA施展十大現(xiàn)實“幻境”

在2023年的科技界,NVIDIA的名字頻頻被提及。這不僅因為其在GPU市場的領(lǐng)先地位,也因為其在AI領(lǐng)域的顯著成就。

NVIDIA 2023年10大研究亮點,從CV到AI,從智能體到生成式A1。

從具身AI的靈動機器人到虛擬角色的栩栩如生,從3D生成模型的立體世界到圖形處理的細(xì)膩畫面,再到圖像生成與視頻生成技術(shù)的逼真效果。NVIDIA用AI領(lǐng)域的十大研究成果,向世界揭示了一個全新的未來——一個由AI驅(qū)動,幻想與現(xiàn)實交織的未來。

實現(xiàn)這一切的NVIDIA,就如同創(chuàng)造《幻境法典》的大法師,十大研究成果便是NVIDIA以其非凡的AI魔力創(chuàng)造出的十大AI技術(shù)幻境。

其中包括3個AI 智能體的(機器人和虛擬角色)研究、2個3D生成模型研究、2個圖形處理研究、2個圖像生成研究以及1個視頻生成研究。每一項技術(shù),都是一段魔法咒語,每一次創(chuàng)新都是一次魔法的施展。

現(xiàn)在,讓我們一起,深入探索這十大現(xiàn)實幻境,感受NVIDIA為世界揭開的每一扇神秘之門。

\

01 細(xì)膩之美:Neuralangelo鏈接虛擬與現(xiàn)實

從粗糙的瓦片到光滑的大理石,每一處紋理,都仿佛經(jīng)過時間的雕琢,展現(xiàn)出細(xì)膩與真實;不論是小巧的裝飾品還是宏偉的建筑,在虛擬空間中,它們的形貌和靈魂都被1:1重塑.....

\

這正是Neuralangelo用“AI的筆觸”以前所未有的方式捕捉與重現(xiàn)現(xiàn)實世界的傳神細(xì)膩,展現(xiàn)質(zhì)感的傳神。

作為一款全新的AI模型,Neuralangelo利用神經(jīng)網(wǎng)絡(luò)進(jìn)行3D重建,可將 2D視頻片段轉(zhuǎn)換為詳細(xì)的3D結(jié)構(gòu),為建筑物、雕塑以及其他真實物體生成逼真的虛擬復(fù)本。

Neuralangelo的技術(shù)核心,在于捕捉和再現(xiàn)那些細(xì)小而復(fù)雜的紋理與色彩變化。通過分析不同角度的視頻,繪制出場景的深度、大小和形狀。

Neuralangelo不僅在藝術(shù)層面頗具造詣,憑借NVIDIA Instant NeRF技術(shù),在重建3D場景方面更能為虛擬現(xiàn)實、數(shù)字孿生以及機器人開發(fā)等領(lǐng)域開啟創(chuàng)新篇章。

在建筑設(shè)計和房地產(chǎn)領(lǐng)域,該技術(shù)能夠通過3D模型精確呈現(xiàn)未來建筑的內(nèi)部和外部結(jié)構(gòu),幫助設(shè)計師優(yōu)化設(shè)計,客戶提前體驗空間。

在電影和游戲產(chǎn)業(yè),它能夠創(chuàng)建高度逼真的虛擬場景,提升視覺效果,增強用戶體驗。

在機器人技術(shù)和自動駕駛領(lǐng)域,精確的3D場景重建對于機器人的空間感知和決策至關(guān)重要,有助于提高導(dǎo)航和操作的安全性和效率。

02 “指揮棒”:Eureka讓機器人超越“天賦”

一只機器手臂,在沒有任何預(yù)定義獎勵模板的情況下,如何通過“直覺”,便能自如地翻轉(zhuǎn)筆、打開抽屜?

\

這些原本僅能人類具備的“天賦”,卻都在Eureka的“指揮”下被機器人完成。作為一款A(yù)I智能體,Eureka利用先進(jìn)的GPT-4 LLM技術(shù)和生成式AI,為機器人提供高效的強化學(xué)習(xí)獎勵方案,教會機器人通過嘗試和錯誤來學(xué)習(xí),訓(xùn)練機器人完成復(fù)雜任務(wù)。

通過在Isaac Gym中利用GPU進(jìn)行加速模擬,Eureka能快速篩選出最優(yōu)的獎勵方案,提升訓(xùn)練的效率。隨著訓(xùn)練的進(jìn)行,它還會收集關(guān)鍵數(shù)據(jù),指導(dǎo)語言模型進(jìn)一步改善獎勵函數(shù)。這種自我完善的能力讓Eureka能教會各種類型的機器人完成多樣化的任務(wù)。

Eureka這個名字源于希臘語,意思是“我找到了”。它不僅找到了解決復(fù)雜問題的新方法,更打開了行業(yè)通往無限可能的大門:

在工業(yè)領(lǐng)域,應(yīng)用Eureka能極大提高生產(chǎn)效率和安全性;在醫(yī)療領(lǐng)域,它的精準(zhǔn)控制可助力精細(xì)的手術(shù)操作;在娛樂行業(yè),它所帶來的物理逼真動畫將為用戶帶來前所未有的視覺體驗。此外,服務(wù)業(yè)、教育甚至家居生活,都將因Eureka的加入而變得更加智能、高效。

03 造夢師:Magic3D橋接想象力與現(xiàn)實

Magic3D是一個可以從文字描述中生成3D模型的AI模型。穿梭于數(shù)字與現(xiàn)實的交界,Magic3D以其獨特“魔力”,讓思維映射到現(xiàn)實,將簡單的文字用線條與色彩編織成三維世界的奇跡。

當(dāng)你輸入“一只坐在睡蓮上的藍(lán)色毒鏢蛙”這樣的文字提示,只需40分鐘,Magic3D便可以描繪出一個兼具細(xì)膩紋理和豐富色彩的三維實體。不僅如此,它的速度甚至比谷歌的DreamFusion快了整整兩倍,同時還提供了更高的三維模型分辨率。

\

一只坐在睡蓮上的藍(lán)色毒鏢蛙

更令人著迷的是,Magic3D賦予了創(chuàng)作者“改寫現(xiàn)實”的能力。創(chuàng)作者只需通過修改文字,便可以讓原本靜止的模型能即時變換形態(tài)、色彩,仿佛擁有了生命。這種即時、動態(tài)的創(chuàng)造過程,是對傳統(tǒng)創(chuàng)作方式的一次顛覆性創(chuàng)新。

\

從一只坐在一堆西蘭花上的金屬兔子到一個坐在一堆巧克力餅干上的獅身人面像

技術(shù)上,Magic3D采用“由粗到細(xì)”的策略,先構(gòu)建初步模型,再精細(xì)化至高分辨率,保證了從宏觀到微觀的無縫過渡,每一個細(xì)節(jié)都經(jīng)過精心打磨。

事實上,這項技術(shù)對多個行業(yè)都有潛在的巨大影響。在游戲設(shè)計中,Magic3D能夠迅速構(gòu)建豐富多彩的虛擬世界,提升游戲體驗的同時,大幅縮短開發(fā)周期。在電影制作中,用Magic3D生成復(fù)雜的3D場景和特效,可以極大提升視覺沖擊力,提高電影質(zhì)量。在產(chǎn)品設(shè)計、建筑模擬等領(lǐng)域,這項技術(shù)可以作為一個高效的原型工具,加速從概念到實物的轉(zhuǎn)化過程。

在這個由數(shù)字編織未來的時代,Magic3D搭建起想象力與現(xiàn)實之間的橋梁,引領(lǐng)我們進(jìn)入一個更加細(xì)膩、多彩、生動的三維數(shù)字世界。

04 AI理云鬢:ADMM實現(xiàn)高逼真頭發(fā)模擬

你知道人類頭上有多少根頭發(fā)嗎?平均而言,這個數(shù)字大約是10萬根。

一部大制作的電影,想要生動地描繪出人物頭發(fā)的細(xì)節(jié),只能租賃昂貴的服務(wù)器,通過數(shù)天甚至更長時間的計算才能呈現(xiàn)良好的效果,且常常需要妥協(xié)于計算資源的限制。

但現(xiàn)在,這一切都發(fā)生了改變,只需要數(shù)小時甚至更短,便可以制作出高逼真的發(fā)絲模擬。

這便是NVIDIA研究人員開發(fā)出的、在GPU上計算頭發(fā)模擬的新方法——ADMM。ADMM使用AI來預(yù)測頭發(fā)在現(xiàn)實世界中的行為方式,通過NVIDIA GPU強大的計算能力加持,極大地提升了頭發(fā)模擬的效率和質(zhì)量。每根頭發(fā)的彎曲、搖擺,甚至是在風(fēng)中的輕輕擺動,都能以令人驚嘆的真實度呈現(xiàn)。

Gilles Daviet在ADMM的研究論文中指出,ADMM展示了一種高效的頭發(fā)模擬技術(shù),每幀處理時間介于0.18至8秒,根據(jù)頭發(fā)的數(shù)量和長度以及碰撞處理的精度不同而變化。在雙GPU設(shè)置下,內(nèi)存需求也可因場景而異,從1GB到19GB不等。

\

從演示中,我們不難發(fā)現(xiàn)。創(chuàng)作者可以輕松調(diào)整每縷秀發(fā)的長度和曲率,仿佛在畫布上縮放繪圖。同時,創(chuàng)作者還可以精準(zhǔn)地按照設(shè)定的輪廓線修剪,就像用剪刀裁剪精美布料。不僅如此,ADMM還支持在選定的區(qū)域內(nèi),像玩彈力球那樣,用彈簧般的動力輕推頭發(fā),讓每根發(fā)絲都聽從指揮。

這項技術(shù)的潛力是巨大的。不論在數(shù)字娛樂產(chǎn)業(yè),還是時尚設(shè)計領(lǐng)域,甚至在教育和培訓(xùn)行業(yè),豐富和真實的用戶體驗、精細(xì)和生動的作品、高度逼真的模擬無疑是一個極具價值的工具。

05 超高清工坊:LDM的“高分辨率”變革

文字描繪被轉(zhuǎn)化為高分辨率、生動逼真的視頻,不再是遙不可及的夢想,而是潛在擴散模型LDM(Latent Diffusion Models)技術(shù)帶來的現(xiàn)實。

傳統(tǒng)視頻生成技術(shù)往往需要龐大的計算資源,LDM技術(shù)則通過在低維潛空間中訓(xùn)練擴散模型,實現(xiàn)了高質(zhì)量圖像合成,并避免了過多的計算需求。

從技術(shù)實現(xiàn)上講,首先,模型會生成關(guān)鍵幀,通過擴散模型進(jìn)行插幀,保留關(guān)鍵幀的潛在特征作為界限,中間幀以噪聲初始化。經(jīng)解碼器和超分模塊處理后,生成高質(zhì)量視頻。

而后,采用基于掩碼的條件方法,用給定上下文幀的潛在特征預(yù)測遮蓋幀,迭代生成長視頻。

最終,視頻的生成效果達(dá)到了驚人的1280x2048像素、113幀、24fps播放、4.7秒時長。該LDM基于穩(wěn)定擴散,擁有4.1B參數(shù),其中27億通過視頻訓(xùn)練,包含剪輯文本編碼器外的所有組件。

這就像是在一個簡化但精華的世界里,進(jìn)行創(chuàng)作,然后再將這些創(chuàng)作放大,呈現(xiàn)在現(xiàn)實世界中。

\

進(jìn)行時態(tài)視頻微調(diào)的示意

這項技術(shù)的應(yīng)用前景同樣令人振奮。在未來的交通系統(tǒng)中,LDM可以用于模擬和預(yù)測復(fù)雜的駕駛場景,為自動駕駛汽車提供決策支持。

06 夢幻紋理:Text2Materials“創(chuàng)想”細(xì)膩材質(zhì)

無論是復(fù)古的紅磚墻面,還是光滑整潔的家具面料,“設(shè)計師”Text2Material都可以輕松搞定。它不僅可以針對織物、木材、石材等材質(zhì)的紋理創(chuàng)作,還在建筑、游戲開發(fā)、室內(nèi)設(shè)計等領(lǐng)域應(yīng)用。

這場美學(xué)革命,由一種全新的生成式AI工作流所驅(qū)動——Text2Material可以利用文本或圖像提示來更快地生成織物、木材和石材等自定義紋理材質(zhì),同時對創(chuàng)作進(jìn)行更加精細(xì)的把控。

這套 AI模型將促進(jìn)材質(zhì)創(chuàng)建和編輯的迭代,能夠幫助使用者快速完善 3D 對象的外觀,直到達(dá)到想要的效果。

\

從演示視頻可以看出,創(chuàng)作者只需簡單的提示,AI便能根據(jù)提示迅速生成一面磚紋理的墻,或是一套具有特定面料的沙發(fā)和抱枕。甚至能在墻壁的特定區(qū)域嵌入抽象的動物圖案,將創(chuàng)意無縫轉(zhuǎn)化為現(xiàn)實。

目前,這些功能可以通過NVIDIA Picasso基礎(chǔ)模型平臺提供服務(wù)。企業(yè)開發(fā)者、軟件制作人員和服務(wù)供應(yīng)商能夠通過該平臺選用、細(xì)化、完善并應(yīng)用圖像、視頻、3D對象以及360度全景HDRi的基本模型,以此來滿足他們在視覺設(shè)計方面的各項需求。

07 極限模擬:CALM讓人類“穿越”數(shù)字世界

無論是攀爬、跳躍還是短暫的回望,游戲玩家在現(xiàn)實世界的每個輕微動作,都能被完美捕捉,并在虛擬角色上呈現(xiàn)。這讓整個游戲體驗,變得更加沉浸和真實。

給予玩家前所未有的動作自由度的,便是這款可操縱虛擬角色的條件對抗性潛在模型——CALM。

CALM能賦予用戶操縱交互式虛擬角色的能力,同時生成既多樣又定向的行為。

這項技術(shù)依賴于模仿學(xué)習(xí),能夠精確捕捉并控制角色的每一個動作。通過結(jié)合控制策略和運動編碼器的學(xué)習(xí),CALM不僅能實現(xiàn)人類行為的簡單復(fù)制,更是能深入理解并重現(xiàn)該行為的核心特征。

\

CALM 由三個階段組成學(xué)習(xí)有意義的運動語義表征

CALM想要毫無瑕疵地模擬人類行為,需要經(jīng)歷3個階段。

在低級訓(xùn)練階段,CALM技術(shù)可通過模仿學(xué)習(xí),精妙地捕捉并再現(xiàn)人類運動的復(fù)雜多樣性。在這一過程中,它還能通過編碼器和解碼器深度理解動作的本質(zhì),并將其轉(zhuǎn)化為數(shù)字世界的語言。

第二階段增加了方向性控制。CALM可利用高級任務(wù)驅(qū)動策略來選擇潛在變量,可根據(jù)用戶的意愿,調(diào)整運動的風(fēng)格和節(jié)奏,賦予動作不同的情感色彩。

而在最終的推理階段,CALM則可以將前期的學(xué)習(xí)和訓(xùn)練巧妙地結(jié)合,讓復(fù)雜的動作組合變得輕而易舉。用戶僅通過一個直觀的界面,便可以讓虛擬角色表演出一連串的動作劇情。

08 訓(xùn)練大師:Vid2Player3D在虛擬賽場的技術(shù)革命

如果網(wǎng)球比賽中的每個精彩瞬間都能被精確地捕捉、分析,并在虛擬世界中重現(xiàn),這將是怎樣一番景象?Vid2Player3D是這樣一位“訓(xùn)練大師”,它可以將網(wǎng)球比賽的瞬間變?yōu)橛篮?,把球星的技巧轉(zhuǎn)化為永久的數(shù)字資產(chǎn)。

\

這項技術(shù)的核心在于它能夠洞察2D比賽視頻中的每一個細(xì)節(jié),并將這些數(shù)據(jù)轉(zhuǎn)化為3D模型的動作。這不僅僅是簡單的模仿,而是一種深度學(xué)習(xí)和精確再現(xiàn)。

Vid2Player3D就像是一個細(xì)心的觀察者,它分析球員的每一個動作,甚至是呼吸的節(jié)奏,然后指導(dǎo)虛擬球員在網(wǎng)球場上做出最佳反應(yīng)。

Vid2Player3D的工作原理可以分為四步。

首先,收集網(wǎng)球運動員的2D和3D姿勢數(shù)據(jù),以及他們在場上的移動路徑,建立起一個基礎(chǔ)的運動信息庫。

然后,利用這些數(shù)據(jù)訓(xùn)練一個基礎(chǔ)的模仿程序,模擬真人的動作,同時也對這些動作進(jìn)行一些物理上的調(diào)整,使動作更加真實。

接著,對修正后的運動數(shù)據(jù)集進(jìn)行條件變分自編碼器(VAE)的擬合,這個過程可以幫助Vid2Player3D理解和學(xué)習(xí)網(wǎng)球運動的核心動作模式,并將這些復(fù)雜的動作簡化成更容易處理的形式。

最終,訓(xùn)練出一個高級的規(guī)劃程序,可以根據(jù)學(xué)到的動作模式來生成更自然、更符合預(yù)期的網(wǎng)球運動姿勢,同時也會對運動員手腕的動作做出細(xì)微的調(diào)整,以確保動作的準(zhǔn)確性。這樣,整個系統(tǒng)就能生成接近真人的網(wǎng)球運動姿勢。

為了解決從廣播視頻中提取的低質(zhì)量運動,研究人員通過基于物理的模仿來校正估計的運動,并使用混合控制策略,通過高級策略預(yù)測的校正來覆蓋學(xué)習(xí)運動嵌入的錯誤。

同時,系統(tǒng)還能合成兩個物理模擬角色,通過模擬球拍和球的動力學(xué)進(jìn)行長時間的網(wǎng)球比賽。

09 魔幻維度:FlexiCubes給出網(wǎng)格優(yōu)化“最優(yōu)解”

FlexiCubes的核心革新在于其梯度網(wǎng)格優(yōu)化方法。通過將3D表面網(wǎng)格表現(xiàn)為標(biāo)量場的等值面,F(xiàn)lexiCubes實現(xiàn)了網(wǎng)格的精確迭代優(yōu)化。

這一技術(shù)在攝影測量、生成建模和逆向物理等領(lǐng)域中的應(yīng)用越發(fā)廣泛,它為這些復(fù)雜的應(yīng)用提供了一個更加精細(xì)和準(zhǔn)確的三維表達(dá)方式。

與傳統(tǒng)的等值面提取算法相比,F(xiàn)lexiCubes引入了額外的參數(shù),使得網(wǎng)格不僅擁有更高的自由度來表示復(fù)雜的特征,而且在優(yōu)化的過程中也能保持?jǐn)?shù)值的穩(wěn)定性。這意味著無論是在優(yōu)化幾何形狀、視覺效果,還是物理屬性時,F(xiàn)lexiCubes都能提供更為精準(zhǔn)和靈活的網(wǎng)格調(diào)整。

\

FlexiCubes的靈活性和精確性得益于其基于雙行進(jìn)立方體的提取方案,這一方案不僅改善了網(wǎng)格的拓?fù)鋵傩裕€能生成四面體和分層自適應(yīng)網(wǎng)格。這種方法使得網(wǎng)格的微分明確且易于操作,使基于梯度的優(yōu)化方法能夠有效且穩(wěn)定地收斂,為各種應(yīng)用實現(xiàn)了簡單、高效和高質(zhì)量的網(wǎng)格優(yōu)化。

在實際應(yīng)用中,F(xiàn)lexiCubes展現(xiàn)出了巨大的潛力。無論是與可微分等值曲面技術(shù)結(jié)合,改善幾何重建的質(zhì)量;還是作為3D生成模型的一部分,提升網(wǎng)格質(zhì)量;或是在可微分物理模擬框架中,協(xié)助從視頻中恢復(fù)3D形狀和物理參數(shù);FlexiCubes都能提供卓越的性能。

此外,F(xiàn)lexiCubes在動畫對象網(wǎng)格簡化和正則化方面的應(yīng)用也證明了其不同凡響的能力。它不僅能夠優(yōu)化動畫的每一幀,確保動作的流暢性,還能直接評估和優(yōu)化依賴于提取網(wǎng)格本身的目標(biāo)和正則化器。

10 創(chuàng)造力“外掛”:eDiff-I用文字編織視覺奇跡

如果想象力成為一種新的生產(chǎn)力,想要一瞥未來嗎?

eDiff-I便擁有絕妙的技巧,讓你的每個念頭都躍然紙上。這可不是什么簡單的把戲。eDiff-I是一種擴散模型,可通過T5文本嵌入、CLIP圖像嵌入和CLIP文本嵌入為條件,生成與任何輸入文本提示相對應(yīng)的逼真圖像。

簡單地說,就是可以將你的文本描述轉(zhuǎn)換成令人驚嘆的圖像。

不僅如此,除了文本到圖像的合成之外,“樣式傳輸”更能支持我們能夠利用參考樣式圖像控制生成樣本的樣式?!拔淖掷L畫”功能,則能通過在畫布上繪制分割圖來生成圖像的應(yīng)用程序。

現(xiàn)在,讓我們把技術(shù)術(shù)語拋在腦后,試想一下:你描述一片森林,eDiff-I就能給你繪制出一片森林;你想要一只穿著禮帽的貓,eDiff-I也能做到。你甚至可以提供一張圖片,讓eDiff-I模仿其風(fēng)格,繪制出全新的圖像。更神奇的是,它可以根據(jù)你在一個虛擬畫布上的涂鴉來繪制圖像,這對于創(chuàng)造力的發(fā)揮來說簡直是開了掛!

想想看,廣告界能用它來制作令人難以忘懷的視覺效果,游戲設(shè)計師可以用它來構(gòu)建出前所未有的場景,而時尚界也可以利用它來預(yù)視下一季的趨勢。

eDiff-I的特性不僅僅是新穎,更重要的是實用——創(chuàng)造力的實際應(yīng)用從未如此便捷。

所以,如果想要看看你的想象力能走多遠(yuǎn),eDiff-I就是你的新伙伴。

\

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-02-19
2023《幻境法典》現(xiàn)世 AI大師NVIDIA施展十大現(xiàn)實“幻境”
在2023年的科技界,NVIDIA的名字頻頻被提及。這不僅因為其在GPU市場的領(lǐng)先地位,也因為其在AI領(lǐng)域的顯著成就。

長按掃碼 閱讀全文