如果只是作為駕駛模擬器,可能很平庸,但對電子游戲畫面來說,這可能是一場偉大的革命 。
圖|真實視頻(左)和AI生成的渲染視頻(右)之間的對比。(圖源:英偉達)
最近人工智能的繁榮給圖像和視頻生成領(lǐng)域帶來了一系列令人印象深刻的成果。最新成果來自芯片制造商英偉達,該公司12月3日發(fā)布了一份研究報告,展示了AI生成的畫面如何與傳統(tǒng)的視頻游戲引擎相結(jié)合。這種混合圖形系統(tǒng)有望應(yīng)用到視頻游戲,電影和虛擬現(xiàn)實等方面。
“這是使用深度學(xué)習(xí)渲染視頻內(nèi)容的一種新方式,”英偉達應(yīng)用深度學(xué)習(xí)副總裁Bryan Catanzaro表示。“顯然,英偉達非常關(guān)心圖形生成,并且我們正在思考如何利用人工智能徹底改變這一領(lǐng)域。”
英偉達的生成的圖片并沒有達到真實照片級的畫面,他們展示了在 AI 生成的圖像中發(fā)現(xiàn)的一些水印狀的模糊。并且這一工作也不是完全創(chuàng)新的。在一篇研究論文中,該公司的工程師解釋了他們?nèi)绾位谝恍┈F(xiàn)有方法,包括一個有影響力的開源系統(tǒng)pix2pix。此外英偉達的工作中還應(yīng)用到了生成對抗網(wǎng)絡(luò)(GAN)。這些方法已經(jīng)廣泛用于AI圖像生成。
但是英偉達還是在新產(chǎn)品中引入很多創(chuàng)新,這是世界上首個利用AI生成圖形畫面的視頻游戲演示。這個產(chǎn)品是一個簡單的駕駛模擬器,玩家可以在AI生成的幾個城市街區(qū)中穿行,但不能離開他們的汽車,也不能以其他方式與世界互動。并且這一演示僅使用一個GPU即可實現(xiàn) ,對于這樣的前沿工作來說,這是一個顯著的成就。
英偉達的系統(tǒng)利用如下幾個步驟生成圖形畫面:首先,研究人員必須收集訓(xùn)練數(shù)據(jù),一般這些數(shù)據(jù)來自于自動駕駛研究的開源數(shù)據(jù)集。然后將這些視頻數(shù)據(jù)中的每一個鏡頭做分割,即每一幀畫面被分成不同類別的區(qū)域:如天空,汽車,樹木,道路,建筑物等。然后,用這些分割的數(shù)據(jù)訓(xùn)練生成對抗網(wǎng)絡(luò),用來生成這些對象的新畫面 。
接下來,工程師們使用傳統(tǒng)的游戲引擎創(chuàng)建了虛擬環(huán)境的基本拓撲結(jié)構(gòu)。在該游戲演示中,使用的系統(tǒng)是虛幻引擎 4,這是一種流行的引擎,被用于諸如堡壘之夜,絕地求生,戰(zhàn)爭機器4等多種游戲中。工程師們使用此引擎作為框架,然后利用深度學(xué)習(xí)算法實時生成每個類別的圖形畫面,并將它們顯示到游戲引擎的模型上 。
“被創(chuàng)造的世界的結(jié)構(gòu)還是用傳統(tǒng)方法制作的,”Catanzaro解釋說,“人工智能產(chǎn)生的唯一東西就是圖形畫面。”他補充說,演示本身很基礎(chǔ),主要由一名工程師負責(zé)完成。“這主要是用來做概念驗證游戲,而不是開發(fā)了一個真正的游戲 。”
圖|不同AI模型生成的畫面對比。左上是經(jīng)語義分割的圖像;右上是pix2pixHD生成的畫面;左下是 COVST 生成的畫面;右下是本文英偉達的系統(tǒng)生成的畫面。(圖源:英偉達)
為了創(chuàng)建這個系統(tǒng),英偉達的工程師克服了許多挑戰(zhàn),其中最大的挑戰(zhàn)是對象持久性(object permanence)。也就是說,如果深度學(xué)習(xí)算法以每秒 25 幀的速率為這一虛擬世界生成圖形,它們?nèi)绾伪3置恳粎^(qū)域的對象看起來大致相同?Catanzaro這個問題曾導(dǎo)致這個系統(tǒng)的初始結(jié)果“看起來很痛苦”,因為圖形的顏色和紋理 “每幀都會改變 ”。
而解決的方案就是給系統(tǒng)一個短期記憶,讓系統(tǒng)生成的每個新幀的時候與之前的幀進行比較 。試圖去預(yù)測這些圖像之間運動的東西,并產(chǎn)生與屏幕上的內(nèi)容一致的新鄭但是這些計算都很昂貴,因此游戲只能以每秒25幀的速度運行。
Catanzaro強調(diào),這項技術(shù)還處于早期階段,想要讓人工智能生成的畫面出現(xiàn)在消費者游戲中可能還需要幾十年的時間。他將這種情況與光線追蹤的發(fā)展進行了比較,光線跟蹤是當前圖形渲染中的熱門技術(shù),它可以實時生成單獨的光線,在虛擬環(huán)境中創(chuàng)建逼真的反射,陰影和不透明度。Catanzaro表示:“第一次交互式光線追蹤演示已經(jīng)是很久很久以前的事了,但直到幾周前我們還沒有在游戲中成功應(yīng)用光線跟蹤技術(shù)”。
不過,人工智能生成的畫面工作確實在機器人和自動駕駛汽車等研究領(lǐng)域有潛在的應(yīng)用前景,可以用來生成虛擬訓(xùn)練環(huán)境。例如,在大部分游戲中,結(jié)構(gòu)仍使用傳統(tǒng)方法渲染,而AI用于創(chuàng)建其中的人或物體 。消費者可以使用智能手機自己捕捉素材,然后將這些數(shù)據(jù)上傳到云端,算法將通過學(xué)習(xí)將其插入到各種游戲中。比如說,將其用來創(chuàng)建更像真人玩家的頭像。
然而,這種技術(shù)帶來了一些明顯的問題。近年來,專家越來越擔心有些人會使用 AI 生成的足以亂真的假情報進行虛假宣傳 。研究人員展示,現(xiàn)在很容易制作一些虛假的政治家和名人的鏡頭,利用這些視頻散播一些的虛假消息,這將會是不法之徒一個很強大的武器。如果推進這項技術(shù)的發(fā)展并將這一研究成果發(fā)布,英偉達在一定程度上可以說是這一潛在負面問題的推動者。
不過,英偉達表示,這并不是一個新問題。“這一技術(shù)可以用于制作具有誤導(dǎo)性的內(nèi)容嗎?是。但是任何渲染技術(shù)都可以用來做到這一點 ,”Catanzaro表示,英偉達正在與合作伙伴一起研究檢測AI贗品的方法,這種所謂的虛假信息的問題本質(zhì)上是一個“信任問題”。就像之前許多的“信任問題”一樣,它必須通過一系列方法來解決,而不僅僅是通過技術(shù) 。
Catanzaro反問道:“電力公司創(chuàng)造的電力可以為制作假視頻的電腦供電,你覺得他們需不需要負責(zé)?”。
不過歸根結(jié)底,對于英偉達來說,推動人工智能生成的圖形有一個明顯的好處:它將有助于英偉達銷售更多的硬件。自從深度學(xué)習(xí)熱潮在2010年初興起以來,英偉達的股價飆升,很明顯英偉達的計算機芯片非常適合機器學(xué)習(xí)研究和開發(fā) 。
對于計算機圖形學(xué)的人工智能革命是否會有利于英偉達公司的收入,Catanzaro笑著說,至少不會帶來傷害。“任何能夠提高生成更逼真和更具吸引力的圖形的能力,都會對英偉達有利 。”
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )