蘋果發(fā)布首份人工智能報(bào)告(全文):瞄準(zhǔn)AI視覺(jué)

日前,蘋果發(fā)布了其首份關(guān)于人工智能(AI)的學(xué)術(shù)論文——“通過(guò)對(duì)抗網(wǎng)絡(luò)使用模擬和非監(jiān)督圖像訓(xùn)練”(Learning from Simulated and Unsupervised Images through Adversarial Training),其中主要描述了在計(jì)算機(jī)視覺(jué)系統(tǒng)中提高圖像識(shí)別的方法,而這或許也標(biāo)志著蘋果公司研究的新方向。

下面就是這篇報(bào)告的全文:

摘要

隨著圖形技術(shù)不斷進(jìn)步,利用合成圖像訓(xùn)練機(jī)器學(xué)習(xí)模型變得越來(lái)越容易,這可以幫助避免注釋圖像的昂貴支出。然而,通過(guò)合成圖像訓(xùn)練機(jī)器學(xué)習(xí)模型可能無(wú)法達(dá)到令人滿意的效果,因?yàn)楹铣蓤D像與真實(shí)圖像之間畢竟存在區(qū)別。為了減少這種差異,我們提出“模擬+無(wú)監(jiān)督”學(xué)習(xí)方法,即通過(guò)計(jì)算機(jī)生成圖像或合成圖像來(lái)訓(xùn)練算法的圖像識(shí)別能力。

事實(shí)上,這種“模擬+無(wú)監(jiān)督”學(xué)習(xí)需要將無(wú)標(biāo)注的真實(shí)圖像數(shù)據(jù)與已經(jīng)注釋的合成圖像相結(jié)合。在很大程度上,它需要依賴生成式對(duì)抗網(wǎng)絡(luò)(GAN)的新機(jī)器學(xué)習(xí)技術(shù),它可通過(guò)兩個(gè)神經(jīng)網(wǎng)絡(luò)相互對(duì)抗以生成更加真實(shí)的圖像。我們對(duì)標(biāo)準(zhǔn)GAN算法進(jìn)行了多處關(guān)鍵性修改,以保留注釋、避免偽影以及穩(wěn)定性訓(xùn)練:自正則化(self-regularization)-局部對(duì)抗性損失-使用精煉圖像升級(jí)鑒別器。

我們發(fā)現(xiàn),這個(gè)過(guò)程可以產(chǎn)生高度逼真的圖像,在質(zhì)量上和用戶研究方面都已經(jīng)獲得證實(shí)。我們已經(jīng)通過(guò)訓(xùn)練模型評(píng)估視線水平和手勢(shì)姿態(tài),對(duì)計(jì)算機(jī)生成圖像進(jìn)行定量評(píng)估。通過(guò)使用合成圖像,我們的圖像識(shí)別算法已經(jīng)取得了巨大進(jìn)步。在沒(méi)有使用任何標(biāo)準(zhǔn)真實(shí)數(shù)據(jù)的情況下,我們?cè)贛PIIGaze數(shù)據(jù)集中獲得了最高水平的結(jié)果。

引言

隨著最近高容量深度神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)的崛起,大規(guī)模標(biāo)注訓(xùn)練數(shù)據(jù)集正變得日益重要??墒?,標(biāo)準(zhǔn)數(shù)量龐大的數(shù)據(jù)集成本非常高,而且相當(dāng)耗費(fèi)時(shí)間。為此,使用合成圖像而非真實(shí)圖像訓(xùn)練算法的想法開始出現(xiàn),因?yàn)樽⑨屢呀?jīng)可實(shí)現(xiàn)自動(dòng)化。利用XBOX360外設(shè)Kinect評(píng)估人體姿勢(shì)以及其他任務(wù),都是使用合成數(shù)據(jù)完成的。

(圖1:“模擬+無(wú)監(jiān)督”學(xué)習(xí):通過(guò)計(jì)算機(jī)生成圖像或合成圖像來(lái)訓(xùn)練算法的圖像識(shí)別能力)

然而,由于合成圖像與真實(shí)圖像之間存在差距,使用合成圖像訓(xùn)練算法可能產(chǎn)生很多問(wèn)題。因?yàn)楹铣蓤D像通常不夠真實(shí),導(dǎo)致神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)僅僅能夠了解到合成圖像中的細(xì)節(jié),并不能完整地識(shí)別出真實(shí)圖像,進(jìn)而也無(wú)法為算法提供精確的學(xué)習(xí)。一種解決方案就是改進(jìn)模擬器,可是增加真實(shí)性的計(jì)算往往非常昂貴,渲染器的設(shè)計(jì)也更加困難。此外,即使最頂級(jí)的渲染器可能也無(wú)法模仿真實(shí)圖像中的所有特征。因此,缺少真實(shí)性可能導(dǎo)致算法過(guò)度擬合合成圖像中不真實(shí)的細(xì)節(jié)。

在這篇論文中,我們提出“模擬+無(wú)監(jiān)督”學(xué)習(xí)的方法,其目的就是使用未標(biāo)注真實(shí)數(shù)據(jù)的模擬器提高合成圖像的真實(shí)性。提高真實(shí)性可更好地幫助訓(xùn)練機(jī)器學(xué)習(xí)模型,而且無(wú)需收集任何數(shù)據(jù),也無(wú)需人類繼續(xù)標(biāo)注圖像。除了增加真實(shí)性,“模擬+無(wú)監(jiān)督”學(xué)習(xí)還應(yīng)該保留注釋信息以用于訓(xùn)練機(jī)器學(xué)習(xí)模型,比如圖一中的注視方向應(yīng)被保留下來(lái)。此外,由于機(jī)器學(xué)習(xí)模型對(duì)合成數(shù)據(jù)中的偽影非常敏感,“模擬+無(wú)監(jiān)督”學(xué)習(xí)也應(yīng)該產(chǎn)生沒(méi)有偽影的圖像。

我們?yōu)?ldquo;模擬+無(wú)監(jiān)督”學(xué)習(xí)開發(fā)出新的方法,我們稱之為SimGAN,它可以利用我們稱之為“精煉器網(wǎng)絡(luò)(refiner network)”的神經(jīng)網(wǎng)絡(luò)從模擬器中提煉合成圖像。圖二中展示了這種方法的概述:第一,黑盒子模擬器中生成合成圖像,然后利用“精煉器網(wǎng)絡(luò)”對(duì)其進(jìn)行提煉。為了增加真實(shí)性,也就是“模擬+無(wú)監(jiān)督”學(xué)習(xí)算法的首要需求,我們需要利用類似生成式對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)訓(xùn)練“精煉器網(wǎng)絡(luò)”,進(jìn)而產(chǎn)生判別網(wǎng)絡(luò)無(wú)法區(qū)分真假的精煉圖像。

第二,為了保留合成圖像上的注釋信息,我們需要利用“自正則化損失”彌補(bǔ)對(duì)抗性損失,在合成圖像和精煉圖像之間進(jìn)行修改。此外,我們還利用完全卷積神經(jīng)網(wǎng)絡(luò),在像素水平方面進(jìn)行操作,并保留全局結(jié)構(gòu),而非整體修改圖像的內(nèi)容。

第三,GAN框架要求訓(xùn)練2個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)抗,它們的目標(biāo)往往不夠穩(wěn)定,傾向于產(chǎn)生偽影。為了避免漂移和產(chǎn)生更強(qiáng)的偽影,導(dǎo)致甄別更困難,我們需要限定鑒別器的接收區(qū)域?yàn)榫植拷邮?,而非整張圖片接收,這導(dǎo)致每張圖像都會(huì)產(chǎn)生多個(gè)局部對(duì)抗性損失。此外,我們還引入提高訓(xùn)練穩(wěn)定性的方法,即通過(guò)使用精煉圖像而非當(dāng)前“精煉器網(wǎng)絡(luò)”中的現(xiàn)有圖像升級(jí)鑒別器。

1.1相關(guān)工作

GAN框架需要2個(gè)神經(jīng)網(wǎng)絡(luò)競(jìng)爭(zhēng)損失,即生成器與鑒別器。其中,生成器網(wǎng)絡(luò)的目標(biāo)是在真實(shí)圖像上繪制隨機(jī)向量,而鑒別器網(wǎng)絡(luò)的目標(biāo)則是區(qū)分生成圖像與真實(shí)圖像。GAN網(wǎng)絡(luò)是由古德弗羅(I. Goodfellow)等人首先引入的,它可以幫助生成逼真的視覺(jué)圖像。自從那以來(lái),GAN已經(jīng)有了許多改進(jìn),并被投入到有趣的應(yīng)用中。

(圖2:SimGAN概觀:我們利用“精煉器網(wǎng)絡(luò)”提煉模擬器產(chǎn)生的輸出圖像,并最大限度地減少局部對(duì)抗性損失,并進(jìn)行自正則化。

對(duì)抗性損失可以欺騙鑒別器網(wǎng)絡(luò),從而令其將合成圖像誤認(rèn)為真實(shí)圖像。而自正則化則會(huì)最大限度減少合成圖像與真實(shí)圖像的差異,包括保留注釋信息,并讓精煉圖像被用于訓(xùn)練機(jī)器學(xué)習(xí)模型。“精煉器網(wǎng)絡(luò)”與鑒別器網(wǎng)絡(luò)也會(huì)交替升級(jí)。)

王(X. Wang)與古普塔(A. Gupta)利用結(jié)構(gòu)化GAN學(xué)習(xí)表面法線,然后將其與Style GAN相結(jié)合,以生成天然的室內(nèi)場(chǎng)景。我們提議使用對(duì)抗性訓(xùn)練進(jìn)行遞歸生成模型(recurrent generative model)訓(xùn)練。此外,最近推出的iGAN能夠幫助用戶以交互模式改變圖像。劉(M.-Y. Liu)等人開發(fā)的CoGAN結(jié)合GAN可多模態(tài)聯(lián)合分布圖像,無(wú)需要求應(yīng)對(duì)圖像的元組,這有利于開發(fā)出聯(lián)合發(fā)布解決方案。而陳(X. Chen)等人開發(fā)的InfoGAN是GAN信息理論的擴(kuò)展,允許有意義的陳述學(xué)習(xí)。

恩杰爾·圖澤爾(Oncel Tuzel)等人利用GAN解決人臉圖像超高分辨率問(wèn)題。李(C. Li)和王(M. Wand)提議Markovian GAN進(jìn)行有效的紋理合成。洛特爾(W. Lotter)等人在LSTM網(wǎng)絡(luò)中利用對(duì)抗性損失進(jìn)行視覺(jué)序列預(yù)測(cè)。于(L. Yu)等人提議SeqGAN框架,利用GAN強(qiáng)化學(xué)習(xí)。許多近來(lái)的問(wèn)題都顯示出與生成模型領(lǐng)域相關(guān)的問(wèn)題,比如PixelRNN可利用RNN的softmax損失預(yù)測(cè)像素順序。生成網(wǎng)絡(luò)側(cè)重于使用隨機(jī)噪聲矢量生成圖像,與我們的模型相比,其生成的圖像沒(méi)有任何標(biāo)注信息,因此也無(wú)法用于訓(xùn)練機(jī)器學(xué)習(xí)模型。

許多努力都在探索使用合成數(shù)據(jù)進(jìn)行各種預(yù)測(cè)任務(wù),包括視線評(píng)估、RGB圖像文本檢測(cè)與分類、字體識(shí)別、對(duì)象檢測(cè)、深度圖像中手部姿態(tài)評(píng)估、RGB-D場(chǎng)景識(shí)別、城市場(chǎng)景語(yǔ)義分割以及人體姿態(tài)評(píng)估等。蓋伊登(A. Gaidon)等人的研究表明,利用合成數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),可以提高其表現(xiàn)。我們的工作是對(duì)這些方法的補(bǔ)充,我們使用未標(biāo)記真實(shí)數(shù)據(jù)提高了模擬器的真實(shí)性。

嘉寧(Y. Ganin)與萊姆皮茨基(V. Lempitsky)在數(shù)據(jù)域適應(yīng)設(shè)置中利用合成數(shù)據(jù),了解合成圖像與真實(shí)圖像域的變化過(guò)程中保持不變的特征。王(Z. Wang)等人利用合成和真實(shí)數(shù)據(jù)訓(xùn)練層疊卷積碼自動(dòng)編碼器,以便了解其字體檢測(cè)器ConvNet的低級(jí)表示形式。張(X. Zhang)等人學(xué)習(xí)多通道編碼,以便減少真實(shí)數(shù)據(jù)與合成數(shù)據(jù)的域的轉(zhuǎn)變。與經(jīng)典域適應(yīng)方法相反,它采用與特定的特征以便適應(yīng)具體的預(yù)測(cè)任務(wù),而我們可通過(guò)對(duì)抗性訓(xùn)練,彌合圖像分布之間的差距。這種方法使我們能夠生成非常逼真的圖像,可以用于訓(xùn)練任何機(jī)器學(xué)習(xí)模型,并執(zhí)行潛在的更多任務(wù)。

2“模擬+無(wú)監(jiān)督”學(xué)習(xí)

模擬+無(wú)監(jiān)督學(xué)習(xí)的目標(biāo)是使用一組未標(biāo)記的真實(shí)圖像yi ∈ Y,學(xué)習(xí)可提煉合成圖像X的refiner Rθ(x),其中θ屬于函數(shù)參數(shù)。讓我們用X?表示精煉圖像,然后會(huì)得出X?:θ= R(X)。在“模擬+無(wú)監(jiān)督”學(xué)習(xí)中,最關(guān)鍵的要求就是精煉圖像X?,以便于其看起來(lái)更像真實(shí)圖像,同時(shí)保留來(lái)自模擬器的注釋信息。為此,我們建議通過(guò)最大化減少兩個(gè)損失的組合來(lái)學(xué)習(xí):

其中,xi是e ith合成訓(xùn)練圖像,X是相應(yīng)的精煉圖像。第一部分是真實(shí)性成本,即向合成圖像中增加真實(shí)性的成本。第二部分則代表著通過(guò)最小化合成圖像精煉圖像的差異保存注釋信息的成本。在下面的章節(jié)中,我們會(huì)展開這個(gè)公式,并提供優(yōu)化θ的算法。

2.1對(duì)抗性損失

為了向合成圖像中添加真實(shí)性,我們需要在合成圖形和真實(shí)圖像的分部之間建立起聯(lián)系。在理想情況下,精煉機(jī)可能無(wú)法將給定的圖像分類為真實(shí)圖像還是高度精煉圖像。這就需要使用對(duì)抗性的鑒頻器,網(wǎng)絡(luò)Dφ,它可訓(xùn)練分辨圖像到底是真實(shí)圖像還是精煉圖像,而φ是鑒別器網(wǎng)絡(luò)參數(shù)。對(duì)抗性損失訓(xùn)練refiner networkR,它負(fù)責(zé)欺騙D網(wǎng)絡(luò),令其將精煉圖像誤認(rèn)為是真實(shí)圖像。利用GAN方法,我們建造了2個(gè)神經(jīng)網(wǎng)絡(luò)參與的極限博弈模型,并升級(jí)“精煉器網(wǎng)絡(luò)”Rθ和鑒別器網(wǎng)絡(luò)Dφ。接下來(lái),我們更精確地描述這種模型。鑒別器網(wǎng)絡(luò)通過(guò)最大限度地減少以下?lián)p失來(lái)更新參數(shù):

這相當(dāng)于兩級(jí)分類問(wèn)題產(chǎn)生的交叉熵誤差,其中Dφ(.)輸入的是合成圖像,而1 ? Dφ(.)則是真實(shí)圖像。至此,我們實(shí)現(xiàn)了Dφ作為ConvNet的最后輸出層,樣本很可能是精煉圖像。為了訓(xùn)練這個(gè)網(wǎng)絡(luò),每個(gè)小批量隨機(jī)抽取的樣本都由精煉合成圖像和真實(shí)圖像組成。對(duì)于每個(gè)yj來(lái)說(shuō),交叉熵的目標(biāo)標(biāo)簽損耗層為0,而每個(gè)x?i都對(duì)應(yīng)1。然后通過(guò)隨機(jī)梯度下降(SGD)方式,φ會(huì)隨著小批量梯度損失而升級(jí)。在我們的實(shí)踐中,真實(shí)性損失函數(shù)使用訓(xùn)練有素的鑒別器網(wǎng)路D如下:

通過(guò)最小化減小損失函數(shù),“精煉器網(wǎng)絡(luò)”的力量促使鑒別器無(wú)法分辨出精煉圖像就是合成圖像。除了產(chǎn)生逼真的圖像外,“精煉器網(wǎng)絡(luò)”應(yīng)該保存模擬器的注釋信息。舉例來(lái)說(shuō),用于評(píng)估視線的學(xué)習(xí)轉(zhuǎn)變不該改變凝視的方向,手部姿勢(shì)評(píng)估不應(yīng)該改變肘部的位置。這是訓(xùn)練機(jī)器學(xué)習(xí)模型使用配有模擬器注釋信息的精煉圖像的必要組成部分。為了實(shí)現(xiàn)這個(gè)目標(biāo),我們建議使用自正則化,它可以最大限度地減少合成圖像與精煉圖像之間的差異。

(算法1)

(圖3:局部對(duì)抗性損失的圖示。鑒別器網(wǎng)絡(luò)輸出wxh概率圖。對(duì)抗損失函數(shù)是局部塊上的交叉熵?fù)p失的總和。)

因此在我們的執(zhí)行中,整體精煉損失函數(shù)(1)為:

(4)在||.||1是L1常模時(shí),我們將Rθ作為一個(gè)完全卷積的神經(jīng)網(wǎng)絡(luò),而無(wú)需躍進(jìn)或池化。在像素級(jí)別上修改合成圖像,而不是整體地修改圖像內(nèi)容。例如在完全連接地編碼器網(wǎng)絡(luò)中便會(huì)如此,保留全局結(jié)構(gòu)合注釋。我們通過(guò)交替地最小化LR(θ) 和LD(φ)來(lái)學(xué)習(xí)精化器和鑒別器參數(shù)。在更新Rθ的參數(shù)時(shí),我們保持φ固定不變,而在更新Dφ時(shí),則要保持θ不變。我們?cè)谒惴?中描述了整個(gè)訓(xùn)練過(guò)程。

(圖4:使用精細(xì)圖像歷史示意圖。相關(guān)信息請(qǐng)參閱文本描述。)

2.2本地對(duì)抗損失

精煉網(wǎng)絡(luò)另一個(gè)關(guān)鍵要求是,它應(yīng)該學(xué)習(xí)模擬實(shí)際圖像特性,而不引入任何偽影。當(dāng)我們訓(xùn)練強(qiáng)鑒別器網(wǎng)絡(luò)時(shí),精煉網(wǎng)絡(luò)傾向于過(guò)度強(qiáng)調(diào)某些圖像特征以欺騙當(dāng)前鑒別器網(wǎng)絡(luò),導(dǎo)致偏差和產(chǎn)生偽影。關(guān)鍵是任何我們從精化圖像中采樣的本地補(bǔ)丁都應(yīng)該具有與真實(shí)圖像相類似的統(tǒng)計(jì)。由此我們可以定制本地鑒別器網(wǎng)絡(luò)對(duì)本地圖像補(bǔ)丁進(jìn)行分類,而不是定義全局鑒別器網(wǎng)絡(luò)。

這不僅限制了接受域,還因此限制了鑒別器器網(wǎng)絡(luò)的容量,并且為每個(gè)圖像提供更多樣本以供學(xué)習(xí)鑒別器網(wǎng)絡(luò)。同時(shí)由于每個(gè)圖像由多個(gè)實(shí)際損失值,它還改善了精煉網(wǎng)絡(luò)的訓(xùn)練。

在我們的執(zhí)行中,我們將鑒別器器D設(shè)計(jì)成一個(gè)完全卷積網(wǎng)絡(luò),輸出偽類w × h概率圖。在后者中w × h是圖像中本地補(bǔ)丁的數(shù)量。在訓(xùn)練精煉網(wǎng)絡(luò)時(shí),我們將w×h本地補(bǔ)丁的交叉熵?fù)p失值求和,如圖3所示。

2.3使用精化圖像的歷史記錄更新鑒別器器

對(duì)抗訓(xùn)練的對(duì)抗訓(xùn)練的另一個(gè)問(wèn)題是鑒別器器網(wǎng)絡(luò)只關(guān)注最新的精細(xì)圖像。 這可能導(dǎo)致(i)與對(duì)抗訓(xùn)練分歧,以及(ii)精煉網(wǎng)絡(luò)重新引入鑒別器已經(jīng)忘記的工件。在整個(gè)訓(xùn)練過(guò)程中的任何時(shí)間由精煉網(wǎng)絡(luò)生成的任何精細(xì)圖像對(duì)于鑒別器器來(lái)說(shuō)都是偽造的圖像。因此,鑒別器應(yīng)該有能力將這些圖像識(shí)別為假?;谶@一觀察,我們引入了一種方法,通過(guò)使用精細(xì)圖像的歷史來(lái)提高對(duì)抗訓(xùn)練的穩(wěn)定性,而不僅僅是在當(dāng)前小批次中小修小改。我們對(duì)算法1稍作改進(jìn),增加對(duì)先前網(wǎng)絡(luò)產(chǎn)生的精細(xì)圖像的緩沖。設(shè)B為此緩沖的大小,設(shè)b為算法1中使用的迷你批次大小。

(圖5:SimGAN輸出的圖像示例。左為MPIIGaze采集的實(shí)拍圖像,右為優(yōu)化后的UnityEye合成圖像。從圖中可以看出精細(xì)合成圖像中的皮膚紋理和虹膜區(qū)都更近似真實(shí)而非合成圖像。)

(圖6:帶有兩個(gè)nxn卷積層的ResNet塊,每個(gè)都都具有f特征圖。)

在鑒別器器訓(xùn)練的每次迭代中,我們通過(guò)對(duì)來(lái)自當(dāng)前精煉網(wǎng)絡(luò)的b/2圖像進(jìn)行采樣,以及從緩沖區(qū)采集額外b/2圖像,從而更新參數(shù)φ。保持緩沖區(qū)B大小固定,在每次迭代之后,我們使用新產(chǎn)生的精細(xì)圖像隨機(jī)替換緩沖區(qū)中的b/2樣本。該過(guò)程在圖4中標(biāo)示出。

3.實(shí)驗(yàn)

我們使用MPIIGaze [40,43]上的外貌估計(jì)數(shù)據(jù)集和紐約大學(xué)的手勢(shì)數(shù)據(jù)集 [35]來(lái)評(píng)估我們的方法。我們?cè)谒袑?shí)驗(yàn)中使用完全卷積的精煉網(wǎng)絡(luò)與ResNet塊(圖6)。

3.1基于外貌的注視估計(jì)

注視估計(jì)是許多人機(jī)交互(HCI)任務(wù)的關(guān)鍵因素。然而,直接由眼睛圖像進(jìn)行估計(jì)是有挑戰(zhàn)性的,特別是在圖像質(zhì)量不佳時(shí)。例如智能手機(jī)或筆記本電腦前置攝像頭采集到的眼睛圖像。因此,為了生成大量注釋數(shù)據(jù),最近幾次方法[40,43]用大量合成數(shù)據(jù)訓(xùn)練它們的模型。在這里,我們展示使用SimGAN生成的精細(xì)合成圖像訓(xùn)練顯著提高了任務(wù)的表現(xiàn)。

注視估計(jì)數(shù)據(jù)集包括使用眼睛注視合成器UnityEyes生成的1200萬(wàn)樣本,以及來(lái)自MPIIGaze數(shù)據(jù)集的21,000實(shí)拍樣本。MPIIGaze的圖像樣本都是在各種照明條件不理想情況下捕捉到的圖像。而UnityEyes圖像都是在同一渲染環(huán)境下生成。

定性結(jié)果:圖5展示了合成生成的眼睛注視圖像以及經(jīng)過(guò)處理的實(shí)拍圖像。如圖所示,我們觀察到合成圖像的顯著質(zhì)量改進(jìn):SimGAN成功捕獲皮膚紋理,傳感器噪點(diǎn)以及虹膜區(qū)的外觀。請(qǐng)注意,我們的方法在改善真實(shí)性的同時(shí)保留了注釋信息(注視方向)。

‘視覺(jué)圖靈測(cè)試’:為了定量評(píng)估精細(xì)圖像的視覺(jué)質(zhì)量,我們?cè)O(shè)計(jì)了一個(gè)簡(jiǎn)單的用戶研究,要求受試者對(duì)圖像是屬于實(shí)拍或是合成進(jìn)行區(qū)分。每個(gè)受試者被展示50張實(shí)拍圖像和50張合成圖像。在試驗(yàn)中,受試者不斷觀看20個(gè)真假混雜的圖像,最終受試者很難分辨真實(shí)圖像和精細(xì)圖像之間的差異。在我們的總體分析中,10個(gè)受試者在1000次試驗(yàn)中正確率只有517次(p=0.148),跟隨機(jī)選差不多。表1展示了混淆矩陣。相比之下,當(dāng)使用原始圖像和實(shí)拍圖像進(jìn)行測(cè)試時(shí),我們給每個(gè)受試者展示10個(gè)實(shí)拍和10個(gè)合成圖像,這種情況下受試者在200此實(shí)驗(yàn)中選對(duì)了162次(p≤10-8),結(jié)果明顯優(yōu)于隨機(jī)選擇。

(表1:采用真實(shí)圖像和合成圖像進(jìn)行的“視覺(jué)圖靈測(cè)試”。平均人類分類精度為51.7%,表明自動(dòng)生成的精細(xì)圖像在視覺(jué)上已經(jīng)達(dá)到以假亂真的程度。)

(圖7:使用MPIIGaze實(shí)拍樣本進(jìn)行的眼睛注視估計(jì)的定量結(jié)果。曲線描述了不同測(cè)試數(shù)量下系統(tǒng)預(yù)估的誤差。圖示中使用精細(xì)圖像而不是合成圖像能顯著提高系統(tǒng)表現(xiàn)。)

定量結(jié)果:我們訓(xùn)練了一個(gè)與[43]類似的簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)對(duì)眼睛的注視方向進(jìn)行預(yù)測(cè)。我們?cè)赨nityEyes上訓(xùn)練,并在MPIIGaze上進(jìn)行測(cè)試。圖7和表2比較了CNN分別使用合成數(shù)據(jù)以及SimGAN生成的精細(xì)數(shù)據(jù)的不同表現(xiàn)。我們觀察到SimGAN輸出訓(xùn)練的表現(xiàn)有很大的提高,絕對(duì)百分比提高了22.3%。我們還發(fā)現(xiàn)訓(xùn)練結(jié)果和訓(xùn)練數(shù)據(jù)呈正相關(guān)——此處的4x指的是培訓(xùn)數(shù)據(jù)集的100%。定量評(píng)估證實(shí)了圖5中觀察到的定性改進(jìn)的價(jià)值,并且表明使用SimGAN能使機(jī)器學(xué)習(xí)模型有更好的表現(xiàn)。表3展示了同現(xiàn)有技術(shù)的比較,在精細(xì)圖像上訓(xùn)練CNN的表現(xiàn)優(yōu)于MPIGaze上的現(xiàn)有技術(shù),相對(duì)改善了21%。這個(gè)巨大的改進(jìn)顯示了我們的方法在許多HCI任務(wù)中的實(shí)際價(jià)值。

實(shí)施細(xì)節(jié):精煉網(wǎng)絡(luò)Rθ是一個(gè)殘差網(wǎng)絡(luò) (ResNet) 。每個(gè)ResNet塊由兩個(gè)卷積層組成,包含63個(gè)特征圖,如圖6所示。大小為55x35的輸入圖像和3x3的過(guò)濾器進(jìn)行卷積,輸出64個(gè)特征圖。輸出通過(guò)4個(gè)ResNet塊傳遞。最后ResNet塊的輸出被傳遞到1x1卷積層,產(chǎn)生對(duì)應(yīng)于精細(xì)合成圖像的1個(gè)特征圖。

(表2: 使用合成數(shù)據(jù)和SimGAN輸出進(jìn)行訓(xùn)練的比較。在無(wú)需監(jiān)督真實(shí)數(shù)據(jù)的情況下,使用SimGAN輸出的圖像進(jìn)行訓(xùn)練表現(xiàn)出22.3%的優(yōu)勢(shì)。)

(表3: SimGAN與MPIIGaze現(xiàn)有技術(shù)進(jìn)行比較。R=真實(shí)圖像,S=合成圖像。誤差是以度為單位的平均眼睛注視估計(jì)誤差。對(duì)精細(xì)圖像的訓(xùn)練帶來(lái)了2.1度的改進(jìn),相對(duì)現(xiàn)有技術(shù)提高了21%。)

鑒別器器網(wǎng)絡(luò)Dφ包含5個(gè)擴(kuò)展層和2個(gè)最大合并層,分別為:(1)Conv3x3,stride = 2,特征映射= 96,(2)Conv3x3,stride = 2,特征映射= 64,( 3)MaxPool3x3,stride = 1,(4)Conv3x3,stride = 1,特征映射= 32,(5)Conv1x1,stride = 1,特征映射= 32,(6)Conv1x1,stride = 2,(7)Softmax。

我們的對(duì)抗網(wǎng)絡(luò)是完全卷積的,并且已經(jīng)被設(shè)計(jì)為使Rθ和Dφ中的最后層神經(jīng)元的接受域是相似的。我們首先對(duì)Rθ網(wǎng)絡(luò)進(jìn)行1000步的自正則化損失訓(xùn)練,Dφ為200步。然后對(duì)于Dφ的每次更新,對(duì)應(yīng)在算法中更新Rθ兩次。即Kd被設(shè)置為1,Kg被設(shè)置為50。

眼睛注視估計(jì)網(wǎng)絡(luò)同[43]類似,不過(guò)略作修改以使其更好地利用我們的大型合成數(shù)據(jù)集。輸入是35x55的灰度圖,通過(guò)5個(gè)卷積層,然后是3個(gè)完全連接的層,最后一個(gè)編碼三維注視向量:(1)Conv3x3,特征圖= 32,(2)Conv3x3 ,特征映射= 32,(3)Conv3×3,特征映射= 64,(4)Max- Pool3x3,stride = 2,(5)Conv3x3,特征映射= 80,(6)Conv3x3, MaxPool2x2,stride = 2,(8)FC9600,(9)FC1000,(10)FC3,(11)Eu- clidean loss。所有網(wǎng)絡(luò)都使用恒定的0.001學(xué)習(xí)速率和512批量大小進(jìn)行訓(xùn)練,直到驗(yàn)證錯(cuò)誤收斂。

3.2關(guān)于深度圖像的手勢(shì)圖像模擬

下一步,我們將用這宗方法對(duì)各種手勢(shì)的深度圖像進(jìn)行模擬。在研究中,主要使用了紐約大學(xué)所提供的NYU手勢(shì)數(shù)據(jù)庫(kù),其中包含72757個(gè)訓(xùn)練樣本以及使用3臺(tái)Kinect相機(jī)所采集的8251個(gè)測(cè)試樣本,其中每個(gè)測(cè)試樣本包括一個(gè)正面手勢(shì)圖像以及兩個(gè)側(cè)面手勢(shì)圖像。而每一個(gè)深度圖像樣本都對(duì)手勢(shì)信息進(jìn)行了標(biāo)記,從而生成了合成圖像。圖10展示了手勢(shì)數(shù)據(jù)庫(kù)中的一個(gè)樣本。我們對(duì)數(shù)據(jù)庫(kù)樣本進(jìn)行了預(yù)處理,利用合成圖像從真實(shí)圖像中提取了相應(yīng)的像素點(diǎn)位。在使用深度學(xué)習(xí)網(wǎng)絡(luò)ConvNet進(jìn)行處理之前,每個(gè)圖像樣本的分辨率大小被統(tǒng)一調(diào)整為224*224,背景值設(shè)置為零,前景值設(shè)置為原始深度值減2000。(此時(shí)假設(shè)背景分辨率為2000)。

圖10:NYU手勢(shì)數(shù)據(jù)庫(kù)。左圖為深度圖像樣本;右圖為處理后的合成圖像。

定性描述:圖11顯示了“生成對(duì)抗網(wǎng)絡(luò)”( SimGAN)對(duì)手勢(shì)數(shù)據(jù)庫(kù)的計(jì)算結(jié)果。由圖可知,真實(shí)深度圖像的噪聲已經(jīng)邊緣化,且分布不連續(xù)。SimGAN能夠有效對(duì)原有圖像噪聲進(jìn)行學(xué)習(xí)并模擬,從而產(chǎn)生出更加真實(shí)精細(xì)的合成圖像,且不需要在真實(shí)圖像上做出任何標(biāo)記或注釋。

圖11: NYU手勢(shì)數(shù)據(jù)庫(kù)的精細(xì)測(cè)試圖像示例。左圖為真實(shí)圖像實(shí)像,右圖上為合成圖像,右圖下為來(lái)自蘋果生成對(duì)抗網(wǎng)絡(luò)的相應(yīng)精細(xì)化輸出圖像。

實(shí)際圖像中的主要噪聲源是非平滑的邊緣噪聲。 學(xué)習(xí)網(wǎng)絡(luò)能夠?qū)W習(xí)模擬真實(shí)圖像中存在的噪聲,重要的是不需要任何標(biāo)記和注釋。

定量分析:

我們采用一種類似于Stacked Hourglass人體姿態(tài)算法的CNN仿真算法應(yīng)用于真實(shí)圖像、合成圖像以及精細(xì)化合成圖像處理,與NYU手勢(shì)數(shù)據(jù)庫(kù)中的測(cè)試樣本進(jìn)行對(duì)比。通過(guò)對(duì)其中14個(gè)手關(guān)節(jié)變換進(jìn)行算法訓(xùn)練。為了避免偏差,我們用單層神經(jīng)網(wǎng)絡(luò)來(lái)分析算法對(duì)合成圖像的改進(jìn)效果。圖12和表4顯示了關(guān)于算法對(duì)手勢(shì)數(shù)據(jù)庫(kù)進(jìn)行處理的定量結(jié)果。其中由SimGAN輸出的精細(xì)化合成圖像顯著優(yōu)于基于真實(shí)圖像進(jìn)行訓(xùn)練而產(chǎn)生的圖像,其更為逼真,比標(biāo)準(zhǔn)合成圖像高出了8.8%,其中仿真 模擬輸出的注釋成本為零。同時(shí)要注意的是,3X代表圖像訓(xùn)練選取了所有角度。

圖12:手勢(shì)估計(jì)的定量結(jié)果,關(guān)于NYU手勢(shì)測(cè)試集的真實(shí)深度圖像。

圖表顯示圖像與背景之間函數(shù)的累積曲線。可見(jiàn),SimGAN輸出的精細(xì)化合成圖像顯著優(yōu)于基于真實(shí)圖像進(jìn)行訓(xùn)練而產(chǎn)生的圖像,其更為逼真,比標(biāo)準(zhǔn)合成圖像高出了8.8%。 重要的是,我們的學(xué)習(xí)網(wǎng)絡(luò)不需要對(duì)真實(shí)圖像進(jìn)行標(biāo)記。

表4:通過(guò)訓(xùn)練生成各種手勢(shì)圖像的相似度。

Synthetic Data為一般網(wǎng)絡(luò)訓(xùn)練產(chǎn)生的合成圖像,Real Data為真實(shí)圖像,Refined Synthetic Data為生成對(duì)抗網(wǎng)絡(luò)SimGAN輸出的精細(xì)化合成圖像。3X表示對(duì)真實(shí)圖像進(jìn)行多角度模擬。

實(shí)現(xiàn)細(xì)節(jié):關(guān)于手勢(shì)圖像判別的架構(gòu)與眼睛圖像相同,但輸入圖像分辨率為224*224,濾波器大小為7*7,殘差網(wǎng)絡(luò)值為10。判別網(wǎng)絡(luò)D如下:(1)Conv7x7,

stride=4, feature maps=96, (2) Conv5x5, stride=2, feature maps=64, (3) MaxPool3x3, stride=2, (4) Conv3x3,stride=2, feature maps=32, (5) Conv1x1, stride=1, feature maps=32, (6) Conv1x1, stride=1, feature maps=2,(7) Softmax。

首先,我們會(huì)對(duì)R網(wǎng)絡(luò)進(jìn)行自我規(guī)則化訓(xùn)練500次,隨后引入D網(wǎng)絡(luò)訓(xùn)練200次;隨后,每更新一次D網(wǎng)絡(luò),就相應(yīng)將R網(wǎng)絡(luò)進(jìn)行兩次更新。在手勢(shì)估計(jì)中,我們采用Stacked Hourglass Net人體姿態(tài)算法輸出大小為64*64的熱點(diǎn)圖。我們?cè)诰W(wǎng)絡(luò)學(xué)習(xí)中引入[-20,20]的隨機(jī)數(shù)據(jù)集來(lái)對(duì)不同角度的圖像進(jìn)行訓(xùn)練。直至驗(yàn)證誤差有效收斂時(shí),網(wǎng)絡(luò)訓(xùn)練結(jié)束。

3.3對(duì)抗訓(xùn)練的修正分析

首先我們比較了本地化對(duì)抗訓(xùn)練以及全局對(duì)抗訓(xùn)練的圖像偏差。在全局對(duì)抗中,判別網(wǎng)絡(luò)使用了完全連接層,從而使整個(gè)圖像相對(duì)于更加精細(xì)。而本地化對(duì)抗訓(xùn)練則使得生成的圖像更為真實(shí),如圖8所示。

圖8:左為全局對(duì)抗訓(xùn)練結(jié)果,右為本地化對(duì)抗訓(xùn)練結(jié)果。

顯示了全局對(duì)抗訓(xùn)練與本地化對(duì)抗訓(xùn)練的結(jié)果偏差。左圖生成的圖像更精細(xì)但不真實(shí),右圖生成的圖像相對(duì)真實(shí)度更高。

接下來(lái),在圖9中,顯示了使用反復(fù)訓(xùn)練的歷史精細(xì)化圖像對(duì)判別網(wǎng)絡(luò)進(jìn)行更新,并將其與標(biāo)準(zhǔn)對(duì)抗生成的合成圖像進(jìn)行比較的結(jié)果。如圖所示,使用反復(fù)訓(xùn)練的歷史精細(xì)化圖像刻產(chǎn)生更為真實(shí)的陰影,譬如在標(biāo)準(zhǔn)對(duì)抗訓(xùn)練中,眼睛角落里沒(méi)有陰影。

圖9:使用歷史精細(xì)圖像對(duì)判別網(wǎng)絡(luò)進(jìn)行更新的結(jié)果。

左圖: 標(biāo)準(zhǔn)合成圖像;中圖:使用歷史數(shù)據(jù)對(duì)判別網(wǎng)絡(luò)進(jìn)行更新后的圖像結(jié)果;右圖:使用近期歷史數(shù)據(jù)對(duì)判別網(wǎng)絡(luò)進(jìn)行更新的圖像結(jié)果。如圖所示,使用反復(fù)訓(xùn)練的歷史精細(xì)化圖像刻產(chǎn)生更為真實(shí)的陰影。

4結(jié)論以及下一步工作

在文中,我們提出了一種“模擬+無(wú)監(jiān)督”的機(jī)器學(xué)習(xí)方法,能夠有效提高模擬圖像的真實(shí)感。我們描述了一種新的生成對(duì)抗網(wǎng)絡(luò)SimGAN,并將其應(yīng)用于未經(jīng)標(biāo)注的真實(shí)圖像,獲得了最好的結(jié)果。下一步,我們將繼續(xù)探索為合成圖像建立更為逼真的精細(xì)圖像,同時(shí)研究如何對(duì)視頻進(jìn)行處理。

日前,蘋果發(fā)布了其首份關(guān)于人工智能(AI)的學(xué)術(shù)論文——“通過(guò)對(duì)抗網(wǎng)絡(luò)使用模擬和非監(jiān)督圖像訓(xùn)練”(Learning from Simulated and Unsupervised Images through Adversarial Training),其中主要描述了在計(jì)算機(jī)視覺(jué)系統(tǒng)中提高圖像識(shí)別的方法,而這或許也標(biāo)志著蘋果公司研究的新方向。

下面就是這篇報(bào)告的全文:

摘要

隨著圖形技術(shù)不斷進(jìn)步,利用合成圖像訓(xùn)練機(jī)器學(xué)習(xí)模型變得越來(lái)越容易,這可以幫助避免注釋圖像的昂貴支出。然而,通過(guò)合成圖像訓(xùn)練機(jī)器學(xué)習(xí)模型可能無(wú)法達(dá)到令人滿意的效果,因?yàn)楹铣蓤D像與真實(shí)圖像之間畢竟存在區(qū)別。為了減少這種差異,我們提出“模擬+無(wú)監(jiān)督”學(xué)習(xí)方法,即通過(guò)計(jì)算機(jī)生成圖像或合成圖像來(lái)訓(xùn)練算法的圖像識(shí)別能力。

事實(shí)上,這種“模擬+無(wú)監(jiān)督”學(xué)習(xí)需要將無(wú)標(biāo)注的真實(shí)圖像數(shù)據(jù)與已經(jīng)注釋的合成圖像相結(jié)合。在很大程度上,它需要依賴生成式對(duì)抗網(wǎng)絡(luò)(GAN)的新機(jī)器學(xué)習(xí)技術(shù),它可通過(guò)兩個(gè)神經(jīng)網(wǎng)絡(luò)相互對(duì)抗以生成更加真實(shí)的圖像。我們對(duì)標(biāo)準(zhǔn)GAN算法進(jìn)行了多處關(guān)鍵性修改,以保留注釋、避免偽影以及穩(wěn)定性訓(xùn)練:自正則化(self-regularization)-局部對(duì)抗性損失-使用精煉圖像升級(jí)鑒別器。

我們發(fā)現(xiàn),這個(gè)過(guò)程可以產(chǎn)生高度逼真的圖像,在質(zhì)量上和用戶研究方面都已經(jīng)獲得證實(shí)。我們已經(jīng)通過(guò)訓(xùn)練模型評(píng)估視線水平和手勢(shì)姿態(tài),對(duì)計(jì)算機(jī)生成圖像進(jìn)行定量評(píng)估。通過(guò)使用合成圖像,我們的圖像識(shí)別算法已經(jīng)取得了巨大進(jìn)步。在沒(méi)有使用任何標(biāo)準(zhǔn)真實(shí)數(shù)據(jù)的情況下,我們?cè)贛PIIGaze數(shù)據(jù)集中獲得了最高水平的結(jié)果。

引言

隨著最近高容量深度神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)的崛起,大規(guī)模標(biāo)注訓(xùn)練數(shù)據(jù)集正變得日益重要??墒?,標(biāo)準(zhǔn)數(shù)量龐大的數(shù)據(jù)集成本非常高,而且相當(dāng)耗費(fèi)時(shí)間。為此,使用合成圖像而非真實(shí)圖像訓(xùn)練算法的想法開始出現(xiàn),因?yàn)樽⑨屢呀?jīng)可實(shí)現(xiàn)自動(dòng)化。利用XBOX360外設(shè)Kinect評(píng)估人體姿勢(shì)以及其他任務(wù),都是使用合成數(shù)據(jù)完成的。

(圖1:“模擬+無(wú)監(jiān)督”學(xué)習(xí):通過(guò)計(jì)算機(jī)生成圖像或合成圖像來(lái)訓(xùn)練算法的圖像識(shí)別能力)

然而,由于合成圖像與真實(shí)圖像之間存在差距,使用合成圖像訓(xùn)練算法可能產(chǎn)生很多問(wèn)題。因?yàn)楹铣蓤D像通常不夠真實(shí),導(dǎo)致神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)僅僅能夠了解到合成圖像中的細(xì)節(jié),并不能完整地識(shí)別出真實(shí)圖像,進(jìn)而也無(wú)法為算法提供精確的學(xué)習(xí)。一種解決方案就是改進(jìn)模擬器,可是增加真實(shí)性的計(jì)算往往非常昂貴,渲染器的設(shè)計(jì)也更加困難。此外,即使最頂級(jí)的渲染器可能也無(wú)法模仿真實(shí)圖像中的所有特征。因此,缺少真實(shí)性可能導(dǎo)致算法過(guò)度擬合合成圖像中不真實(shí)的細(xì)節(jié)。

在這篇論文中,我們提出“模擬+無(wú)監(jiān)督”學(xué)習(xí)的方法,其目的就是使用未標(biāo)注真實(shí)數(shù)據(jù)的模擬器提高合成圖像的真實(shí)性。提高真實(shí)性可更好地幫助訓(xùn)練機(jī)器學(xué)習(xí)模型,而且無(wú)需收集任何數(shù)據(jù),也無(wú)需人類繼續(xù)標(biāo)注圖像。除了增加真實(shí)性,“模擬+無(wú)監(jiān)督”學(xué)習(xí)還應(yīng)該保留注釋信息以用于訓(xùn)練機(jī)器學(xué)習(xí)模型,比如圖一中的注視方向應(yīng)被保留下來(lái)。此外,由于機(jī)器學(xué)習(xí)模型對(duì)合成數(shù)據(jù)中的偽影非常敏感,“模擬+無(wú)監(jiān)督”學(xué)習(xí)也應(yīng)該產(chǎn)生沒(méi)有偽影的圖像。

我們?yōu)?ldquo;模擬+無(wú)監(jiān)督”學(xué)習(xí)開發(fā)出新的方法,我們稱之為SimGAN,它可以利用我們稱之為“精煉器網(wǎng)絡(luò)(refiner network)”的神經(jīng)網(wǎng)絡(luò)從模擬器中提煉合成圖像。圖二中展示了這種方法的概述:第一,黑盒子模擬器中生成合成圖像,然后利用“精煉器網(wǎng)絡(luò)”對(duì)其進(jìn)行提煉。為了增加真實(shí)性,也就是“模擬+無(wú)監(jiān)督”學(xué)習(xí)算法的首要需求,我們需要利用類似生成式對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)訓(xùn)練“精煉器網(wǎng)絡(luò)”,進(jìn)而產(chǎn)生判別網(wǎng)絡(luò)無(wú)法區(qū)分真假的精煉圖像。

第二,為了保留合成圖像上的注釋信息,我們需要利用“自正則化損失”彌補(bǔ)對(duì)抗性損失,在合成圖像和精煉圖像之間進(jìn)行修改。此外,我們還利用完全卷積神經(jīng)網(wǎng)絡(luò),在像素水平方面進(jìn)行操作,并保留全局結(jié)構(gòu),而非整體修改圖像的內(nèi)容。

第三,GAN框架要求訓(xùn)練2個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)抗,它們的目標(biāo)往往不夠穩(wěn)定,傾向于產(chǎn)生偽影。為了避免漂移和產(chǎn)生更強(qiáng)的偽影,導(dǎo)致甄別更困難,我們需要限定鑒別器的接收區(qū)域?yàn)榫植拷邮眨钦麖垐D片接收,這導(dǎo)致每張圖像都會(huì)產(chǎn)生多個(gè)局部對(duì)抗性損失。此外,我們還引入提高訓(xùn)練穩(wěn)定性的方法,即通過(guò)使用精煉圖像而非當(dāng)前“精煉器網(wǎng)絡(luò)”中的現(xiàn)有圖像升級(jí)鑒別器。

1.1相關(guān)工作

GAN框架需要2個(gè)神經(jīng)網(wǎng)絡(luò)競(jìng)爭(zhēng)損失,即生成器與鑒別器。其中,生成器網(wǎng)絡(luò)的目標(biāo)是在真實(shí)圖像上繪制隨機(jī)向量,而鑒別器網(wǎng)絡(luò)的目標(biāo)則是區(qū)分生成圖像與真實(shí)圖像。GAN網(wǎng)絡(luò)是由古德弗羅(I. Goodfellow)等人首先引入的,它可以幫助生成逼真的視覺(jué)圖像。自從那以來(lái),GAN已經(jīng)有了許多改進(jìn),并被投入到有趣的應(yīng)用中。

(圖2:SimGAN概觀:我們利用“精煉器網(wǎng)絡(luò)”提煉模擬器產(chǎn)生的輸出圖像,并最大限度地減少局部對(duì)抗性損失,并進(jìn)行自正則化。

對(duì)抗性損失可以欺騙鑒別器網(wǎng)絡(luò),從而令其將合成圖像誤認(rèn)為真實(shí)圖像。而自正則化則會(huì)最大限度減少合成圖像與真實(shí)圖像的差異,包括保留注釋信息,并讓精煉圖像被用于訓(xùn)練機(jī)器學(xué)習(xí)模型。“精煉器網(wǎng)絡(luò)”與鑒別器網(wǎng)絡(luò)也會(huì)交替升級(jí)。)

王(X. Wang)與古普塔(A. Gupta)利用結(jié)構(gòu)化GAN學(xué)習(xí)表面法線,然后將其與Style GAN相結(jié)合,以生成天然的室內(nèi)場(chǎng)景。我們提議使用對(duì)抗性訓(xùn)練進(jìn)行遞歸生成模型(recurrent generative model)訓(xùn)練。此外,最近推出的iGAN能夠幫助用戶以交互模式改變圖像。劉(M.-Y. Liu)等人開發(fā)的CoGAN結(jié)合GAN可多模態(tài)聯(lián)合分布圖像,無(wú)需要求應(yīng)對(duì)圖像的元組,這有利于開發(fā)出聯(lián)合發(fā)布解決方案。而陳(X. Chen)等人開發(fā)的InfoGAN是GAN信息理論的擴(kuò)展,允許有意義的陳述學(xué)習(xí)。

恩杰爾·圖澤爾(Oncel Tuzel)等人利用GAN解決人臉圖像超高分辨率問(wèn)題。李(C. Li)和王(M. Wand)提議Markovian GAN進(jìn)行有效的紋理合成。洛特爾(W. Lotter)等人在LSTM網(wǎng)絡(luò)中利用對(duì)抗性損失進(jìn)行視覺(jué)序列預(yù)測(cè)。于(L. Yu)等人提議SeqGAN框架,利用GAN強(qiáng)化學(xué)習(xí)。許多近來(lái)的問(wèn)題都顯示出與生成模型領(lǐng)域相關(guān)的問(wèn)題,比如PixelRNN可利用RNN的softmax損失預(yù)測(cè)像素順序。生成網(wǎng)絡(luò)側(cè)重于使用隨機(jī)噪聲矢量生成圖像,與我們的模型相比,其生成的圖像沒(méi)有任何標(biāo)注信息,因此也無(wú)法用于訓(xùn)練機(jī)器學(xué)習(xí)模型。

許多努力都在探索使用合成數(shù)據(jù)進(jìn)行各種預(yù)測(cè)任務(wù),包括視線評(píng)估、RGB圖像文本檢測(cè)與分類、字體識(shí)別、對(duì)象檢測(cè)、深度圖像中手部姿態(tài)評(píng)估、RGB-D場(chǎng)景識(shí)別、城市場(chǎng)景語(yǔ)義分割以及人體姿態(tài)評(píng)估等。蓋伊登(A. Gaidon)等人的研究表明,利用合成數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),可以提高其表現(xiàn)。我們的工作是對(duì)這些方法的補(bǔ)充,我們使用未標(biāo)記真實(shí)數(shù)據(jù)提高了模擬器的真實(shí)性。

嘉寧(Y. Ganin)與萊姆皮茨基(V. Lempitsky)在數(shù)據(jù)域適應(yīng)設(shè)置中利用合成數(shù)據(jù),了解合成圖像與真實(shí)圖像域的變化過(guò)程中保持不變的特征。王(Z. Wang)等人利用合成和真實(shí)數(shù)據(jù)訓(xùn)練層疊卷積碼自動(dòng)編碼器,以便了解其字體檢測(cè)器ConvNet的低級(jí)表示形式。張(X. Zhang)等人學(xué)習(xí)多通道編碼,以便減少真實(shí)數(shù)據(jù)與合成數(shù)據(jù)的域的轉(zhuǎn)變。與經(jīng)典域適應(yīng)方法相反,它采用與特定的特征以便適應(yīng)具體的預(yù)測(cè)任務(wù),而我們可通過(guò)對(duì)抗性訓(xùn)練,彌合圖像分布之間的差距。這種方法使我們能夠生成非常逼真的圖像,可以用于訓(xùn)練任何機(jī)器學(xué)習(xí)模型,并執(zhí)行潛在的更多任務(wù)。

2“模擬+無(wú)監(jiān)督”學(xué)習(xí)

模擬+無(wú)監(jiān)督學(xué)習(xí)的目標(biāo)是使用一組未標(biāo)記的真實(shí)圖像yi ∈ Y,學(xué)習(xí)可提煉合成圖像X的refiner Rθ(x),其中θ屬于函數(shù)參數(shù)。讓我們用X?表示精煉圖像,然后會(huì)得出X?:θ= R(X)。在“模擬+無(wú)監(jiān)督”學(xué)習(xí)中,最關(guān)鍵的要求就是精煉圖像X?,以便于其看起來(lái)更像真實(shí)圖像,同時(shí)保留來(lái)自模擬器的注釋信息。為此,我們建議通過(guò)最大化減少兩個(gè)損失的組合來(lái)學(xué)習(xí):

其中,xi是e ith合成訓(xùn)練圖像,X是相應(yīng)的精煉圖像。第一部分是真實(shí)性成本,即向合成圖像中增加真實(shí)性的成本。第二部分則代表著通過(guò)最小化合成圖像精煉圖像的差異保存注釋信息的成本。在下面的章節(jié)中,我們會(huì)展開這個(gè)公式,并提供優(yōu)化θ的算法。

2.1對(duì)抗性損失

為了向合成圖像中添加真實(shí)性,我們需要在合成圖形和真實(shí)圖像的分部之間建立起聯(lián)系。在理想情況下,精煉機(jī)可能無(wú)法將給定的圖像分類為真實(shí)圖像還是高度精煉圖像。這就需要使用對(duì)抗性的鑒頻器,網(wǎng)絡(luò)Dφ,它可訓(xùn)練分辨圖像到底是真實(shí)圖像還是精煉圖像,而φ是鑒別器網(wǎng)絡(luò)參數(shù)。對(duì)抗性損失訓(xùn)練refiner networkR,它負(fù)責(zé)欺騙D網(wǎng)絡(luò),令其將精煉圖像誤認(rèn)為是真實(shí)圖像。利用GAN方法,我們建造了2個(gè)神經(jīng)網(wǎng)絡(luò)參與的極限博弈模型,并升級(jí)“精煉器網(wǎng)絡(luò)”Rθ和鑒別器網(wǎng)絡(luò)Dφ。接下來(lái),我們更精確地描述這種模型。鑒別器網(wǎng)絡(luò)通過(guò)最大限度地減少以下?lián)p失來(lái)更新參數(shù):

這相當(dāng)于兩級(jí)分類問(wèn)題產(chǎn)生的交叉熵誤差,其中Dφ(.)輸入的是合成圖像,而1 ? Dφ(.)則是真實(shí)圖像。至此,我們實(shí)現(xiàn)了Dφ作為ConvNet的最后輸出層,樣本很可能是精煉圖像。為了訓(xùn)練這個(gè)網(wǎng)絡(luò),每個(gè)小批量隨機(jī)抽取的樣本都由精煉合成圖像和真實(shí)圖像組成。對(duì)于每個(gè)yj來(lái)說(shuō),交叉熵的目標(biāo)標(biāo)簽損耗層為0,而每個(gè)x?i都對(duì)應(yīng)1。然后通過(guò)隨機(jī)梯度下降(SGD)方式,φ會(huì)隨著小批量梯度損失而升級(jí)。在我們的實(shí)踐中,真實(shí)性損失函數(shù)使用訓(xùn)練有素的鑒別器網(wǎng)路D如下:

通過(guò)最小化減小損失函數(shù),“精煉器網(wǎng)絡(luò)”的力量促使鑒別器無(wú)法分辨出精煉圖像就是合成圖像。除了產(chǎn)生逼真的圖像外,“精煉器網(wǎng)絡(luò)”應(yīng)該保存模擬器的注釋信息。舉例來(lái)說(shuō),用于評(píng)估視線的學(xué)習(xí)轉(zhuǎn)變不該改變凝視的方向,手部姿勢(shì)評(píng)估不應(yīng)該改變肘部的位置。這是訓(xùn)練機(jī)器學(xué)習(xí)模型使用配有模擬器注釋信息的精煉圖像的必要組成部分。為了實(shí)現(xiàn)這個(gè)目標(biāo),我們建議使用自正則化,它可以最大限度地減少合成圖像與精煉圖像之間的差異。

(算法1)

(圖3:局部對(duì)抗性損失的圖示。鑒別器網(wǎng)絡(luò)輸出wxh概率圖。對(duì)抗損失函數(shù)是局部塊上的交叉熵?fù)p失的總和。)

因此在我們的執(zhí)行中,整體精煉損失函數(shù)(1)為:

(4)在||.||1是L1常模時(shí),我們將Rθ作為一個(gè)完全卷積的神經(jīng)網(wǎng)絡(luò),而無(wú)需躍進(jìn)或池化。在像素級(jí)別上修改合成圖像,而不是整體地修改圖像內(nèi)容。例如在完全連接地編碼器網(wǎng)絡(luò)中便會(huì)如此,保留全局結(jié)構(gòu)合注釋。我們通過(guò)交替地最小化LR(θ) 和LD(φ)來(lái)學(xué)習(xí)精化器和鑒別器參數(shù)。在更新Rθ的參數(shù)時(shí),我們保持φ固定不變,而在更新Dφ時(shí),則要保持θ不變。我們?cè)谒惴?中描述了整個(gè)訓(xùn)練過(guò)程。

(圖4:使用精細(xì)圖像歷史示意圖。相關(guān)信息請(qǐng)參閱文本描述。)

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2016-12-28
蘋果發(fā)布首份人工智能報(bào)告(全文):瞄準(zhǔn)AI視覺(jué)
日前,蘋果發(fā)布了其首份關(guān)于人工智能(AI)的學(xué)術(shù)論文——“通過(guò)對(duì)抗網(wǎng)絡(luò)使用模擬和非監(jiān)督圖像訓(xùn)練”(Learning from Simulated and Uns

長(zhǎng)按掃碼 閱讀全文