久久se精品一区二区,我被继夫添我阳道舒服免费视频

日前，蘋果發(fā)布了其首份關(guān)于人工智能（AI）的學(xué)術(shù)論文——“通過對抗網(wǎng)絡(luò)使用模擬和非監(jiān)督圖像訓(xùn)練”(Learning from Simulated and Unsupervised Images through Adversarial Training)，其中主要描述了在計算機視覺系統(tǒng)中提高圖像識別的方法，而這或許也標志著蘋果公司研究的新方向。

下面就是這篇報告的全文：

摘要

隨著圖形技術(shù)不斷進步，利用合成圖像訓(xùn)練機器學(xué)習(xí)模型變得越來越容易，這可以幫助避免注釋圖像的昂貴支出。然而，通過合成圖像訓(xùn)練機器學(xué)習(xí)模型可能無法達到令人滿意的效果，因為合成圖像與真實圖像之間畢竟存在區(qū)別。為了減少這種差異，我們提出“模擬+無監(jiān)督”學(xué)習(xí)方法，即通過計算機生成圖像或合成圖像來訓(xùn)練算法的圖像識別能力。

事實上，這種“模擬+無監(jiān)督”學(xué)習(xí)需要將無標注的真實圖像數(shù)據(jù)與已經(jīng)注釋的合成圖像相結(jié)合。在很大程度上，它需要依賴生成式對抗網(wǎng)絡(luò)（GAN）的新機器學(xué)習(xí)技術(shù)，它可通過兩個神經(jīng)網(wǎng)絡(luò)相互對抗以生成更加真實的圖像。我們對標準GAN算法進行了多處關(guān)鍵性修改，以保留注釋、避免偽影以及穩(wěn)定性訓(xùn)練：自正則化(self-regularization)-局部對抗性損失-使用精煉圖像升級鑒別器。

我們發(fā)現(xiàn)，這個過程可以產(chǎn)生高度逼真的圖像，在質(zhì)量上和用戶研究方面都已經(jīng)獲得證實。我們已經(jīng)通過訓(xùn)練模型評估視線水平和手勢姿態(tài)，對計算機生成圖像進行定量評估。通過使用合成圖像，我們的圖像識別算法已經(jīng)取得了巨大進步。在沒有使用任何標準真實數(shù)據(jù)的情況下，我們在MPIIGaze數(shù)據(jù)集中獲得了最高水平的結(jié)果。

引言

隨著最近高容量深度神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)的崛起，大規(guī)模標注訓(xùn)練數(shù)據(jù)集正變得日益重要?？墒牵瑯藴蕯?shù)量龐大的數(shù)據(jù)集成本非常高，而且相當耗費時間。為此，使用合成圖像而非真實圖像訓(xùn)練算法的想法開始出現(xiàn)，因為注釋已經(jīng)可實現(xiàn)自動化。利用XBOX360外設(shè)Kinect評估人體姿勢以及其他任務(wù)，都是使用合成數(shù)據(jù)完成的。

（圖1：“模擬+無監(jiān)督”學(xué)習(xí)：通過計算機生成圖像或合成圖像來訓(xùn)練算法的圖像識別能力）

然而，由于合成圖像與真實圖像之間存在差距，使用合成圖像訓(xùn)練算法可能產(chǎn)生很多問題。因為合成圖像通常不夠真實，導(dǎo)致神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)僅僅能夠了解到合成圖像中的細節(jié)，并不能完整地識別出真實圖像，進而也無法為算法提供精確的學(xué)習(xí)。一種解決方案就是改進模擬器，可是增加真實性的計算往往非常昂貴，渲染器的設(shè)計也更加困難。此外，即使最頂級的渲染器可能也無法模仿真實圖像中的所有特征。因此，缺少真實性可能導(dǎo)致算法過度擬合合成圖像中不真實的細節(jié)。

在這篇論文中，我們提出“模擬+無監(jiān)督”學(xué)習(xí)的方法，其目的就是使用未標注真實數(shù)據(jù)的模擬器提高合成圖像的真實性。提高真實性可更好地幫助訓(xùn)練機器學(xué)習(xí)模型，而且無需收集任何數(shù)據(jù)，也無需人類繼續(xù)標注圖像。除了增加真實性，“模擬+無監(jiān)督”學(xué)習(xí)還應(yīng)該保留注釋信息以用于訓(xùn)練機器學(xué)習(xí)模型，比如圖一中的注視方向應(yīng)被保留下來。此外，由于機器學(xué)習(xí)模型對合成數(shù)據(jù)中的偽影非常敏感，“模擬+無監(jiān)督”學(xué)習(xí)也應(yīng)該產(chǎn)生沒有偽影的圖像。

我們?yōu)?ldquo;模擬+無監(jiān)督”學(xué)習(xí)開發(fā)出新的方法，我們稱之為SimGAN，它可以利用我們稱之為“精煉器網(wǎng)絡(luò)（refiner network）”的神經(jīng)網(wǎng)絡(luò)從模擬器中提煉合成圖像。圖二中展示了這種方法的概述：第一，黑盒子模擬器中生成合成圖像，然后利用“精煉器網(wǎng)絡(luò)”對其進行提煉。為了增加真實性，也就是“模擬+無監(jiān)督”學(xué)習(xí)算法的首要需求，我們需要利用類似生成式對抗網(wǎng)絡(luò)(GAN)來訓(xùn)練“精煉器網(wǎng)絡(luò)”，進而產(chǎn)生判別網(wǎng)絡(luò)無法區(qū)分真假的精煉圖像。

第二，為了保留合成圖像上的注釋信息，我們需要利用“自正則化損失”彌補對抗性損失，在合成圖像和精煉圖像之間進行修改。此外，我們還利用完全卷積神經(jīng)網(wǎng)絡(luò)，在像素水平方面進行操作，并保留全局結(jié)構(gòu)，而非整體修改圖像的內(nèi)容。

第三，GAN框架要求訓(xùn)練2個神經(jīng)網(wǎng)絡(luò)進行對抗，它們的目標往往不夠穩(wěn)定，傾向于產(chǎn)生偽影。為了避免漂移和產(chǎn)生更強的偽影，導(dǎo)致甄別更困難，我們需要限定鑒別器的接收區(qū)域為局部接收，而非整張圖片接收，這導(dǎo)致每張圖像都會產(chǎn)生多個局部對抗性損失。此外，我們還引入提高訓(xùn)練穩(wěn)定性的方法，即通過使用精煉圖像而非當前“精煉器網(wǎng)絡(luò)”中的現(xiàn)有圖像升級鑒別器。

1.1相關(guān)工作

GAN框架需要2個神經(jīng)網(wǎng)絡(luò)競爭損失，即生成器與鑒別器。其中，生成器網(wǎng)絡(luò)的目標是在真實圖像上繪制隨機向量，而鑒別器網(wǎng)絡(luò)的目標則是區(qū)分生成圖像與真實圖像。GAN網(wǎng)絡(luò)是由古德弗羅（I. Goodfellow）等人首先引入的，它可以幫助生成逼真的視覺圖像。自從那以來，GAN已經(jīng)有了許多改進，并被投入到有趣的應(yīng)用中。

（圖2：SimGAN概觀：我們利用“精煉器網(wǎng)絡(luò)”提煉模擬器產(chǎn)生的輸出圖像，并最大限度地減少局部對抗性損失，并進行自正則化。

對抗性損失可以欺騙鑒別器網(wǎng)絡(luò)，從而令其將合成圖像誤認為真實圖像。而自正則化則會最大限度減少合成圖像與真實圖像的差異，包括保留注釋信息，并讓精煉圖像被用于訓(xùn)練機器學(xué)習(xí)模型。“精煉器網(wǎng)絡(luò)”與鑒別器網(wǎng)絡(luò)也會交替升級。）

王（X. Wang）與古普塔（A. Gupta）利用結(jié)構(gòu)化GAN學(xué)習(xí)表面法線，然后將其與Style GAN相結(jié)合，以生成天然的室內(nèi)場景。我們提議使用對抗性訓(xùn)練進行遞歸生成模型（recurrent generative model）訓(xùn)練。此外，最近推出的iGAN能夠幫助用戶以交互模式改變圖像。劉（M.-Y. Liu）等人開發(fā)的CoGAN結(jié)合GAN可多模態(tài)聯(lián)合分布圖像，無需要求應(yīng)對圖像的元組，這有利于開發(fā)出聯(lián)合發(fā)布解決方案。而陳（X. Chen）等人開發(fā)的InfoGAN是GAN信息理論的擴展，允許有意義的陳述學(xué)習(xí)。

恩杰爾·圖澤爾（Oncel Tuzel）等人利用GAN解決人臉圖像超高分辨率問題。李（C. Li）和王（M. Wand）提議Markovian GAN進行有效的紋理合成。洛特爾（W. Lotter）等人在LSTM網(wǎng)絡(luò)中利用對抗性損失進行視覺序列預(yù)測。于（L. Yu）等人提議SeqGAN框架，利用GAN強化學(xué)習(xí)。許多近來的問題都顯示出與生成模型領(lǐng)域相關(guān)的問題，比如PixelRNN可利用RNN的softmax損失預(yù)測像素順序。生成網(wǎng)絡(luò)側(cè)重于使用隨機噪聲矢量生成圖像，與我們的模型相比，其生成的圖像沒有任何標注信息，因此也無法用于訓(xùn)練機器學(xué)習(xí)模型。

許多努力都在探索使用合成數(shù)據(jù)進行各種預(yù)測任務(wù)，包括視線評估、RGB圖像文本檢測與分類、字體識別、對象檢測、深度圖像中手部姿態(tài)評估、RGB-D場景識別、城市場景語義分割以及人體姿態(tài)評估等。蓋伊登（A. Gaidon）等人的研究表明，利用合成數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)，可以提高其表現(xiàn)。我們的工作是對這些方法的補充，我們使用未標記真實數(shù)據(jù)提高了模擬器的真實性。

嘉寧（Y. Ganin）與萊姆皮茨基（V. Lempitsky）在數(shù)據(jù)域適應(yīng)設(shè)置中利用合成數(shù)據(jù)，了解合成圖像與真實圖像域的變化過程中保持不變的特征。王（Z. Wang）等人利用合成和真實數(shù)據(jù)訓(xùn)練層疊卷積碼自動編碼器，以便了解其字體檢測器ConvNet的低級表示形式。張（X. Zhang）等人學(xué)習(xí)多通道編碼，以便減少真實數(shù)據(jù)與合成數(shù)據(jù)的域的轉(zhuǎn)變。與經(jīng)典域適應(yīng)方法相反，它采用與特定的特征以便適應(yīng)具體的預(yù)測任務(wù)，而我們可通過對抗性訓(xùn)練，彌合圖像分布之間的差距。這種方法使我們能夠生成非常逼真的圖像，可以用于訓(xùn)練任何機器學(xué)習(xí)模型，并執(zhí)行潛在的更多任務(wù)。

2“模擬+無監(jiān)督”學(xué)習(xí)

模擬+無監(jiān)督學(xué)習(xí)的目標是使用一組未標記的真實圖像yi ∈ Y，學(xué)習(xí)可提煉合成圖像X的refiner Rθ(x)，其中θ屬于函數(shù)參數(shù)。讓我們用X?表示精煉圖像，然后會得出X?：θ= R（X）。在“模擬+無監(jiān)督”學(xué)習(xí)中，最關(guān)鍵的要求就是精煉圖像X?，以便于其看起來更像真實圖像，同時保留來自模擬器的注釋信息。為此，我們建議通過最大化減少兩個損失的組合來學(xué)習(xí)：

其中，xi是e ith合成訓(xùn)練圖像，X是相應(yīng)的精煉圖像。第一部分是真實性成本，即向合成圖像中增加真實性的成本。第二部分則代表著通過最小化合成圖像精煉圖像的差異保存注釋信息的成本。在下面的章節(jié)中，我們會展開這個公式，并提供優(yōu)化θ的算法。

2.1對抗性損失

為了向合成圖像中添加真實性，我們需要在合成圖形和真實圖像的分部之間建立起聯(lián)系。在理想情況下，精煉機可能無法將給定的圖像分類為真實圖像還是高度精煉圖像。這就需要使用對抗性的鑒頻器，網(wǎng)絡(luò)Dφ，它可訓(xùn)練分辨圖像到底是真實圖像還是精煉圖像，而φ是鑒別器網(wǎng)絡(luò)參數(shù)。對抗性損失訓(xùn)練refiner networkR，它負責(zé)欺騙D網(wǎng)絡(luò)，令其將精煉圖像誤認為是真實圖像。利用GAN方法，我們建造了2個神經(jīng)網(wǎng)絡(luò)參與的極限博弈模型，并升級“精煉器網(wǎng)絡(luò)”Rθ和鑒別器網(wǎng)絡(luò)Dφ。接下來，我們更精確地描述這種模型。鑒別器網(wǎng)絡(luò)通過最大限度地減少以下?lián)p失來更新參數(shù)：

這相當于兩級分類問題產(chǎn)生的交叉熵誤差，其中Dφ(.)輸入的是合成圖像，而1 ? Dφ(.)則是真實圖像。至此，我們實現(xiàn)了Dφ作為ConvNet的最后輸出層，樣本很可能是精煉圖像。為了訓(xùn)練這個網(wǎng)絡(luò)，每個小批量隨機抽取的樣本都由精煉合成圖像和真實圖像組成。對于每個yj來說，交叉熵的目標標簽損耗層為0，而每個x?i都對應(yīng)1。然后通過隨機梯度下降（SGD）方式，φ會隨著小批量梯度損失而升級。在我們的實踐中，真實性損失函數(shù)使用訓(xùn)練有素的鑒別器網(wǎng)路D如下：

通過最小化減小損失函數(shù)，“精煉器網(wǎng)絡(luò)”的力量促使鑒別器無法分辨出精煉圖像就是合成圖像。除了產(chǎn)生逼真的圖像外，“精煉器網(wǎng)絡(luò)”應(yīng)該保存模擬器的注釋信息。舉例來說，用于評估視線的學(xué)習(xí)轉(zhuǎn)變不該改變凝視的方向，手部姿勢評估不應(yīng)該改變肘部的位置。這是訓(xùn)練機器學(xué)習(xí)模型使用配有模擬器注釋信息的精煉圖像的必要組成部分。為了實現(xiàn)這個目標，我們建議使用自正則化，它可以最大限度地減少合成圖像與精煉圖像之間的差異。

（算法1）

（圖3：局部對抗性損失的圖示。鑒別器網(wǎng)絡(luò)輸出wxh概率圖。對抗損失函數(shù)是局部塊上的交叉熵損失的總和。）

因此在我們的執(zhí)行中，整體精煉損失函數(shù)（1）為：

（4）在||.||1是L1常模時，我們將Rθ作為一個完全卷積的神經(jīng)網(wǎng)絡(luò)，而無需躍進或池化。在像素級別上修改合成圖像，而不是整體地修改圖像內(nèi)容。例如在完全連接地編碼器網(wǎng)絡(luò)中便會如此，保留全局結(jié)構(gòu)合注釋。我們通過交替地最小化LR(θ) 和LD(φ)來學(xué)習(xí)精化器和鑒別器參數(shù)。在更新Rθ的參數(shù)時，我們保持φ固定不變，而在更新Dφ時，則要保持θ不變。我們在算法1中描述了整個訓(xùn)練過程。

（圖4：使用精細圖像歷史示意圖。相關(guān)信息請參閱文本描述。）

2.2本地對抗損失

精煉網(wǎng)絡(luò)另一個關(guān)鍵要求是，它應(yīng)該學(xué)習(xí)模擬實際圖像特性，而不引入任何偽影。當我們訓(xùn)練強鑒別器網(wǎng)絡(luò)時，精煉網(wǎng)絡(luò)傾向于過度強調(diào)某些圖像特征以欺騙當前鑒別器網(wǎng)絡(luò)，導(dǎo)致偏差和產(chǎn)生偽影。關(guān)鍵是任何我們從精化圖像中采樣的本地補丁都應(yīng)該具有與真實圖像相類似的統(tǒng)計。由此我們可以定制本地鑒別器網(wǎng)絡(luò)對本地圖像補丁進行分類，而不是定義全局鑒別器網(wǎng)絡(luò)。

這不僅限制了接受域，還因此限制了鑒別器器網(wǎng)絡(luò)的容量，并且為每個圖像提供更多樣本以供學(xué)習(xí)鑒別器網(wǎng)絡(luò)。同時由于每個圖像由多個實際損失值，它還改善了精煉網(wǎng)絡(luò)的訓(xùn)練。

在我們的執(zhí)行中，我們將鑒別器器D設(shè)計成一個完全卷積網(wǎng)絡(luò)，輸出偽類w × h概率圖。在后者中w × h是圖像中本地補丁的數(shù)量。在訓(xùn)練精煉網(wǎng)絡(luò)時，我們將w×h本地補丁的交叉熵損失值求和，如圖3所示。

2.3使用精化圖像的歷史記錄更新鑒別器器

對抗訓(xùn)練的對抗訓(xùn)練的另一個問題是鑒別器器網(wǎng)絡(luò)只關(guān)注最新的精細圖像。這可能導(dǎo)致（i）與對抗訓(xùn)練分歧，以及（ii）精煉網(wǎng)絡(luò)重新引入鑒別器已經(jīng)忘記的工件。在整個訓(xùn)練過程中的任何時間由精煉網(wǎng)絡(luò)生成的任何精細圖像對于鑒別器器來說都是偽造的圖像。因此，鑒別器應(yīng)該有能力將這些圖像識別為假?；谶@一觀察，我們引入了一種方法，通過使用精細圖像的歷史來提高對抗訓(xùn)練的穩(wěn)定性，而不僅僅是在當前小批次中小修小改。我們對算法1稍作改進，增加對先前網(wǎng)絡(luò)產(chǎn)生的精細圖像的緩沖。設(shè)B為此緩沖的大小，設(shè)b為算法1中使用的迷你批次大小。

（圖5：SimGAN輸出的圖像示例。左為MPIIGaze采集的實拍圖像，右為優(yōu)化后的UnityEye合成圖像。從圖中可以看出精細合成圖像中的皮膚紋理和虹膜區(qū)都更近似真實而非合成圖像。）

（圖6：帶有兩個nxn卷積層的ResNet塊，每個都都具有f特征圖。）

在鑒別器器訓(xùn)練的每次迭代中，我們通過對來自當前精煉網(wǎng)絡(luò)的b/2圖像進行采樣，以及從緩沖區(qū)采集額外b/2圖像，從而更新參數(shù)φ。保持緩沖區(qū)B大小固定，在每次迭代之后，我們使用新產(chǎn)生的精細圖像隨機替換緩沖區(qū)中的b/2樣本。該過程在圖4中標示出。

3.實驗

我們使用MPIIGaze [40，43]上的外貌估計數(shù)據(jù)集和紐約大學(xué)的手勢數(shù)據(jù)集 [35]來評估我們的方法。我們在所有實驗中使用完全卷積的精煉網(wǎng)絡(luò)與ResNet塊（圖6）。

3.1基于外貌的注視估計

注視估計是許多人機交互（HCI）任務(wù)的關(guān)鍵因素。然而，直接由眼睛圖像進行估計是有挑戰(zhàn)性的，特別是在圖像質(zhì)量不佳時。例如智能手機或筆記本電腦前置攝像頭采集到的眼睛圖像。因此，為了生成大量注釋數(shù)據(jù)，最近幾次方法[40,43]用大量合成數(shù)據(jù)訓(xùn)練它們的模型。在這里，我們展示使用SimGAN生成的精細合成圖像訓(xùn)練顯著提高了任務(wù)的表現(xiàn)。

注視估計數(shù)據(jù)集包括使用眼睛注視合成器UnityEyes生成的1200萬樣本，以及來自MPIIGaze數(shù)據(jù)集的21,000實拍樣本。MPIIGaze的圖像樣本都是在各種照明條件不理想情況下捕捉到的圖像。而UnityEyes圖像都是在同一渲染環(huán)境下生成。

定性結(jié)果：圖5展示了合成生成的眼睛注視圖像以及經(jīng)過處理的實拍圖像。如圖所示，我們觀察到合成圖像的顯著質(zhì)量改進：SimGAN成功捕獲皮膚紋理，傳感器噪點以及虹膜區(qū)的外觀。請注意，我們的方法在改善真實性的同時保留了注釋信息（注視方向）。

‘視覺圖靈測試’：為了定量評估精細圖像的視覺質(zhì)量，我們設(shè)計了一個簡單的用戶研究，要求受試者對圖像是屬于實拍或是合成進行區(qū)分。每個受試者被展示50張實拍圖像和50張合成圖像。在試驗中，受試者不斷觀看20個真假混雜的圖像，最終受試者很難分辨真實圖像和精細圖像之間的差異。在我們的總體分析中，10個受試者在1000次試驗中正確率只有517次（p=0.148），跟隨機選差不多。表1展示了混淆矩陣。相比之下，當使用原始圖像和實拍圖像進行測試時，我們給每個受試者展示10個實拍和10個合成圖像，這種情況下受試者在200此實驗中選對了162次（p≤10-8），結(jié)果明顯優(yōu)于隨機選擇。

（表1：采用真實圖像和合成圖像進行的“視覺圖靈測試”。平均人類分類精度為51.7%，表明自動生成的精細圖像在視覺上已經(jīng)達到以假亂真的程度。）

（圖7：使用MPIIGaze實拍樣本進行的眼睛注視估計的定量結(jié)果。曲線描述了不同測試數(shù)量下系統(tǒng)預(yù)估的誤差。圖示中使用精細圖像而不是合成圖像能顯著提高系統(tǒng)表現(xiàn)。）

定量結(jié)果：我們訓(xùn)練了一個與[43]類似的簡單的卷積神經(jīng)網(wǎng)絡(luò)（CNN）來對眼睛的注視方向進行預(yù)測。我們在UnityEyes上訓(xùn)練，并在MPIIGaze上進行測試。圖7和表2比較了CNN分別使用合成數(shù)據(jù)以及SimGAN生成的精細數(shù)據(jù)的不同表現(xiàn)。我們觀察到SimGAN輸出訓(xùn)練的表現(xiàn)有很大的提高，絕對百分比提高了22.3%。我們還發(fā)現(xiàn)訓(xùn)練結(jié)果和訓(xùn)練數(shù)據(jù)呈正相關(guān)——此處的4x指的是培訓(xùn)數(shù)據(jù)集的100%。定量評估證實了圖5中觀察到的定性改進的價值，并且表明使用SimGAN能使機器學(xué)習(xí)模型有更好的表現(xiàn)。表3展示了同現(xiàn)有技術(shù)的比較，在精細圖像上訓(xùn)練CNN的表現(xiàn)優(yōu)于MPIGaze上的現(xiàn)有技術(shù)，相對改善了21%。這個巨大的改進顯示了我們的方法在許多HCI任務(wù)中的實際價值。

實施細節(jié)：精煉網(wǎng)絡(luò)Rθ是一個殘差網(wǎng)絡(luò) (ResNet) 。每個ResNet塊由兩個卷積層組成，包含63個特征圖，如圖6所示。大小為55x35的輸入圖像和3x3的過濾器進行卷積，輸出64個特征圖。輸出通過4個ResNet塊傳遞。最后ResNet塊的輸出被傳遞到1x1卷積層，產(chǎn)生對應(yīng)于精細合成圖像的1個特征圖。

（表2: 使用合成數(shù)據(jù)和SimGAN輸出進行訓(xùn)練的比較。在無需監(jiān)督真實數(shù)據(jù)的情況下，使用SimGAN輸出的圖像進行訓(xùn)練表現(xiàn)出22.3%的優(yōu)勢。）

（表3: SimGAN與MPIIGaze現(xiàn)有技術(shù)進行比較。R=真實圖像，S=合成圖像。誤差是以度為單位的平均眼睛注視估計誤差。對精細圖像的訓(xùn)練帶來了2.1度的改進，相對現(xiàn)有技術(shù)提高了21％。）

鑒別器器網(wǎng)絡(luò)Dφ包含5個擴展層和2個最大合并層，分別為：（1）Conv3x3，stride = 2，特征映射= 96，（2）Conv3x3，stride = 2，特征映射= 64，( 3）MaxPool3x3，stride = 1，（4）Conv3x3，stride = 1，特征映射= 32，（5）Conv1x1，stride = 1，特征映射= 32，（6）Conv1x1，stride = 2，（7）Softmax。

我們的對抗網(wǎng)絡(luò)是完全卷積的，并且已經(jīng)被設(shè)計為使Rθ和Dφ中的最后層神經(jīng)元的接受域是相似的。我們首先對Rθ網(wǎng)絡(luò)進行1000步的自正則化損失訓(xùn)練，Dφ為200步。然后對于Dφ的每次更新，對應(yīng)在算法中更新Rθ兩次。即Kd被設(shè)置為1，Kg被設(shè)置為50。

眼睛注視估計網(wǎng)絡(luò)同[43]類似，不過略作修改以使其更好地利用我們的大型合成數(shù)據(jù)集。輸入是35x55的灰度圖，通過5個卷積層，然后是3個完全連接的層，最后一個編碼三維注視向量：（1）Conv3x3，特征圖= 32，（2）Conv3x3 ，特征映射= 32，（3）Conv3×3，特征映射= 64，（4）Max- Pool3x3，stride = 2，（5）Conv3x3，特征映射= 80，（6）Conv3x3， MaxPool2x2，stride = 2，（8）FC9600，（9）FC1000，（10）FC3，（11）Eu- clidean loss。所有網(wǎng)絡(luò)都使用恒定的0.001學(xué)習(xí)速率和512批量大小進行訓(xùn)練，直到驗證錯誤收斂。

3.2關(guān)于深度圖像的手勢圖像模擬

下一步，我們將用這宗方法對各種手勢的深度圖像進行模擬。在研究中，主要使用了紐約大學(xué)所提供的NYU手勢數(shù)據(jù)庫，其中包含72757個訓(xùn)練樣本以及使用3臺Kinect相機所采集的8251個測試樣本，其中每個測試樣本包括一個正面手勢圖像以及兩個側(cè)面手勢圖像。而每一個深度圖像樣本都對手勢信息進行了標記，從而生成了合成圖像。圖10展示了手勢數(shù)據(jù)庫中的一個樣本。我們對數(shù)據(jù)庫樣本進行了預(yù)處理，利用合成圖像從真實圖像中提取了相應(yīng)的像素點位。在使用深度學(xué)習(xí)網(wǎng)絡(luò)ConvNet進行處理之前，每個圖像樣本的分辨率大小被統(tǒng)一調(diào)整為224*224，背景值設(shè)置為零，前景值設(shè)置為原始深度值減2000。（此時假設(shè)背景分辨率為2000）。

圖10：NYU手勢數(shù)據(jù)庫。左圖為深度圖像樣本；右圖為處理后的合成圖像。

定性描述：圖11顯示了“生成對抗網(wǎng)絡(luò)”（ SimGAN）對手勢數(shù)據(jù)庫的計算結(jié)果。由圖可知，真實深度圖像的噪聲已經(jīng)邊緣化，且分布不連續(xù)。SimGAN能夠有效對原有圖像噪聲進行學(xué)習(xí)并模擬，從而產(chǎn)生出更加真實精細的合成圖像，且不需要在真實圖像上做出任何標記或注釋。

圖11： NYU手勢數(shù)據(jù)庫的精細測試圖像示例。左圖為真實圖像實像，右圖上為合成圖像，右圖下為來自蘋果生成對抗網(wǎng)絡(luò)的相應(yīng)精細化輸出圖像。

實際圖像中的主要噪聲源是非平滑的邊緣噪聲。學(xué)習(xí)網(wǎng)絡(luò)能夠?qū)W習(xí)模擬真實圖像中存在的噪聲，重要的是不需要任何標記和注釋。

定量分析：

我們采用一種類似于Stacked Hourglass人體姿態(tài)算法的CNN仿真算法應(yīng)用于真實圖像、合成圖像以及精細化合成圖像處理，與NYU手勢數(shù)據(jù)庫中的測試樣本進行對比。通過對其中14個手關(guān)節(jié)變換進行算法訓(xùn)練。為了避免偏差，我們用單層神經(jīng)網(wǎng)絡(luò)來分析算法對合成圖像的改進效果。圖12和表4顯示了關(guān)于算法對手勢數(shù)據(jù)庫進行處理的定量結(jié)果。其中由SimGAN輸出的精細化合成圖像顯著優(yōu)于基于真實圖像進行訓(xùn)練而產(chǎn)生的圖像，其更為逼真，比標準合成圖像高出了8.8%，其中仿真模擬輸出的注釋成本為零。同時要注意的是，3X代表圖像訓(xùn)練選取了所有角度。

圖12：手勢估計的定量結(jié)果，關(guān)于NYU手勢測試集的真實深度圖像。

圖表顯示圖像與背景之間函數(shù)的累積曲線?？梢姡琒imGAN輸出的精細化合成圖像顯著優(yōu)于基于真實圖像進行訓(xùn)練而產(chǎn)生的圖像，其更為逼真，比標準合成圖像高出了8.8%。重要的是，我們的學(xué)習(xí)網(wǎng)絡(luò)不需要對真實圖像進行標記。

表4：通過訓(xùn)練生成各種手勢圖像的相似度。

Synthetic Data為一般網(wǎng)絡(luò)訓(xùn)練產(chǎn)生的合成圖像，Real Data為真實圖像，Refined Synthetic Data為生成對抗網(wǎng)絡(luò)SimGAN輸出的精細化合成圖像。3X表示對真實圖像進行多角度模擬。

實現(xiàn)細節(jié)：關(guān)于手勢圖像判別的架構(gòu)與眼睛圖像相同，但輸入圖像分辨率為224*224，濾波器大小為7*7，殘差網(wǎng)絡(luò)值為10。判別網(wǎng)絡(luò)D如下：（1）Conv7x7,

stride=4, feature maps=96, (2) Conv5x5, stride=2, feature maps=64, (3) MaxPool3x3, stride=2, (4) Conv3x3,stride=2, feature maps=32, (5) Conv1x1, stride=1, feature maps=32, (6) Conv1x1, stride=1, feature maps=2,(7) Softmax。

首先，我們會對R網(wǎng)絡(luò)進行自我規(guī)則化訓(xùn)練500次，隨后引入D網(wǎng)絡(luò)訓(xùn)練200次；隨后，每更新一次D網(wǎng)絡(luò)，就相應(yīng)將R網(wǎng)絡(luò)進行兩次更新。在手勢估計中，我們采用Stacked Hourglass Net人體姿態(tài)算法輸出大小為64*64的熱點圖。我們在網(wǎng)絡(luò)學(xué)習(xí)中引入[-20,20]的隨機數(shù)據(jù)集來對不同角度的圖像進行訓(xùn)練。直至驗證誤差有效收斂時，網(wǎng)絡(luò)訓(xùn)練結(jié)束。

3.3對抗訓(xùn)練的修正分析

首先我們比較了本地化對抗訓(xùn)練以及全局對抗訓(xùn)練的圖像偏差。在全局對抗中，判別網(wǎng)絡(luò)使用了完全連接層，從而使整個圖像相對于更加精細。而本地化對抗訓(xùn)練則使得生成的圖像更為真實，如圖8所示。

圖8：左為全局對抗訓(xùn)練結(jié)果，右為本地化對抗訓(xùn)練結(jié)果。

顯示了全局對抗訓(xùn)練與本地化對抗訓(xùn)練的結(jié)果偏差。左圖生成的圖像更精細但不真實，右圖生成的圖像相對真實度更高。

接下來，在圖9中，顯示了使用反復(fù)訓(xùn)練的歷史精細化圖像對判別網(wǎng)絡(luò)進行更新，并將其與標準對抗生成的合成圖像進行比較的結(jié)果。如圖所示，使用反復(fù)訓(xùn)練的歷史精細化圖像刻產(chǎn)生更為真實的陰影，譬如在標準對抗訓(xùn)練中，眼睛角落里沒有陰影。

圖9：使用歷史精細圖像對判別網(wǎng)絡(luò)進行更新的結(jié)果。

左圖：標準合成圖像；中圖：使用歷史數(shù)據(jù)對判別網(wǎng)絡(luò)進行更新后的圖像結(jié)果；右圖：使用近期歷史數(shù)據(jù)對判別網(wǎng)絡(luò)進行更新的圖像結(jié)果。如圖所示，使用反復(fù)訓(xùn)練的歷史精細化圖像刻產(chǎn)生更為真實的陰影。

4結(jié)論以及下一步工作

在文中，我們提出了一種“模擬+無監(jiān)督”的機器學(xué)習(xí)方法，能夠有效提高模擬圖像的真實感。我們描述了一種新的生成對抗網(wǎng)絡(luò)SimGAN，并將其應(yīng)用于未經(jīng)標注的真實圖像，獲得了最好的結(jié)果。下一步，我們將繼續(xù)探索為合成圖像建立更為逼真的精細圖像，同時研究如何對視頻進行處理。