欧美一级夜夜爽,免费大黄操逼

近年來隨著強(qiáng)化學(xué)習(xí)的發(fā)展，使得智能體選擇恰當(dāng)行為以實(shí)現(xiàn)目標(biāo)的能力得到迅速地提升。目前研究領(lǐng)域主要使用兩種方法：一種是無模型（model－free）的強(qiáng)化學(xué)習(xí)方法，通過試錯(cuò)的方式來學(xué)習(xí)預(yù)測成功的行為，其中著名的方法包括用于完成雅達(dá)利游戲的DeepMind的DQN方法和在星際爭霸二中與世界冠軍同臺競技的AlphaStar，但這類方法需要與環(huán)境進(jìn)行大量的交互限制了其在真實(shí)場景中的應(yīng)用。

而基于模型（model－based）的強(qiáng)化學(xué)習(xí)方法則額外學(xué)習(xí)一個(gè)簡化的環(huán)境模型，這一環(huán)境模型使得主體可以預(yù)測潛在行為序列的輸出，使得它可以通過假設(shè)的場景來在新環(huán)境中作出明智的決策，減少了實(shí)現(xiàn)目標(biāo)所需的試錯(cuò)。先前學(xué)習(xí)精確的世界模型并將其充分應(yīng)用于行為學(xué)習(xí)中還面臨一系列挑戰(zhàn)，但隨著近來像深度規(guī)劃網(wǎng)絡(luò)（Deep Planning Network， PlaNet）的研究出現(xiàn)，極大地拓展了從圖像中學(xué)習(xí)出精確世界模型的邊界，但基于模型的方法卻依然受到規(guī)劃（planning）機(jī)制龐大計(jì)算消耗的約束，限制了其在解決復(fù)雜任務(wù)上的應(yīng)用。

為了解決這些問題，來自谷歌和DeepMind的研究人員合作提出了一種基于圖像學(xué)習(xí)出世界模型（world model）的強(qiáng)化學(xué)習(xí)方法Dreamer，并在此基礎(chǔ)上學(xué)習(xí)出有遠(yuǎn)見的行為。Dreamer基于模型預(yù)測的反向傳播來利用世界模型實(shí)現(xiàn)高效的行為學(xué)習(xí)。通過從原始圖像輸入中計(jì)算出緊致的模型狀態(tài)，這種方法可以使得主體在單個(gè)GPU上并行地從上千個(gè)預(yù)測序列中進(jìn)行高效的學(xué)習(xí)。通過20個(gè)基于原始圖像輸入的連續(xù)控制基準(zhǔn)任務(wù)上測評表明，Dreamer在性能、數(shù)據(jù)效率和計(jì)算時(shí)間上都達(dá)到了先進(jìn)水平。

Dreamer的基本架構(gòu)

Dreamer和典型的基于模型方法一樣包含三個(gè)過程：學(xué)習(xí)世界模型、基于世界模型的預(yù)測學(xué)習(xí)行為、在環(huán)境中執(zhí)行學(xué)習(xí)到的行為來收集新的經(jīng)驗(yàn)。為了學(xué)習(xí)行為，Dreamer中利用價(jià)值網(wǎng)絡(luò)（value network）將規(guī)劃視野外的獎(jiǎng)勵(lì)納入考量，同時(shí)利用行為網(wǎng)絡(luò)（actor network）來高效的計(jì)算行為。這三部分可以并行地執(zhí)行，一直重復(fù)運(yùn)行直到達(dá)成目標(biāo)：

Dreamer主體的三個(gè)過程，世界模型基于過去經(jīng)驗(yàn)學(xué)習(xí)，隨后基于這一模型預(yù)測，主體通過價(jià)值網(wǎng)絡(luò)來預(yù)測未來獎(jiǎng)勵(lì)、行為網(wǎng)絡(luò)來選擇行為。行為網(wǎng)絡(luò)用于與環(huán)境交互。

學(xué)習(xí)世界模型

Dreamer采用了PlaNet的世界模型，通過一系列緊致的模型狀態(tài)來預(yù)測輸出，而這些模型狀態(tài)則通過輸入圖像計(jì)算得到，而不是直接利用圖像來進(jìn)行處理。它將自動(dòng)學(xué)習(xí)得出代表有益于預(yù)測未來輸出概念的模型狀態(tài)，例如目標(biāo)類型、位置以及目標(biāo)與周圍環(huán)境的交互等等。給定數(shù)據(jù)集中一個(gè)過去的圖像、行為和獎(jiǎng)勵(lì)序列，Dreamer按照下圖的方式進(jìn)行世界模型的學(xué)習(xí)：

Dreamer 從經(jīng)驗(yàn)中學(xué)習(xí)世界模型，利用過去的圖像（o1–o3）、行為（a1–a2），它將計(jì)算出緊致的模型狀態(tài)（綠色圓），并可以基于這些狀態(tài)重建出圖像并預(yù)測出獎(jiǎng)勵(lì)。

利用PlaNet世界模型的優(yōu)勢在于利用緊致的模型狀態(tài)代替了圖像來進(jìn)行預(yù)測，極大地提高了計(jì)算效率。這使得模型可以在單個(gè)GPU上預(yù)并行的預(yù)測上千個(gè)序列。這種方式同時(shí)可以提高模型的泛化性，進(jìn)行精確的長時(shí)視頻預(yù)測。為了更好地理解模型的工作原理，下圖展示了將預(yù)測序列模型狀態(tài)解碼回圖像的結(jié)果：

復(fù)雜環(huán)境下的長程預(yù)測結(jié)果，上圖顯示了兩個(gè)主體未曾遇到過的序列，給定五張輸入圖像，模型對其進(jìn)行重建并預(yù)測出了后續(xù)到50步的圖像結(jié)果。

高效行為學(xué)習(xí)

先前基于模型的主體選擇行為的方法分為兩種，要么通過多個(gè)模型預(yù)測來進(jìn)行規(guī)劃，要么通過將世界模型代替模擬器來復(fù)用無模型方法的技術(shù)。但兩種方法都需要龐大的計(jì)算需求，同時(shí)也未充分利用學(xué)習(xí)到的世界模型。此外及時(shí)強(qiáng)大的世界模型也會受制于精確預(yù)測的長度，很多先前基于模型的主體表現(xiàn)出短視的缺點(diǎn)。Dreamer通過世界模型的預(yù)測進(jìn)行反向傳播學(xué)習(xí)價(jià)值網(wǎng)絡(luò)和行為網(wǎng)絡(luò)來克服上述局限。

Dreamer通過預(yù)測的狀態(tài)序列反向傳播獎(jiǎng)勵(lì)來高效地學(xué)習(xí)行為網(wǎng)絡(luò)用于預(yù)測正確的行為，這在無模型方法中是無法實(shí)現(xiàn)的。這將告訴Dreamer其多小的行為變化將會影響未來預(yù)測的獎(jiǎng)勵(lì)，使得它可以向最大化獎(jiǎng)勵(lì)的方向上優(yōu)化行為網(wǎng)絡(luò)。為了考慮預(yù)測范圍外的獎(jiǎng)勵(lì)，價(jià)值網(wǎng)絡(luò)將估計(jì)每一個(gè)模型狀態(tài)未來的獎(jiǎng)勵(lì)和，獎(jiǎng)勵(lì)和價(jià)值將反向傳播來優(yōu)化行為網(wǎng)絡(luò)去改善行為。

Dreamer通過模型狀態(tài)預(yù)測序列來學(xué)習(xí)長程行為，首先學(xué)習(xí)每個(gè)狀態(tài)的長程價(jià)值，而后通過反向傳播到行為網(wǎng)絡(luò)來預(yù)測能夠得到高價(jià)值和獎(jiǎng)勵(lì)的行為。

Dreamer與PlaNet有諸多不同，在環(huán)境中的給定狀態(tài)下，PlaNet在不同行為序列的多個(gè)預(yù)測中搜索最佳行為，而Dreamer則避開了這種計(jì)算消耗巨大的搜索方式，利用規(guī)劃和行為解耦的方式來提高計(jì)算效率。一旦在預(yù)測序列上訓(xùn)練好了行為網(wǎng)絡(luò)，它將計(jì)算與環(huán)境交互的行為而無需額外的搜索。此外Dreamer利用價(jià)值函數(shù)考慮到了規(guī)劃以外的獎(jiǎng)勵(lì)并通過反向傳播提高了規(guī)劃的效率。

控制任務(wù)上的表現(xiàn)

為了測試Dreamer的性能，研究人員在20個(gè)不同的任務(wù)上對其進(jìn)行了測評，包括平衡、控制、運(yùn)動(dòng)等多種復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù)。

多種復(fù)雜的任務(wù)，其輸入為圖像。包括了碰撞、稀疏獎(jiǎng)勵(lì)、混沌動(dòng)力學(xué)和高自由度甚至三維視角等復(fù)雜情況。

研究人員將Dreamer與多個(gè)先進(jìn)的模型進(jìn)行了比較，包括先前最先進(jìn)的基于模型的方法PlaNet、無模型方法A3C、結(jié)合多種先進(jìn)手段的無模型方法D4PG。實(shí)驗(yàn)表明，基于模型的主體可以在五百萬幀內(nèi)完成高效學(xué)習(xí)，大概對應(yīng)28小時(shí)的仿真，而無模型的方法則需要近100萬幀的學(xué)習(xí)，大概對應(yīng)23天的仿真訓(xùn)練。在20個(gè)任務(wù)的測評基準(zhǔn)上，Dreamer領(lǐng)先于目前最先進(jìn)的無模型方法D4PG（平均分823＞786），同時(shí)其與環(huán)境的交互大概要少二十倍。此外它最終的結(jié)果在所有任務(wù)上也超過了先前最好的基于模型方法PlaNet，最終的結(jié)果如下圖所示：

Dreamer的性能與其他方法的比較，其得分、數(shù)據(jù)效率和計(jì)算時(shí)間都比先前方法要好。

此外研究人員還在連續(xù)任務(wù)上進(jìn)行了實(shí)驗(yàn)，以驗(yàn)證Dreamer面對復(fù)雜環(huán)境的能力。下面的任務(wù)需要不僅需要長程行為預(yù)測，同時(shí)還需要模型具有空間感知能力。實(shí)驗(yàn)表明Dreamer對于這些更具挑戰(zhàn)的任務(wù)依然能夠很好地進(jìn)行處理：

Dreamer成功地在雅達(dá)利游戲和DeepMind環(huán)境中運(yùn)行，這些離散的任務(wù)更具挑戰(zhàn)性。

Dreamer不僅在性能上超越了原有基于模型的方法，同時(shí)在計(jì)算效率上也大幅提升。研究人員認(rèn)為Dreamer將為強(qiáng)化學(xué)習(xí)提供更為堅(jiān)實(shí)的發(fā)展根基，同時(shí)也將促進(jìn)更好地表示學(xué)習(xí)、基于不確定性的方向探索、時(shí)域抽象和多任務(wù)學(xué)習(xí)的發(fā)展。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）