女女国产香蕉久久精品,国产三级a三级三级天天

OpenAI 于近日的一項研究中發(fā)現(xiàn)，在一個非明確的技能訓(xùn)練的環(huán)境中，AI 能夠通過“自我對局”的訓(xùn)練掌握一系列動作技能，比如進攻、躲避、假動作、踢、抓等等?！白晕覍帧庇?xùn)練確定了環(huán)境對于提升AI系統(tǒng)的重要性。Dota2在“自我對局”訓(xùn)練中的表現(xiàn)和結(jié)果讓團隊越來越相信，“自我對局”訓(xùn)練不久將會成為AI系統(tǒng)的核心。雷鋒網(wǎng)(公眾號：雷鋒網(wǎng))AI科技評論對本文進行編譯，全文如下：

論文原文：https://arxiv.org/abs/1710.03748

代碼：https://github.com/openai/multiagent-competition

我們在幾個3D機器人之間設(shè)置了一些基本的游戲競賽，利用一些簡單的目標（比如：將對手推到場地圈外；到達場地的另一邊，并阻止對手到達；把球踢進對手的網(wǎng)內(nèi)，而不讓對手的球踢進自己的網(wǎng)內(nèi)等。）對每個機器人進行訓(xùn)練，并且分析機器人在完成目標時所使用的技能和策略。

一開始，機器人會因為站立、前進這樣的行為而獲得豐厚的獎勵，但最后這些獎勵會被清零，只有勝利的機器人才會獲得獎勵。除了這些簡單的獎勵以外，機器人還會學(xué)到一系列動作技能，比如進攻、躲避、假動作、踢、抓等等。在這個過程中，每個機器人的神經(jīng)網(wǎng)絡(luò)都單獨接受了“近端策略優(yōu)化” 的訓(xùn)練。

為了弄清楚在這些目標和競賽的壓力面前，機器人會作出如何復(fù)雜的行動，我們不妨分析一下機器人的“摔角相撲”比賽吧。在這個比賽中，為了訓(xùn)練機器人行走，我們在比賽前期給機器人設(shè)置了豐厚的獎勵；增加了從這個圓形場地中心起的負L2距離，并且將其設(shè)置為機器人獲得的豐厚獎勵。機器人一開始的時候可以使用這些獎勵在比賽場地內(nèi)作出一些動作和反應(yīng)，但是我們會在訓(xùn)練中把獎勵悄悄地清零。這樣一來，在接下來的訓(xùn)練迭代中，機器人才會為了得到更多的獎勵，自覺地對自己的動作和技能進行優(yōu)化。

設(shè)計出有助于這些技能訓(xùn)練的任務(wù)和環(huán)境并非不可能，但這不僅需要研究員耗費大量的精力，還需要他們具備獨到的創(chuàng)意。此外，機器人的行為也可能會因為人類設(shè)計師在設(shè)計中出現(xiàn)的問題而變得更復(fù)雜。通過成千上萬次的迭代優(yōu)化，我們能夠開發(fā)出更好的機器人，進而可以創(chuàng)造出功能強大的AI系統(tǒng)，該系統(tǒng)能夠自我引導(dǎo)，并完成性能自我優(yōu)化。在Dota2項目中我們也能發(fā)現(xiàn)類似的自我優(yōu)化現(xiàn)象。在Dota2項目中，“自我對局”訓(xùn)練讓我們成功創(chuàng)造出了一個能夠在電子競技的solo版本中擊敗頂級人類玩家的強化學(xué)習(xí)機器人。

遷移學(xué)習(xí)

剛剛完成“摔角相撲”訓(xùn)練的機器人，現(xiàn)在又要開始應(yīng)對“強風(fēng)”了。

這些機器人還能進行“遷移學(xué)習(xí)”，它們能夠把在一場景學(xué)習(xí)到的技能運用于另一個從未接觸過的場景。在一個案例中，我們給那些經(jīng)過了“摔角相撲”訓(xùn)練的機器人設(shè)置了一個任務(wù)，讓它們在強風(fēng)中始終保持站立。結(jié)果是，那些無視這個強風(fēng)環(huán)境的機器人能夠始終保持直立，而接受過傳統(tǒng)強化學(xué)習(xí)訓(xùn)練的機器人在嘗試行走時則會立刻摔倒。

過擬合

我們的機器人會與“co-learning策略”發(fā)生過擬合，該策略是針對某些特定的對手而設(shè)計的，但是在面對新的對手時，這個策略就會失效。針對這一問題，我們的解決方案是——讓機器人與多個不同的對手進行“較量”。這些對手來自于一系列的策略，其中有同步訓(xùn)練或早期訓(xùn)練的策略。面對這些各式各樣、風(fēng)格不一的對手，機器人就必須學(xué)習(xí)更多通用的策略和技術(shù)，這樣才能“來者不懼”。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

OpenAI如何用“自我對局”訓(xùn)練AI機器人變身“摔角王”？

下一篇

OpenAI如何用“自我對局”訓(xùn)練AI機器人變身“摔角王”？

下一篇

OpenAI如何用“自我對局”訓(xùn)練AI機器人變身“摔角王”？