OpenAI公布Dota AI比賽細節(jié) 自我對局讓它超越人類

OpanAI公布Dota AI比賽細節(jié),自我對局讓它超越人類

在攻克了圍棋以后,人工智能研究者們似乎不約而同地把電子競技游戲作為了下一個練兵場。雷鋒網(wǎng)上周報道,在Dota2國際邀請賽TI7上,OpenAI率先展示了自己的成果,在西雅圖讓AI在1v1比賽中擊敗了職業(yè)選手,又一次點燃了關(guān)于AI的討論。

在對比賽結(jié)果進行了諸多分析之后,就目前的資料來看,其實1v1比賽可能較圍棋來得簡單,在1v1比賽中取勝,也不能說明在5v5的完整比賽中能戰(zhàn)勝人類,人類還保有一定的尊嚴。

經(jīng)過約一周的時間,OpanAI最終公布了Dota AI的一些細節(jié),不過它還是有所保留,沒有說明技術(shù)細節(jié)。最后,他們還說到最終的目的就是在5v5比賽中戰(zhàn)勝人類。

OpanAI公布Dota AI比賽細節(jié),自我對局讓它超越人類

上圖是游戲AI的TrueSkill評級(類似于國際象棋中的ELO評級)分數(shù)變化,計算方式是模擬AI之間的游戲?qū)郑⒂^察勝率。TrueSkill系統(tǒng)是基于貝葉斯推斷的評分系統(tǒng),由微軟研究院開發(fā),主要用于多人游戲匹配。這套評分系統(tǒng)考慮到了玩家水平的不確定性,綜合考慮了玩家的勝率和可能的水平漲落,而不是簡單的基于勝率的評分。

圖中顯示的變化趨勢是線性的,這意味著AI的提升水平呈指數(shù)級增長。

OpenAI還具體介紹了項目的開發(fā)時間表。從某種角度看,15%的玩家低于1.5K MMR,58%的玩家低于3k,而99.99%低于7.5k。

MMR是比賽匹配分級系統(tǒng),全稱是match making ranking,簡單理解就是Dota中常說的天梯分。

3月1日:在簡單的Dota環(huán)境中得到了第一個經(jīng)典強化學習下的結(jié)果,AI操作的黑暗游俠可以對付神牛了。

5月8日:1.5k MMR水平的測試員說自己的速度比AI要快。

6月初:擊敗1.5k MMR水平的測試者

6月30日:在與3k MMR測試者的比賽中多數(shù)會贏

7月8日:對戰(zhàn)7.5K MMR水平的半專業(yè)測試者,終于贏了一次。

8月7日:3-0擊敗Blitz(6.2k的前職業(yè)選手),2-1擊敗Pajkatt(8.5k的職業(yè)選手),3-0擊敗CC&C(8.9k的職業(yè)選手),不過大家都認為,系統(tǒng)還是打不過頂尖選手Sumail。

8月9日:10-0擊敗Arteezy(10k職業(yè)選手)10-0,但他還是認為系統(tǒng)搞不定Sumail。

8月10日:6-0擊敗Sumail(8.3k職業(yè)選手,頂級1v1玩家),不過在與8月9日版的系統(tǒng)對戰(zhàn)結(jié)果是2-1。

8月11日:2-0擊敗Dendi(7.3k職業(yè)選手,前世界冠軍)2-0。這個時候的系統(tǒng)對戰(zhàn)前一天的版本,勝率是60%。

OpanAI公布Dota AI比賽細節(jié),自我對局讓它超越人類

(AI與Sumail比賽)

完整的比賽是5v5版本的,不過1v1也出現(xiàn)在一些錦標賽中。OpenAI寫到,系統(tǒng)是在標準比賽規(guī)則下對戰(zhàn)的,在1v1中沒有為AI做特別的簡化。

系統(tǒng)的操作環(huán)境如下:

觀察:使用游戲的Bot API接口,功能集與視角和人類玩家的一樣,會受英雄,小兵,信使和附近地形的影響。整個游戲?qū)I系統(tǒng)來說是部分可觀察的。

操作:也是調(diào)用Bot API,操作頻率被限定在與人類水平相當,這包括移動到某個位置,攻擊或使用某個物品的頻率。

反饋:系統(tǒng)在贏得比賽后會得到獎勵,其它一些基本指標,如英雄的生命狀態(tài)和最后一擊等,也會影響獎勵。

系統(tǒng)還可以選擇使用的幾十個裝備道具,選擇后會有評估。OpenAI還用了傳統(tǒng)的強化技術(shù)單獨訓練開局前的擋兵,這基本是1v1的標準操作。

OpanAI公布Dota AI比賽細節(jié),自我對局讓它超越人類

(AI與Arteezy比賽)

OpenAI稱,他們使用的方法結(jié)合了少量的“教練”式訓練與自我對戰(zhàn),每天都能有很大的提升。比如在TI比賽的那段時間,周一晚上的時候Pajkatt還打贏了系統(tǒng),當時他使用了一個不尋常的裝備,即在早期購買了魔棒。后來OpenAI將這種操作加到了培訓當中。

星期三下午OpenAI再次測試了最新的系統(tǒng)。比賽中AI在第一波攻擊中就掉了一大半血,正當研究人員覺得要把系統(tǒng)回復了原先版本的時候,他們注意到了驚人的發(fā)展,原來第一波攻擊是在誘使對方采用更激進的攻擊方式。系統(tǒng)進一步的自我對局逐漸解決了這個問題,并學會了抵制引誘策略。

在與Arteezy的比賽之后,OpenAI更新了擋兵模型,讓系統(tǒng)的TrueSkill分增加了一點。然后在與Sumail比賽之前又進行了進一步訓練,把TrueSkill分增加了兩點。Sumail比完后說,AI甚至學會了在敵方的視線之外壓影炮,這樣可以打斷敵人在視野之外的回復。

Arteezy還與OpenAI的7.5k評級半專業(yè)測試員打了一場比賽。Arteezy贏了比賽,但測試人員用了從AI系統(tǒng)那學的一招,著實讓人吃驚。Arteezy后來說,這是他以前與Paparazi比賽時對方用過的招數(shù),很少有人會用。

這種情況在圍棋中也曾出現(xiàn)過,當AlphaGo戰(zhàn)勝李世石后,再到它與柯潔的比賽,人類棋手也越來越多地開始學習它的布局與下法。

Sumail在對戰(zhàn)后說,AI系統(tǒng)是“不可戰(zhàn)勝的”,但它仍然會在與之前遇到過的狀況非常不同的情況下不知混所措。在TI的比賽那段時間,OpenAI還設了一次局域網(wǎng)比賽讓很多人參加進來,以各種方式與AI系統(tǒng)對戰(zhàn),總共收集了1000多次比賽數(shù)據(jù)。最終還是發(fā)現(xiàn)了不少系統(tǒng)的破綻,可以戰(zhàn)勝它,主要有三類:

引兵:當小兵進攻的時候,可以不斷攻擊它們吸引火力,讓他們跟著你跑,這樣可以導致AI一方的防衛(wèi)塔被小兵消耗而亡。

淬毒之珠+風靈之紋:買這兩個裝備可以在1級的時候帶來很大的移動速度優(yōu)勢,這樣可以快速拿AI的一血。有了這樣好的開始戰(zhàn)勝電腦就很容易了。

1級影壓:用這一條戰(zhàn)勝電腦需要不少技巧,不過根據(jù)OpenAI的說法,有幾個6-7k水平的玩家能夠在較短時間內(nèi)壓3-5記影炮,在1級的時候就殺死AI系統(tǒng)。

以上都是在1v1比賽中的小bug,很容易修復錯誤。但是對于5v5比賽來說,這樣的問題根本就不是漏洞了,這時候需要的是一個可以處理突發(fā)且怪異情況的系統(tǒng)。

最后,OpenAI表示還沒有準備好對外公布開發(fā)的AI代理的具體構(gòu)造,團隊的重點是首先解決5v5比賽。如果說1v1比賽很復雜,那5v5比賽就是復雜的集合,而解決這一問題會進一步推動AI的進步。

OpenAI認為,一個比較好的著手方式是行為克隆。Dota每天有大約一百萬場公開賽,這些比賽的重播數(shù)據(jù)會被存儲在Valve的服務器上兩周。自去年11月以來,OpenAI一直在下載每位專家級別玩家的重播數(shù)據(jù),已經(jīng)收集了580萬局游戲的數(shù)據(jù)(每局都是10人參與的45分鐘游戲)。

OpenAI的Dota 2系統(tǒng)表明,如果有充分的計算,自我對局可以將機器學習系統(tǒng)的性能從遠低于人類的水平提高到超越人類。在一個月的時間里,它們的系統(tǒng)就從比不上高水平玩家,發(fā)展到了擊敗頂級職業(yè)選手,而且還在繼續(xù)提升。有監(jiān)督深度學習系統(tǒng)只能與培訓數(shù)據(jù)集一樣好,但在自我對局系統(tǒng)中,隨著代理越來越好,可用數(shù)據(jù)會自動提升。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-08-18
OpenAI公布Dota AI比賽細節(jié) 自我對局讓它超越人類
經(jīng)過約一周的時間,OpenAI最終公布了Dota AI的一些細節(jié),不過它還是有所保留,沒有說明技術(shù)細節(jié)。最后,他們還說到最終的目的就是在5v5比賽中戰(zhàn)勝人類。

長按掃碼 閱讀全文