深度強化學習領游戲界AI新潮,AI超越人類水平大勢已來!

深度強化學習(deep reinforcement learning)在游戲界的成功已經(jīng)在 AI 界產(chǎn)生了轟動 ,不管是玩出歷史高分的微軟AI,還是繼圍棋之后,人工智能又攻克的德州撲克,亦或是利用“左右互博”來增強學習的OpenAI。人工智能在不同的游戲中的最新得分已經(jīng)超越了人類的水平。

那么,這種深度強化學習是如何進行的呢?下面我們則以Maluuba、冷撲大師、OpenAI為例來進行闡釋。

《吃豆小姐(Ms.PAC-MAN)》是一款誕生自80年代的休閑街機游戲,由于該游戲的幽靈行動模式存在不確定性,具有很大的挑戰(zhàn)性和難度。,然而,Maluuba開發(fā)的AI在《吃豆小姐》Atari2600版本中卻玩出了歷史最高分:999990。

Maluuba是微軟于2017年1月收購的加拿大深度學習創(chuàng)業(yè)公司,其專注于強化學習技術(shù),這種強化學習可以幫助系統(tǒng)自主做出決策。

對于微軟玩出歷史高分,它的解決方案是創(chuàng)造一個混合式獎賞架構(gòu)(Hybrid Reward Architecture),也就是一種把游戲里的大問題分解成小問題,再把小問題分發(fā)給AI代理來解決的分治策略。

Maluuba利用一個頂級的AI吃豆小姐和150多個普通AI吃豆小姐,讓她們協(xié)作處理。每個普通AI代理都是相互獨立的,它們分別精通《吃豆小姐》的一部分技巧:有的負責吃水果,有的負責吃豆子,有的負責躲避幽靈。

深度強化學習領游戲界AI新潮,AI超越人類水平大勢已來!

頂級的AI吃豆小姐的工作,就是綜合考慮每個普通AI吃豆小姐的意見,然后以此來做出往哪邊走的決策。決策的考慮因素有兩個:一個是建議往某方向走的普通AI吃豆小姐的數(shù)量,另一個是普通AI吃豆小姐建議的強度。

同樣,根據(jù)德州撲克規(guī)則設計的冷撲大師,也是能夠進行相關自我學習的一款程序。

冷撲大師相對于“阿爾法圍棋”的不同在于,開發(fā)者并沒有教給它人類打牌的方法,只是向它描述了德?lián)涞囊?guī)則,由它“左右互搏”,摸索出德?lián)鋺撛趺赐?。因而,冷撲大師的打法完全脫離了人類經(jīng)驗。

除此之外,納什均衡是德?lián)渌惴ǖ暮诵?,即AI的目標是找到一個無論對方怎么做,自己都不會產(chǎn)生損失的策略。而殘局解算器和自我學習則是對納什均衡的一個輔助,殘局解算器會在殘局時實時評估場上的情況,以判斷第一模塊中算出的納什均衡是否符合實時情況。自我強化學習會反思AI在比賽中的表現(xiàn),找出曾被人類利用過的“套路”,清除這些可循的痕跡。

2017年8月12日,埃隆·馬斯克旗下旨在研究通用人工智能解決方案的公司OpenAI,所訓練的一款人工智能算法在著名的電子競技游戲Dota2國際邀請賽The International中,參與了1V1比賽環(huán)節(jié),并壓倒性的擊敗了頂級電子競技選手Dendi。

馬斯克的OpenAI,究竟是如何在dota2中擊敗頂級人類選手的?OpenAI自身還沒公布算法細節(jié),只是初步表示他們并未使用任何模仿學習(Imitation Learning)或者類似于alphago的樹搜索技術(shù),純粹使用了self-play即俗稱 “左右互搏”的增強學習(reinforcement learning)方式訓練。

采取這種訓練方式的主要原因可能在于dota 2中有100多個英雄角色可選擇,每個英雄的屬性和技能均不一樣,這就意味著要對每個英雄做優(yōu)化訓練,再者,獲取dota 2 1v1的大量對局數(shù)據(jù)也是十分困難的。

目前,OpenAI通過增強學習,已經(jīng)訓練出了一個單挑solo能力非常強悍的算法,不過,這個算法離Dota 2的5V5對抗中取勝還有非常大的距離。

值得注意的是,人工智能在游戲中不斷地超越人類的水平、創(chuàng)造歷史新高,但是這些成果又能在多大程度上說明人工智能已經(jīng)可以像人類一樣去思考游戲中的事物,是我們依舊要不斷去探討的一個話題。


關注【AI商業(yè)報道】,回復【2017白皮書】,可獲得干貨《2017人工智能產(chǎn)業(yè)發(fā)展白皮書》!

深度強化學習領游戲界AI新潮,AI超越人類水平大勢已來!

深度強化學習領游戲界AI新潮,AI超越人類水平大勢已來!

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2018-02-08
深度強化學習領游戲界AI新潮,AI超越人類水平大勢已來!
不管是玩出歷史高分的微軟AI,還是繼圍棋之后,人工智能又攻克的德州撲克,亦或是利用“左右互博”來增強學習的OpenAI。

長按掃碼 閱讀全文