真人做爰高潮全过程免费视看,手机网易网,拍拍拍成人免费高清视频

深度強(qiáng)化學(xué)習(xí)（deep reinforcement learning）在游戲界的成功已經(jīng)在 AI 界產(chǎn)生了轟動(dòng) ，不管是玩出歷史高分的微軟AI，還是繼圍棋之后，人工智能又攻克的德州撲克，亦或是利用“左右互博”來增強(qiáng)學(xué)習(xí)的OpenAI。人工智能在不同的游戲中的最新得分已經(jīng)超越了人類的水平。

那么，這種深度強(qiáng)化學(xué)習(xí)是如何進(jìn)行的呢？下面我們則以Maluuba、冷撲大師、OpenAI為例來進(jìn)行闡釋。

《吃豆小姐（Ms.PAC-MAN）》是一款誕生自80年代的休閑街機(jī)游戲，由于該游戲的幽靈行動(dòng)模式存在不確定性，具有很大的挑戰(zhàn)性和難度。，然而，Maluuba開發(fā)的AI在《吃豆小姐》Atari2600版本中卻玩出了歷史最高分：999990。

Maluuba是微軟于2017年1月收購的加拿大深度學(xué)習(xí)創(chuàng)業(yè)公司，其專注于強(qiáng)化學(xué)習(xí)技術(shù)，這種強(qiáng)化學(xué)習(xí)可以幫助系統(tǒng)自主做出決策。

對于微軟玩出歷史高分，它的解決方案是創(chuàng)造一個(gè)混合式獎(jiǎng)賞架構(gòu)（Hybrid Reward Architecture），也就是一種把游戲里的大問題分解成小問題，再把小問題分發(fā)給AI代理來解決的分治策略。

Maluuba利用一個(gè)頂級的AI吃豆小姐和150多個(gè)普通AI吃豆小姐，讓她們協(xié)作處理。每個(gè)普通AI代理都是相互獨(dú)立的，它們分別精通《吃豆小姐》的一部分技巧：有的負(fù)責(zé)吃水果，有的負(fù)責(zé)吃豆子，有的負(fù)責(zé)躲避幽靈。

深度強(qiáng)化學(xué)習(xí)領(lǐng)游戲界AI新潮，AI超越人類水平大勢已來！

頂級的AI吃豆小姐的工作，就是綜合考慮每個(gè)普通AI吃豆小姐的意見，然后以此來做出往哪邊走的決策。決策的考慮因素有兩個(gè)：一個(gè)是建議往某方向走的普通AI吃豆小姐的數(shù)量，另一個(gè)是普通AI吃豆小姐建議的強(qiáng)度。

同樣，根據(jù)德州撲克規(guī)則設(shè)計(jì)的冷撲大師，也是能夠進(jìn)行相關(guān)自我學(xué)習(xí)的一款程序。

冷撲大師相對于“阿爾法圍棋”的不同在于，開發(fā)者并沒有教給它人類打牌的方法，只是向它描述了德?lián)涞囊?guī)則，由它“左右互搏”，摸索出德?lián)鋺?yīng)該怎么玩。因而，冷撲大師的打法完全脫離了人類經(jīng)驗(yàn)。

除此之外，納什均衡是德?lián)渌惴ǖ暮诵模碅I的目標(biāo)是找到一個(gè)無論對方怎么做，自己都不會(huì)產(chǎn)生損失的策略。而殘局解算器和自我學(xué)習(xí)則是對納什均衡的一個(gè)輔助，殘局解算器會(huì)在殘局時(shí)實(shí)時(shí)評估場上的情況，以判斷第一模塊中算出的納什均衡是否符合實(shí)時(shí)情況。自我強(qiáng)化學(xué)習(xí)會(huì)反思AI在比賽中的表現(xiàn)，找出曾被人類利用過的“套路”，清除這些可循的痕跡。

2017年8月12日，埃隆·馬斯克旗下旨在研究通用人工智能解決方案的公司OpenAI，所訓(xùn)練的一款人工智能算法在著名的電子競技游戲Dota2國際邀請賽The International中，參與了1V1比賽環(huán)節(jié)，并壓倒性的擊敗了頂級電子競技選手Dendi。

馬斯克的OpenAI，究竟是如何在dota2中擊敗頂級人類選手的？OpenAI自身還沒公布算法細(xì)節(jié)，只是初步表示他們并未使用任何模仿學(xué)習(xí)（Imitation Learning）或者類似于alphago的樹搜索技術(shù)，純粹使用了self-play即俗稱 “左右互搏”的增強(qiáng)學(xué)習(xí)（reinforcement learning）方式訓(xùn)練。

采取這種訓(xùn)練方式的主要原因可能在于dota 2中有100多個(gè)英雄角色可選擇，每個(gè)英雄的屬性和技能均不一樣，這就意味著要對每個(gè)英雄做優(yōu)化訓(xùn)練，再者，獲取dota 2 1v1的大量對局?jǐn)?shù)據(jù)也是十分困難的。

目前，OpenAI通過增強(qiáng)學(xué)習(xí)，已經(jīng)訓(xùn)練出了一個(gè)單挑solo能力非常強(qiáng)悍的算法，不過，這個(gè)算法離Dota 2的5V5對抗中取勝還有非常大的距離。

值得注意的是，人工智能在游戲中不斷地超越人類的水平、創(chuàng)造歷史新高，但是這些成果又能在多大程度上說明人工智能已經(jīng)可以像人類一樣去思考游戲中的事物，是我們依舊要不斷去探討的一個(gè)話題。

關(guān)注【AI商業(yè)報(bào)道】，回復(fù)【2017白皮書】，可獲得干貨《2017人工智能產(chǎn)業(yè)發(fā)展白皮書》！

深度強(qiáng)化學(xué)習(xí)領(lǐng)游戲界AI新潮，AI超越人類水平大勢已來！

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

深度強(qiáng)化學(xué)習(xí)領(lǐng)游戲界AI新潮，AI超越人類水平大勢已來！

下一篇

深度強(qiáng)化學(xué)習(xí)領(lǐng)游戲界AI新潮，AI超越人類水平大勢已來！