亚洲欧美日产综合在线看,久久99精品久久只有精品,国产综合无码一区二区色蜜蜜

AlphaZero：棋類游戲的“終結(jié)者”

人閱讀

2018-12-11 13:56:00

來(lái)源：煎蛋
作者：majer
相關(guān)關(guān)鍵詞
- 人工智能
- AI

谷歌旗下AI開(kāi)發(fā)部門DeepMind的作品登上了最新一期的《Science》雜志的封面。AlphaZero在圍棋和日本將棋領(lǐng)域里超越了人類之后，又從無(wú)到有地重新挖掘出了國(guó)際象棋的正確下法。研究人員公布了通用算法和測(cè)試數(shù)據(jù)。

2017年末，我們推出了AlphaZero，這是一個(gè)獨(dú)立的系統(tǒng)，從頭開(kāi)始自行學(xué)習(xí)國(guó)際象棋、將棋(日本版的國(guó)際象棋)和圍棋，最終在每個(gè)領(lǐng)域內(nèi)擊敗世界冠軍程序。我們對(duì)初步結(jié)果感到非常興奮，并很高興看到國(guó)際象棋界的回應(yīng)，他們?cè)贏lphaZero的棋譜中看到了一種突破性的、高度動(dòng)態(tài)的和“非傳統(tǒng)的”行棋風(fēng)格，與之前的任何國(guó)際象棋游戲引擎不同。
今天，我們非常開(kāi)心能夠向公眾發(fā)布AlphaZero的完整評(píng)估。報(bào)告發(fā)表在Science(開(kāi)放訪問(wèn)版本)雜志上。該期刊確認(rèn)了這些初步結(jié)果。它描述了AlphaZero如何快速學(xué)習(xí)每個(gè)游戲，成為歷史上最強(qiáng)大的玩家，從隨機(jī)游戲開(kāi)始自我訓(xùn)練，沒(méi)有內(nèi)置任何知識(shí)，唯一需要預(yù)先輸入的就是游戲的基本規(guī)則。

國(guó)際象棋世界冠軍Garry Kasparov卡斯帕羅夫也在《科學(xué)》上撰文表示，“我無(wú)法掩飾自己的滿足感，它充滿了非常有活力的風(fēng)格，就像我一樣！”。他指出，這種從頭開(kāi)始每個(gè)游戲的能力，不受人類游戲規(guī)范的約束，產(chǎn)生了獨(dú)特的、非正統(tǒng)的、但具有創(chuàng)造性和動(dòng)態(tài)的游戲風(fēng)格。AlphaZero的棋風(fēng)可能更接近本源?！八砸环N深刻而有用的方式超越了人類?！?/p>

國(guó)際象棋大師Matthew Sadle和女性國(guó)際大師Natasha Regan已經(jīng)分析了AlphaZero數(shù)以千計(jì)的棋譜。Matthew指出，它的風(fēng)格不同于任何傳統(tǒng)的國(guó)際象棋引擎?！斑@就像在翻閱過(guò)去一些偉大棋手的秘籍?！?/p>

傳統(tǒng)的國(guó)際象棋引擎——包括世界計(jì)算機(jī)國(guó)際象棋冠軍Stockfish和IBM突破性的Deep Blue——依賴于數(shù)千個(gè)由強(qiáng)大的人類玩家手工編制的規(guī)則和啟發(fā)式算法，試圖解讀游戲中的每一種可能性。 Shogi程序也是針對(duì)于特定游戲的，使用與國(guó)際象棋程序類似的搜索引擎和算法。

AlphaZero采用了一種完全不同的方法，用深度神經(jīng)網(wǎng)絡(luò)和通用算法取代了這些手工制作的規(guī)則，這些算法對(duì)基本游戲規(guī)則之外的東西一無(wú)所知。

論文中舉例的決策樹(shù)

國(guó)際象棋：AlphaZero訓(xùn)練4小時(shí)就超越了世界冠軍程序Stockfish；
日本將棋：AlphaZero訓(xùn)練2小時(shí)就超越了世界冠軍程序Elmo；
圍棋：AlphaZero訓(xùn)練30小時(shí)就超越了傳奇性的AlphaGo。

為了掌握每一種游戲，未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)通過(guò)被稱為強(qiáng)化學(xué)習(xí)的試錯(cuò)過(guò)程自我對(duì)弈數(shù)百萬(wàn)盤。起初，它完全隨機(jī)落子，但隨著時(shí)間的推移，系統(tǒng)從每一盤的勝負(fù)得失中吸取經(jīng)驗(yàn)，調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)，選擇出更加正確的一步。網(wǎng)絡(luò)需要的訓(xùn)練量取決于游戲的風(fēng)格和復(fù)雜程度，國(guó)際象棋大約需要9個(gè)小時(shí)，將棋大約需要12個(gè)小時(shí)，圍棋則用了13天。

AlphaZero能夠掌握三種不同的復(fù)雜游戲——或許應(yīng)該說(shuō)是，任何開(kāi)放信息的游戲——是走向最終實(shí)際應(yīng)用的重要一步。它表明單個(gè)算法可以僅僅從最基本的規(guī)則中，發(fā)展出一整套超越人類千年積累的知識(shí)體系。而且，盡管還處于早期階段，AlphaZero的創(chuàng)意見(jiàn)解加上我們?cè)贏lphaFold等其他項(xiàng)目中看到的令人鼓舞的結(jié)果，讓我們對(duì)完成創(chuàng)建通用學(xué)習(xí)系統(tǒng)的使命充滿信心。我們可以用它來(lái)解決最重要和最復(fù)雜的科學(xué)問(wèn)題。

本文譯自deepmind，由譯者 majer 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）