通過自我學(xué)習(xí),新版AlphaGo如同屠殺般完勝舊版

通過自我學(xué)習(xí),新版AlphaGo如同屠殺般完勝老版

credit 123RF

在AlphaGo橫掃人類頂級棋手幾個月后,人工智能棋手如今再次打破瓶頸,將以往的困難險阻化作大道坦途:最新版本的AlphaGo完全靠自學(xué)來實現(xiàn)前所未有的圍棋策略。該項目的新一輪智能棋手被稱為AlphaGo Zero,在不需要人為的輸入任何有關(guān)圍棋招法的情況下,僅僅三天的時間里,重新發(fā)明了人類棋手在數(shù)千年的下棋歷史中所掌握的定式,以及從未被人類發(fā)現(xiàn)的更先進(jìn)的圍棋理念。通過將人工智能從對人類知識的依賴中解放出來,實現(xiàn)了突破智能機器自主思考限制的可能性。

人類使用兩種方法教授早期版本的AlphaGo下棋。第一種被稱為監(jiān)督學(xué)習(xí),研究人員為程序提供了10萬盤業(yè)余頂級高手的對局,并教會了它模仿它所看到的內(nèi)容。第二個,被稱為強化學(xué)習(xí),他們讓程序自我發(fā)揮并從結(jié)果中學(xué)習(xí)改進(jìn)。

AlphaGo Zero跳過了第一步。程序開始是一個白板,只知道圍棋的基本規(guī)則,然后開始一個人和自己的對弈。起初,它將棋子隨機放到棋盤上。隨著時間的推移,它開始學(xué)會判斷局勢和利弊取舍。它還發(fā)現(xiàn)了圍棋策略里的的許多規(guī)范要素,并發(fā)現(xiàn)了前所未有的新定式。密西根大學(xué)計算機科學(xué)家Satinder Singh說:“模仿人類的最好方式就是模仿人類,”他沒有參與AlphaGo的開發(fā), “在許多復(fù)雜的情況下,你也將永遠(yuǎn)受限于人類?!?/p>

經(jīng)過三天的學(xué)習(xí)和490萬次對局訓(xùn)練,研究人員令A(yù)lphaGo Zero與早期的AlphaGo對弈。 AlphaGo Zero以100:0懸殊比分贏下比賽。

對于專家來說,老版本的潰敗十分驚人。純粹強化學(xué)習(xí)似乎與圍棋的計算復(fù)雜性格格不入,圍棋比國際象棋要復(fù)雜得多:可以預(yù)期AlphaGo Zero將永遠(yuǎn)追求最正確的下一步,如此它應(yīng)該花費大量時間用于計算。但實際情況相反,它迅速成長,如有神助。

高效的學(xué)習(xí)過程歸功于反饋循環(huán)。像其前代一樣,AlphaGo Zero通過稱為“樹搜索”的過程來確定要下一步走法。該程序從當(dāng)前局面開始,并考慮后續(xù)可能的動作。并加入考慮其對手可以在未來棋路中施加的影響因素,最后找到可以應(yīng)對的措施,……如此這般,創(chuàng)建一個分支樹形圖,模擬出不同組合的局面演化,從而導(dǎo)致不同的應(yīng)對策略。

AlphaGo Zero無法遍歷樹的每一個分支,因為這將需要過多的計算能力。相反,它通過決定哪些路徑似乎最有希望獲勝來選擇性地修剪分支。它可以根據(jù)早期的學(xué)習(xí)內(nèi)容,計算出修剪哪些路徑,以獲得有助于引導(dǎo)向勝利的局勢。

AlphaGo的早期版本也遵循這樣的思路設(shè)計的。AlphaGo Zero的新能力是它會記住選擇了某個搜索樹的分支會導(dǎo)致怎樣的游戲結(jié)果,而不是僅僅運行樹搜索和照此運行結(jié)果移動。使用這些信息更新其對局面的評估,和選擇不同落子位置的獲勝概率。因此,下一次運行樹搜索時,可以使用修正過的估計值,反復(fù)用以前的樹搜索結(jié)果進(jìn)行訓(xùn)練,一次次生成更好的估計值。到最后,它的每一步落子都會增加終盤時獲勝的可能性。

既然AlphaGo Zero的能力是從極其大量的可能性中找到實現(xiàn)最佳可能性的路徑,在發(fā)表在《自然》上的論文里,AlphaGo Zero的研發(fā)者表示,他們的系統(tǒng)可以在材料物理學(xué)中發(fā)揮作用——為了產(chǎn)生具有不同性質(zhì)的材料,你需要弄清各種原子組合會產(chǎn)生什么結(jié)果;以及研究折疊蛋白質(zhì)分子的性質(zhì)——需要了解蛋白質(zhì)精確的三維構(gòu)架結(jié)構(gòu)并確定其功能。

至于圍棋,AlphaGo Zero可能引發(fā)了一場地震。迄今為止,還沒有哪家游戲公司開發(fā)出世界級的圍棋軟件。 但是AlphaGo Zero可能會改變這一局面。美國圍棋協(xié)會執(zhí)行副總裁Andrew Jackson認(rèn)為,指導(dǎo)人類下棋的圍棋app不久就會出現(xiàn)在市場上。這將改變?nèi)祟惼迨钟?xùn)練的方式。它也會使作弊變得容易。

對于AlphaGo來說,未來是開放的。 圍棋是一項非常復(fù)雜的智力活動,誰也說不清這套自我學(xué)習(xí)的程序未來可以達(dá)到何種高度; 現(xiàn)在能確定的是它掌握了一套學(xué)習(xí)方法來應(yīng)對它爆炸性增長的復(fù)雜度,這也本來就是AlphaGo的存在意義。

本文譯自quantamagazine,由譯者 majer 基于創(chuàng)作共用協(xié)議(BY-NC)發(fā)布。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2017-10-20
通過自我學(xué)習(xí),新版AlphaGo如同屠殺般完勝舊版
在AlphaGo橫掃人類頂級棋手幾個月后,人工智能棋手如今再次打破瓶頸,將以往的困難險阻化作大道坦途:最新版本的AlphaGo完全靠自學(xué)來實現(xiàn)前所未有的圍棋策略。

長按掃碼 閱讀全文