零號機突破——AlphaGo圍棋大師


視頻截圖

# 這費是法 投遞(不是譯稿)

人類在數(shù)千年年間累積了圍棋的知識,總結(jié)提煉為定式,棋諺和書籍。在數(shù)天的時間內(nèi),阿法狗零號機能夠從一張白紙開始重新發(fā)現(xiàn)大部分的圍棋知識,以及對這一古老游戲有著深刻洞見的新策略。

DeepMind在自然上新文章——《無人類知識的情況下精通圍棋》的最后一段,如同科幻小說的開篇。某種意義上說我們低估了人工智能特定領(lǐng)域的發(fā)展速度,畢竟在五年前,絕大部分人的預期是我們?nèi)砸淮说呐Σ拍軌騽?chuàng)造出能夠接近人類水平的電腦圍棋選手。


對戰(zhàn)過程

零號機和樊號機(和樊輝下棋的第一代)以及李號機(和李世石下棋的第二代)的差別在于,后者是通過監(jiān)督學習完成的。亦即通過人類已有的圍棋棋譜訓練策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)(兩個深度卷積的神經(jīng)網(wǎng)絡(luò)),最后通過蒙特卡洛樹搜索結(jié)合確定落子。這樣的訓練效果受制于已知的專家數(shù)據(jù)(之前的圍棋棋譜)。零號機的網(wǎng)絡(luò)訓練是通過強化學習完成的。亦即通過隨機的初始狀態(tài)進行大量的情景模擬,并驅(qū)動網(wǎng)絡(luò)朝著最優(yōu)化的方向發(fā)展。原有的兩個分離的價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)被整合成一個殘差網(wǎng)絡(luò)(這個應(yīng)該是上年計算機視覺領(lǐng)域的一個大突破,微軟研究院的成果),最后通過蒙特卡洛樹搜索來完成對局的模擬并進行學習。

拋開細節(jié)不談,我們看一張論文中的圖片,對于一個經(jīng)典的角部定式,零號機的學習和變化過程。真正讓人覺得激動的是中間的時間軸。50多個小時的時候我們看到了常見的定式,70個小時的時候便已經(jīng)是人類未知的領(lǐng)域了。

相關(guān)的強化學習微軟研究院也有一篇《強化學習的混合獎勵架構(gòu)》的文章,提出的深度強化學習的做法,利用多個代理的混合決策玩吃豆人游戲。拿到了超過人類最強玩家的分數(shù)。

這一次零號機的突破可以說非常直觀的展示一個AI在特定領(lǐng)域越過“奇點”后的狀態(tài)。人類數(shù)千年累積的知識,在AI面前只需要數(shù)小時。

# 這費是法:作為一個蛋友,容我虛妄的做出一些建議。我們可能需要更加瘋狂的運用我們的想象力,為即將到來的巨變做好更多的準備。畢竟塞內(nèi)卡說過“折磨我們的往往是想象,而不是真實”。

# dodww 發(fā)在無聊圖的對戰(zhàn)圖(GIF):

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2017-10-20
零號機突破——AlphaGo圍棋大師
這費是法 投遞:人類在數(shù)千年年間累積了圍棋的知識,總結(jié)提煉為定式,棋諺和書籍。在數(shù)天的時間內(nèi),阿法狗零號機能夠從一張白紙開始重新發(fā)現(xiàn)大部分的圍棋知識,以及對這一古老游戲有著深刻洞見的新策略。

長按掃碼 閱讀全文