AI又贏了!Facebook人工智能擊敗全球頂尖德?lián)溥x手

Darren Elias是一名撲克玩家。今年32歲的他是唯一一個贏得過四次世界撲克巡回賽冠軍的人,在錦標賽上獲得的獎金累計超過700萬美元。盡管他已經(jīng)相當(dāng)專業(yè)了,但今年春天他還是從一個人工智能機器人身上學(xué)到了一些新東西。

Elias正在幫助測試由Facebook人工智能實驗室和卡耐基梅隆大學(xué)研究人員共同開發(fā)的一款新軟件。他和另一名職業(yè)玩家Chris Ferguson各打出了5000手,對戰(zhàn)五個名為Pluribus的機器人副本。

最后,機器人以很大的優(yōu)勢領(lǐng)先。在這個過程中,Elias注意到一些事情:雖然機器通常被認為是缺乏靈感的,但這個機器人比一般的撲克專家更有膽量。Elias說:“它會賭上兩三倍的賭注,而人類不會這么做。我對它們下的巨額賭注很感興趣,以后將在自己的撲克比賽中嘗試?!?/p>

Pluribus的勝利具有里程碑式的意義,不僅僅是因為一個新機器人向?qū)I(yè)的玩家教授了新策略。這款軟件是第一款在多人游戲《德州撲克》中擊敗頂級專業(yè)人士的游戲。周四發(fā)表在《科學(xué)》雜志上的一篇論文描述了Pluribus是如何戰(zhàn)勝Elias和Ferguson的;在一個機器人副本與5名人類專業(yè)人士進行的10000手撲克游戲中,Pluribus也輕松獲勝。

“如果你讓這個機器人與5名精英專業(yè)人士在一起比賽,機器人可以打敗他們,而且能從他們身上賺錢?!盕acebook人工智能實驗室研究員、Pluribus聯(lián)合創(chuàng)始人Noam Brown表示,“就撲克而言,這真的是黃金標準。”

布朗大學(xué)教授Michael Littman曾從事電腦撲克研究,雖然沒有參與該項目,但他對此表示贊同。撲克一直被視為人工智能研究人員的一大挑戰(zhàn),其特點與許多現(xiàn)實世界的情況相似。與國際象棋不同的是,撲克玩家必須在不知道對手持有什么牌的情況下選擇行動,這在政治、商業(yè)和戰(zhàn)爭中都是如此。之前大多數(shù)工作都是關(guān)于雙人游戲的,現(xiàn)在在多玩家游戲中取得了進展。Littman說,現(xiàn)在撲克人工智能的最后一個重要里程碑已經(jīng)建立。他說:“這是許多研究人員數(shù)十年努力的結(jié)果?!?/p>

Brown與卡內(nèi)基梅隆大學(xué)教授Tuomas Sandholm共同創(chuàng)建了Pluribus。Brown之前是桑德霍爾姆實驗室的一名研究生,兩人于2017年建造了一個名為Libratus的機器人,成為第一個在雙人模式下?lián)魯I(yè)人士的軟件。

Brown在加入Facebook后啟動了Pluribus項目,但他說這家社交媒體巨頭并沒有考慮這項技術(shù)的具體應(yīng)用。他說:“項目的目標是對不完全信息和大規(guī)模多代理系統(tǒng)進行基礎(chǔ)研究,”,這句話也恰當(dāng)?shù)孛枋隽薋acebook的主要服務(wù)。長期來看,在Pluribus上測試的想法可以幫助自動駕駛汽車預(yù)測其他司機的行為,或者改進欺詐檢測算法。

Sandholm說,他已經(jīng)證明了這款軟件的商業(yè)價值,以及國家安全價值。他創(chuàng)辦了兩家公司,將他實驗室的人工智能戰(zhàn)略技術(shù)商業(yè)化。

其中一家名為Strategic Machine的公司致力于改進電子游戲中的機器人,并幫助公司設(shè)定最優(yōu)價格,以考慮競爭對手的反應(yīng)。另一個是Strategy Robot。2018年他與五角大樓簽署了一份為期兩年的合同,價值高達1000萬美元;Sandholm和五角大樓都拒絕對這份合同透露更多細節(jié)。但Sandholm表示,Strategy Robot的賣點之一是利用撲克和他的其他人工智能項目中已得到驗證的理念,使模擬的、甚至是真實戰(zhàn)場的戰(zhàn)略對敵人的行動更加有效。盡管Pluribus的一些核心技術(shù)早于該項目,但與Facebook合作的項目中沒有任何一項將授權(quán)給Sandholm的公司。

Pluribus與Libratus的相似之處在于,它通過與自己的版本進行數(shù)萬億手的對弈來積累技能。在每一次嘗試之后,系統(tǒng)都會回顧發(fā)生了什么,以及哪些可能會有更好的表現(xiàn)。所有改進都會添加到它的核心策略中。

在很大程度上,這款新機器人能夠玩比它之前的版本復(fù)雜得多的游戲,因為它更擅長微調(diào)核心策略,通過預(yù)測游戲中某個特定點的可能結(jié)果,即搜索功能。Brown和Sandholm早期的機器人試圖繪制出游戲最后可能出現(xiàn)的所有問題。但六人游戲的可能性幾乎無窮無盡,要探索需要太多的計算能力。

相反,Brown和Sandholm開發(fā)了一個搜索功能,它一次只向前移動幾步。為了避免令人不快的意外,還將考慮如果對手改變策略,不同行動的價值將如何變化。因為在像撲克這樣的游戲中,有些信息是隱藏的,所以這種搜索功能以前還沒有很好地應(yīng)用。

Brown表示,這種新方法的優(yōu)勢還在于對計算能力的要求不高,使得運行Pluribus的成本相對較低。這款機器人需要在一個64位處理器內(nèi)核的強大服務(wù)器上與自己進行8天的對戰(zhàn),才能掌握這款游戲,而為DOTA 2等復(fù)雜電子游戲開發(fā)的人工智能機器人則需要在數(shù)十萬個處理器上進行數(shù)周的培訓(xùn)?!盎?50美元在云計算服務(wù)上就可以開發(fā)類似的東西,因此將其應(yīng)用到其他領(lǐng)域是切實可行的,”Brown說。

這對搭檔在編寫代碼時沒有考慮的一點是要在撲克中贏錢。“我們不會發(fā)布代碼,部分原因是這將對在線撲克社區(qū)產(chǎn)生重大影響,”Brown說?!拔覀冋噲D讓人工智能社區(qū)的人們能夠接觸到這一點,而不是那些想制作撲克人工智能的人?!?/p>

盡管如此,他承認這些技術(shù)無論如何都有可能傳播開來。一年后,還會有人開發(fā)出類似于Pluribus的機器人嗎?“我認為這完全有可能,”Brown說。

Elias對此有所期待。他說,自從Libratus出現(xiàn)以來,由于機器人變得更加復(fù)雜,人們不再那么熱衷于玩高風(fēng)險的在線游戲。他還表示:“如果你在玩一個高風(fēng)險的在線游戲,你很可能是在和一個機器人或由機器人幫助的人類對戰(zhàn)?!?/p>

Elias說,撲克專業(yè)人士和愛好者不應(yīng)該被最新的人工智能技術(shù)所嚇倒,它可以提高游戲的水平。他很樂意幫助測試Pluribus,因為他欣賞人工智能的科學(xué),以及像押注更大價值這樣的新見解的潛力。

盡管如此,他還是承認自己有點難過。終極撲克機器人Pluribus的問世,標志著撲克游戲的一個歷史性轉(zhuǎn)折點。他說:“從16歲開始,我就開始打撲克,并把我的一生都奉獻給了它,現(xiàn)在被機器打敗是一件很丟臉的事。自人工智能第一次獲勝之后,人類就很難再贏過它了?!?/p>

AD:還在為資金緊張煩惱嗎?獵云銀企貸,全面覆蓋京津冀地區(qū)主流銀行及信托、擔(dān)保公司,幫您細致梳理企業(yè)融資問題,統(tǒng)籌規(guī)劃融資思路,合理撬動更大杠桿。填寫只需兩分鐘,剩下交給我們! (來源:獵云網(wǎng))

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-07-12
AI又贏了!Facebook人工智能擊敗全球頂尖德?lián)溥x手
“自人工智能第一次獲勝之后,人類就很難再贏過它了。

長按掃碼 閱讀全文