AlphaGo人肉臂黃士杰:我的使命完成 阿爾法狗項目結(jié)束

12月13日訊,凌晨,AlphaGo曾經(jīng)的“代言人/人肉臂”、谷歌DeepMind科學家黃士杰(Aja Huang)博士今天凌晨在Facebook上發(fā)帖宣布,他本人將正式從AlphaGo團隊離開,轉(zhuǎn)到DeepMind其他項目的研究中去。

AlphaGo人肉臂黃世杰:我的使命完成 阿爾法狗項目結(jié)束

據(jù)了解,早在今年5月戰(zhàn)勝世界圍棋第一人柯潔后,DeepMind就曾宣布,從今往后AlphaGo項目將不會再繼續(xù)開發(fā),AlphaGo也不會再參加競技比賽了。與此同時,DeepMind也初步披露了AlphaGo團隊的下一步計劃——研發(fā)出應(yīng)用領(lǐng)域更廣泛的算法,包括找到新的疾病治療方法、顯著降低能源消耗、發(fā)明革命性的新材料等。

11月27日,黃士杰在Facebook轉(zhuǎn)發(fā)了一則關(guān)于DeepMind將與一些頂尖的研究機構(gòu)共同投入診斷乳腺癌的AI研究消息。DeepMind將利用最新的機器學習技術(shù),希望能夠快速、準確地檢測出癌癥的跡象,幫助醫(yī)生盡早發(fā)現(xiàn)癌癥,以便更早的有效治療。

AlphaGo人肉臂黃世杰:我的使命完成 阿爾法狗項目結(jié)束

許峰雄綽號“CB”。

1980年,許峰雄(Feng-Hsiung Hsu)從臺灣大學本科畢業(yè),1985年考入卡內(nèi)基梅隆大學。1988年,CB制造出國際象棋程序Deep Thought(深思),后來經(jīng)過學弟李開復(fù)介紹,1989年加盟IBM繼續(xù)展開研究。

1997年

這一年5月11日,卡斯帕羅夫與Deep Blue(深藍)的第二次國際象棋人機大戰(zhàn)落幕,最終人類棋王以2?-3?的總比分,不敵IBM的超級電腦。

這是載入人類歷史的一戰(zhàn)。

Deep Blue,就是CB許峰雄在IBM開發(fā)出的新一代國際象棋電腦程序,棋力數(shù)百倍于早先的Deep Thought。

我是黃士杰,AlphaGo人肉臂

△?卡斯帕羅夫與深藍的國際象棋人機大戰(zhàn)

同年7月,臺北成功高中的黃士杰參加聯(lián)考。當年國文試題第15題,B選項是:現(xiàn)代電腦的優(yōu)點多得「罄竹難書」令人不得不嘆服 。

黃士杰最終考入臺灣交通大學,四年后獲得計算機與信息科學學士。2001年,黃士杰考入臺灣師范大學攻讀研究生學位。

2003年,黃士杰碩士畢業(yè)。畢業(yè)論文:《電腦圍棋打劫的策略》。在學校當了一年的研究助理后,2004年,黃士杰再次考入師大資訊工程研究所博士班。

2007年

這年2月28日,臺灣師范大學的學生組織了一次圍棋同好聚會。隨后這個定期的聚會,發(fā)展為師大圍棋社,黃士杰是其中年紀最大的學長,并擔任首屆社長。3月,黃士杰擬定了首次對戰(zhàn)分組表,比賽地點在男生宿舍地下餐廳。

我是黃士杰,AlphaGo人肉臂

△?左一是師大就讀期間的黃士杰

同年5月,黃士杰帶領(lǐng)師大圍棋社參加臺灣大專杯圍棋賽。曾經(jīng)有臺灣媒體報道稱黃士杰曾經(jīng)帶領(lǐng)師大圍棋社在這項比賽中奪冠。不過量子位仔細查找后發(fā)現(xiàn),師范大學僅在2009年獲得過第五名,其他年份均榜上無名。

同一賽事15個級別的個人戰(zhàn)中,前八名也沒有看到黃士杰的名字。2004-2011年間,黃士杰一直博士在讀,而他的棋力水平是業(yè)余六段。

雖然沒能在人類的圍棋賽中獲得矚目成績,但黃士杰在另一條路上繼續(xù)進發(fā)。他的一個主要戰(zhàn)場是國際計算機游戲協(xié)會(ICGA)組織的電腦棋類程序競賽。顧名思義,來自全世界的電腦高手,在象棋、圍棋等領(lǐng)域展開斗法。

在這個比賽中,黃士杰的名字寫作:Shih-Chieh Huang。

2006年,黃士杰獨自開發(fā)的第一款圍棋程序AjaGo,獲得圍棋大賽第11名;他參與的中國象棋程序Elephant(大象),獲得大賽的銅牌。此后幾年,黃士杰開發(fā)的圍棋程序參賽成績一直沒有亮眼的成績。

2010年

這一年9月,哈薩比斯(Demis Hassabis)等三人在英國倫敦合伙成立了一家新公司,名字叫做DeepMind。

我是黃士杰,AlphaGo人肉臂

△?2010年黃士杰開發(fā)的Erica擊敗Zen獲得冠軍

同一個9月,黃士杰在Rémi Coulom的指導下,開發(fā)出圍棋程序Erica,并在圍棋比賽中擊敗日本的Zen,獲得當年的冠軍。這在當時可算了不起的成就。Rémi Coulom是另一個圍棋程序Crazy Stone的作者。

因為Erica的奪冠,讓黃士杰在參加博士畢業(yè)答辯前,就已經(jīng)獲邀前往加拿大阿爾伯塔大學攻讀博士后,并擔任電腦圍棋程序的研究員。他的博士論文題目是:《應(yīng)用于電腦圍棋之蒙地卡羅樹搜尋法的新啟發(fā)式演算法》。

2011年6月,黃士杰博士答辯通過,7月1日,黃士杰飛赴加拿大。

此時,他后來會遇到的席爾瓦(David Silver),早于一年前從阿爾伯塔大學離開,前往倫敦大學學院。在倫敦,席爾瓦會遇到哈薩比斯。

到阿爾伯塔大學后,黃士杰繼續(xù)研究蒙特卡洛樹搜索。他還淺度參與了Fuego的開發(fā),這個團隊里還有Markus Enzenberger、Martin Müller等人,這個圍棋參加了當年的ICGA大賽,不過可謂一無所獲。

當年11月,奪冠的還是Zen。

時間再過一年,2012年11月,黃士杰也來到倫敦,加入DeepMind擔任高級研究員。至少從這個時候開始,黃士杰開始用新的英文名:

Aja Huang。

2014年初

加入DeepMind的兩年里,黃士杰似乎沒有重大的研究成果。從論文發(fā)布量上看,也是如此,2014年前幾乎搜不到他發(fā)的論文。

然而事情很快有了轉(zhuǎn)機。

2014年1月26日,Google宣布5億美元收購DeepMind,拿下這家日后會大放異彩的初創(chuàng)公司。

我是黃士杰,AlphaGo人肉臂

△?左為哈薩比斯,右為席爾瓦

有一天,席爾瓦走到黃士杰面前說:“Aja,我們準備啟動一個圍棋項目。最開始只有你和我”。2014年2月,AlphaGo項目正式啟動,團隊三個人:哈薩比斯、席爾瓦、黃士杰。哈薩比斯是整個公司的老板,席爾瓦是黃士杰的經(jīng)理。所以,這個團隊真正干活的只有黃士杰一個人。

AlphaGo項目,就是想搞出一個強大的圍棋程序。而且從一開始,這個團隊就決定不會嘗試所有的方法,他們只有一個方向:沿著深度學習和強化學習的方向探索。也是從一開始,他們就知道這是一個非常困難的挑戰(zhàn)。

哈薩比斯說,希望通過AlphaGo的研究,讓機器獲得直覺和創(chuàng)造力。

而更現(xiàn)實的困難是,與國際象棋相比,圍棋的計算空間巨大,而且電腦無法理解一盤棋到底誰獲得了勝利。

但他們就這樣出發(fā)了。

2014年6月-2015年6月

這年夏天,AlphaGo的第一個重要武器出現(xiàn)了。在卷積神經(jīng)網(wǎng)絡(luò)的幫助下,AlphaGo學習了很多人類高手的棋譜,能在3毫秒內(nèi)做出比肩人類的下棋直覺。后來黃士杰給這個武器命名:“策略網(wǎng)絡(luò)”,并且持續(xù)進行訓練優(yōu)化。

這個時候,AlphaGo的訓練還是在GPU上完成的。

時間再過一年。2015年6月,AlphaGo擁有了更強大、分布式的搜索技術(shù)支持。閱讀棋局的能力大幅提升,可以檢索多種局面變化,并且找到最佳的應(yīng)對方式。這個時候的AlphaGo,可以算出后續(xù)40-60步棋。

(量子位注:擊敗柯潔的最新版AlphaGo,也只算到50步棋就停止了。)

當時在相同的硬件條件下,AlphaGo對另一個圍棋程序Crazy Stone取得了70%的勝率,換句話說棋力領(lǐng)先了一個子。這個成就讓整個DeepMind都很受鼓舞,哈薩比斯這時候?qū)S士杰說:

“Aja,咱們要組一個團隊,你不用再單打獨斗了”。

從這時候開始,逐漸有更多的深度學習工程專家加入AlphaGo團隊。黃士杰還為新加入的同事辦了一個訓練班,普及基本的圍棋規(guī)則。

我是黃士杰,AlphaGo人肉臂

△?黃士杰

2015年8月

與此同時,另一個重要的節(jié)點已在不遠。兩個月后,AlphaGo將掌握稱霸圍棋世界最關(guān)鍵的能力:形勢判斷。

“事實上,形勢判斷是圍棋過程中最難、最令人頭疼的環(huán)節(jié),要進行準確的判斷,必須具備精確測算雙方目數(shù)的能力,同時還要兼?zhèn)渚C觀全局的大勢觀、挖掘潛在價值的分析能力和推理能力……要下出真正具有水平的圍棋,形勢判斷十分必要?!?/p>

上面這段話,來自李昌鎬。這位綽號“石佛”的韓國棋手,從1992年奪得第一個世界冠軍開始,到2007年為止共獲得18次個人冠軍、13次團體冠軍,開創(chuàng)了“李昌鎬時代”。

AlphaGo如何獲得形勢判斷的能力?

解決這個問題的人是席爾瓦。有天他對黃士杰說:“Aja,我有一個主意,我覺得可能會管用”。席爾瓦的主意后來被稱為“價值網(wǎng)絡(luò)”。當時黃士杰對這個主意非常懷疑,他回復(fù)說:“能管用么?咱們試試吧?!?/p>

價值網(wǎng)絡(luò)也是一個卷積神經(jīng)網(wǎng)絡(luò),輸入是落子位置,輸出0-1之間的數(shù)字,0代表對手勝利,1代表自己勝利,如果差不多就輸出0.5。(量子位注:Google最近公布的數(shù)字是-1~1,略有不同)。

總之,AlphaGo通過自我對弈,訓練出價值網(wǎng)絡(luò),進而可以判斷每一手棋背后代表的勝率。這就形成了形勢判斷的能力。

價值網(wǎng)絡(luò)的出現(xiàn),讓AlphaGo棋力突飛猛進。與Crazy Stone的對弈中,AlphaGo勝率達到95%,也就是達到讓兩子的水平。

“當時AlphaGo已經(jīng)可以碾壓我了,我已經(jīng)感覺到它的強大”黃士杰回憶說。

2015年10月

也是8月,樊麾在參加歐洲圍棋大會,回到法國的家中。他收到一封電子郵件,發(fā)件人是AlphaGo團隊的Maddy。郵件內(nèi)容非常簡單:我們是一家倫敦的公司,希望邀請你來我們公司。也沒有更多信息。

樊麾一度認為是垃圾郵件。但鬼使神差,他回了郵件說:“可以呀”。然后他們用Skype進行了在線溝通,席爾瓦當時也參加了,他們給樊麾講述正在做有趣的項目,也講述了自己是一家Google收購的公司。

隨后樊麾上了DeepMind的官網(wǎng),確定有這么一家公司,以及公司主頁上還提到了圍棋的字樣。于是他下定決心過去看看。

雙方第一次見面是9月底,當他確定自己要跟一個圍棋程序?qū)臅r,整個人一下就放松了,心說:“對付一個軟件,還不分分鐘的事兒”。樊麾當時甚至跟AlphaGo團隊表示,他跟AlphaGo的下棋時間,只需要一個小時就夠了。

當時黃士杰反復(fù)跟樊麾說AlphaGo很厲害。但樊麾根本聽不進去。

我是黃士杰,AlphaGo人肉臂

△?最后一局樊麾為自己的失誤懊惱不已

2015年10月5日-9日。樊麾再赴倫敦,跟AlphaGo大戰(zhàn)五回合,當時代替AlphaGo落子的就是黃士杰本人。結(jié)果可能大家都知道,樊麾全輸了。“當時我的整個圍棋世界都崩潰了?!狈庹f。

和樊麾的比賽結(jié)果,DeepMind一直到2016年初才對外發(fā)布。那時樊麾已經(jīng)受聘成為AlphaGo的教練。公布賽果那天,樊麾關(guān)閉了手機。外出買菜的樊麾妻子給家里座機打電話:“千萬不要上網(wǎng)看評論,說的可難聽了。”

聶衛(wèi)平當時評價說:“樊麾水平太低,給我們丟臉了。”

2016年

1月27日,《自然》雜志以封面論文的形式,介紹了DeepMind團隊開發(fā)的AlphaGo,以及它擊敗了歐洲冠軍樊麾的消息。

席爾瓦和黃士杰,并列作為這篇論文的第一作者。

在擊敗樊麾之后,AlphaGo的價值網(wǎng)絡(luò)、策略網(wǎng)絡(luò)和搜索能力都在繼續(xù)增強,使用的硬件也從GPU換成TPU。TPU讓AlphaGo的計算能力獲得極大提升。

3月9日-15日,AlphaGo和李世乭大戰(zhàn)五場。最終AlphaGo以4:1取得勝利。當時坐在李世乭對面,代替AlphaGo落子的還是黃士杰。

我是黃士杰,AlphaGo人肉臂

△?左一為黃士杰,中間坐著的是樊麾

黃士杰第一次出現(xiàn)在全球觀眾的視線里。

黃士杰像機器人一樣,出現(xiàn)在李世乭和全球觀眾的視線里。

李世乭后來回憶說:“黃士杰是此次人機對弈中最辛苦受累的人,他擔心我會受到影響,對弈期間,他一直面無表情,甚至連一次洗手間都沒去過”。

一次對弈,最長可能耗時近6個小時。在與李世乭的無論對弈中,黃士杰只喝過一口水。黃士杰的這種表現(xiàn),甚至走進了對手的夢里。

有次酒店的早餐送來后,李世乭的妻子喚醒他起來吃早飯。沒想到李世乭竟然回答說:“嗯,我要和Aja一起吃?!?/p>

與李世乭的比賽之后,黃士杰有過短暫的休假,幾乎沒有采訪報道留下。一位名叫Fred Zhou的中國記者告訴量子位,在韓國比賽期間,黃士杰并不被允許接受采訪,據(jù)說是因為他習慣于表達的毫無保留。

再后來DeepMind放出了棋譜,AlphaGo繼續(xù)新的成長。這年11月18日,黃士杰總結(jié)說:“最近我的一個心得是,人的進步最多是用跑的,電腦的進步卻是用飛的”。

在這一年即將結(jié)束的時候,AlphaGo又回來了。2016年12月30日,Science News發(fā)布了一條推特,基本跟內(nèi)文無關(guān),推文如下:

AlphaGo: “Now, I am the master.”

2017年

事情從2016年12月29日晚開始,一個用戶名為“Master”,標注自己是韓國九段的棋手,連續(xù)在弈城和野狐圍棋平臺大殺四方,連續(xù)“斬殺”各路圍棋高手,包括:柯潔、樸廷桓、井山裕太、陳耀燁、申真谞、常昊、古力、周睿羊……

Master挑起的這場戰(zhàn)斗,以60連勝頂級高手而告終。其中柯潔連輸三場,期間因為急性腸胃炎而人生第一次住院,這一經(jīng)歷也被編成調(diào)侃的小段子。

取得第59場連勝之后,Master在聊天室公布了自己的身份:“我是AlphaGo的黃博士”。果然是AlphaGo,果然又是黃士杰。

我是黃士杰,AlphaGo人肉臂

△?黃士杰自報身份

“非常期望今年能有機會與圍棋組織以及專家共同探索圍棋,在相互啟發(fā)的氣氛中共同領(lǐng)會圍棋的奧妙。我們希望盡快發(fā)布其他公告”,哈薩比斯在稍后的正式聲明中說,這再次暗示了AlphaGo與柯潔的大戰(zhàn)即將進行。

4月10日下午三點,在中國棋院的發(fā)布會上,正式宣布柯潔與AlphaGo的人機大戰(zhàn)5月底開打,柯潔當時表態(tài)會不惜一切手段與AlphaGo一決勝負:“我不會說輸了無所謂,我抱有必勝的心態(tài)和必死的信念”。

5月23日,雨從早下到晚,圍棋人機大戰(zhàn)如期舉行??聺崒γ?,坐著的仍是黃士杰,仍然作為AlphaGo的人肉臂代為落子。

柯潔旁邊的桌子上,除了一個水杯,還有兩盤水果和零食。而黃士杰這邊的桌子上,只有一個白色的瓷質(zhì)水杯。三場比賽皆是如此。

我是黃士杰,AlphaGo人肉臂

△?雙方對弈的最后一局

每場比賽結(jié)束后,黃士杰都會很快的從對局室,返回現(xiàn)場的觀賽大廳。但他只是靜靜的站在一個角落,低頭看著自己的手機,有時朝臺上看看,等待柯潔等人站在聚光燈下,而身材不算高大的他時常會被身邊的人擋住。

第二場對戰(zhàn)結(jié)束后,柯潔在臺上談起黃士杰:

“黃博士作為AlphaGo的核心人物,非常了不起。我覺得,他坐在我面前就像個機器人一樣(笑)。如果是古力坐在我對面,他可能看到AlphaGo的下法可能會露出驚訝的表情。”

“黃博士來擺棋,可能更讓我有和AI對戰(zhàn)的感覺。我也特別佩服黃博士,大家看直播也能看到我很愛動,總喜歡活動身體,而黃博士總是一動不動,不上廁所、不喝水、也不吃東西……所以跟黃博士下棋時,我覺得黃博士就是AlphaGo?!?/p>

當時哈薩比斯也說:“黃博士非常不可思議,有時候我們也覺得他是個機器人。我想他之前一定對著鏡子練過”。

2017年5月27日

我是黃士杰,AlphaGo人肉臂

“最后一局即將開始,我要親手下出AlphaGo的每一步棋”,人機大戰(zhàn)最后一天的上午9:35,黃士杰在朋友圈發(fā)了這樣一句話。

量子位當時就有一種異樣的感覺。一是黃士杰從來沒有在賽前發(fā)聲,二是這話里明顯有著隱忍而又強烈的情緒。

最后一戰(zhàn),柯潔一樣情緒強烈。

那天下午1點06,對局中的柯潔摘下眼鏡,神情沮喪。兩分鐘后,柯潔起身離席。代替AlphaGo落下第127子的黃士杰博士,趕緊拿起杯子喝了一口水。隨后黃士杰又恢復(fù)平靜的表情,一直低頭看著棋盤。

時間過了很久,離席的柯潔還沒回來,黃士杰也開始抬頭張望。十多分鐘后,柯潔終于回來。后來我們知道,柯潔躲在現(xiàn)場的宣傳板后,哭了。

下午1點22分,柯潔又抹了抹眼角。此時雙方行至第129手。

經(jīng)過209手的交鋒,柯潔再負AlphaGo。

“其實今天下棋的時候我有點失態(tài)了,因為它(AlphaGo)下得實在是太完美了……我只能猜得出它一半的棋,這就是我和它之間巨大的差距”,賽后柯潔在臺上哽咽講出最后一戰(zhàn)的感受。

稍后不就,同在臺上的哈薩比斯表示,AlphaGo從此“退役”。這時量子位才多少理解了黃士杰早上那條朋友圈的意義。

上述種種發(fā)生的時候,黃士杰就坐在臺下第一排,正中間的位置,抬著頭靜靜地聽著??床坏剿惺裁幢砬?,也看不到有什么動作。也仍然沒有上臺發(fā)言的機會。有媒體靠近,黃士杰仍是那句:他們不讓我接受采訪。

5月28日凌晨0:34,黃士杰在朋友圈發(fā)出這樣一句話:“天下沒有不散的筵席,我轉(zhuǎn)往其他專案的時刻已到”。

一切就這樣收官了。

這是載入人類歷史的又一戰(zhàn)。

我是黃士杰,AlphaGo人肉臂

最后

“這幾年,特別是來到英國工作之后,有時候我覺得人生就像做夢一樣。在團隊與同事們的身上,我也看見了人因夢想而偉大的真實意義”,年初有同事問黃士杰以前研究電腦圍棋時有沒有想到今天,他寫下這樣一段話。

從開始到現(xiàn)在,黃士杰看著AlphaGo的出生、成長、名滿天下。黃士杰一直以AlphaGo人肉臂的樣子出現(xiàn),像一個機器人一樣。

我是黃士杰,AlphaGo人肉臂

但黃士杰,遠遠不止是AlphaGo的人肉臂。

他也絕不是一個冷漠無趣的機器人。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2017-12-13
AlphaGo人肉臂黃士杰:我的使命完成 阿爾法狗項目結(jié)束
12月13日訊,凌晨,AlphaGo曾經(jīng)的“代言人 人肉臂”、谷歌DeepMind科學家黃士杰(Aja Huang)博士今天凌晨在Facebook上發(fā)帖宣布,他本人將正式從AlphaGo團隊離開,轉(zhuǎn)到DeepMind其他項目的研究中去。據(jù)了解,早在今年5月戰(zhàn)勝世界圍棋第一人柯潔后,DeepMind就曾宣布,從今往后AlphaGo

長按掃碼 閱讀全文