原標(biāo)題:當(dāng)AI開始“踢臟球”,你還敢信任強(qiáng)化學(xué)習(xí)嗎?
足球機(jī)器人排成一排向球門發(fā)起射擊,但守門員卻并沒有準(zhǔn)備防守,而是一屁股倒在地上開始胡亂擺動起了雙腿。然后,前鋒跳了一段十分令人困惑的舞蹈,跺跺腳,揮揮手,啪嘰一下摔倒在地上。然后比分守門員1-0。
這場景像不像比國足對戰(zhàn)梵蒂岡(并沒有),一切都是那么迷幻且不真實。如果說它是阿爾法狗和OpenAI Five等的“同門師兄弟”,都是用強(qiáng)化學(xué)習(xí)訓(xùn)練出來的,大家想不想開除它的“AI籍”?
顯然,雖然曾經(jīng)大敗柯潔李世石,團(tuán)滅Dota2國家隊,并被視作AGI(通用人工智能)必由之路,但強(qiáng)化學(xué)習(xí)算法,頭頂上始終有著一口摘不掉的“安全性”大黑鍋。
而這也是阻止它真正落地應(yīng)用的根本原因。畢竟沒有人希望自動駕駛汽車開著開著就把乘客帶到溝里去,或者是機(jī)器人端一杯開水直接澆到主人頭上。
到底為什么,強(qiáng)化學(xué)習(xí)總會犯一些匪夷所思的錯誤,有研究人員認(rèn)為,這是因為系統(tǒng)中的智能體可能會被一些怪異的行為所欺騙。
具體是怎么回事呢?研究原本打算今年4月在埃塞俄比亞舉行的學(xué)習(xí)代表國際會議上發(fā)表,目前看來能順利召開的概率幾乎不存在,所以我們就提前云解讀,來聊聊看似穩(wěn)健的強(qiáng)化學(xué)習(xí)策略背后,究竟掩蓋著哪些嚴(yán)重的缺陷。
不省心的AI:告別臟數(shù)據(jù),但學(xué)會了臟行為
強(qiáng)化學(xué)習(xí)取代監(jiān)督學(xué)習(xí),成為深度學(xué)習(xí)領(lǐng)域的“未來之星”,不是沒有原因的。
因為監(jiān)督學(xué)習(xí)是通過標(biāo)記好的數(shù)據(jù)集來進(jìn)行訓(xùn)練的,這意味著,如果對輸入的數(shù)據(jù)進(jìn)行一些微小的調(diào)整,比如改變圖像的像素或是更換語音包的內(nèi)容,都可能讓AI陷入混亂,有可能將蟲子識別為賽車,讓紳士學(xué)會臟話……
與之相比,強(qiáng)化學(xué)習(xí)就智能多了。因為它是模仿人類的學(xué)習(xí)模式,能體(Agent)以“試錯”的方式進(jìn)行學(xué)習(xí),通過與環(huán)境進(jìn)行交互,以獲得最大的獎賞為追求來做出行為反應(yīng)。
就像不斷告訴小孩子好好寫作業(yè)就有好吃的食物獎勵,不好好寫就關(guān)小黑屋,久而久之為了“利益最大化”,自然就會將寫作業(yè)與好吃的聯(lián)系起來,去產(chǎn)生正確的動作。
通過這種“行動-評價”機(jī)制來獲得知識,改進(jìn)行動以適應(yīng)環(huán)境,是不是聰明了許多。這也是為什么,人類開始讓強(qiáng)化學(xué)習(xí)玩游戲、開汽車、搞藥物實驗……
但研究證明,強(qiáng)化學(xué)習(xí)的效果并沒有預(yù)期的那么穩(wěn)定,很容易受到篡改輸入的影響。
加州大學(xué)伯克利分校的亞當(dāng)·格里夫(Adam Gleave)發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)不會因為添加少量噪音(不適當(dāng)?shù)妮斎耄┒黄茐?,因為智能體(agent)可能根本看不到那些東西,而如果改變它周圍事物的行為方式,智能體卻會被那些奇奇怪怪的行為所欺騙,進(jìn)而產(chǎn)生一些奇怪的“對抗”策略。
比如開篇提到的足球比賽,當(dāng)“守門員”開始不按規(guī)矩出牌,“前鋒”也就跟著瞎舞動起來了。這種錯誤的“對抗性策略”,導(dǎo)致的安全威脅可能會更大。
首先,比起投喂給監(jiān)督學(xué)習(xí)“臟數(shù)據(jù)”,強(qiáng)化學(xué)習(xí)“被誤導(dǎo)”,受影響的將是AI系統(tǒng)的整體行為。如果說數(shù)據(jù)集被污染會讓AI準(zhǔn)確率下降,那么強(qiáng)化學(xué)習(xí)錯誤訓(xùn)練出的AI有可能將攝像頭輸入的信息錯誤分類,然后指導(dǎo)傳感器做出預(yù)期之外的反應(yīng)。比如行人突然揮舞手臂,無人駕駛汽車就失控了……這,聽起來還是挺“災(zāi)難片”的。
其次,超強(qiáng)的學(xué)習(xí)能力也會導(dǎo)致研究人員根本來不及發(fā)現(xiàn)和糾正AI的錯誤行為。
研究小組利用強(qiáng)化學(xué)習(xí)訓(xùn)練棒形機(jī)器人玩兩人游戲,包括踢一個球進(jìn)一個球,橫越一條線,和相撲等等。然后,又訓(xùn)練了第二組機(jī)器人來尋找打敗第一組機(jī)器人的方法。結(jié)果發(fā)現(xiàn),第二組機(jī)器人很快發(fā)現(xiàn)了對抗策略,并用不到3%的訓(xùn)練時間后就學(xué)會了可靠地?fù)魯∈芎φ?,要知道受害者可是在第一時間就學(xué)會了玩游戲啊。這就像新來的高智商版的胖虎同學(xué),拼命欺負(fù)大雄,老師還沒辦法及時發(fā)現(xiàn),妥妥的校園霸凌?。?/p>
顯然,第二組機(jī)器人的努力并不是為了成為更好的球員,而是通過發(fā)現(xiàn)對手策略來制敵并贏得勝利。在足球比賽和跑步比賽中,對手有時甚至都站不起來。這會使受害者坍塌成一堆扭曲的東西,或者在周圍扭動,那場面,真是猛男都不忍看……
我估計吧,叛逆的智能體同學(xué)可能是這么想的:
聽說打贏有獎,但我啥都不會,先溜達(dá)溜達(dá),隨便打打看吧;
哎,這個人怎么這么厲害呢,讓我好好瞅瞅;
前輩策略也學(xué)習(xí)的差不多了,這樣下去我倆豈不是難分伯仲?
哎呀嘿,發(fā)現(xiàn)了對手漏洞,將干掉對手納入策略選項;
是繼續(xù)PK讓自己變得更強(qiáng)?還是直接干掉對手?哪個得到獎勵最簡單劃算!
顯然是選項二啊,揍它!
不要覺得我是在瞎說啊,在學(xué)術(shù)界這樣的奇聞軼事可是數(shù)不勝數(shù)。
比如訓(xùn)練機(jī)器人室內(nèi)導(dǎo)航,因為智能體一旦走出“房間”,系統(tǒng)就會判定機(jī)器人“自殺”,不會對它進(jìn)行負(fù)面獎勵(扣分),所以最后機(jī)器人幾乎每次都選擇“老子不活了”,因為它覺得完成任務(wù)太難了,0分反而是一個最佳結(jié)果。
還有的研究者試圖讓機(jī)器人用錘子釘釘子,只要將釘子推入洞孔就有獎勵。然后機(jī)器人就完全遺忘了錘子,不停地用四肢敲打釘子,試圖將它弄進(jìn)去。
雖然強(qiáng)化學(xué)習(xí)這一bug為我們貢獻(xiàn)了無數(shù)段子,但這絕不是研究人員所期待的。
盡管人類玩家會“踢臟球”,但AI想要在游戲中搞骯臟手段那是萬萬不能的。
不過好消息是,這種情況相對容易受到控制。當(dāng)研究者格里夫?qū)κ芎φ咧悄荏w進(jìn)行微調(diào),讓它思考對手的怪異行為后,對手就被迫變回熟悉的技巧,比如扳倒對手。
好吧,雖然手段仍舊不怎么光明磊落,但至少沒有繼續(xù)利用強(qiáng)化學(xué)習(xí)系統(tǒng)的漏洞了。
獎勵黑客:強(qiáng)化學(xué)習(xí)的甜蜜負(fù)擔(dān)
由此,我們也可以來重新審視一下強(qiáng)化學(xué)習(xí)在今天,想要真正成為“AI之光”,必須跨越的技術(shù)門檻了。
關(guān)于強(qiáng)化學(xué)習(xí)被廣為詬病的訓(xùn)練成本高、采樣效率低、訓(xùn)練結(jié)果不穩(wěn)定等問題,背后最直接的歸因,其實是 “獎勵黑客”(reward hacking),就是智能體為了獲得更多的獎勵,而采取一些研究者預(yù)期之外,甚至是有害的行為。
其中既有獎勵設(shè)置不當(dāng)?shù)脑颍热缭S多復(fù)雜任務(wù)的獎勵信號,要比電子游戲難設(shè)置的多。
就拿研究人員最喜歡讓智能體挑戰(zhàn)的雅達(dá)利游戲來說,其中大量游戲的目標(biāo)都被設(shè)計成最大限度地提高得分。而智能體經(jīng)過訓(xùn)練,比如在DeepMind的一篇論文中,其設(shè)計的RainbowDQN就在57場雅達(dá)利游戲中,以40場超越人類玩家的絕對勝利成為王者。
但如果任務(wù)不是簡單的得分,而是需要先讓智能體理解人類的意圖,再通過學(xué)習(xí)去完成任務(wù)呢?
OpenAI曾經(jīng)設(shè)計了一個賽艇游戲,任務(wù)原本的目標(biāo)是完成比賽。研究者設(shè)置了兩種獎勵,一是完成比賽,二是收集環(huán)境中的得分。結(jié)果就是智能體找到了一片區(qū)域,在那里不停地轉(zhuǎn)圈“刷分”,最后自然沒能完成比賽,但它的得分反而更高。
顯然,一旦獎勵函數(shù)無法被精準(zhǔn)直接地設(shè)置,困難就來了。因為智能體可無法跟研究者“心有靈犀”,一開始就清楚地知道人類想要什么。它是通過試錯,不斷嘗試不同的策略來學(xué)習(xí)的。這也就意味著,它很大概率會在訓(xùn)練過程中“鉆空子”,發(fā)掘出不正確但是有用的策略。
這也直接導(dǎo)致了兩個結(jié)果:
一是盡管理論上,只要為強(qiáng)化學(xué)習(xí)系統(tǒng)設(shè)計的足夠優(yōu)秀,在現(xiàn)實環(huán)境中實現(xiàn)就不成問題,但實際上許多任務(wù)的獎勵是很難設(shè)計的,研究者往往不得不采用約束型策略優(yōu)化(CPO)來防止系統(tǒng)過擬合,提高其安全性,以防止預(yù)期外的結(jié)果。
可是這樣一來,又限制了強(qiáng)化學(xué)習(xí)能力的泛化,導(dǎo)致那些在實驗室中表現(xiàn)很好的強(qiáng)化學(xué)習(xí)系統(tǒng),只在特定任務(wù)中起作用,像是一些游戲、比賽中??梢坏┳屗鼞?yīng)對日常應(yīng)用,比如無人機(jī)控制(UAV Control)和家用機(jī)器人等,就不靈了。
二是增大了隨機(jī)性。
前面提到,強(qiáng)化學(xué)習(xí)的探索方式就是“試錯”。所以,它會試圖從一大堆數(shù)據(jù)中找到最佳策略。但往往,它會在一大堆無用的數(shù)據(jù)中進(jìn)行一些無意義的嘗試。這些失敗的案例,又為智能體增加了新的維度,讓它不得不投入更多的實驗和計算,以減少那些無用數(shù)據(jù)帶來的影響。
本來強(qiáng)化學(xué)習(xí)的采樣效率就不高,再加上隨機(jī)性的干擾,得到最終成果的難度,自然指數(shù)性增加了。這也進(jìn)一步讓強(qiáng)化學(xué)習(xí)變得“紙上談兵”,走進(jìn)現(xiàn)實應(yīng)用難上加難。
等待援軍:改變或許在圍墻外
顯然,強(qiáng)化學(xué)習(xí)存在的很多問題,是其技術(shù)根源本身就與生俱來的。
這也是有許多專業(yè)人士并不贊同將強(qiáng)化學(xué)習(xí)過度神化的原因。比如軟件工程師Alex Irpan就曾在Facebook發(fā)文,聲稱:每當(dāng)有人問我強(qiáng)化學(xué)習(xí)能否解決他們的問題時,我會說“不能”。而且我發(fā)現(xiàn)這個回答起碼在70%的場合下是正確的。
改變的力量從哪里來?顯然深度學(xué)習(xí)本身已經(jīng)很難提供變革的養(yǎng)分。目前的研究方向主要有三個:
一是增加智能體的先驗經(jīng)驗。
人知道不能“踢臟球”,是因為我們已經(jīng)擁有了大量的先驗知識,默認(rèn)了一些規(guī)則。但強(qiáng)化學(xué)習(xí)機(jī)器智能通過狀態(tài)向量、動作向量、獎勵這些參數(shù),來嘗試著建構(gòu)局部最優(yōu)解。
能不能讓機(jī)器也擁有先驗經(jīng)驗?zāi)??目前就有研究開始嘗試,用遷移學(xué)習(xí)幫助強(qiáng)化學(xué)習(xí)來提高效率,將以前積累的任務(wù)知識直接遷移到新任務(wù)上,通過“經(jīng)驗共享”來讓智能體解決所有問題。
二是為獎勵機(jī)制建模。
既然認(rèn)為地設(shè)置獎勵難以滿足任務(wù)要求,那么讓系統(tǒng)自己學(xué)習(xí)設(shè)置獎勵,是不是能行得通呢?
DeepMind研究人員就鼓勵智能體通過兩個系統(tǒng)生成的假設(shè)行為來探索一系列狀態(tài),用交互式學(xué)習(xí)來最大化其獎勵。只有智能體成功學(xué)會了預(yù)測獎勵和不安全狀態(tài)后,它們才會被部署執(zhí)行任務(wù)。
與無模型的強(qiáng)化學(xué)習(xí)算法相比,使用動力學(xué)模型來預(yù)測動作的后果,從實驗看來能夠有效幫助智能體避免那些可能有害的行為。
三是尋求腦神經(jīng)科學(xué)的突破。
深度神經(jīng)網(wǎng)絡(luò)、增強(qiáng)學(xué)習(xí)等機(jī)器算法的出現(xiàn),本質(zhì)上都是模擬人腦處理信息的方式。盡管增強(qiáng)學(xué)習(xí)被看做是最接近AGI(通用人工智能)的技術(shù)之一,但必須承認(rèn),其距離人類智能還有非常極其十分遙遠(yuǎn)的距離。
以當(dāng)下人類對大腦的了解,在認(rèn)知過程、解決問題的過程以及思考的能力等機(jī)制還都不清楚。所以想要模擬人類的思考能力,強(qiáng)化學(xué)習(xí)乃至整個機(jī)器學(xué)習(xí)的升級,恐怕還依托于腦神經(jīng)科學(xué)的發(fā)展。
過去的數(shù)年間,強(qiáng)化學(xué)習(xí)幾乎是以一己之力撐起了人工智能浪潮的繁榮景象。谷歌正在將其打包成服務(wù)推廣到千家萬戶,中國的科技巨頭們已經(jīng)紛紛將其應(yīng)用在搜索、營銷、推薦算法等各種應(yīng)用中,自動駕駛的前景更是與強(qiáng)化學(xué)習(xí)綁定在一起。
可以說,數(shù)億人已經(jīng)借由互聯(lián)網(wǎng)產(chǎn)品,開始觸摸強(qiáng)化學(xué)習(xí)。
毫無疑問,它將繼續(xù)為人類世界發(fā)光發(fā)熱,帶著缺陷造就智能社會的輝煌。究竟如何才能用好這柄利刃,既是膽魄,亦需智慧。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。