2015-2017年間,AlphaGo系列事件宣告在圍棋領域AI算法戰(zhàn)勝人類世界冠軍,這主要得益于其背后的核心技術-深度強化學習技術。之后研究者開始轉(zhuǎn)向更加復雜的對戰(zhàn)博弈場景,典型例子如Deepmind星際下AlphaStar,和OpenAI dota 下的OpenAi Five,并且均表現(xiàn)出接近甚至超越人類專業(yè)玩家的水準,引起了廣泛反響和關注。研究者通過在能充分反應真實世界中抽象問題的博弈游戲場景下展開研究,極大地推動了深度強化學習技術的發(fā)展,及縮短強化學習技術在現(xiàn)實物理業(yè)務場景中落地應用的進程。
3月13日下午14:00-17:20舉行的華為開發(fā)者大會2020(Cloud)第三期華為DevRun Live開發(fā)者沙龍中,華為諾亞方舟實驗室決策推理實驗室主任郝建業(yè)將分享《強化學習的落地實踐》,圍繞強化學習的發(fā)展歷史,介紹強化學習背景,強化學習的最新研究進展,以及強化學習在業(yè)界的落地實踐,并介紹該領域面臨的挑戰(zhàn)性問題和未來發(fā)展方向。
強化學習是區(qū)別于監(jiān)督學習和無監(jiān)督之間的第三類學習范式,可以理解為一種半監(jiān)督學習。區(qū)別于深度學習,強化學習解決時序最優(yōu)決策問題,目標是最大化連續(xù)多次決策的累計收益。而且強化學習沒有正確的標簽,只有從環(huán)境中獲得反饋信號,而且通常是高度稀疏和延遲的,這也給強化學習帶來了額外的挑戰(zhàn)。
近5年,深度強化學習技術得到了飛速的發(fā)展,但仍然存在很多挑戰(zhàn)問題亟待解決:
最關鍵的一個挑戰(zhàn)在于現(xiàn)有強化學習技術樣本利用率低,并且嚴重依賴大量計算資源。比如AlphaStar訓練需要花費9600個TPU(花費約26 million),AlphaStar訓練所玩游戲時間相當于人類玩家玩6萬年。我們希望強化學習算法可以像人一樣,具備能夠復用舊任務的學習經(jīng)驗,來加速新任務下的學習效率的能力。這里我們提出一種大規(guī)模動態(tài)多智能體課程學習框架,并提出三種課程遷移的范式,來支持強化學習在大規(guī)模多智體場景下策略學習的高效性。
第二個挑戰(zhàn)問題在于如何獲取準確的監(jiān)督信號。強化學習需要根據(jù)從環(huán)境中獲取的反饋,定義合適的監(jiān)督信號,這對強化學習算法的性能起到至關重要的作用。我們希望能有自動或半監(jiān)督的方式來學習或修正監(jiān)督信號。這里我們從基于鄰域認知一致性的多智能體強化學習架構(gòu)和多智能體動作語義兩個角度,來實現(xiàn)監(jiān)督信號的自動提取和修正,從而提升智能體間協(xié)作策略的學習。同時我們圍繞網(wǎng)絡大腦業(yè)務,從WiFi協(xié)同優(yōu)化、4G場景下基站協(xié)同優(yōu)化兩個業(yè)務實例,介紹了多智能體強化學習在網(wǎng)絡大腦業(yè)務下的應用價值,不但系統(tǒng)整體性能得到顯著提升,優(yōu)化速度也相比傳統(tǒng)啟發(fā)式算法也提速10倍以上。
第三個挑戰(zhàn)在于如何通過學習自動生成多樣化的行為。以自動駕駛為例,在復雜交互博弈場景下,缺乏對社會車輛、行人等多樣化行為精準建模,是制約自動駕駛向L4\L5演進的關鍵技術瓶頸。這里我們提出演化強化學習架構(gòu),可支持多樣化行為的自動生成。同時主要從復雜路口場景多車交互、窄道會車、交通流換道三個自動駕駛業(yè)務場景,介紹了我們的強化學習解決方案?;谥С侄鄻踊袨樯傻姆抡嫫飨律傻膹娀瘜W習控制策略,在實際駕駛場景下驗證表現(xiàn)出很好的自適應決策和博弈交互能力,能夠更自然、更高效的完成交互博弈場景通行任務。
除此之外,強化學習的落地場景還包括華為商城的推薦場景、華為供應鏈優(yōu)化場景、數(shù)據(jù)中心優(yōu)化等。隨著強化學習技術的日益成熟,更多的業(yè)務場景下強化學習可以發(fā)揮其巨大的作用,等待著我們共同去挖掘和探索。
————————————————————————
想要了解更多強化學習落地實踐和前沿進展?更多精彩干貨請收看3月13日的DevRun Live直播!
DevRun Live是華為開發(fā)者大會2020(Cloud)旗下的線上開發(fā)者沙龍活動,以直播的形式分享前沿科技和應用實踐,開發(fā)者可以了解技術趨勢、學習最新實踐應用、獲取最新開發(fā)工具。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )