GAITC 2022智媒專題論壇丨王亦洲:主動跟蹤算法研究

11月27日,在2022全球人工智能技術大會上,由CAAI智能傳媒專委會、中國傳媒大學媒體融合與傳播國家重點實驗室、新浪AI媒體研究院聯(lián)合支持的“融合與發(fā)展”新智者·智能媒體專題論壇在線上舉行。CAAI智能傳媒專委會副主任,北京大學博雅特聘教授王亦洲以《主動跟蹤算法研究》為主題進行了分享。

圖注:王亦洲教授-“融合與發(fā)展”新智者·智能媒體專題論壇

以下為王亦洲演講實錄,內(nèi)容經(jīng)編輯略有刪減:

王亦洲:謝謝葉老師的介紹,各位專家下午好,我是來自北京大學的王亦洲,報告內(nèi)容是主動跟蹤算法研究。解了一下聽眾范圍比較廣,可能更多介紹思路性的東西。今天我將主要介紹如何構(gòu)建多智能體博弈機制,以實現(xiàn)魯棒的主動目標跟蹤。具體的,我將先簡要介紹博弈論、認知機制、主動目標跟蹤任務和虛擬環(huán)境等相關信息,然后將重點介紹四種多智能體博弈機制用于主動目標跟蹤。

首先,博弈現(xiàn)象非常普遍,小到我們的日常生活,大到經(jīng)濟體或國家的經(jīng)濟與政治活動。從博弈者之間的關系角度,博弈可以分為幾種,如對抗性博弈,比如常見的零和博弈,還有基于共同利益的合作博弈,但更多的是混合動機博弈。在這類博弈中,智能體短期和長期的interest可能不一致,個體和群體的利益可能也不一致。傳統(tǒng)的博弈策略集合是有限的,相對來說也是靜態(tài)的,這時候博弈相對簡單,但是如果是混合動機博弈,博弈會受到智能體心理狀態(tài)的影響,甚至可能采取不理智策略,這時候博弈分析變得更加復雜。所以研究混合動機博弈是多智能體系統(tǒng)現(xiàn)在的前沿研究方向,會涌現(xiàn)出很多有趣的交互智能現(xiàn)象,如合作、信任、欺騙、公平等。

2005年科學期刊列舉了125個我們面臨挑戰(zhàn)的科學問題,其中就有博弈論問題。用AI方法研究合作現(xiàn)象的演化是AI for science很有趣的切入點。我舉兩個例子:比如在囚徒困境中,由于囚徒無法信任對方,因此傾向于互相揭發(fā),而不是保持沉默。最終導致納什均衡僅落在非合作點上的博弈模型,而不是群體意義上的帕累托最優(yōu)。囚徒困境所反映出的深刻問題是,人類的個人理性有時能導致集體的非理性。

在獵鹿博弈中,每個人策略都是根據(jù)對手策略來相應地調(diào)整,但是如何形成commitment,這是個有趣的問題。獵鹿博弈是關于信任的博弈。按照經(jīng)濟學,合作獵鹿的納什均衡比分頭抓打兔子的納什均衡具有帕累托優(yōu)勢。獵鹿博弈和囚徒困境的區(qū)別在于,囚徒無法溝通信息,獵人可以溝通信息,博弈結(jié)果就會有所不同。區(qū)別于囚徒困境,獵鹿博弈有兩種純策略納什均衡:全合作或全背叛,而在囚徒困境中,盡管全合作是帕累托最優(yōu),但只有全背叛才能達到納什均衡。

上面兩個博弈例子還是比較簡單的,日常生活中我們的情況往往復雜很多。近幾年我們針對復雜博弈提出以下研究思路:首先要搭建一個比較復雜并具有一般性的環(huán)境,研究智能體在其中的博弈行為。進而將復雜的認知模型引入決策過程,研究交互智能現(xiàn)象的涌現(xiàn)機制。

下面我會簡單介紹一個認知模型-Theory of mind。人的交往過程中不是只從自己角度考慮問題,還要了解別人怎么想的,別人的信念是什么,他處于什么情緒狀態(tài),對方想想要的是什么。有了這個機制,人們的交流就會更加高效。我們在自主跟蹤問題中就引入了這個認知機制。

近些年來,計算機視覺已經(jīng)從被動的感知慢慢過度到主動視覺,而且正在向下一個階段自主學習發(fā)展。2005年G.Bekey給Autonomy下了一個通俗易懂的定義,系統(tǒng)在完成現(xiàn)實環(huán)境當中完成任務時會在相當長時間內(nèi)不需要外界控制,這個系統(tǒng)我們可以說它具有自主性。

自主系統(tǒng)的標志性能力有:可以進行弱監(jiān)督或無監(jiān)督學習,可以不斷地獲得、總結(jié)、積累知識,可以探索環(huán)境和決策,,能夠獨立地完成這件事情。四是可以根據(jù)大任務或者無任務情況下自己去給自己布置任務,或者在大任務當中set子任務,根據(jù)環(huán)境變化調(diào)整自己的行為。所以我們一般說應該至少具備這四種基本能力,才有可能讓系統(tǒng)變得autonomous。在可控環(huán)境下要實現(xiàn)一個autonomous machine相對還是比較容易的,但如果在開放環(huán)境中把一個智能體放進去,讓它像一個新生兒一樣,自主地去了解這個世界,給自己設置任務去完成,不斷地成長,這是非常具有挑戰(zhàn)性任務。

下面回到研究主題,Autonomous Visual Tracking主動目標跟蹤就是讓機器人根據(jù)視覺觀測信息,主動控制相機運動, 使得目標始終以合適的大小出現(xiàn)在畫面的中心。它是一個比較基礎的功能,在很多真實系統(tǒng)中都有潛在的應用需求,比如移動機器人,無人機航拍,自動駕駛,智能監(jiān)控中。我們把剛才講的社會博弈以及認知構(gòu)架放到這個自主跟蹤系統(tǒng)上,讓它產(chǎn)生自主行為,這是一個非常有趣的科學問題。

這里可以看到一個例子,要真正實現(xiàn)主動目標跟蹤,其實會有很多不同的挑戰(zhàn)。比如,在錄制一些比較驚險刺激的特技鏡頭時,攝影師不僅要讓相機對準演員,還要同步適應復雜的地形環(huán)境,調(diào)動四肢跟隨演員移動,其技術難度可能要比演員表演特技還要高。并且這整個過程,從感知到動作都需要做到十分快速精準執(zhí)行。然而,這對于現(xiàn)階段的機器人而言,幾乎是一件不可能的完成的任務。

那么,要真正實現(xiàn)復雜場景下的主動目標,我們的模型需要適應多樣的工作環(huán)境(包括不同的天氣、光照條件);還要克服障礙物遮擋(也就是避障),比如遇到障礙物的時候,要找到最短路徑繞過障礙物;也要克服動態(tài)干擾物的影響,避免混淆。因此,我們就考慮訓練一個端到端的模型,輸入圖像,直接輸出動作。感知和決策可以同步優(yōu)化,互相適應,對應的中間表示也會更加緊湊。

要訓練這種端到端的感知-決策網(wǎng)絡,當前流行的有兩種方法,一種是模仿學習,一種是強化學習。模仿學習樣本效率會高一些,但是仍然需要收集專家數(shù)據(jù)進行訓練,而且不可避免的存在數(shù)據(jù)分布的偏差,模型的泛化性會比較差。對于跟蹤模型來說,模型的泛化能力是至關重要的。因此我們采用強化學習,我們只需要設計一個簡單的獎賞函數(shù),機器人在環(huán)境中自主探索,就可以在試錯中學習技能。

但是,如果讓智能體在真實場景中交互試錯,他的代價是十分高昂的。因此,我們構(gòu)建UnrealCV虛擬環(huán)境,用于機器人的自主學習。我們可以從中獲取高逼真的視覺觀測,精準的ground truth,以及進行實時的交互,包括多智能體的交互。這個項目已經(jīng)開源了大家感興趣都可以用。

這是我們構(gòu)建的虛擬環(huán)境,有室內(nèi)和室外的。經(jīng)常一些同學或同僚問在虛擬環(huán)境中做的東西到真實環(huán)境怎么樣,這個問題非常好。有些人認為,虛擬環(huán)境中的訓練的模型肯定不如真實環(huán)境。但是我認為此環(huán)境和彼環(huán)境沒有本質(zhì)的區(qū)別。虛擬環(huán)境未必一定比真實環(huán)境簡單。比如,我們真實世界的重力加速度是9.8米每秒方左右,但是虛擬世界當中我悶可以讓重力加速度是任意的,可以是月球的,也可以是火星的。地球上十級臺風已經(jīng)很大了,在真實環(huán)境中可能沒法做實驗。但是虛擬環(huán)境中,我們可以模擬二十級臺風。還有各種摩擦系數(shù)、光照條件、極端氣候等全都能夠模擬,你說虛擬環(huán)境一定是真實環(huán)境的子集嗎?重要的是,從一個環(huán)境中訓練的模型到另一個環(huán)境中都要進行遷移學習進行調(diào)整。從一個虛擬環(huán)境到另一個虛擬環(huán)境、從虛擬到真實,從真實到另一個真實都需要調(diào)整,方法其實是一樣的。所以不應該簡單地說:因為這個方法不是在真實環(huán)境中訓練的,就否定這個方法的價值,這種結(jié)論過于草率。

由于時間有限,下面我簡單介紹幾個主動跟蹤的問題和解決方法。首先我們做了一對一的主動跟蹤。它是一個零和博弈,逃跑者目的是要甩開跟蹤者。我們提出了一種非對稱博弈機制用于主動目標跟蹤的學習。也就是,在跟蹤器學習跟隨目標的同時,讓目標同步學習如何擺脫跟蹤。在這種競爭機制下,因為跟蹤器和目標的能力都是從零開始同步增長的,所以他們在每個訓練階段都能夠遇到一個能力相當?shù)膶κ峙c之競爭,這就自然得構(gòu)成了從易到難的課程,使得學習過程更加高效。這個機制是非對稱的,因為我們?yōu)樘优苷咭肓诵闹悄P停屗聹y跟蹤者的跟蹤策略,從而訓練出聰明的逃跑者,最終得到更高明的跟蹤者。我們發(fā)現(xiàn)一些有趣的智能現(xiàn)象涌現(xiàn)出來,比如逃跑者為了甩開跟蹤者,學會了擬態(tài)行為。我們把在虛擬環(huán)境中訓練的跟蹤模型非常容易地transfer到真實環(huán)境當中,效果也很好。

另一個場景還是一跟一,但是多了干擾者,這個時候就復雜了針對視覺混淆干擾的影響,我們提出了一種多智能體混合博弈機制。該機制下,目標和干擾物組成了一個與跟蹤器競爭的合作團隊,通過主動制造具有迷惑性的外觀和行為使跟蹤器學習抗干擾的跟蹤策略。為了提高多智能體博弈學習的效率,進一步提出了一系列改進方法,包括面向干擾者的獎賞函數(shù)、跨模態(tài)師徒學習策略以及用于跟蹤器的循環(huán)注意力機制等。

在多跟一的模型中,我們主要采用的心理模型是從眾心理模型,因為物體走到某些角度時會block相機的view,這時被遮擋相機的動作要根據(jù)其他相機的pose決定。針對復雜場景下的單目標多相機跟蹤問題,受“羊群效應”啟發(fā),提出了一種位姿輔助的多相機合作跟蹤系統(tǒng)。該系統(tǒng)中,設計了一種受羊群心態(tài)驅(qū)動的位姿控制器,可在視覺觀測受限情況下通過參考多數(shù)相機位姿狀態(tài)輸出與群體一致的動作(都指向同一區(qū)域),實現(xiàn)在復雜場景下的高效合作跟蹤。

最后一種更具有挑戰(zhàn)性的是多跟多的問題,智能體之間相互協(xié)調(diào)誰跟誰,把任務分進去之后各自完成各自的任務的思路。針對多相機多目標覆蓋問題,提出了一種面向目標分配的層次化多智能體協(xié)調(diào)機制。該協(xié)作機制主要分兩層,包括了一個集中式協(xié)調(diào)者和多個分布式執(zhí)行者。協(xié)調(diào)者收集各個執(zhí)行者的觀測信息,進行全局規(guī)劃,為每個執(zhí)行者分配子目標任務。每個執(zhí)行者通過采取一系列基本動作實現(xiàn)對指定目標集的覆蓋。為提升模型訓練效率和泛化能力,采用了一系列改進方法,包括了用自注意力感知模塊處理變長輸入輸出,面向目標分配的邊際貢獻近似估計,基于子目標的觀測過濾器等。謝謝大家。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )