GAITC 2022智媒專(zhuān)題論壇丨王亦洲:主動(dòng)跟蹤算法研究

11月27日,在2022全球人工智能技術(shù)大會(huì)上,由CAAI智能傳媒專(zhuān)委會(huì)、中國(guó)傳媒大學(xué)媒體融合與傳播國(guó)家重點(diǎn)實(shí)驗(yàn)室、新浪AI媒體研究院聯(lián)合支持的“融合與發(fā)展”新智者·智能媒體專(zhuān)題論壇在線上舉行。CAAI智能傳媒專(zhuān)委會(huì)副主任,北京大學(xué)博雅特聘教授王亦洲以《主動(dòng)跟蹤算法研究》為主題進(jìn)行了分享。

圖注:王亦洲教授-“融合與發(fā)展”新智者·智能媒體專(zhuān)題論壇

以下為王亦洲演講實(shí)錄,內(nèi)容經(jīng)編輯略有刪減:

王亦洲:謝謝葉老師的介紹,各位專(zhuān)家下午好,我是來(lái)自北京大學(xué)的王亦洲,報(bào)告內(nèi)容是主動(dòng)跟蹤算法研究。解了一下聽(tīng)眾范圍比較廣,可能更多介紹思路性的東西。今天我將主要介紹如何構(gòu)建多智能體博弈機(jī)制,以實(shí)現(xiàn)魯棒的主動(dòng)目標(biāo)跟蹤。具體的,我將先簡(jiǎn)要介紹博弈論、認(rèn)知機(jī)制、主動(dòng)目標(biāo)跟蹤任務(wù)和虛擬環(huán)境等相關(guān)信息,然后將重點(diǎn)介紹四種多智能體博弈機(jī)制用于主動(dòng)目標(biāo)跟蹤。

首先,博弈現(xiàn)象非常普遍,小到我們的日常生活,大到經(jīng)濟(jì)體或國(guó)家的經(jīng)濟(jì)與政治活動(dòng)。從博弈者之間的關(guān)系角度,博弈可以分為幾種,如對(duì)抗性博弈,比如常見(jiàn)的零和博弈,還有基于共同利益的合作博弈,但更多的是混合動(dòng)機(jī)博弈。在這類(lèi)博弈中,智能體短期和長(zhǎng)期的interest可能不一致,個(gè)體和群體的利益可能也不一致。傳統(tǒng)的博弈策略集合是有限的,相對(duì)來(lái)說(shuō)也是靜態(tài)的,這時(shí)候博弈相對(duì)簡(jiǎn)單,但是如果是混合動(dòng)機(jī)博弈,博弈會(huì)受到智能體心理狀態(tài)的影響,甚至可能采取不理智策略,這時(shí)候博弈分析變得更加復(fù)雜。所以研究混合動(dòng)機(jī)博弈是多智能體系統(tǒng)現(xiàn)在的前沿研究方向,會(huì)涌現(xiàn)出很多有趣的交互智能現(xiàn)象,如合作、信任、欺騙、公平等。

2005年科學(xué)期刊列舉了125個(gè)我們面臨挑戰(zhàn)的科學(xué)問(wèn)題,其中就有博弈論問(wèn)題。用AI方法研究合作現(xiàn)象的演化是AI for science很有趣的切入點(diǎn)。我舉兩個(gè)例子:比如在囚徒困境中,由于囚徒無(wú)法信任對(duì)方,因此傾向于互相揭發(fā),而不是保持沉默。最終導(dǎo)致納什均衡僅落在非合作點(diǎn)上的博弈模型,而不是群體意義上的帕累托最優(yōu)。囚徒困境所反映出的深刻問(wèn)題是,人類(lèi)的個(gè)人理性有時(shí)能導(dǎo)致集體的非理性。

在獵鹿博弈中,每個(gè)人策略都是根據(jù)對(duì)手策略來(lái)相應(yīng)地調(diào)整,但是如何形成commitment,這是個(gè)有趣的問(wèn)題。獵鹿博弈是關(guān)于信任的博弈。按照經(jīng)濟(jì)學(xué),合作獵鹿的納什均衡比分頭抓打兔子的納什均衡具有帕累托優(yōu)勢(shì)。獵鹿博弈和囚徒困境的區(qū)別在于,囚徒無(wú)法溝通信息,獵人可以溝通信息,博弈結(jié)果就會(huì)有所不同。區(qū)別于囚徒困境,獵鹿博弈有兩種純策略納什均衡:全合作或全背叛,而在囚徒困境中,盡管全合作是帕累托最優(yōu),但只有全背叛才能達(dá)到納什均衡。

上面兩個(gè)博弈例子還是比較簡(jiǎn)單的,日常生活中我們的情況往往復(fù)雜很多。近幾年我們針對(duì)復(fù)雜博弈提出以下研究思路:首先要搭建一個(gè)比較復(fù)雜并具有一般性的環(huán)境,研究智能體在其中的博弈行為。進(jìn)而將復(fù)雜的認(rèn)知模型引入決策過(guò)程,研究交互智能現(xiàn)象的涌現(xiàn)機(jī)制。

下面我會(huì)簡(jiǎn)單介紹一個(gè)認(rèn)知模型-Theory of mind。人的交往過(guò)程中不是只從自己角度考慮問(wèn)題,還要了解別人怎么想的,別人的信念是什么,他處于什么情緒狀態(tài),對(duì)方想想要的是什么。有了這個(gè)機(jī)制,人們的交流就會(huì)更加高效。我們?cè)谧灾鞲檰?wèn)題中就引入了這個(gè)認(rèn)知機(jī)制。

近些年來(lái),計(jì)算機(jī)視覺(jué)已經(jīng)從被動(dòng)的感知慢慢過(guò)度到主動(dòng)視覺(jué),而且正在向下一個(gè)階段自主學(xué)習(xí)發(fā)展。2005年G.Bekey給Autonomy下了一個(gè)通俗易懂的定義,系統(tǒng)在完成現(xiàn)實(shí)環(huán)境當(dāng)中完成任務(wù)時(shí)會(huì)在相當(dāng)長(zhǎng)時(shí)間內(nèi)不需要外界控制,這個(gè)系統(tǒng)我們可以說(shuō)它具有自主性。

自主系統(tǒng)的標(biāo)志性能力有:可以進(jìn)行弱監(jiān)督或無(wú)監(jiān)督學(xué)習(xí),可以不斷地獲得、總結(jié)、積累知識(shí),可以探索環(huán)境和決策,,能夠獨(dú)立地完成這件事情。四是可以根據(jù)大任務(wù)或者無(wú)任務(wù)情況下自己去給自己布置任務(wù),或者在大任務(wù)當(dāng)中set子任務(wù),根據(jù)環(huán)境變化調(diào)整自己的行為。所以我們一般說(shuō)應(yīng)該至少具備這四種基本能力,才有可能讓系統(tǒng)變得autonomous。在可控環(huán)境下要實(shí)現(xiàn)一個(gè)autonomous machine相對(duì)還是比較容易的,但如果在開(kāi)放環(huán)境中把一個(gè)智能體放進(jìn)去,讓它像一個(gè)新生兒一樣,自主地去了解這個(gè)世界,給自己設(shè)置任務(wù)去完成,不斷地成長(zhǎng),這是非常具有挑戰(zhàn)性任務(wù)。

下面回到研究主題,Autonomous Visual Tracking主動(dòng)目標(biāo)跟蹤就是讓機(jī)器人根據(jù)視覺(jué)觀測(cè)信息,主動(dòng)控制相機(jī)運(yùn)動(dòng), 使得目標(biāo)始終以合適的大小出現(xiàn)在畫(huà)面的中心。它是一個(gè)比較基礎(chǔ)的功能,在很多真實(shí)系統(tǒng)中都有潛在的應(yīng)用需求,比如移動(dòng)機(jī)器人,無(wú)人機(jī)航拍,自動(dòng)駕駛,智能監(jiān)控中。我們把剛才講的社會(huì)博弈以及認(rèn)知構(gòu)架放到這個(gè)自主跟蹤系統(tǒng)上,讓它產(chǎn)生自主行為,這是一個(gè)非常有趣的科學(xué)問(wèn)題。

這里可以看到一個(gè)例子,要真正實(shí)現(xiàn)主動(dòng)目標(biāo)跟蹤,其實(shí)會(huì)有很多不同的挑戰(zhàn)。比如,在錄制一些比較驚險(xiǎn)刺激的特技鏡頭時(shí),攝影師不僅要讓相機(jī)對(duì)準(zhǔn)演員,還要同步適應(yīng)復(fù)雜的地形環(huán)境,調(diào)動(dòng)四肢跟隨演員移動(dòng),其技術(shù)難度可能要比演員表演特技還要高。并且這整個(gè)過(guò)程,從感知到動(dòng)作都需要做到十分快速精準(zhǔn)執(zhí)行。然而,這對(duì)于現(xiàn)階段的機(jī)器人而言,幾乎是一件不可能的完成的任務(wù)。

那么,要真正實(shí)現(xiàn)復(fù)雜場(chǎng)景下的主動(dòng)目標(biāo),我們的模型需要適應(yīng)多樣的工作環(huán)境(包括不同的天氣、光照條件);還要克服障礙物遮擋(也就是避障),比如遇到障礙物的時(shí)候,要找到最短路徑繞過(guò)障礙物;也要克服動(dòng)態(tài)干擾物的影響,避免混淆。因此,我們就考慮訓(xùn)練一個(gè)端到端的模型,輸入圖像,直接輸出動(dòng)作。感知和決策可以同步優(yōu)化,互相適應(yīng),對(duì)應(yīng)的中間表示也會(huì)更加緊湊。

要訓(xùn)練這種端到端的感知-決策網(wǎng)絡(luò),當(dāng)前流行的有兩種方法,一種是模仿學(xué)習(xí),一種是強(qiáng)化學(xué)習(xí)。模仿學(xué)習(xí)樣本效率會(huì)高一些,但是仍然需要收集專(zhuān)家數(shù)據(jù)進(jìn)行訓(xùn)練,而且不可避免的存在數(shù)據(jù)分布的偏差,模型的泛化性會(huì)比較差。對(duì)于跟蹤模型來(lái)說(shuō),模型的泛化能力是至關(guān)重要的。因此我們采用強(qiáng)化學(xué)習(xí),我們只需要設(shè)計(jì)一個(gè)簡(jiǎn)單的獎(jiǎng)賞函數(shù),機(jī)器人在環(huán)境中自主探索,就可以在試錯(cuò)中學(xué)習(xí)技能。

但是,如果讓智能體在真實(shí)場(chǎng)景中交互試錯(cuò),他的代價(jià)是十分高昂的。因此,我們構(gòu)建UnrealCV虛擬環(huán)境,用于機(jī)器人的自主學(xué)習(xí)。我們可以從中獲取高逼真的視覺(jué)觀測(cè),精準(zhǔn)的ground truth,以及進(jìn)行實(shí)時(shí)的交互,包括多智能體的交互。這個(gè)項(xiàng)目已經(jīng)開(kāi)源了大家感興趣都可以用。

這是我們構(gòu)建的虛擬環(huán)境,有室內(nèi)和室外的。經(jīng)常一些同學(xué)或同僚問(wèn)在虛擬環(huán)境中做的東西到真實(shí)環(huán)境怎么樣,這個(gè)問(wèn)題非常好。有些人認(rèn)為,虛擬環(huán)境中的訓(xùn)練的模型肯定不如真實(shí)環(huán)境。但是我認(rèn)為此環(huán)境和彼環(huán)境沒(méi)有本質(zhì)的區(qū)別。虛擬環(huán)境未必一定比真實(shí)環(huán)境簡(jiǎn)單。比如,我們真實(shí)世界的重力加速度是9.8米每秒方左右,但是虛擬世界當(dāng)中我悶可以讓重力加速度是任意的,可以是月球的,也可以是火星的。地球上十級(jí)臺(tái)風(fēng)已經(jīng)很大了,在真實(shí)環(huán)境中可能沒(méi)法做實(shí)驗(yàn)。但是虛擬環(huán)境中,我們可以模擬二十級(jí)臺(tái)風(fēng)。還有各種摩擦系數(shù)、光照條件、極端氣候等全都能夠模擬,你說(shuō)虛擬環(huán)境一定是真實(shí)環(huán)境的子集嗎?重要的是,從一個(gè)環(huán)境中訓(xùn)練的模型到另一個(gè)環(huán)境中都要進(jìn)行遷移學(xué)習(xí)進(jìn)行調(diào)整。從一個(gè)虛擬環(huán)境到另一個(gè)虛擬環(huán)境、從虛擬到真實(shí),從真實(shí)到另一個(gè)真實(shí)都需要調(diào)整,方法其實(shí)是一樣的。所以不應(yīng)該簡(jiǎn)單地說(shuō):因?yàn)檫@個(gè)方法不是在真實(shí)環(huán)境中訓(xùn)練的,就否定這個(gè)方法的價(jià)值,這種結(jié)論過(guò)于草率。

由于時(shí)間有限,下面我簡(jiǎn)單介紹幾個(gè)主動(dòng)跟蹤的問(wèn)題和解決方法。首先我們做了一對(duì)一的主動(dòng)跟蹤。它是一個(gè)零和博弈,逃跑者目的是要甩開(kāi)跟蹤者。我們提出了一種非對(duì)稱(chēng)博弈機(jī)制用于主動(dòng)目標(biāo)跟蹤的學(xué)習(xí)。也就是,在跟蹤器學(xué)習(xí)跟隨目標(biāo)的同時(shí),讓目標(biāo)同步學(xué)習(xí)如何擺脫跟蹤。在這種競(jìng)爭(zhēng)機(jī)制下,因?yàn)楦櫰骱湍繕?biāo)的能力都是從零開(kāi)始同步增長(zhǎng)的,所以他們?cè)诿總€(gè)訓(xùn)練階段都能夠遇到一個(gè)能力相當(dāng)?shù)膶?duì)手與之競(jìng)爭(zhēng),這就自然得構(gòu)成了從易到難的課程,使得學(xué)習(xí)過(guò)程更加高效。這個(gè)機(jī)制是非對(duì)稱(chēng)的,因?yàn)槲覀優(yōu)樘优苷咭肓诵闹悄P停屗聹y(cè)跟蹤者的跟蹤策略,從而訓(xùn)練出聰明的逃跑者,最終得到更高明的跟蹤者。我們發(fā)現(xiàn)一些有趣的智能現(xiàn)象涌現(xiàn)出來(lái),比如逃跑者為了甩開(kāi)跟蹤者,學(xué)會(huì)了擬態(tài)行為。我們把在虛擬環(huán)境中訓(xùn)練的跟蹤模型非常容易地transfer到真實(shí)環(huán)境當(dāng)中,效果也很好。

另一個(gè)場(chǎng)景還是一跟一,但是多了干擾者,這個(gè)時(shí)候就復(fù)雜了針對(duì)視覺(jué)混淆干擾的影響,我們提出了一種多智能體混合博弈機(jī)制。該機(jī)制下,目標(biāo)和干擾物組成了一個(gè)與跟蹤器競(jìng)爭(zhēng)的合作團(tuán)隊(duì),通過(guò)主動(dòng)制造具有迷惑性的外觀和行為使跟蹤器學(xué)習(xí)抗干擾的跟蹤策略。為了提高多智能體博弈學(xué)習(xí)的效率,進(jìn)一步提出了一系列改進(jìn)方法,包括面向干擾者的獎(jiǎng)賞函數(shù)、跨模態(tài)師徒學(xué)習(xí)策略以及用于跟蹤器的循環(huán)注意力機(jī)制等。

在多跟一的模型中,我們主要采用的心理模型是從眾心理模型,因?yàn)槲矬w走到某些角度時(shí)會(huì)block相機(jī)的view,這時(shí)被遮擋相機(jī)的動(dòng)作要根據(jù)其他相機(jī)的pose決定。針對(duì)復(fù)雜場(chǎng)景下的單目標(biāo)多相機(jī)跟蹤問(wèn)題,受“羊群效應(yīng)”啟發(fā),提出了一種位姿輔助的多相機(jī)合作跟蹤系統(tǒng)。該系統(tǒng)中,設(shè)計(jì)了一種受羊群心態(tài)驅(qū)動(dòng)的位姿控制器,可在視覺(jué)觀測(cè)受限情況下通過(guò)參考多數(shù)相機(jī)位姿狀態(tài)輸出與群體一致的動(dòng)作(都指向同一區(qū)域),實(shí)現(xiàn)在復(fù)雜場(chǎng)景下的高效合作跟蹤。

最后一種更具有挑戰(zhàn)性的是多跟多的問(wèn)題,智能體之間相互協(xié)調(diào)誰(shuí)跟誰(shuí),把任務(wù)分進(jìn)去之后各自完成各自的任務(wù)的思路。針對(duì)多相機(jī)多目標(biāo)覆蓋問(wèn)題,提出了一種面向目標(biāo)分配的層次化多智能體協(xié)調(diào)機(jī)制。該協(xié)作機(jī)制主要分兩層,包括了一個(gè)集中式協(xié)調(diào)者和多個(gè)分布式執(zhí)行者。協(xié)調(diào)者收集各個(gè)執(zhí)行者的觀測(cè)信息,進(jìn)行全局規(guī)劃,為每個(gè)執(zhí)行者分配子目標(biāo)任務(wù)。每個(gè)執(zhí)行者通過(guò)采取一系列基本動(dòng)作實(shí)現(xiàn)對(duì)指定目標(biāo)集的覆蓋。為提升模型訓(xùn)練效率和泛化能力,采用了一系列改進(jìn)方法,包括了用自注意力感知模塊處理變長(zhǎng)輸入輸出,面向目標(biāo)分配的邊際貢獻(xiàn)近似估計(jì),基于子目標(biāo)的觀測(cè)過(guò)濾器等。謝謝大家。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )