中國(guó)科技引領(lǐng)世界 曠視行人再識(shí)別技術(shù)首超人類水平

日前,中國(guó)人工智能企業(yè)曠視科技Face++的研究團(tuán)隊(duì)在全球論文共享平臺(tái)arXiv上公布了一篇名為AlignedReID: Surpassing Human-Level Performance in Person Re-Identification的文章,證明了其在“行人再識(shí)別技(ReID)”術(shù)上取得了新的研究成果,使得機(jī)器在行人整體的識(shí)別能力上已經(jīng)超過了人類。本文就曠視研究院的具體研究方法和展開說明。

近年來,人臉識(shí)別技術(shù)的成熟使得機(jī)器在辨別人臉的能力上大舉超過人類,在構(gòu)建“智慧城市”、“平安城市”等方面也得到了廣泛應(yīng)用。然而在實(shí)際應(yīng)用的場(chǎng)景中,攝像頭并非在任何情況下都可以拍攝到清晰人臉。如在下圖中,因口罩、帽子等遮擋,民警和系統(tǒng)都無法用人臉特征判定嫌疑人身份。

不僅如此,在實(shí)際的場(chǎng)景中,一個(gè)攝像頭往往無法覆蓋所有區(qū)域,而多攝像頭之間一般也沒有重疊。因此,用全身信息來對(duì)人員進(jìn)行鎖定和查找就變得十分必要——通過將整體行人特征作為人臉之外的重要補(bǔ)充,實(shí)現(xiàn)對(duì)行人的跨攝像頭跟蹤。于是,計(jì)算機(jī)視覺領(lǐng)域開始逐漸展開針對(duì)“行人再識(shí)別”技術(shù)的研究工作。

行人再識(shí)別:實(shí)際意義重大,目前仍依賴大量人力投入

行人再識(shí)別(Person Re-Identification,簡(jiǎn)稱 ReID),從字面意思理解就是對(duì)行人進(jìn)行重新識(shí)別,是對(duì)不同的、沒有視野重疊覆蓋的(non-overlapping)攝像機(jī)拍攝的行人圖像建立對(duì)應(yīng)關(guān)系的處理過程。當(dāng)攝像頭拍攝范圍之間不存在重疊時(shí),由于沒有了連續(xù)信息,檢索難度也隨之增大非常多。因此,行人再識(shí)別強(qiáng)調(diào)的是在跨攝像機(jī)的視頻中對(duì)特定行人進(jìn)行檢索。

圖:行人再識(shí)別即將圖像中某個(gè)行人的特征與其他圖像中行人特征進(jìn)行對(duì)比,判斷是否屬于同一個(gè)人,相比行人檢測(cè)難度更大。

如果說行人檢測(cè)是要機(jī)器判定圖像中是否存在行人,那么行人再識(shí)別就是要機(jī)器識(shí)別出不同攝像機(jī)拍攝的特定人員的所有圖像。具體說,就是給定某人的一張圖片(query image),從多張圖片(gallery images)中找到屬于他/她的那一張或多張,是通過行人整體特征實(shí)現(xiàn)的人員比對(duì)技術(shù)。

行人再識(shí)別(ReID)在公共安防的刑偵工作中以及圖像檢索等場(chǎng)景中有很高的應(yīng)用價(jià)值。除此之外,ReID還可以幫助手機(jī)用戶實(shí)現(xiàn)相冊(cè)聚類、幫助零售或商超經(jīng)營(yíng)者獲取有效的顧客軌跡、挖掘商業(yè)價(jià)值。然而,受限于行業(yè)水平,目前行人再識(shí)別的精準(zhǔn)度并不高,很多工作仍依賴于大量人力的投入。

曠視打破行人再識(shí)別行業(yè)紀(jì)錄,首次超越人類專家

由于圖像拍攝的時(shí)間、地點(diǎn)隨機(jī),且光線、角度、姿態(tài)不同,再加上行人容易受到檢測(cè)精度、遮擋等因素的影響,ReID 的研究工作非常具有挑戰(zhàn)性。

近年來受益于深度學(xué)習(xí)的發(fā)展,ReID 技術(shù)水平也得到了很大提升,在兩個(gè)最為常用的ReID測(cè)試集Market1501和CUHK03上,首位命中率分別達(dá)到了89.9%和91.8%。不過,這個(gè)結(jié)果與人相比還是有一定的差距。實(shí)驗(yàn)表明,一個(gè)熟練的標(biāo)注員在Market1501和CUHK03上的首位命中率分別可以達(dá)到93.5%和95.7%。

為了測(cè)試人類的ReID能力,研究者組織了10名專業(yè)的標(biāo)注人員來進(jìn)行測(cè)驗(yàn)。結(jié)果表明,一個(gè)熟練的標(biāo)注員在Market1501和CUHK03上的首位命中率分別可以達(dá)到93.5%和95.7%。這個(gè)是現(xiàn)有的ReID方法無法企及的。

而在AlignedReID的文章中,曠視科技Face++的研究團(tuán)隊(duì)提出了一種新方法,通過動(dòng)態(tài)對(duì)準(zhǔn)(Dynamic Alignment)和協(xié)同學(xué)習(xí)(Mutual Learning),然后再重新排序(Re-Ranking),使得機(jī)器在Market1501和CUHK03上的首位命中率達(dá)到了94.0%和96.1%,這也是首次機(jī)器在行人再識(shí)別問題上超越人類專家表現(xiàn),創(chuàng)下了業(yè)界紀(jì)錄。

曠視的研究成果意味著繼人臉識(shí)別之后,機(jī)器在更復(fù)雜的行人再識(shí)別領(lǐng)域中也超越了人類!這為目前機(jī)器代替人類處理大量以人為中心的圖像或視頻理解問題帶來了更強(qiáng)大的技術(shù)。

曠視科技首席科學(xué)家、研究院院長(zhǎng)孫劍表示:“最近幾年,隨著深度學(xué)習(xí)方法的復(fù)興,從2014年的人臉識(shí)別到2015年的ImageNet圖像分類,我們已經(jīng)看到機(jī)器在越來越多的圖像感知問題中超越了人類。記得不久前和我的導(dǎo)師、前微軟領(lǐng)導(dǎo)沈向洋博士(微軟全球執(zhí)行副總裁)聊天時(shí)吹了個(gè)?!兄獑栴}5-10年基本都能解掉。今天,我非常高興看到又一個(gè)非常難且有巨大應(yīng)用價(jià)值的圖像感知問題,被曠視科技團(tuán)隊(duì)的算法超越了人類性能?!?/p>

讓多個(gè)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)人體結(jié)構(gòu)對(duì)齊,并彼此相互學(xué)習(xí)

那么曠視科技團(tuán)隊(duì)具體是如何做到的?

和其他基于深度學(xué)習(xí)的ReID方法類似,曠視研究院同樣是用深度卷積神經(jīng)網(wǎng)絡(luò)去提取特征,用Hard Sample Mining后的Triplet Loss做損失函數(shù),把特征的歐式距離作為兩張圖片的相似度。

不同之處在于,曠視科技在學(xué)習(xí)圖像相似度的時(shí)候考慮了人體結(jié)構(gòu)的對(duì)齊。雖然此前有人考慮過這一點(diǎn),比如簡(jiǎn)單的,把人的頭、身、腿分成三部分;還有精細(xì)一點(diǎn)的,先通過人體骨架估計(jì),然后再通過骨架信息來對(duì)齊。但后一種方法,引入了另一個(gè)困難的問題或要求額外的標(biāo)注工作。曠視科技的思路是引入端到端的方法,讓網(wǎng)絡(luò)自動(dòng)去學(xué)習(xí)人體對(duì)齊,從而提高性能。

在曠視科技發(fā)表的文章AlignedReID中,深度卷積神經(jīng)網(wǎng)絡(luò)不僅提取全局特征,同時(shí)也對(duì)各局部提取局部信息。對(duì)于兩張圖片中任意一對(duì)局部信息,計(jì)算它們之間的距離,構(gòu)成一個(gè)距離矩陣。再通過動(dòng)態(tài)規(guī)劃,計(jì)算一條從矩陣左上角到右下角的最短路徑。這條最短路徑中的一條邊就對(duì)應(yīng)了一對(duì)局部特征的匹配,它給出了一種人體對(duì)齊的方式,在保證身體個(gè)部分相對(duì)順序的情況下,這種對(duì)齊方式的總距離是最短的。在訓(xùn)練的時(shí)候,最短路徑的長(zhǎng)度被加入到損失函數(shù),輔助學(xué)習(xí)行人的整體特征。

如圖所示,乍一看,這條最短路徑上有一些邊是冗余的,例如圖中的第一條邊。為什么不只尋找那些匹配的邊呢?曠視Face++給出的解釋是這樣的:局部信息不僅要自我匹配,也要考慮到整個(gè)人體對(duì)齊的進(jìn)程。為了使匹配能夠從頭到腳按順序進(jìn)行,那么有一些冗余的匹配是必須的。另外,通過設(shè)計(jì)局部距離函數(shù),這些冗余匹配在整個(gè)最短路徑的長(zhǎng)度中貢獻(xiàn)很小。

除了在訓(xùn)練過程中讓人體結(jié)構(gòu)自動(dòng)對(duì)齊外,曠視Face++還提到了同時(shí)訓(xùn)練兩個(gè)網(wǎng)絡(luò)并使它們互相學(xué)習(xí),可以有效提高模型的精度。這個(gè)訓(xùn)練方法在分類問題中已經(jīng)比較常見,曠視Face++的研究員們做了一些改進(jìn)讓它能夠應(yīng)用于度量學(xué)習(xí)(Metric Learning)。

在上圖所示的訓(xùn)練過程中:同時(shí)訓(xùn)練的兩個(gè)網(wǎng)絡(luò)都包含一個(gè)分支做分類,一個(gè)分支做度量學(xué)習(xí)。兩個(gè)做分類的分支通過KL divergence互相學(xué)習(xí);兩個(gè)做度量學(xué)習(xí)的分支通過曠視提出的metric mutual loss互相學(xué)習(xí)。而如前所述,度量學(xué)習(xí)的分支又包括兩個(gè)子分支,一個(gè)是全局特征的分支,一個(gè)是局部特征的分支。比較有趣的是,一旦訓(xùn)練完成,分類分支和局部特征分支都被丟棄,只保留了全局特征分支做ReID。也就是說,無論是訓(xùn)練行人分類,還是通過人體對(duì)齊學(xué)習(xí)局部特征,都是為了更好的得到圖像的全局特征。

最后,曠視科技研究團(tuán)隊(duì)還采用了2017年CVPR的一篇名為Re-ranking person re-identification with k-reciprocal encoding文章中提出的k-reciprocal encoding來做重新排序。

上圖的第一行是要查找的行人,第二行為人類專家給出的答案,第三行為機(jī)器給出的結(jié)果,可見機(jī)器的行人再識(shí)別能力已經(jīng)和人類相當(dāng)。

此文所展示的方法讓ReID技術(shù)在實(shí)驗(yàn)結(jié)果的表現(xiàn)中上了全新的臺(tái)階。不過曠視在文章的最后也指出,雖然機(jī)器在兩個(gè)常用數(shù)據(jù)集上超過了人類的水平,但還不能說行人再識(shí)別(ReID)任務(wù)已經(jīng)被很好地解決了。在實(shí)際的應(yīng)用中,人類,尤其是經(jīng)過專業(yè)訓(xùn)練的人,可以通過經(jīng)驗(yàn)、直覺,并利用環(huán)境、上下文等綜合信息,在擁擠,模糊,昏暗等情況下進(jìn)行更深入的分析,所以在開放和極端條件下的環(huán)境中,人和機(jī)器相比仍具有很大的優(yōu)勢(shì)。在未來的實(shí)踐中,行人再識(shí)別(ReID)的解決和應(yīng)用還需要更多努力。

作為AlignedReID文章作者之一,美國(guó)哥倫比亞大學(xué)博士、曠視科技研究院的視頻分析領(lǐng)域科學(xué)家張弛表示:“我們從2016年開始研究ReID,當(dāng)時(shí)Top1的精度達(dá)到60%就可以說是state of the art了。但是業(yè)務(wù)要求至少達(dá)到90%以上,甚至更高?,F(xiàn)在我們已經(jīng)在兩個(gè)常用數(shù)據(jù)集上做到超過人類水平,到這也只是邁出了實(shí)用化的第一步,在實(shí)戰(zhàn)場(chǎng)景中還有更多的挑戰(zhàn)要應(yīng)對(duì)。希望ReID技術(shù)的進(jìn)一步成熟,能讓我們的社會(huì)更安全,更便捷?!?/p>

曠視科技Face++成立于2011年,是中國(guó)最早一批用深度學(xué)習(xí)的方法開展計(jì)算機(jī)視覺應(yīng)用的人工智能企業(yè),被中國(guó)科技部列為“中國(guó)獨(dú)角獸”人工智能類榜首企業(yè),其核心產(chǎn)品包括Face++人工智能開放平臺(tái)、FaceID人臉身份驗(yàn)證平臺(tái)等,業(yè)務(wù)覆蓋智能金融、智能商業(yè)和智慧安防等多個(gè)領(lǐng)域。目前,曠視科技Face++團(tuán)隊(duì)已累計(jì)獲得國(guó)際人工智能技術(shù)評(píng)測(cè)冠軍 15項(xiàng),其中包括在MS COCO 2017、Places 2017兩項(xiàng)全球頂級(jí)計(jì)算機(jī)視覺競(jìng)賽中擊敗微軟、谷歌、Facebook和卡內(nèi)基梅隆大學(xué)等國(guó)際巨頭和高校奪得的三項(xiàng)世界冠軍。作為國(guó)內(nèi)最大原創(chuàng)人工智能企業(yè)之一,曠視科技擁有國(guó)內(nèi)外在申及授權(quán)專利近 500 件,并代表行業(yè)領(lǐng)先技術(shù)提供方參與了 15 項(xiàng)人工智能國(guó)家及行業(yè)標(biāo)準(zhǔn)制定。

圖為曠視科技行人再識(shí)別技術(shù)的應(yīng)用演示:針對(duì)擁有特定特征的行人進(jìn)行跨攝像頭檢索,未來可在高效查找走勢(shì)人口、追蹤定位目標(biāo)嫌疑人等場(chǎng)景中發(fā)揮價(jià)值。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-12-04
中國(guó)科技引領(lǐng)世界 曠視行人再識(shí)別技術(shù)首超人類水平
日前,中國(guó)人工智能企業(yè)曠視科技Face++的研究團(tuán)隊(duì)在全球論文共享平臺(tái)arXiv上公布了一篇名為AlignedReID: Surpassing Human-Level Performance in Person Re-Identification的文章,證明了其在“行人再識(shí)別技(ReID)”術(shù)上取得了新的研究成果,使得機(jī)器在行人整體的識(shí)別能力上

長(zhǎng)按掃碼 閱讀全文