全球計(jì)算機(jī)視覺頂會(huì)CVPR 2020論文出爐:騰訊優(yōu)圖17篇論文入選

全球計(jì)算機(jī)視覺頂級(jí)會(huì)議CVPR2020 (IEEE Conference on Computer Vision and Pattern Recognition,即IEEE國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議) 即將于2020年6月14日-19日在美國(guó)西雅圖召開。本屆大會(huì)總共錄取來自全球論文1470篇,騰訊優(yōu)圖實(shí)驗(yàn)室入選17篇。

作為計(jì)算機(jī)視覺領(lǐng)域世界三大頂會(huì)之一,CVPR 的論文投稿量近三年持續(xù)大漲,CVPR官網(wǎng)顯示,今年大會(huì)論文有效投稿數(shù)量6656篇,最終錄取1470篇,錄取率僅為22%,相比去年降低3個(gè)百分點(diǎn)。

本屆大會(huì)涵蓋人體識(shí)別、基于圖像建模、計(jì)算攝影與圖像、視頻分析與事件識(shí)別、臉部和手勢(shì)分析、文件分析、統(tǒng)計(jì)方法與學(xué)習(xí)等多個(gè)主題。騰訊被收錄的論文涉及主題廣泛,涵蓋類比學(xué)習(xí)、人臉識(shí)別、物體檢測(cè)、行人重識(shí)別等熱門及前沿領(lǐng)域,這些最新科研成果展示了騰訊在計(jì)算機(jī)視覺領(lǐng)域的技術(shù)實(shí)力,同時(shí)也將對(duì)計(jì)算機(jī)視覺算法落地化應(yīng)用起到助推作用。

以下為部分騰訊優(yōu)圖入選CVPR2020的論文:

1、神經(jīng)網(wǎng)絡(luò)的濾波器嫁接技術(shù)

Filter Grafting for Deep Neural Networks

神經(jīng)網(wǎng)絡(luò)存在天然的無效濾波器,濾波器剪枝(filter pruning)技術(shù)主要對(duì)無效的濾波器進(jìn)行移除使網(wǎng)絡(luò)的推理速度增加。然而在這篇文章中,優(yōu)圖提出濾波器嫁接(filter grafting)技術(shù)。和pruning相反,優(yōu)圖并不是移除網(wǎng)絡(luò)的無效濾波器,而是通過引入外部信息的方法來激活無效濾波器使之重新發(fā)揮作用。激活的方式為將其他網(wǎng)絡(luò)的有效濾波器的參數(shù)嫁接到無效濾波器上。為了更好地發(fā)揮grafting的性能,優(yōu)圖同時(shí)提出了信息熵相關(guān)的指標(biāo)評(píng)估濾波器的好壞,并用自適應(yīng)的方式來平衡嫁接網(wǎng)絡(luò)和被嫁接網(wǎng)絡(luò)的參數(shù)。通過大量的實(shí)驗(yàn),表明grafting后的網(wǎng)絡(luò)在有效濾波器的數(shù)量上和模型性能上均有大幅度的提高。

全球計(jì)算機(jī)視覺頂會(huì)CVPR 2020論文出爐:騰訊優(yōu)圖17篇論文入選

2、類比學(xué)習(xí):基于變換的無監(jiān)督光流估計(jì)

Learning by Analogy: Reliable Supervision from Transformations for Unsupervised Optical Flow Estimation

利用視圖合成,進(jìn)行光流的無監(jiān)督學(xué)習(xí),逐漸成為替代光流監(jiān)督學(xué)習(xí)的一類方法。但是在一些劇烈變化的場(chǎng)景上,可能會(huì)違背無監(jiān)督學(xué)習(xí)的目標(biāo),反而導(dǎo)致學(xué)習(xí)效果不好。這篇文章中,優(yōu)圖提出了一種稱為“增廣正則化”的學(xué)習(xí)框架。該框架在一些常規(guī)學(xué)習(xí)框架基礎(chǔ)上,利用增廣變換的數(shù)據(jù)多做一次前向,并利用原始數(shù)據(jù)的變換預(yù)測(cè)作為監(jiān)督。在文章中,優(yōu)圖進(jìn)一步拓展網(wǎng)絡(luò),支持共享光流解碼器的多視圖輸入。在多個(gè)benchmark上,與其它的無監(jiān)督方法比,以顯著的效果提升,取得了當(dāng)前最好的正確率。另外,優(yōu)圖提出的無監(jiān)督方法,使用更少的參數(shù)量,就可以媲美最近一些監(jiān)督方法的效果。

全球計(jì)算機(jī)視覺頂會(huì)CVPR 2020論文出爐:騰訊優(yōu)圖17篇論文入選

3、面向密集多角度物體檢測(cè)的動(dòng)態(tài)修正網(wǎng)絡(luò)

Dynamic Refinement Network for Oriented and Densely Packed Object Detection

目前主流的物體檢測(cè)?方法在旋轉(zhuǎn)(rotated)及密集排列(densely packed)?標(biāo)場(chǎng)景下,檢測(cè)性能顯著下降。騰訊優(yōu)圖認(rèn)為主要原因是:深度神經(jīng)?網(wǎng)絡(luò)中同層神經(jīng)元感受野、形狀、?角度單一,不適合處理多?度、多形狀的目標(biāo);模型學(xué)到的一般性知識(shí)不具備針對(duì)特定樣本?適應(yīng)調(diào)整的能力。針對(duì)以上兩點(diǎn),優(yōu)圖提出動(dòng)態(tài)修正?絡(luò)(Dynamic Refinement Network,圖1)。具體說來:(1) 設(shè)計(jì)了自適應(yīng)感受野調(diào)整模塊,使模型能夠根據(jù)目標(biāo)形狀、旋轉(zhuǎn)角度?適應(yīng)地調(diào)整感受野,緩解單一的感受野與多變的?標(biāo)之間的矛盾。(2)針對(duì)分類與回歸任務(wù)設(shè)計(jì)了動(dòng)態(tài)修正分類器 (圖2(左))與動(dòng)態(tài)修正回歸器(圖2(右)),使模型兼顧靜態(tài)知識(shí)(statistic knowledge)和動(dòng)態(tài)知識(shí)(dynamic knowledge)的學(xué)習(xí),賦予模型依據(jù)樣本自適應(yīng)調(diào)整的能?。結(jié)合以上兩點(diǎn), 優(yōu)圖設(shè)計(jì)了統(tǒng)一的動(dòng)態(tài)修正網(wǎng)絡(luò)。在當(dāng)前著名的密集旋轉(zhuǎn)目標(biāo)檢測(cè)數(shù)據(jù)集 (DOTA、HRSC2016、 SKU110K)上,該?法均取得了新的最佳性能。

全球計(jì)算機(jī)視覺頂會(huì)CVPR 2020論文出爐:騰訊優(yōu)圖17篇論文入選

4、自適應(yīng)課程學(xué)習(xí)人臉識(shí)別函數(shù)

CurricularFace: Adaptive Curriculum Learning Loss for Deep Face Recognition

人臉識(shí)別中常用損失函數(shù)主要包括兩類,基于間隔或者難樣本挖掘。前一類方法對(duì)所有樣本都采用一個(gè)固定的間隔值,忽略了樣本自身的難易信息。后一種方法則在整個(gè)網(wǎng)絡(luò)訓(xùn)練周期都強(qiáng)調(diào)困難樣本,可能導(dǎo)致網(wǎng)絡(luò)無法收斂問題。在工作中,優(yōu)圖基于課程學(xué)習(xí)的思路,提出了一種新的自適應(yīng)課程學(xué)習(xí)損失函數(shù)。在訓(xùn)練初始階段,方法主要關(guān)注容易的樣本;隨著訓(xùn)練進(jìn)行,逐漸關(guān)注較難的樣本。同時(shí),在同一個(gè)訓(xùn)練階段,不同的樣本根據(jù)其難易程度被賦予不同的權(quán)值。在常用的多個(gè)人臉識(shí)別benchmark上,該方法相較于SOTA方法都取得了穩(wěn)定一致的提升。

全球計(jì)算機(jī)視覺頂會(huì)CVPR 2020論文出爐:騰訊優(yōu)圖17篇論文入選

5、基于注意力卷積二叉神經(jīng)樹的細(xì)粒度視覺分類

AttentionConvolutionalBinaryNeuralTree for Fine-Grained Visual Categorization

本文由騰訊優(yōu)圖實(shí)驗(yàn)室和中科院軟件所聯(lián)合提出。細(xì)粒度視覺分類(Fine-Grained Visual Categorization,F(xiàn)GVC)因樣本類間差異更加細(xì)微,往往只能借助微小的局部差異才能區(qū)分出不同的類別,使其成為一項(xiàng)重要但具有挑戰(zhàn)性的任務(wù)。本文提出了一種基于注意力機(jī)制的卷積二叉神經(jīng)樹結(jié)構(gòu)。具體來說,將傳統(tǒng)的決策樹與神經(jīng)網(wǎng)絡(luò)結(jié)合,在樹的內(nèi)部節(jié)點(diǎn)中使用路由來確定樹內(nèi)從根到葉的計(jì)算路徑,并且在樹的邊上添加了卷積操作增強(qiáng)表示學(xué)習(xí),最終決策融合了所有葉節(jié)點(diǎn)的預(yù)測(cè)。該模型以一種由粗到細(xì)的層次方式學(xué)習(xí)具有判別力的特征。此外,采用非對(duì)稱的策略來增加多尺度特征提取,增強(qiáng)樣本的區(qū)分性特征表示。采用SGD優(yōu)化方法以端到端的方式訓(xùn)練整個(gè)網(wǎng)絡(luò)。該方法在CUB-200-2011,Stanford Cars 和 Aircraft數(shù)據(jù)集上進(jìn)行了評(píng)估,顯著優(yōu)于當(dāng)前其他的弱監(jiān)督細(xì)粒度方法。

全球計(jì)算機(jī)視覺頂會(huì)CVPR 2020論文出爐:騰訊優(yōu)圖17篇論文入選

6、基于注意力機(jī)制及多關(guān)系檢測(cè)器的小樣本物體檢測(cè)

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

本文由香港科技大學(xué)和騰訊優(yōu)圖實(shí)驗(yàn)室聯(lián)合提出。目標(biāo)檢測(cè)網(wǎng)絡(luò)已經(jīng)被廣泛應(yīng)用到安保,自動(dòng)駕駛,醫(yī)學(xué)圖像等各個(gè)領(lǐng)域。然而傳統(tǒng)的目標(biāo)檢測(cè)網(wǎng)絡(luò)需要使用大量高質(zhì)量的訓(xùn)練樣本對(duì)模型進(jìn)行訓(xùn)練。這些訓(xùn)練樣本需要大量的人力物力進(jìn)行標(biāo)注,往往無法快速獲得,所以無法將目標(biāo)檢測(cè)模型快速部署到新樣本的檢測(cè)中,而小樣本目標(biāo)檢測(cè)方法可以很好地解決這一問題。聯(lián)合團(tuán)隊(duì)提出了一種基于深度孿生網(wǎng)絡(luò)的小樣本目標(biāo)檢測(cè)模型,通過基于注意力機(jī)制的候選框網(wǎng)絡(luò),多關(guān)系檢測(cè)器以及三元組對(duì)比訓(xùn)練方法對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn),使得網(wǎng)絡(luò)能夠不對(duì)新物體重新訓(xùn)練即可應(yīng)用于新類別檢測(cè)。此外,文章中提供了一個(gè)1000類的小樣本物體檢測(cè)數(shù)據(jù)集,希望可以方便該領(lǐng)域的研究。

該聯(lián)合團(tuán)隊(duì)的工作主要有以下貢獻(xiàn):首先,使用注意力機(jī)制對(duì)物體檢測(cè)候選框進(jìn)行篩選。將待檢測(cè)新物體的特征作為濾波器在輸入圖片上進(jìn)行卷積,以此找出潛在的候選框區(qū)域。然后,使用多關(guān)系檢測(cè)器對(duì)這些候選框進(jìn)行分類以及位置調(diào)整。多關(guān)系檢測(cè)器對(duì)候選框和新物體進(jìn)行像素級(jí)、區(qū)域級(jí)和全圖級(jí)的多級(jí)關(guān)系匹配,以此找出匹配程度最高的區(qū)域作為檢測(cè)輸出。最后,構(gòu)建(目標(biāo)樣本,正樣本,負(fù)樣本)訓(xùn)練樣本三元組對(duì)模型進(jìn)行訓(xùn)練,使得網(wǎng)絡(luò)能夠同時(shí)學(xué)習(xí)到相同物體間的相似性和不同物體間的差異性,從而大大提升網(wǎng)絡(luò)在新樣本上的檢測(cè)性能。該方法在多個(gè)數(shù)據(jù)集上均取得了最好的結(jié)果,且無需在新物體上進(jìn)行任何訓(xùn)練。其基本框架圖如下:

全球計(jì)算機(jī)視覺頂會(huì)CVPR 2020論文出爐:騰訊優(yōu)圖17篇論文入選

7、基于顯著性引導(dǎo)級(jí)聯(lián)抑制網(wǎng)絡(luò)的行人重識(shí)別

Salience-Guided Cascaded Suppression Network for Person Re-identification

本文由北京大學(xué)、騰訊優(yōu)圖和南方科技大學(xué)聯(lián)合提出。利用注意力機(jī)制對(duì)全局和局部特征進(jìn)行建模,作為最終的行人表征,已成為行人再識(shí)別(Re-ID)算法的主流趨勢(shì)。這些方法潛在的局限性是,它們側(cè)重于提取最突出的特征(顯著性特征),但重新識(shí)別一個(gè)人可能依賴于不同情況下顯著性特征所掩蓋的各種其他的線索,比如身體、衣服甚至鞋子等。為了解決這一局限性,聯(lián)合團(tuán)隊(duì)提出了一種新的顯著性引導(dǎo)級(jí)聯(lián)抑制網(wǎng)絡(luò)(SCSN),該網(wǎng)絡(luò)使模型能夠挖掘多樣化的顯著性特征,并通過級(jí)聯(lián)的方式將這些特征集成融合到最終的特征表示中。

聯(lián)合團(tuán)隊(duì)的工作主要有以下貢獻(xiàn):第一、我們觀察到,以前網(wǎng)絡(luò)學(xué)習(xí)到的顯著性特征可能會(huì)阻礙網(wǎng)絡(luò)學(xué)習(xí)其他重要信息。為了解決這一局限性,引入了級(jí)聯(lián)抑制策略,該策略使網(wǎng)絡(luò)能夠逐級(jí)挖掘被其他顯著特征掩蓋的各種潛在的、有用的特征,并融合各級(jí)提取的特征作為最后的特征表示; 第二、提出一個(gè)顯著特征提取(SFE)單元,該單元可以抑制在上一級(jí)聯(lián)階段學(xué)習(xí)到的顯著特征,然后自適應(yīng)地提取其他潛在的顯著特征,以獲得行人的不同線索;第三、開發(fā)了一種有效的特征聚合策略,充分增強(qiáng)了網(wǎng)絡(luò)提取潛在顯著特征的能力。實(shí)驗(yàn)結(jié)果表明,該方法在四個(gè)大規(guī)模數(shù)據(jù)集上的性能優(yōu)于現(xiàn)有最好的方法。特別是,該方法在CUHK03數(shù)據(jù)集上比目前最好的方法提升7.4%。其基本框架圖如下:

全球計(jì)算機(jī)視覺頂會(huì)CVPR 2020論文出爐:騰訊優(yōu)圖17篇論文入選

8、概念歸因的卷積神經(jīng)網(wǎng)絡(luò)的全局解釋

Towards Global Explanations of Convolutional Neural Networks with Concept Attribution

本文由騰訊優(yōu)圖實(shí)驗(yàn)室和香港中文大學(xué)合作完成。卷積神經(jīng)網(wǎng)絡(luò)(CNN)的廣泛應(yīng)用,使得解釋其行為變得越來越重要。其中,全局解釋因其有助于理解整個(gè)樣本類別的模型預(yù)測(cè),最近引起了極大關(guān)注。但是,現(xiàn)有方法絕大多數(shù)都依賴于模型的局部逼近和對(duì)單個(gè)樣本預(yù)測(cè)的獨(dú)立研究,這使得它們無法反映出卷積神經(jīng)網(wǎng)絡(luò)的真實(shí)推理過程。聯(lián)合團(tuán)隊(duì)提出了一種創(chuàng)新的兩階段框架,即對(duì)可解釋性的攻擊(AfI),以更忠實(shí)地解釋卷積神經(jīng)網(wǎng)絡(luò)。 AfI根據(jù)用戶定義的概念的重要性來解釋模型決策。它首先進(jìn)行特征遮擋分析,該過程類似于攻擊模型以得出不同特征的重要性的過程,于是有能力學(xué)習(xí)全局解釋。然后,通過語義任務(wù)將特征重要性映射到概念重要性,下圖展示了AfI的框架結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果證實(shí)了AfI的有效性及其相比于現(xiàn)有方案的優(yōu)越性。本文中還演示了其在提供卷積神經(jīng)網(wǎng)絡(luò)理解方面的用例,例如基礎(chǔ)模型預(yù)測(cè)和模型認(rèn)知中的偏差。

全球計(jì)算機(jī)視覺頂會(huì)CVPR 2020論文出爐:騰訊優(yōu)圖17篇論文入選

9、基于注意力機(jī)制提高對(duì)抗可遷移性

Boosting the Transferability of Adversarial Samples via Attention

本文由騰訊優(yōu)圖實(shí)驗(yàn)室和香港中文大學(xué)合作完成。 深度學(xué)習(xí)模型的廣泛部署使得在實(shí)踐中評(píng)估模型的魯棒性成為必需,尤其是對(duì)于安防領(lǐng)域和安全敏感領(lǐng)域例如自動(dòng)駕駛和醫(yī)療診斷。攻擊是一種重要的衡量模型魯棒性的方式,其中針對(duì)深度網(wǎng)絡(luò)圖像分類器生成對(duì)抗圖像是最基本和公認(rèn)的任務(wù)之一。 最近,針對(duì)圖像分類器的基于遷移的黑盒攻擊引起了越來越多的興趣。這種攻擊方式,攻擊者需要基于本地代理模型來制作對(duì)抗性圖像,而沒有來自遠(yuǎn)端實(shí)際目標(biāo)的反饋信息。 在這種具有挑戰(zhàn)性的設(shè)置下,由于對(duì)所使用的本地模型的過度擬合,合成的對(duì)抗性樣本通常無法獲得良好的成績(jī)。因此,文章中提出了一種新穎的機(jī)制來減輕過度擬合的問題,從而增強(qiáng)黑盒攻擊的可遷移性。不同的網(wǎng)絡(luò)架構(gòu)例如VGG16,ResNet,Inception在識(shí)別圖片時(shí)會(huì)有相似的圖像注意力,比如都傾向于注意貓臉來識(shí)別貓?;诖?,通過模型提取特征的注意力梯度來規(guī)范對(duì)抗性示例的搜索。 這種基于注意力規(guī)約的對(duì)抗樣本搜索使得聯(lián)合團(tuán)隊(duì)可以優(yōu)先考慮攻擊可能被各種體系結(jié)構(gòu)共同關(guān)注的關(guān)鍵特征,從而促進(jìn)結(jié)果對(duì)抗實(shí)例的可遷移性。在ImageNet分類器上進(jìn)行的大量實(shí)驗(yàn)證實(shí)了文章中策略的有效性,進(jìn)一步在白盒和黑盒兩種條件下對(duì)比了最新方法,該攻擊策略都表現(xiàn)出了一致的優(yōu)越性。下圖呈現(xiàn)了我們的基于注意力機(jī)制的模型攻擊框架。

全球計(jì)算機(jī)視覺頂會(huì)CVPR 2020論文出爐:騰訊優(yōu)圖17篇論文入選

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-02-28
全球計(jì)算機(jī)視覺頂會(huì)CVPR 2020論文出爐:騰訊優(yōu)圖17篇論文入選
全球計(jì)算機(jī)視覺頂級(jí)會(huì)議CVPR2020 (IEEE Conference on Computer Vision and Pattern Recognition,

長(zhǎng)按掃碼 閱讀全文