計算機(jī)視覺世界三大頂會之一的CVPR 2021論文接收結(jié)果出爐!本次大會收到來自全球共7015篇有效投稿,最終有1663篇突出重圍被錄取,錄用率約為23.7%。本次,騰訊優(yōu)圖實驗室共有20篇論文被收錄,其中Oral論文4篇,涵蓋人臉識別、對抗攻擊、時序動作定位、視頻動作分割、無監(jiān)督人臉質(zhì)量評估等前沿領(lǐng)域。
01
基于超球流形置信度學(xué)習(xí)的人臉識別
Spherical Confidence Learning for Face Recognition
本論文已被CVPR 2021接收為Oral論文。最新的研究發(fā)現(xiàn),球形空間可以更好地匹配人臉圖像的基本幾何形狀,這一點已經(jīng)在目前最先進(jìn)的人臉識別方法中得到證實。然而,這些方法依賴于確定性的特征表達(dá),因此會遇到特征歧義性的表達(dá)難題。PFE是解決這一難題的首次嘗試。為了進(jìn)一步解決PFE應(yīng)用時的不足,我們提出了一種用于球形空間中人臉置信度學(xué)習(xí)的新穎框架。在數(shù)學(xué)上,我們將von Mises Fisher密度推廣到其r半徑對應(yīng)項,并導(dǎo)出優(yōu)化目標(biāo)的閉式解。我們從理論上表明,所提出的框架具有更好的可解釋性,進(jìn)一步推導(dǎo)出了特征融合與特征比對的數(shù)學(xué)表達(dá)式。在多個具有挑戰(zhàn)性的基準(zhǔn)上廣泛的實驗結(jié)果證實了我們的假設(shè)和理論,并展示了我們的框架在風(fēng)險控制的識別任務(wù)以及人臉驗證和識別任務(wù)中相對于先前的概率方法和常規(guī)球形確定性嵌入的優(yōu)越性能。
02
在開放的人像集合中學(xué)習(xí)3D人臉的聚合與特異化重建
Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo Collection
本論文已被CVPR 2021接收為Oral論文。非參數(shù)化的人臉建模旨在不依賴幾何假設(shè)的情況下從圖像中重建3D人臉。盡管這類方法能夠預(yù)測一定的細(xì)節(jié),但其傾向于過度依賴局部顏色表觀,且易受到噪聲的干擾。為處理該問題,本文提出一種新的聚合與特異化學(xué)習(xí)框架(LAP) 以實現(xiàn)無監(jiān)督的3D人臉建模。該方法從無約束的人像集合中隱式的解耦I(lǐng)D一致和場景特異的人臉。具體地,為學(xué)習(xí)ID一致人臉,LAP基于一種新的帶有松弛一致性損失的課程學(xué)習(xí)方法,自適應(yīng)地聚合同一身份的本征人臉元素。為了使人臉適應(yīng)于某一特異的場景,我們提出了一個新的屬性調(diào)整網(wǎng)絡(luò)以使用目標(biāo)屬性和細(xì)節(jié)修改ID一致人臉?;诒疚牡姆椒?,使得無監(jiān)督的3D人臉受益于有意義的人臉結(jié)構(gòu)信息和更高的分辨率。在公開數(shù)據(jù)庫上的大量實驗表明,與當(dāng)前最優(yōu)方法相比,LAP可以重建更好的或有競爭力的人臉幾何和紋理。
03
在圖像到圖像翻譯上實現(xiàn)層次風(fēng)格解耦
Image-to-image Translation via Hierarchical Style Disentanglement
本論文已被CVPR2021接收為Oral論文。近年來,圖像到圖像翻譯在實現(xiàn)多標(biāo)簽(以不同標(biāo)簽作為條件)和多風(fēng)格(生成多種樣式的輸出)任務(wù)中都取得了重大進(jìn)展。但是,由于未開發(fā)標(biāo)簽中的獨(dú)立性和排他性導(dǎo)致的翻譯結(jié)果不可控導(dǎo)致了這些方法的失敗。在本文中,我們提出了層次風(fēng)格解耦(HiSD)來解決此問題。具體來說,將標(biāo)簽重新排列成分層的樹狀結(jié)構(gòu),從上到下依次是獨(dú)立的標(biāo)簽,互斥的屬性和解耦的風(fēng)格。相應(yīng)地,我們設(shè)計了一種新的翻譯過程來適應(yīng)上述結(jié)構(gòu),將風(fēng)格與特定標(biāo)簽或?qū)傩詫?yīng)起來,實現(xiàn)可控的翻譯。CelebA-HQ數(shù)據(jù)集上的定性和定量結(jié)果都證明了HiSD的能力。我們希望我們的方法將作為層次風(fēng)格解耦的基準(zhǔn),幫助未來的圖像到圖像翻譯的研究。
04
基于特征校準(zhǔn)的表征批規(guī)范化方法
Representative Batch Normalization with Feature Calibration
本論文已被CVPR2021接收為Oral論文。批規(guī)范(BatchNorm,簡稱BN)已經(jīng)被視為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的默認(rèn)組件之一,盡管BN是有益于穩(wěn)定模型訓(xùn)練以及模型的整體表征能力,但是也不可避免地忽視了訓(xùn)練數(shù)據(jù)個體之間的特征差異。我們提出了一個簡單有效的特征校準(zhǔn)策略用來增強(qiáng)數(shù)據(jù)個體的特征表達(dá)能力,并幾乎不增加額外的耗時。我們提出的這個中心校準(zhǔn)方法可以增強(qiáng)有效的特征信息,而減少噪聲特征??s放校準(zhǔn)方面,則能夠通過約束特征強(qiáng)度以學(xué)習(xí)得到一個更加穩(wěn)定的特征分布。我們將上述提出的BN變種方法,命名為Representative BN,這一方法能夠幫助提升多種計算機(jī)視覺任務(wù)的效果,如分類、檢測和分割等。
05
基于對比學(xué)習(xí)的緊湊圖像去霧方法
Contrastive Learning for Compact Single Image Dehazing
本文提出了一種基于對比學(xué)習(xí)的新穎對比正則化(CR)技術(shù),以利用模糊圖像和清晰圖像的信息分別作為負(fù)樣本和正樣本。CR確保在表示空間中將還原后的圖像拉到更接近清晰圖像,并推到遠(yuǎn)離朦朧圖像的位置。
此外,考慮到性能和內(nèi)存存儲之間的權(quán)衡,開發(fā)了一個基于類自動編碼器(AE)框架的緊湊型除霧網(wǎng)絡(luò),可分別受益于自適應(yīng)地保存信息流和擴(kuò)展接收域以提高網(wǎng)絡(luò)的轉(zhuǎn)換能力。將具有自動編碼器和對比正則化功能的除霧網(wǎng)絡(luò)稱為AECR-Net,在合成和真實數(shù)據(jù)集上進(jìn)行的廣泛實驗表明,我們的AECR-Net超越了最新技術(shù)。
06
基于相似度分布距離的無監(jiān)督人臉質(zhì)量評估
SDD-FIQA: Unsupervised Face Image Quality Assessment with Similarity Distribution Distance
近年來為了確保非受限場景的穩(wěn)定性和可靠性,人臉質(zhì)量評估(Face Image Quality Assessment, FIQA)已經(jīng)成為人臉識別系統(tǒng)不可或缺的一部分。這種方式只使用了類內(nèi)信息,而忽略了類間信息。在本工作中,我們認(rèn)為高質(zhì)量的人臉應(yīng)該與其類內(nèi)樣本相似并與其他樣本不相似,因此提出了一種新的無監(jiān)督FIQA方法,該方法結(jié)合了相似分布距離進(jìn)行人臉圖像質(zhì)量評估(SDD-FIQA)。我們通過計算正負(fù)樣本相似度分布間的Wasserstein距離生成高質(zhì)量的偽標(biāo)簽,并以此訓(xùn)練用于質(zhì)量預(yù)測的回歸網(wǎng)絡(luò)。實驗結(jié)果表明,我們提出的SDD-FIQA顯著超過了SOTA方法。同時,我們的方法在不同的識別系統(tǒng)上顯示出良好的泛化性。后續(xù)我們將開源該工作。
07
基于實例誤報一致性的人臉識別公平性提升方法
Consistent Instance False Positive Improves Fairness in Face Recognition
人群偏差是實際人臉識別系統(tǒng)中的重大挑戰(zhàn)?,F(xiàn)有方法嚴(yán)重依賴準(zhǔn)確的人群標(biāo)簽,還不夠通用。于是,我們提出了基于誤報率懲罰的損失函數(shù),它通過增加實例誤報率(FPR)的一致性來減輕人臉識別偏差。具體來說,我們首先將實例FPR定義為高于統(tǒng)一閾值的非目標(biāo)相似度數(shù)量與非目標(biāo)相似度總數(shù)之間的比率。通過給定總FPR,可以估計出統(tǒng)一閾值,然后將實例FPR與總FPR的比例懲罰項引入基于softmax的損失函數(shù)分母中。實例FPR越大,懲罰越大。利用這種不平等性的懲罰,使得實例FPR具有一致性。該方法不需要人群標(biāo)簽,并可減輕群體之間因各種屬性劃分的偏差,而這些屬性在訓(xùn)練中無需預(yù)先定義,在主流實驗基準(zhǔn)上的廣泛測試結(jié)果表明,此方法已達(dá)到了SOTA。
08
基于高效訓(xùn)練替代模型的黑盒攻擊方法
Delving into Data: Effectively Substitute Training for Black-box Attack
在處理對抗樣本時,深度神經(jīng)網(wǎng)絡(luò)顯得非常敏感,容易輸出錯誤的預(yù)測結(jié)果。而在黑盒攻擊中,攻擊者并不知道被攻擊目標(biāo)模型的內(nèi)部結(jié)構(gòu)和權(quán)重,因此訓(xùn)練一個替代模型去模擬目標(biāo)模型內(nèi)部結(jié)構(gòu)就是一種非常高效的方法。
在本文,我們提出了一個全新的替代模型訓(xùn)練方法,即在替代模型訓(xùn)練過程中引入更好的數(shù)據(jù)分布。首先是提出的多樣性,更加多樣性的訓(xùn)練數(shù)據(jù)分布可以獲取更加豐富的特征表述;其次,提出一個對抗替換模型訓(xùn)練框架,將分布在分界面的對抗樣本引入到替代模型訓(xùn)練過程中。通過結(jié)合兩種思路,可以進(jìn)一步提升替代模型和目標(biāo)模型之間的相似性,從而提升黑盒攻擊的成功率。實驗結(jié)果表明,我們的方法達(dá)到了SOTA,相關(guān)的可視化結(jié)果也證明了所提出方法的優(yōu)勢。
09
學(xué)習(xí)復(fù)原有霧視頻:一種新的真實數(shù)據(jù)集及算法
Learning to Restore Hazy Video: A New Real-World Dataset and A New Method
現(xiàn)有的深度學(xué)習(xí)去霧方法多采用單幀去霧數(shù)據(jù)集進(jìn)行訓(xùn)練和評測,從而使得去霧網(wǎng)絡(luò)只能利用當(dāng)前有霧圖像的信息恢復(fù)清晰圖像。另外一方面,理想中的視頻去霧算法卻可以使用相鄰的有霧幀來獲取更多的時空冗余信息,從而得到更好的去霧效果,但由于視頻去霧數(shù)據(jù)集的缺失,視頻去霧算法鮮有研究。
為了實現(xiàn)視頻去霧算法的監(jiān)督訓(xùn)練,我們首次提出了一組真實的視頻去霧數(shù)據(jù)集(REVIDE)。使用精心設(shè)計的視頻采集系統(tǒng),成功地在同一場景進(jìn)行兩次采集,從而同時記錄下真實世界中成對且完美對齊的有霧和無霧視頻??紤]到獲取有霧視頻幀間時空冗余信息的挑戰(zhàn)性,我們還設(shè)計了一個由置信度引導(dǎo)的改進(jìn)型可變形卷積網(wǎng)絡(luò)(CG-IDN)來處理有霧視頻。實驗證明,REVIDE數(shù)據(jù)集中采集的有霧場景遠(yuǎn)比合成霧更為貼近真實場景,并且我們提出的方法也優(yōu)于現(xiàn)有的各種去霧算法。
10
基于顯著邊界特征學(xué)習(xí)的無錨框時序動作定位
Learning Salient Boundary Feature for Anchor-free Temporal Action Localization
時序動作定位在視頻理解中仍然是一個備受挑戰(zhàn)的任務(wù)。該任務(wù)的目的是在一個未剪輯且較長的視頻中找到每個動作的起始與結(jié)束時間,以及改動作的分類結(jié)果。和預(yù)設(shè)錨框或者枚舉分?jǐn)?shù)的方式對比,無錨框的方法無需依賴一些冗余的超參數(shù),顯得更輕量。
因此,我們提出了第一個高效高性能且完全無錨框的時序動作定位方法。模型包括:(1) 端到端可訓(xùn)練的基礎(chǔ)預(yù)測器;(2) 基于顯著性優(yōu)化的模塊,該模塊通過一種新穎的邊界池化方法去為每個時序動作提名獲取更有價值的邊界特征;(3) 使用邊界一致性約束來保證我們的模型能夠找到精準(zhǔn)的邊界信息。另外,在THUMOS14數(shù)據(jù)集上,該方法相比于之前基于錨框或運(yùn)動分?jǐn)?shù)指導(dǎo)的方法在性能上有顯著的提升,在ActivityNet v1.3數(shù)據(jù)集上也取得了最好的結(jié)果。
11
通過添加背景來去除背景影響:背景魯棒的自監(jiān)督視頻表征學(xué)習(xí)
Removing the Background by Adding the Background: Towards a Background Robust Self-supervised Video Representation Learning
自監(jiān)督學(xué)習(xí)通過從數(shù)據(jù)本身來獲取監(jiān)督信號,在視頻表征學(xué)習(xí)領(lǐng)域展現(xiàn)出了巨大潛力。由于一些主流的方法容易受到背景信息的欺騙和影響,為了減輕模型對背景信息的依賴,我們提出通過添加背景來去除背景影響。具體而言,給定一個視頻,我們從中隨機(jī)選擇一個靜態(tài)幀,并將其添加到其它的每一幀中,以構(gòu)建一個分散注意力的視頻樣本,然后要求模型拉近 分散注意力的視頻樣本與原始視頻樣本之間的特征距離,如此使得模型能夠更好地抵抗背景的影響,而更多地關(guān)注運(yùn)動變化。我們的方法命名為背景消除(Background Erasing,BE)。值得注意的是,我們的方法可以便捷地添加到大多數(shù)SOTA方法中。BE在MoCo的基礎(chǔ)上,對具有嚴(yán)重背景偏見的數(shù)據(jù)集UCF101和HMDB51,分別帶來了16.4%和19.1%的提升,而對具有較小背景偏見的數(shù)據(jù)集Diving48數(shù)據(jù)集帶來了14.5%的提升。
12
基于自監(jiān)督三維重建和重投影的紋理不敏感行人重識別
Self-supervised 3D Reconstruction and Re-Projection for Texture Insensitive Person Re-identification
眾所周知,行人重識別(Person ReID)高度依賴于服裝紋理等視覺信息。但是,實際應(yīng)用中存在多種紋理混淆的情況,這超出了大多數(shù)現(xiàn)有ReID方法的能力范圍。因此,我們提出利用人的三維形狀和身材信息來提高ReID對紋理混淆的魯棒性,而不僅依賴于圖像紋理信息。現(xiàn)有的person ReID使用的形狀學(xué)習(xí)模型要么忽略了人的真實三維信息,要么需要額外的物理設(shè)備來采集三維源數(shù)據(jù)。在本文中,我們提出了一種新穎的學(xué)習(xí)框架,即結(jié)合三維形狀學(xué)習(xí)(3DSL)模型: 加入三維人體重建作為正則化,直接從二維圖像中提取紋理不敏感的3D模型編碼信息?;谡齽t化的三維重建迫使ReID模型將三維形狀信息從視覺紋理中解耦,獲得具有判別性的三維形狀ReID特征。為了解決缺乏三維ground truth的問題,我們提出了一種對抗式自我監(jiān)督投影(ASSP)方法以擬合不需要ground truth監(jiān)督訓(xùn)練的三維重建模塊。在通用ReID數(shù)據(jù)集和紋理混淆數(shù)據(jù)集上的大量實驗驗證了我們模型的有效性。
13
基于結(jié)構(gòu)信息保持的弱監(jiān)督目標(biāo)定位
Unveiling the Potential of Structure-Preserving for Weakly Supervised Object Localization
由于僅使用分類任務(wù)對目標(biāo)進(jìn)行定位的不足,弱監(jiān)督目標(biāo)定位(WSOL)仍然存在一些挑戰(zhàn)。已有的工作通常利用空間正則化策略提高目標(biāo)定位精度,但往往忽略了如何從訓(xùn)練好的分類網(wǎng)絡(luò)中提取目標(biāo)結(jié)構(gòu)信息。
本文提出了一種兩階段的方法,稱為結(jié)構(gòu)保持激活(SPA),以充分利用WSOL卷積特征中包含的結(jié)構(gòu)信息。在第一階段,設(shè)計了受限激活模塊(RAM)來緩解由分類網(wǎng)絡(luò)引起的結(jié)構(gòu)缺失問題。該模塊基于觀察:無約束的分類激活圖和全局平均池化層導(dǎo)致網(wǎng)絡(luò)僅關(guān)注目標(biāo)的局部區(qū)域。在第二階段,提出了一種稱為自相關(guān)圖生成(SCG)模塊的后處理方法,基于第一階段獲取的激活圖獲得結(jié)構(gòu)保持的定位圖。具體地,我們利用高階自相關(guān)(HSC)提取保留在模型中的固有結(jié)構(gòu)信息,之后聚合多個位置的HSC得到精確的目標(biāo)定位結(jié)果。在包括CUB-200-2011和ILSVRC在內(nèi)的兩個公開基準(zhǔn)上進(jìn)行的大量實驗表明,與基準(zhǔn)方法相比,本文提出的SPA方法取得了顯著的性能提升。
14
RSTNet: 基于可區(qū)分視覺詞和非視覺詞的自適應(yīng)注意力機(jī)制的圖像描述生成模型
RSTNet: Captioning with Adaptive Attention on Visual and Non-Visual Words
本文提出了一個視覺信息增強(qiáng)和多模態(tài)信息敏感的Transformer結(jié)構(gòu),利用網(wǎng)格與網(wǎng)格之間相對位置的幾何關(guān)系解決了特征展平操作造成的空間信息損失的問題,并且利用一個額外的注意力層度量視覺特征與語義特征的貢獻(xiàn),從而充分引導(dǎo)圖像描述中視覺詞和非視覺詞的生成,在該任務(wù)的線上線下公開數(shù)據(jù)集上均證明了此模型的優(yōu)勢。
15
聯(lián)合物體和物質(zhì)挖掘的弱監(jiān)督全景分割
Toward Joint Thing-and-Stuff Mining for Weakly Supervised Panoptic Segmentation
全景分割旨在將圖像分別分割為物體類別的目標(biāo)實例和物質(zhì)類別的語義內(nèi)容。這種復(fù)雜的全場景解析任務(wù)需要昂貴的實例級和像素級注釋來進(jìn)行模型訓(xùn)練。迄今為止,僅用圖像級標(biāo)簽學(xué)習(xí)的基于弱監(jiān)督學(xué)習(xí)的全景分割(WSPS)仍未被探索。
本文為弱監(jiān)督全景分割提出了一個有效的聯(lián)合物體與物質(zhì)挖掘(Jointly Thing-and-Stuff Mining, JTSM)框架,明確地推理了目標(biāo)前景和物質(zhì)背景之間的語義和共現(xiàn)關(guān)系。為此,算法設(shè)計了一種新穎的感興趣掩模池化(Mask of Interest Pooling, MoIPool),用于提取任意形狀分割的固定尺寸的像素精確特征圖。MoIPool使全景挖掘分支能夠利用多實例學(xué)習(xí)(Multiple Instance Learning, MIL),并以統(tǒng)一的方式識別物體和物質(zhì)。算法引入并行實例和語義分割分支,通過自訓(xùn)練進(jìn)一步修正的分割掩模,其讓從全景挖掘中挖掘的掩模和以自底向上的目標(biāo)線索協(xié)作生成偽真實標(biāo)簽,以提高空間一致性和輪廓定位。
16
基于Transformers 從序列到序列的角度重新思考語義分割
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
我們希望為語義分割方法提供另一種思路,將語義分割轉(zhuǎn)變?yōu)樾蛄械叫蛄械念A(yù)測任務(wù)。在本文中,我們使用transformer(不使用卷積和降低分辨率)將圖像編碼為一系列patch序列。transformer的每一層都進(jìn)行了全局的上下文建模,結(jié)合常規(guī)的Decoder模塊,我們得到了一個強(qiáng)大的語義分割模型,稱之為Segmentation transformer(SETR)。大量實驗表明,SETR在ADE20K(50.28%mIoU),Pascal Context(55.83%mIoU)上達(dá)到SOTA,并在Cityscapes上取得了較好結(jié)果。
17
通過元卷積核實現(xiàn)基于動態(tài)對齊的小樣本學(xué)習(xí)
Learning Dynamic Alignment via Meta-filter for Few-shot Learning
小樣本學(xué)習(xí)(FSL)旨在通過利用極為有限的支持集樣本來適應(yīng)所學(xué)知識,從而識別新的樣本,是計算機(jī)視覺中的一個重要開放問題。小樣本學(xué)習(xí)中用于特征對齊的大多數(shù)現(xiàn)有方法僅考慮圖像級或空間級對齊,而忽略了通道差異。
在本文,我們提出了一種動態(tài)對齊方式,可根據(jù)不同的本地支持信息有效地突出顯示查詢區(qū)域和渠道。具體而言,這是通過首先動態(tài)采樣以輸入的少量鏡頭為條件的特征位置的鄰域來實現(xiàn)的,基于此,我們可以進(jìn)一步預(yù)測依賴于位置和依賴于通道的動態(tài)元濾波器用于將查詢功能與特定于位置和特定于通道的知識對齊。此外,我們采用神經(jīng)網(wǎng)絡(luò)常微分方程(Neural ODE)來實現(xiàn)更精確的對齊控制。通過上述方法,我們的模型能夠更好地捕獲支持集樣本的的細(xì)粒度上下文語義。
18
基于時空特征可控插值的視頻超分辨率網(wǎng)絡(luò)
Temporal Modulation Network for Controllable Space-Time Video Super-Resolution
在本文,我們提出了一種稱之為TMNet的時間建模網(wǎng)絡(luò),該模型能夠?qū)σ曨l中間幀任意插值高分辨率幀。具體而言,我們提出了TMB模塊用以調(diào)節(jié)可變形卷積作用在可控特征插值中。為了更好的挖掘時間信息,我們還提出了一個基于局部特征比對的LFC模塊,該模塊與雙向可變形ConvLSTM模塊一同作用,用以提取視頻中的短時和長時運(yùn)動信息。在3個權(quán)威標(biāo)準(zhǔn)數(shù)據(jù)集上我們提出的方法都比過去STVSR方法在效率和效果上都要更加好,文中的消融實驗比對進(jìn)一步驗證了我們創(chuàng)新點的貢獻(xiàn)。
#FormatImgID_16#
19
從全局到局部:面向視頻動作分割的高效網(wǎng)絡(luò)結(jié)構(gòu)搜索
Global2Local: Efficient Structure Search for Video Action Segmentation
為了回答“是否可以通過高效地搜索不同感受野的之間的組合來替代手工設(shè)計的模式呢?”的問題,在本文中,我們提出一種基于從全局到局部的搜索策略來尋找更合適的感受野組合。具體而言,我們的搜索策略將利用全局搜索的優(yōu)勢來找到粗粒度的參數(shù)組合,而后在利用局部搜索來精細(xì)化感受野的組合模式。值得指出的是,全局搜索并非是通過手工設(shè)計模式來尋找潛在的粗粒度參數(shù)組合。在全局搜索的基礎(chǔ)上,我們將會使用一種基于期望引導(dǎo)迭代的方式來有效地精修參數(shù)組合。最后,我們的這一結(jié)果可以即插即用地使用在當(dāng)前動作分割的模型中,并取得了SOTA的效果。很快我們也將開源我們的代碼實現(xiàn)。
20
基于特征間高階關(guān)系挖掘的細(xì)粒度識別方法
Graph-based High-Order Relation Discovery for Fine-grained Recognition
細(xì)粒度識別的主要目的是通過學(xué)習(xí)類別間區(qū)分性特征表達(dá)來分辨表觀高度相似對象,但一般情況下,現(xiàn)有的大多數(shù)工作在背景復(fù)雜下效果不穩(wěn)定,且忽略了不同語義特征之間的內(nèi)在聯(lián)系。對此,我們提出一種高效的基于圖的關(guān)系挖掘方法來構(gòu)建高階關(guān)系間的上下文理解。該方法首先通過特征間語義和位置感知來構(gòu)建高維特征庫(feature bank),同時進(jìn)行正則化約束。其次本文提出一種基于圖的語義分組方法(graph grouping),將高維特征映射到低維空間中,保留其中高區(qū)分性特征。在訓(xùn)練過程中,本文還提出一種分組學(xué)習(xí)策略(group-wise learning),對特征聚類中心進(jìn)行約束。通過以上三個模塊的協(xié)作,該方法可學(xué)習(xí)到細(xì)粒度類別間更豐富的區(qū)分性信息。實驗結(jié)果表明,該方法在4個細(xì)粒度數(shù)據(jù)集上均超過SOTA。
CVPR 作為計算機(jī)視覺領(lǐng)域的頂會之一,每年錄取的論文幾乎都代表了本年度計算機(jī)視覺領(lǐng)域最新、最高科研水平以及未來發(fā)展趨勢。
此次入選了20篇論文,也是對騰訊優(yōu)圖實驗室現(xiàn)階段科研及創(chuàng)新能力的一種認(rèn)可。未來,優(yōu)圖將繼續(xù)努力,為大家?guī)砀嗫赡艿?ldquo;視”界。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )