騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

計(jì)算機(jī)視覺世界三大頂會(huì)之一的ICCV 2021論文接收結(jié)果出爐!本次大會(huì)收到來自全球共6236篇有效投稿,最終有1617篇突出重圍被錄取,錄用率約為25.9%。此次ICCV 2021接收的論文分為檢測(cè)、分割、跟蹤、視覺定位、底層圖像處理、圖像視頻檢索、三維視覺等多個(gè)方向。本次騰訊優(yōu)圖實(shí)驗(yàn)室共有17篇論文被收錄,其中Oral論文2篇,涵蓋跨模態(tài)檢索、分割、行人識(shí)別、神經(jīng)網(wǎng)絡(luò)、人群計(jì)數(shù)、車輛識(shí)別、物體識(shí)別、視頻偏好推理、多標(biāo)簽識(shí)別等前沿領(lǐng)域。

以下為入選論文:

01 基于Wasserstein耦合圖學(xué)習(xí)的跨模態(tài)檢索

Wasserstein Coupled Graph Learning for Cross-Modal Retrieval

圖在跨模態(tài)圖像文本的理解中發(fā)揮著重要作用,因?yàn)閳D可以表征圖像文本的內(nèi)在結(jié)構(gòu),而這種結(jié)構(gòu)對(duì)于跨模態(tài)相似性的度量具有很好的魯棒性。在本文中,我們提出了一種基于Wasserstein耦合圖學(xué)習(xí)的方法來處理跨模態(tài)檢索任務(wù)。首先,我們分別根據(jù)兩個(gè)輸入的跨模態(tài)樣本構(gòu)建圖,并通過相應(yīng)的圖編碼器提取魯棒特征。然后,構(gòu)建一個(gè)Wasserstein耦合字典用于進(jìn)一步的特征學(xué)習(xí),其中該字典包含多組對(duì)應(yīng)的圖鍵值,并且每個(gè)鍵值對(duì)應(yīng)一種模態(tài)?;谠擇詈献值?,可以通過Wasserstein圖嵌入的方式將輸入圖轉(zhuǎn)換到字典空間中實(shí)現(xiàn)相似性度量。所提出的Wasserstein圖嵌入方法通過最優(yōu)傳輸捕獲輸入圖與每個(gè)對(duì)應(yīng)鍵值之間的圖相關(guān)性,從而可以很好地表征圖之間的結(jié)構(gòu)關(guān)系。為了進(jìn)一步促進(jìn)圖的判別性學(xué)習(xí),我們對(duì)耦合字典的圖鍵值專門定義了一個(gè)基于Wasserstein度量的判別損失函數(shù),該損失函數(shù)可以使對(duì)應(yīng)的鍵值更加緊湊,非對(duì)應(yīng)的鍵值更加分散。實(shí)驗(yàn)結(jié)果證明了我們所提出的方法的有效性。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

02簡(jiǎn)筆畫監(jiān)督語義分割推理

Scribble-Supervised Semantic Segmentation Inference

本文提出了漸進(jìn)分割推理框架(PSI)來解決簡(jiǎn)筆畫監(jiān)督的語義分割任務(wù)。借助于潛在的上下文依賴性,我們?cè)O(shè)計(jì)封裝了上下文模式傳播和語義標(biāo)簽傳播這兩條主要線索來增強(qiáng)并改善弱監(jiān)督像素級(jí)分割結(jié)果。在上下文模式傳播中,不同細(xì)粒度的上下文模式互相關(guān)聯(lián)并通過圖模型傳遞模式信息,以此來增強(qiáng)像素標(biāo)簽預(yù)測(cè)的置信推理。進(jìn)一步地,依賴于已估計(jì)像素的高置信度,初始標(biāo)注點(diǎn)的標(biāo)簽信息通過自適應(yīng)學(xué)習(xí)策略擴(kuò)散傳播至圖上的其他區(qū)域。上下文模式傳播和語義標(biāo)簽傳播這兩條線索最終在像素級(jí)標(biāo)簽推理中被建模成一個(gè)閉環(huán)的更新過程。大量的實(shí)驗(yàn)驗(yàn)證了我們提出的PSI框架的有效性,同時(shí)該方法也在兩個(gè)公開的簡(jiǎn)筆畫分割數(shù)據(jù)集上取得了優(yōu)越的性能。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

03 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)解耦

Architecture Disentanglement for Deep Neural Networks

(此篇論文被收錄為Oral)

理解深度神經(jīng)網(wǎng)絡(luò)的內(nèi)部機(jī)理對(duì)神經(jīng)網(wǎng)絡(luò)提供可信的應(yīng)用十分重要?,F(xiàn)有的研究主要聚焦于如何將具體的語義與單神經(jīng)元或單層相關(guān)聯(lián),忽略了網(wǎng)絡(luò)的整體推理過程的解釋。本文提出了神經(jīng)網(wǎng)絡(luò)解耦這個(gè)概念,旨在將具體語義與解耦的子結(jié)構(gòu)相關(guān)聯(lián),從而理解網(wǎng)絡(luò)從輸入到輸出的整體推理過程。本文實(shí)驗(yàn)揭示了神經(jīng)網(wǎng)絡(luò)可以按照任務(wù)被拆解成子結(jié)構(gòu),并且最高層語義并不一定出現(xiàn)在神經(jīng)網(wǎng)絡(luò)最深層。最后,本文探討了相似子結(jié)構(gòu)是導(dǎo)致神經(jīng)網(wǎng)絡(luò)分類錯(cuò)誤的原因之一。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

04基于并列檢測(cè)分割學(xué)習(xí)的弱監(jiān)督實(shí)例分割

Parallel Detection-and-Segmentation Learning for Weakly Supervised Instance Segmentation

本文從自頂而下和自底向上的實(shí)例分割方法啟發(fā),為弱監(jiān)督實(shí)例分割任務(wù)提出一種統(tǒng)一平行檢測(cè)分割的學(xué)習(xí)框架。特別地,檢測(cè)模塊和常見的弱監(jiān)督目標(biāo)檢測(cè)一樣,而分割模塊采用自監(jiān)督學(xué)習(xí)來學(xué)習(xí)類別無關(guān)的前景分割,然后再通過自訓(xùn)練來逐步獲得特定類別的分割結(jié)果。最后,本文在多個(gè)數(shù)據(jù)集上驗(yàn)證了該算法的有效性。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

05行人重識(shí)別的遮擋感知掩碼網(wǎng)絡(luò)

Occlude Them All: Occlusion-Aware Mask Network for Person Re-identification

隨著深度學(xué)習(xí)時(shí)代的到來,行人重識(shí)別(ReID)取得了顯著的成就。然而,大多數(shù)方法僅解決了基于完整圖片的行人重識(shí)別問題。但在真實(shí)世界的場(chǎng)景常常涉及被遮擋的行人,這類行人圖片提供部分視覺外觀,所以降低了 ReID 的準(zhǔn)確性。一種常見的策略是通過輔助模型定位可見的身體部位,但是輔助模型的訓(xùn)練數(shù)據(jù)和待解決的數(shù)據(jù)存在領(lǐng)域偏差等,效果不佳。為了避免在遮擋ReID問題 中使用額外的有問題的模型,我們提出了 OcclusionAware Mask Network (OAMN)。該方法提出了一個(gè)基于注意力機(jī)制的的掩碼模型,它需要有遮擋標(biāo)簽的數(shù)據(jù)來指導(dǎo)訓(xùn)練,為此,我們提出了一種新的適用于遮擋問題的數(shù)據(jù)增強(qiáng)方案,該方案可為任何全身數(shù)據(jù)集生成多樣化且精確標(biāo)記的遮擋。我們所提出的方案比現(xiàn)有的策略更適合包含有限種遮擋類型的現(xiàn)實(shí)世界情景。我們還提供了一種新穎的遮擋統(tǒng)一方案。上述三個(gè)模型組件使現(xiàn)有的注意力機(jī)制能夠準(zhǔn)確地捕捉各種遮擋情形下的身體部位。我們?cè)诙鄠€(gè)行人重識(shí)別的benchmarks上進(jìn)行了各種綜合實(shí)驗(yàn),證明了OAMN方法優(yōu)于現(xiàn)有的SOTA方法。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

06 夜間場(chǎng)景高效自監(jiān)督的單目深度估計(jì)方法

Regularizing the Night-time Weirdness: Efficient Self-supervised Monocular Depth Estimation in the Dark

單目深度估計(jì)旨在從單張圖像或單目視頻中預(yù)測(cè)深度信息。近來一些自監(jiān)督方法在KITTI和Cityscapes上獲得了出色的效果。然而,在更具挑戰(zhàn)性的黑夜場(chǎng)景中,由于低能見度和極端光照導(dǎo)致的弱紋理和幀間不一致性,這些方法往往不能得到可用的結(jié)果。為了處理這個(gè)問題,本文提出了一個(gè)新的框架:首先提出基于先驗(yàn)的正則化方法以學(xué)習(xí)深度信息的先驗(yàn)分布,避免出現(xiàn)異常結(jié)果;其次,提出了映射一致的圖像增強(qiáng)模塊以提升圖像可見度和對(duì)比度,同時(shí)保持幀間一致性;最后,提出了基于統(tǒng)計(jì)的掩膜策略以去除弱紋理區(qū)域在訓(xùn)練中帶來的干擾。實(shí)驗(yàn)結(jié)果證明了本文方法的有效性,同時(shí)在兩個(gè)常用的黑夜數(shù)據(jù)集上獲得了當(dāng)前最優(yōu)的效果。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

07基于耦合語義注意力的弱監(jiān)督目標(biāo)定位

TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization

弱監(jiān)督目標(biāo)定位是指僅根據(jù)圖像層面的類別標(biāo)簽學(xué)習(xí)目標(biāo)位置的任務(wù)?;诰矸e神經(jīng)網(wǎng)絡(luò) (CNN)的分類模型往往僅會(huì)激活目標(biāo)的局部判別區(qū)域,而忽略完整的目標(biāo)范圍,稱為局部激活問題。在這篇文章中,我們認(rèn)為局部激活問題是由于CNN的內(nèi)在特性導(dǎo)致。CNN由一系列卷積操作組成,導(dǎo)致模型僅具有局部的感受野,無法獲取長(zhǎng)距離的特征依賴性?;诖耍覀兲岢鑫覀兲岢龌赥ransformer的耦合語義類別激活圖(TS-CAM)方法,借助自注意力機(jī)制提取長(zhǎng)距離特征相似性。TS-CAM 首先將圖像分割為一系列子塊,通過位置編碼學(xué)習(xí)不同子塊間全局的注意力。之后,對(duì)每個(gè)子塊進(jìn)行重新排列得到得到類別語義圖。最后,融合模型學(xué)習(xí)的全局注意力圖與類別語義圖得到類別激活圖。在 ILSVRC/CUB-200-2011 數(shù)據(jù)集上的實(shí)驗(yàn)表明,TS-CAM 的性能超過其他基于CNN-CAM結(jié)構(gòu)的方法約 7.1%/27.1%,達(dá)到SOTA。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

08 基于異質(zhì)關(guān)系互補(bǔ)的車輛重識(shí)別方法

Heterogeneous Relational Complement for Vehicle Re-identification

在車輛重識(shí)別任務(wù)中,難點(diǎn)是從不同角度的攝像頭所拍攝的圖片中,準(zhǔn)確地尋找出相同的車輛,而要有效地解決該問題,需要網(wǎng)絡(luò)能夠?qū)W習(xí)到車輛在不同角度的不變特征。為了能夠獲得這個(gè)魯棒的表征,本文提出一種新型的異質(zhì)關(guān)系互補(bǔ)網(wǎng)絡(luò)(HRCN),該網(wǎng)絡(luò)將特定區(qū)域特征和跨層特征作為增補(bǔ)特征,來增強(qiáng)高層表達(dá)??紤]到這些特征存在異質(zhì)性,各個(gè)特征之間的分布特征以及語義信息都不盡相同,為此本文在HRCN中設(shè)計(jì)一個(gè)圖關(guān)系模塊,將這些異質(zhì)特征嵌入到統(tǒng)一的特征空間。此外,本文提出一種新的評(píng)價(jià)指標(biāo)Cross-camera Generalization Measure (CGM),相較CMC和mAP,CGM具備更強(qiáng)的位置敏感性以及更好的跨攝像頭泛化懲罰。實(shí)驗(yàn)結(jié)果表明HRCN在VehicleID和VeRi-776數(shù)據(jù)集上均達(dá)到state-of-the-art。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

09 重新思考人群中的計(jì)數(shù)和定位問題:一種完全基于點(diǎn)的全新框架

Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework

( 此篇論文被收錄為Oral)

相比僅僅估計(jì)人群中的總?cè)藬?shù),在人群中定位每個(gè)個(gè)體更為切合后續(xù)高階人群分析任務(wù)的實(shí)際需求。但是,已有的基于定位的解決方法依賴于某些中間表示(如密度圖或者偽目標(biāo)框)作為學(xué)習(xí)目標(biāo),這不光容易引入誤差,而且是一種反直覺的做法。本文提出了一種完全基于點(diǎn)的全新框架,可同時(shí)用于人群計(jì)數(shù)和個(gè)體定位。針對(duì)基于該全新框架的方法,我們不滿足于僅僅量化圖像級(jí)別的絕對(duì)計(jì)數(shù)誤差,因此我們提出了一種全新的度量指標(biāo)即密度歸一化平均精度,來提供一個(gè)更全面且更精準(zhǔn)的性能評(píng)價(jià)方案。此外,作為該框架一個(gè)直觀解法,我們給出了一個(gè)示例模型,叫做點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)(P2PNet)。P2PNet忽略了所有冗余步驟,直接預(yù)測(cè)一系列人頭點(diǎn)的集合來定位圖像中的人群個(gè)體,這完全與真實(shí)人工標(biāo)注保持一致。通過深入分析,我們發(fā)現(xiàn)實(shí)現(xiàn)該方法的一個(gè)核心策略是為預(yù)測(cè)候選點(diǎn)分配最優(yōu)的學(xué)習(xí)目標(biāo),并通過基于匈牙利算法的一對(duì)一匹配策略來完成了這一關(guān)鍵步驟。實(shí)驗(yàn)證明,P2PNet不光在人群計(jì)數(shù)基準(zhǔn)上顯著超越了已有SOTA方法,還實(shí)現(xiàn)了非常高的定位精度。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

10 從異質(zhì)到一致:深入研究人群計(jì)數(shù)中的計(jì)數(shù)區(qū)間劃分問題

Uniformity in Heterogeneity: Diving Deep into Count Interval Partition for Crowd Counting

近期,人群計(jì)數(shù)任務(wù)中學(xué)習(xí)目標(biāo)不準(zhǔn)確的問題得到了日益的關(guān)注。受以往少數(shù)工作的啟發(fā),我們摒棄了直接預(yù)測(cè)計(jì)數(shù)值本身的思路,而是通過預(yù)測(cè)計(jì)數(shù)值所在的預(yù)設(shè)區(qū)間來解決這個(gè)問題。然而,不合適的區(qū)間劃分會(huì)使得來自不同計(jì)數(shù)區(qū)間的圖像塊所貢獻(xiàn)的計(jì)數(shù)誤差非常不均衡,并進(jìn)一步導(dǎo)致較差的計(jì)數(shù)精度。因此,我們提出了一個(gè)新穎的計(jì)數(shù)區(qū)間劃分標(biāo)準(zhǔn)叫做均勻誤差準(zhǔn)則(UEP),該準(zhǔn)則可以使得來自不同計(jì)數(shù)區(qū)間的計(jì)數(shù)誤差貢獻(xiàn)盡可能相等從而來最小化預(yù)測(cè)風(fēng)險(xiǎn)。進(jìn)一步地,為了緩解計(jì)數(shù)值量化過程中不可避免引入的數(shù)值量化誤差,我們提出了平均計(jì)數(shù)代理準(zhǔn)則(MCP)。MCP準(zhǔn)則為每個(gè)計(jì)數(shù)區(qū)間選取最優(yōu)的計(jì)數(shù)代理值來表示所有該區(qū)間的樣本在推理過程中的預(yù)測(cè)計(jì)數(shù)值,這使得圖像級(jí)別的整體期望離散化誤差可被忽略不計(jì)。據(jù)我們所知,本工作是第一個(gè)深入探究此類區(qū)間分類任務(wù),并且針對(duì)其區(qū)間劃分問題給出有效解決方案的。根據(jù)以上所提的可被理論證明的準(zhǔn)則,我們?cè)O(shè)計(jì)了一個(gè)簡(jiǎn)單高效的模型,稱為UEPNet,該模型在多個(gè)權(quán)威數(shù)據(jù)集上達(dá)到了SOTA的精度。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

11 用于決策黑盒模型的自適應(yīng)歷史驅(qū)動(dòng)攻擊

Adaptive History-driven Attack for Decision-based Black-box Models

基于決策的黑盒攻擊是指在只有目標(biāo)模型的 top-1 標(biāo)簽可用時(shí)構(gòu)造對(duì)抗樣本。一種常見的做法是從一個(gè)大的擾動(dòng)開始,然后用一個(gè)確定的方向和一個(gè)隨機(jī)的方向迭代地減少它,同時(shí)保持它的對(duì)抗性。由于每次查詢獲取的信息有限和方向采樣效率低下,很難在有限的查詢次數(shù)內(nèi)獲得足夠小的擾動(dòng)。為了解決這個(gè)問題,我們提出了一種新的攻擊方法,稱為自適應(yīng)歷史驅(qū)動(dòng)攻擊(AHA),它從所有歷史查詢中收集信息作為當(dāng)前采樣的先驗(yàn),以提高性能。此外,為了平衡確定性方向和隨機(jī)方向,我們根據(jù)實(shí)際幅度減少與預(yù)期幅度減少的比率動(dòng)態(tài)調(diào)整系數(shù)。這種策略提高了優(yōu)化過程中查詢的成功率,讓對(duì)抗樣本沿著決策邊界快速移動(dòng)。我們的方法還可以與子空間優(yōu)化(如降維)相結(jié)合,以進(jìn)一步提高效率。在 ImageNet 和 CelebA 數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,在相同數(shù)量的查詢下,我們的方法平均降低了至少 24.3% 的擾動(dòng)幅度。最后,我們通過對(duì)流行的防御方法和 MEGVII Face++ 提供的APIs進(jìn)行評(píng)估來證明我們方法的實(shí)際效果。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

12 高質(zhì)量解耦顯著對(duì)象檢測(cè)

Disentangled High Quality Salient Object Detection

近年來,隨著數(shù)字設(shè)備的發(fā)展,越來越多的計(jì)算機(jī)視覺任務(wù)需要處理高清圖像,比如視覺顯著性檢測(cè)任務(wù)?,F(xiàn)有的顯著性檢測(cè)方法處理高清圖片時(shí),主要會(huì)面臨兩個(gè)問題。第一個(gè)問題是現(xiàn)有的方法往往無法同時(shí)精確捕捉高清圖片的語義信息和邊界細(xì)節(jié)。為了解決這個(gè)問題,我們將高清顯著性檢測(cè)任務(wù)解耦為低分-分類和高分-回歸任務(wù)。在低分辨率階段,我們提出LRSCN網(wǎng)絡(luò)充分捕捉圖片的語義信息;在高分辨率階段,我們提出HRRN回歸得到精確的邊界細(xì)節(jié)。第二個(gè)問題是現(xiàn)有的高清顯著性檢測(cè)算法需要額外的高清標(biāo)注數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),因而需要較大的標(biāo)注代價(jià)。為了解決這個(gè)問題,我們?cè)谟?xùn)練階段使用uncertainty loss,因而不需要額外的高清訓(xùn)練數(shù)據(jù)訓(xùn)練HRRN。我們提出的方法在HRSOD-TE,DAVIS-S兩個(gè)高清數(shù)據(jù)測(cè)試集,以及DUTS-TE,SOC等6個(gè)低分辨率測(cè)試數(shù)據(jù)集上都達(dá)到了SOTA的效果。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

13 基于雙路關(guān)系互補(bǔ)的多標(biāo)簽識(shí)別方法

Transformer-based Dual Relation Graph for Multi-label Image Recognition

多標(biāo)簽識(shí)別的主要目標(biāo)是同時(shí)識(shí)別一幅圖像中的多個(gè)對(duì)象。現(xiàn)有的大多數(shù)工作主要通過學(xué)習(xí)標(biāo)簽共現(xiàn)依賴關(guān)系從而增強(qiáng)特征的語義表達(dá),而忽略了圖像中多個(gè)物體間的空間依賴關(guān)系。對(duì)此,本文提出一種基于Transformer的雙路互補(bǔ)關(guān)系學(xué)習(xí)框架來聯(lián)合學(xué)習(xí)空間依賴與共現(xiàn)依賴。針對(duì)空間依賴,該方法提出跨尺度Transformer建模長(zhǎng)距離空間上下文關(guān)聯(lián);針對(duì)共現(xiàn)依賴,該方法提出類別感知約束和空間關(guān)聯(lián)引導(dǎo),基于圖神經(jīng)網(wǎng)絡(luò)聯(lián)合建模動(dòng)態(tài)語義關(guān)聯(lián),最后聯(lián)合這兩種互補(bǔ)關(guān)系進(jìn)行協(xié)同學(xué)習(xí)得到魯棒的多標(biāo)簽預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法在經(jīng)典多標(biāo)簽識(shí)別數(shù)據(jù)集MS-COCO 和VOC 2007上均超過SOTA。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

14 基于偏好推理的個(gè)性化精彩視頻檢測(cè)

PR-Net: Preference Reasoning for Personalized Video Highlight Detection

個(gè)性化精彩視頻檢測(cè)旨在根據(jù)用戶的喜好將長(zhǎng)視頻縮短為有趣的時(shí)刻,這最近也引起了社區(qū)的關(guān)注。目前的方法將用戶的歷史作為整體信息來預(yù)測(cè)用戶的偏好,但忽略了用戶興趣的內(nèi)在多樣性,導(dǎo)致偏好表示模糊和無法解釋的預(yù)測(cè)。在本文中,我們提出了一個(gè)簡(jiǎn)單而有效的偏好推理框架(PR-Net),顯式地將不同的興趣考慮在內(nèi),以進(jìn)行具有可行解釋的幀級(jí)精彩預(yù)測(cè)。具體來說,對(duì)于每個(gè)輸入幀,我們通過基于注意力機(jī)制的歷史精彩片段融合來生成輸入相關(guān)的用戶偏好。此外,為了防止用戶歷史信息不全等問題,我們將由用戶特定的偏好和學(xué)習(xí)得到的通用偏好融合成了綜合的偏好特征,從而實(shí)現(xiàn)了自適應(yīng)地支持通用精彩視頻檢測(cè)。最后,我們通過計(jì)算查詢幀與該用戶的綜合偏好及非精彩偏好特征之間的語義相似度來預(yù)測(cè)其是否屬于精彩幀的程度。此外,為了緩解由于標(biāo)注不完整造成的歧義,我們提出了一種新的雙向?qū)Ρ葥p失,以確保嵌入空間的緊湊性和可微性。通過這種方式,我們的方法顯著優(yōu)于最先進(jìn)的方法,平均準(zhǔn)確度精度相對(duì)提高了 12%。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

15從學(xué)習(xí)中知道哪里可見:針對(duì)遮擋行人重識(shí)別的一種可見度感知方法

Learning to Know Where to See: A Visibility-Aware Approach for Occluded Person Re-identification

行人重識(shí)別在近年來已經(jīng)取得了明顯的進(jìn)步。然而,遮擋現(xiàn)象對(duì)最近的行人重識(shí)別方法依然是個(gè)常見且具有挑戰(zhàn)性的任務(wù)。目前一些主流方法利用額外信息(比如,人體姿態(tài)信息)來判斷人體可見部位,從而緩解遮擋問題。雖然這些方法取得明顯的進(jìn)步,但是他們嚴(yán)重依賴于細(xì)粒度的額外信息,對(duì)額外信息中存在的估計(jì)錯(cuò)誤敏感。在本文中,我們證實(shí)了如果額外信息變得稀疏或者有噪聲時(shí),現(xiàn)存的方法性能是會(huì)出現(xiàn)下降的。因此,我們提出了一種簡(jiǎn)單但有效的方法,該方法對(duì)稀疏和有噪聲的姿態(tài)信息是魯棒的。我們將姿態(tài)信息離散化為人體部分的可見度標(biāo)簽,這可以降低遮擋區(qū)域的影響。我們?cè)趯?shí)驗(yàn)中證明了我們的方法能夠更有效和魯棒地利用姿態(tài)信息。此外,我們的方法能夠很容易地嵌入到大多數(shù)行人重識(shí)別方法中。相關(guān)的實(shí)驗(yàn)證明了我們的算法達(dá)到了目前的領(lǐng)先水平。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

16 Ask&Confirm: 不完整描述下跨模態(tài)檢索的主動(dòng)細(xì)節(jié)豐富

Ask&Confirm: Active Detail Enriching for Cross-Modal Retrieval with Partial Query

近年來,基于文本的圖像檢索取得了長(zhǎng)足的進(jìn)步。然而,現(xiàn)有方法的性能在現(xiàn)實(shí)生活中會(huì)受到影響,因?yàn)橛脩艨赡軙?huì)提供對(duì)圖像的不完整描述,這通常會(huì)導(dǎo)致結(jié)果充滿了符合不完整描述的誤報(bào)。在這項(xiàng)工作中,我們引入了部分查詢問題并廣泛分析了它對(duì)基于文本的圖像檢索的影響。以前的交互式方法通過被動(dòng)地接收用戶的反饋來迭代地補(bǔ)充不完整的查詢來解決這個(gè)問題,這既耗時(shí)又需要大量的用戶努力。相反,我們提出了一種新穎的檢索框架,該框架以詢問和確認(rèn)的方式進(jìn)行交互過程,其中 AI 主動(dòng)搜索當(dāng)前查詢中缺少的判別細(xì)節(jié),而用戶只需要確認(rèn) AI 的提議。具體來說,我們提出了一種基于對(duì)象的交互,使交互檢索更加用戶友好,并提出了一種基于強(qiáng)化學(xué)習(xí)的策略來搜索有區(qū)別的對(duì)象。此外,由于難以獲得人機(jī)對(duì)話數(shù)據(jù),全監(jiān)督訓(xùn)練通常是不可行的,因此我們提出了一種弱監(jiān)督訓(xùn)練策略,除了文本圖像數(shù)據(jù)集之外,不需要人工標(biāo)注的對(duì)話。實(shí)驗(yàn)表明,我們的框架顯著提高了基于文本的圖像檢索的性能。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

17為任意視角下的3D物體識(shí)別學(xué)習(xí)具有空間感知能力的典范視角表征

Learning Spatially-Aware Canonical View Representation for 3D Shape Recognition with Arbitrary Views

為使多視角3D物體識(shí)別更切合實(shí)際場(chǎng)景,這篇工作專注于任意視角下的物體識(shí)別,即視角位置與個(gè)數(shù)任意給定的情況;為解決任意視角帶來的新挑戰(zhàn),我們提出一種具有空間感知能力的典范視角表征;我們首先將來自任意視角的圖像特征使用最優(yōu)傳輸與一組可學(xué)的參考視角特征對(duì)齊,由此得到一組固定數(shù)量的典范視角特征;隨后我們將這些對(duì)齊的典范視角特征進(jìn)行聚合,得到一個(gè)魯棒的3D物體表征用于識(shí)別;我們?cè)诖颂岢鲆环N空間感知損失,約束典范視角特征能被離散地嵌入于歐式空間的各個(gè)象限;在ModelNet40、ScanObjectNN與RGBD數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果表明,我們的方法不僅在傳統(tǒng)的固定視角情況下性能優(yōu)秀,而且在更有挑戰(zhàn)的任意視角情況下相比其他方法有顯著的性能提升。

騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識(shí)別等領(lǐng)域

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )