PRCV 2021 | 視覺AI飛速發(fā)展,騰訊優(yōu)圖分享內(nèi)容理解新實(shí)踐

近年來隨著數(shù)字經(jīng)濟(jì)的高速發(fā)展和數(shù)字化轉(zhuǎn)型進(jìn)程的不斷推進(jìn),AI技術(shù)在各個(gè)領(lǐng)域的應(yīng)用落地也呈現(xiàn)出了大規(guī)模爆發(fā)的趨勢(shì)。作為AI市場(chǎng)中的最大分支之一,計(jì)算機(jī)視覺的應(yīng)用領(lǐng)域幾乎涵蓋了時(shí)下所有行業(yè)的各個(gè)業(yè)務(wù)場(chǎng)景,成為產(chǎn)業(yè)、行業(yè)關(guān)注的焦點(diǎn)。

12月19至21日,由中國圖象圖形學(xué)學(xué)會(huì)(CSIG)、中國人工智能學(xué)會(huì)(CAAI)、中國計(jì)算機(jī)學(xué)會(huì)(CCF)和中國自動(dòng)化學(xué)會(huì)(CAA)聯(lián)合主辦的第四屆中國模式識(shí)別與計(jì)算機(jī)視覺大會(huì)(PRCV2021)在珠海正式召開。作為國內(nèi)頂級(jí)的模式識(shí)別和計(jì)算機(jī)視覺領(lǐng)域的學(xué)術(shù)盛會(huì),PRCV2021匯聚了國內(nèi)外從事相關(guān)領(lǐng)域研究的廣大科研工作者及業(yè)界同行,共同分享最新理論和技術(shù)成果,提供精彩的學(xué)術(shù)盛宴。

作為騰訊旗下頂級(jí)人工智能實(shí)驗(yàn)室,聚焦計(jì)算機(jī)視覺的騰訊優(yōu)圖實(shí)驗(yàn)室也參與了本次大會(huì),騰訊優(yōu)圖實(shí)驗(yàn)室高級(jí)研究員任玉強(qiáng)在會(huì)上作了主題為《騰訊優(yōu)圖近期內(nèi)容理解領(lǐng)域的研究與應(yīng)用》的演講,向參會(huì)者分享了騰訊優(yōu)圖在計(jì)算機(jī)視覺領(lǐng)域中的研究成果和應(yīng)用實(shí)踐。

PRCV 2021

弱監(jiān)督目標(biāo)檢測(cè)與定位

一直以來,全監(jiān)督目標(biāo)檢測(cè)由于出色的效果一直廣泛應(yīng)用于內(nèi)容理解的各個(gè)任務(wù)中,但是標(biāo)注成本一直很高,有統(tǒng)計(jì)顯示如果按照弱監(jiān)督要求只標(biāo)注image-level的類別標(biāo)簽不標(biāo)注bbox,標(biāo)注速度可以提高數(shù)倍。為了提高效率降低成本,騰訊優(yōu)圖在弱監(jiān)督目標(biāo)檢測(cè)和定位上進(jìn)行了深入研究。

弱監(jiān)督檢測(cè)主要是指訓(xùn)練數(shù)據(jù)只標(biāo)注類別標(biāo)簽不標(biāo)注具體位置框,模型通過訓(xùn)練預(yù)測(cè)出目標(biāo)的位置。自2014年MIT提出類別響應(yīng)圖CAM以來,大多數(shù)的弱監(jiān)督目標(biāo)檢測(cè)方法主要基于Global Average Pooling (GAP)+Softmax分類網(wǎng)絡(luò)的輸出響應(yīng),從空間正則約束方面著手,配合閾值生成檢測(cè)框。但是這種方法存在2點(diǎn)缺陷:一是無限制的類別響應(yīng)特征圖往往出現(xiàn)局部極高響應(yīng)現(xiàn)象。二是結(jié)構(gòu)信息丟失,GAP結(jié)構(gòu)將前景目標(biāo)與背景區(qū)域混為一談,限制了模型定位前景目標(biāo)的能力。

PRCV 2021

對(duì)此,騰訊優(yōu)圖將研究重點(diǎn)放在如何在隱層的網(wǎng)絡(luò)中發(fā)現(xiàn)更多的目標(biāo)結(jié)構(gòu)信息,及怎樣在網(wǎng)絡(luò)訓(xùn)練不斷加深的情況下加強(qiáng)結(jié)構(gòu)信息保持。首先設(shè)計(jì)了受限激活模塊緩解模型的結(jié)構(gòu)信息彌失的問題,在訓(xùn)練階段通過計(jì)算每個(gè)特征位置在類別響應(yīng)圖上的方差分布得到粗略的偽Mask,用以區(qū)分前背景;然后利用Sigmoid操作對(duì)類別響應(yīng)特征圖進(jìn)行歸一化,最后利用提出的受限激活損失函數(shù)LRA引導(dǎo)模型關(guān)注目標(biāo)前景區(qū)域。

在推理階段,騰訊優(yōu)圖首先提出了高階相似性的定義,用以提取更加完整的目標(biāo)區(qū)域。自相關(guān)圖生成模塊,將CAM的定位結(jié)果當(dāng)做種子節(jié)點(diǎn),分別提取前景與背景的相似性圖,通過聚合前背景相似性圖得到更精細(xì)完整的定位結(jié)果。目前騰訊優(yōu)圖所采用的解決方案在兩個(gè)比較權(quán)威的弱監(jiān)督檢測(cè)數(shù)據(jù)集上都取得了比較好的結(jié)果,響應(yīng)圖的結(jié)構(gòu)信息更加完整、定位更加準(zhǔn)確。

多標(biāo)簽識(shí)別

多標(biāo)簽識(shí)別中的一個(gè)重要問題就是標(biāo)簽之間的共現(xiàn)依賴,為了解決這一問題,之前的工作很多采用了RNN或者GCN的網(wǎng)絡(luò)結(jié)構(gòu)來處理這種相互關(guān)系,但對(duì)于標(biāo)簽共現(xiàn)依賴很相近的標(biāo)簽很多研究都沒有考慮。

因此騰訊優(yōu)圖提出:除共現(xiàn)依賴以外,空間依賴也是影響多標(biāo)簽預(yù)測(cè)的重要因素,“滑雪板”和“滑板”在顏色紋理上比較接近,在共現(xiàn)依賴中也都與人的相關(guān)性很高,因此只關(guān)注共現(xiàn)依賴的方法無法很好的解決這種問題,而“滑雪板”和“滑板”的一個(gè)重要區(qū)別在于其周圍空間是什么,如果周圍是雪地,那大概率是“滑雪板”,如果周圍是街道,那大概率是“滑板”,因此本文在考慮共現(xiàn)依賴的基礎(chǔ)上,又引入對(duì)上下文空間依賴的建模,利用joint relation進(jìn)一步提升多標(biāo)簽識(shí)別的準(zhǔn)確性。

PRCV 2021

針對(duì)以上討論的motivation,騰訊優(yōu)圖提出一種基于Transformer的雙路互補(bǔ)關(guān)系學(xué)習(xí)框架來聯(lián)合學(xué)習(xí)空間依賴與共現(xiàn)依賴。針對(duì)空間依賴,使用跨尺度Transformer建模長距離空間上下文關(guān)聯(lián)。針對(duì)共現(xiàn)依賴,提出類別感知約束和空間關(guān)聯(lián)引導(dǎo),基于圖神經(jīng)網(wǎng)絡(luò)聯(lián)合建模動(dòng)態(tài)語義關(guān)聯(lián),最后聯(lián)合這兩種互補(bǔ)關(guān)系進(jìn)行協(xié)同學(xué)習(xí)得到魯棒的多標(biāo)簽預(yù)測(cè)結(jié)果。

細(xì)粒度識(shí)別

細(xì)粒度圖像解析是計(jì)算機(jī)視覺研究的前沿和熱點(diǎn)問題,其旨在將高度近似的同類物體區(qū)分為不同的子類?,F(xiàn)有的細(xì)粒度識(shí)別算法,比如Bilinear pooling、Trilinear attention,通常使用通道間的高階特征獲取可區(qū)分性的細(xì)粒度表征,忽略了空間位置關(guān)系和不同語義特征間的相互關(guān)聯(lián),在復(fù)雜背景或類間距較小情況下誤判較顯著。

騰訊優(yōu)圖針對(duì)這一問題,創(chuàng)新性地提出了一種特征高階關(guān)系建模的方法,通過挖掘特征間的空間與語義關(guān)聯(lián)來建模高階關(guān)系,合并其中的相似關(guān)系得到區(qū)分度高的特征。

PRCV 2021

相較于現(xiàn)有的解決方法,騰訊優(yōu)圖提出的方法有三個(gè)創(chuàng)新點(diǎn):首先在relation-discovery module,通過構(gòu)建異質(zhì)的跨層網(wǎng)絡(luò)交互,利用混合高階特征引入內(nèi)在的空域關(guān)聯(lián),構(gòu)建高維feature bank。其次,為了克服維度災(zāi)難同時(shí)保留其可區(qū)分性,提出了基于圖相似度約束的分組算法,利用兩個(gè)不同的圖約束模塊,根據(jù)語義信息進(jìn)行分組,最大化其內(nèi)在似然度,將其約束為少量可區(qū)分性組織。

最后,在訓(xùn)練策略上提出了一種平衡分組策略,將不同樣本按照中心化采樣,進(jìn)行分組約束迭代,使圖像特征傾向于聚類原型,抑制異常樣本的表征。該方法在四個(gè)國際基準(zhǔn)數(shù)據(jù)集CUB-200-2011, Stanford-Cars, FGVC-Aircrafts, NA-Birds 均達(dá)到了領(lǐng)先水平。

弱監(jiān)督圖像描述與定位

弱監(jiān)督Grounded Image Captioning近年來逐漸受到越來越多的關(guān)注。該任務(wù)是指對(duì)給定的圖像自動(dòng)生成一句話描述圖像的內(nèi)容,同時(shí)預(yù)測(cè)出其中名詞對(duì)應(yīng)的目標(biāo)位置。由于缺乏名詞與對(duì)應(yīng)目標(biāo)的監(jiān)督信息,該項(xiàng)任務(wù)具有很大的難度。

已有的工作主要通過正則化技術(shù)依靠注意力機(jī)制在生成圖像描述的同時(shí)預(yù)測(cè)名詞對(duì)應(yīng)的目標(biāo)的位置。注意力機(jī)制的大部分預(yù)測(cè)結(jié)果往往集中于目標(biāo)的最具判別性的局部位置,無法完整的預(yù)測(cè)目標(biāo)的整體內(nèi)容,導(dǎo)致定位過大、過小或者定位偏移的問題,其中定位過小和定位偏移的錯(cuò)誤占絕大部分。

PRCV 2021

針對(duì)以上問題,騰訊優(yōu)圖采用分布式注意力機(jī)制的新方法,首先,通過挖掘多個(gè)具有相同語義的候選框進(jìn)行聚合得到最終的比較完整的目標(biāo)框,來解決局部定位的問題。其次利用多個(gè)注意力機(jī)制聚合得到的候選框,同時(shí)可以降低前面所說的另外2種定位過大和偏移的情況,通過多個(gè)注意力機(jī)制同時(shí)互相校正,顯著降低定位錯(cuò)誤的case。

視覺AI在業(yè)務(wù)場(chǎng)景中的應(yīng)用示例

在內(nèi)容理解領(lǐng)域中,由于 ACG 場(chǎng)景風(fēng)格與通用場(chǎng)景之間的差異較大,導(dǎo)致通用模型在動(dòng)畫、漫畫領(lǐng)域中的識(shí)別能力相對(duì)較弱,容易出現(xiàn)大量的漏過和誤判。為解決此類問題,騰訊優(yōu)圖提出漸進(jìn)式領(lǐng)域自適應(yīng)方法,首先統(tǒng)計(jì)源域和目標(biāo)域的特征分布,用 MMD 縮短通用特征與 ACG 特征分布間的距離,然后提出動(dòng)態(tài)漸進(jìn)式學(xué)習(xí)策略 PAS,由易到難進(jìn)行學(xué)習(xí),降低遷移難度。最后通過半監(jiān)督學(xué)習(xí)快速迭代面向 ACG 場(chǎng)景的專用模型,極大程度上提升了該場(chǎng)景的識(shí)別效果。

在當(dāng)前網(wǎng)絡(luò)上的各類違規(guī)廣告中,低俗、誘導(dǎo)點(diǎn)擊廣告是打擊的重點(diǎn),其危害性大,隱秘性深。通過分析,目前網(wǎng)絡(luò)上存在的廣告內(nèi)容為逃避純文本模型的審核,較少以單模態(tài)純文本的形式出現(xiàn),而是雙模態(tài)圖像+水印文本,甚至文本做了對(duì)抗處理。針對(duì)這些強(qiáng)對(duì)抗性的違規(guī)廣告,騰訊優(yōu)圖針對(duì)數(shù)據(jù)特點(diǎn)結(jié)合自監(jiān)督預(yù)訓(xùn)練技術(shù),研發(fā)出一套多模態(tài)廣告識(shí)別模型,通過采用多模態(tài)融合+OCR優(yōu)化兩個(gè)手段來緩解因單一模態(tài)的信息量不足且存在對(duì)抗性導(dǎo)致漏召回的問題。為了提高多模態(tài)識(shí)別效果,騰訊優(yōu)圖構(gòu)建了百萬級(jí)別的文本圖像對(duì),采用無標(biāo)注的自監(jiān)督預(yù)訓(xùn)練方式,進(jìn)行跨模型預(yù)訓(xùn)練,有效提升了基于Transformer特征融合的多模態(tài)效果。

互聯(lián)網(wǎng)內(nèi)容創(chuàng)作越來越繁榮,劣質(zhì)甚至違規(guī)內(nèi)容也越來越多。炫富、惡搞營銷、暴力恐怖等不良現(xiàn)象受到各大內(nèi)容平臺(tái)越來越多的重視,傳統(tǒng)內(nèi)容理解解決方案只能做到檢測(cè)出敏感元素,至于元素是否惡意違規(guī)需要人工審核,效率很低。比如,對(duì)于平臺(tái)來說教材書本上的人民幣屬于正常情感傾向,人民幣炫富屬于惡意傾向,傳統(tǒng)目標(biāo)檢測(cè)算法只能檢測(cè)出圖片中是否含有人民幣,無法區(qū)分正常傾向還是惡意傾向。同時(shí),圖片情感豐富多變,同種元素表達(dá)出的情感程度也各不相同。

PRCV 2021

因此可以發(fā)現(xiàn)傳統(tǒng)離散的情感分類算法很難準(zhǔn)確的表達(dá)所有情感傾向,于是,騰訊優(yōu)圖基于image caption技術(shù)研發(fā)了能實(shí)現(xiàn)更詳細(xì)的圖像情感分析的系統(tǒng),在進(jìn)行情感傾向識(shí)別的同時(shí)還會(huì)輸出caption結(jié)果用以描述更詳細(xì)的圖像情感狀態(tài)。這一技術(shù)可以更好的幫助內(nèi)容平臺(tái)實(shí)現(xiàn)更豐富的圖像內(nèi)容理解。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )