AICon2021 | 騰訊優(yōu)圖鄢科:以AI技術(shù)助力內(nèi)容安全 促進互聯(lián)網(wǎng)環(huán)境健康發(fā)展

近年來,伴隨著深度學習技術(shù)的成熟以及計算機算力的增長,人工智能技術(shù)在各行業(yè)的業(yè)務(wù)場景中實現(xiàn)了快速的普及和落地。在人工智能技術(shù)進一步落地實踐的背景下,將會為行業(yè)帶來什么樣的變革與技術(shù)創(chuàng)新,成為了大家共同關(guān)心的問題。

11月25至26日,以“AI商業(yè)化下的技術(shù)演進”為主要研討方向的AICon全球人工智能與機器學習技術(shù)大會北京站順利召開。據(jù)了解,AICon北京站設(shè)置了“人工智能前沿技術(shù)”、“計算機視覺實踐”、“智能金融技術(shù)與業(yè)務(wù)結(jié)合”、“認知智能的前沿探索”等14 個技術(shù)專題,并邀請了50余位行業(yè)資深專家,分享最新 AI 技術(shù)創(chuàng)新和應用實踐。

本次大會,騰訊優(yōu)圖實驗室內(nèi)容審核算法負責人鄢科受邀出席了“計算機視覺實踐”技術(shù)專題的研討,并通過《騰訊優(yōu)圖在視覺內(nèi)容理解領(lǐng)域的研究與實踐》的主題演講,分享了騰訊優(yōu)圖在內(nèi)容安全領(lǐng)域中的研究成果和應用實例,提供了技術(shù)創(chuàng)新和落地實踐的經(jīng)驗和思路。

01 視覺內(nèi)容理解在內(nèi)容安全領(lǐng)域中的技術(shù)特點和挑戰(zhàn)

隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)內(nèi)容不論是呈現(xiàn)形式還是信息體量都迎來了爆發(fā)式的增長。而在這些增長的背后,也隱藏著海量的色情、血腥等不良和有害信息,不僅危害互聯(lián)網(wǎng)平臺的內(nèi)容生態(tài),更可能導致安全問題。在內(nèi)容安全問題不斷加劇的背景下,AI、大數(shù)據(jù)等信息技術(shù)能夠輔助傳統(tǒng)人工審核,在內(nèi)容安全領(lǐng)域中發(fā)揮了重要作用。

基于此,騰訊優(yōu)圖依托在視覺AI技術(shù)上的研究成果,打造了包含涉黃、廣告、違法違規(guī)等在內(nèi)的、一站式內(nèi)容安全的解決方案。憑借支持一體化接入、需求定制化、詳實的標簽體系和自動化訓練平臺等優(yōu)勢,該解決方案能夠在社區(qū)、UGC、直播、點播等場景中輔助人審,從而提高內(nèi)容安全審核的效率。

而在推動視覺AI技術(shù)落地業(yè)務(wù)場景的過程中,騰訊優(yōu)圖也歸納和總結(jié)了視覺內(nèi)容理解的技術(shù)特點和挑戰(zhàn):

首先,內(nèi)容安全審核被廣泛應用在海內(nèi)外不同國家的各個行業(yè)和業(yè)務(wù)之中,不同業(yè)務(wù)的審核場景千差萬別;以游戲直播場景為例,該場景一般是二次元模態(tài)的游戲畫面,但由于海外手機的像素質(zhì)量和國內(nèi)不一樣,很多都是一些模糊不清低質(zhì)圖像,場景多樣嚴重考驗AI算法的穩(wěn)定性和泛化能力。

其次,針對于同一個內(nèi)容,不同客戶的標準定義差別很大,針對客戶需求制定能夠?qū)崿F(xiàn)全覆蓋的標簽和標準體系,對技術(shù)完備提出了較高的要求。

最后,多樣化的內(nèi)容審核場景也要求方案具備多標簽識別、目標檢測、畫面細粒度、OCR等技術(shù),無法通過一個簡單的技術(shù)點或是通用模型解決所有問題,對模型能力的精細化和快速優(yōu)化也提出了較高的要求。

02 騰訊優(yōu)圖實驗室在視覺內(nèi)容理解場景的主要研究方向

目前,騰訊優(yōu)圖在內(nèi)容安全領(lǐng)域主要的研究方向主要包括細粒度識別、多標簽識別、目標檢測、目標定位、對象供給、圖像描述等六個方向。

1)目標檢測:目標檢測在內(nèi)容理解領(lǐng)域中非常重要,包含通用物體檢測、特殊場景/商品檢測、遙感圖象、旋轉(zhuǎn)目標檢測等技術(shù)方向。其中,騰訊優(yōu)圖在旋轉(zhuǎn)目標檢測進行了深入研究,提出了DRN(動態(tài)修正網(wǎng)絡(luò))來提升檢測效果的方法。

通過在FSM(特征選擇模塊)中設(shè)計自適應感受調(diào)整模塊的方式,模型能夠根據(jù)目標的形狀旋轉(zhuǎn)角度進行自適應調(diào)整,從而緩解單一感受點與多目標的矛盾。

此外,針對分類和回歸任務(wù),騰訊優(yōu)圖設(shè)計了DRHC(動態(tài)修正分類器)與DRHR(動態(tài)修正回歸器),讓模型能夠同時學習樣本敏感和fintune之外的、與樣本無關(guān)的一般性知識,并通過預訓練的方式賦予模型樣本一致性調(diào)整的能力。

最后,統(tǒng)一的DRN能夠讓模型通過端到端的方式學習旋轉(zhuǎn)目標檢測任務(wù),同時基于AnchorFree算法,DRN也能對解決密集排列目標場景下的目標重合、混淆的問題進行較好的處理。

AICon2021

2)目標定位:人、車、物的檢測工作所要求的標準檢測的框和目標標注的成本都很高,而在細分場景檢測時需要標注的比較精細,從而提升了標注的難度和成本。為了提高標注的效率并降低成本,騰訊優(yōu)圖在弱監(jiān)督和定位方面進行深入研究,并提出了目標結(jié)構(gòu)保持是弱監(jiān)督定位關(guān)鍵問題的觀點。

大多數(shù)弱監(jiān)督目標檢測主要是依據(jù)分類網(wǎng)絡(luò)輸出響應、空間正則約束來入手,通過提取一系列提升網(wǎng)絡(luò)的響應區(qū)域去覆蓋目標更多區(qū)域的。這種方法一般都會采用分類結(jié)構(gòu),而這樣做則會讓模型丟失目標結(jié)構(gòu)信息;同時,無限制的類別響應特征圖往往會出現(xiàn)局部提高響應導致模型分類出現(xiàn)一些誤判,不利于模型準確定位到目標的位置。

為解決以上問題,騰訊優(yōu)圖首先設(shè)定了受限激活模塊緩解模型結(jié)構(gòu)信息的損失問題,并重新定義了高階相似性,使自相關(guān)圖生成模塊顯著提高了目標定位的精度;之后,通過計算每個特征位置在類別相應性質(zhì)圖上的方差分布得出粗略的偽mask,以此來區(qū)分前背景;然后對類別響應特征圖進行歸一化,利用提出來的受限激活損失函數(shù)來引導模型關(guān)注目標前景的區(qū)域,組成受限激活模塊;最后利用受限激活模塊進行訓練,在前向inference推理的過程中,高階自相關(guān)圖就會增強圖片的表達和后處理,讓可視化圖更加清晰、定位更加準確。

AICon2021

3)多標簽識別:多標簽識別是內(nèi)容理解和內(nèi)容審核的場景中非常通用的技術(shù)問題。之前很多技術(shù)都是采用RNN或者GCN來網(wǎng)絡(luò)結(jié)構(gòu)來處理標簽之間的共性依賴問題,這種方法沒有考慮到標簽共性依賴,導致系統(tǒng)無法有效分辨出標簽及臨近標簽之間的關(guān)系,大大降低了圖片識別的準確度。

為此,騰訊優(yōu)圖提出了“除共性依賴以外,空間依賴也是理想多標簽預設(shè)的重要因素”這一觀點,在考慮共性依賴的基礎(chǔ)上引入了空間依賴的建模,通過構(gòu)建一種基于Transfomer的雙目互補關(guān)系學習框架,讓模型同時學習空間依賴和共性依賴。具體而言,即在空間依賴上使用跨尺度的Transfomer建模,對CNN提取到的一些特征經(jīng)過跨尺度增強后得到空間信息更加清晰的圖像特征,然后利用共享權(quán)重的Transfomer群來建??臻g,在建模過程中的空間依賴則根據(jù)空間關(guān)聯(lián)提升類別響應。

針對于共性依賴只需要進行內(nèi)別、感知約束和空間關(guān)聯(lián)引導,基于圖神經(jīng)網(wǎng)絡(luò)聯(lián)合GCA,聯(lián)合建模動態(tài)語義關(guān)聯(lián),最后整合兩種互補關(guān)系進行協(xié)同學習得到給魯棒的多變性預測,進一步提升圖片識別的準確性。

AICon2021

此外,通過標簽的value來為圖像標簽引入文本語義信息的方式,用圖像標簽做表征的方法也能取得很好的效果:將視覺的fintune和文本fintune直接用Transfomer建模,能夠讓多模態(tài)融合多標簽的識別方法,相較于純標簽的語義信息的效果有著顯著提升。

4)細粒度識別:過往的細粒度識別主要是使用通道間高階特征獲取可區(qū)別性的表達,但這種做法一般都會忽略空間位置關(guān)系的和不同語義之間的相互關(guān)系,在復雜背景或內(nèi)間距比較小的場景中誤判的情況較多?;诖祟悊栴},騰訊優(yōu)圖曾提出了通過挖掘特征間的空間關(guān)系和語義關(guān)系來建模高階關(guān)系,再對其中一些相似關(guān)系進行合并、保留區(qū)別性高的特征的解決方案。

相較于三元的線性關(guān)系建模,該方案的關(guān)系模塊能夠在考慮空間關(guān)聯(lián)的基礎(chǔ)上,構(gòu)建更加豐富的語義關(guān)聯(lián);同時,通過圖神經(jīng)網(wǎng)絡(luò)學習高階特征中圖層不同節(jié)點間的關(guān)系,并根據(jù)關(guān)系的三元規(guī)則對高階關(guān)系進行分組加權(quán),在對相似特征進行合并后,能夠在實現(xiàn)降維的同時保證比較高的特征;最后,在訓練過程中采取類別均衡采樣策略學習,來確保特征分布更加準確。

然后這樣的解決方案還是存在時間消耗過多和因深層擾動導致工作效果不穩(wěn)定的問題。對此騰訊優(yōu)圖提出了利用顯著性區(qū)域的對抗自動編碼器生成噪音的解決方法,讓時效性問題和對抗生成網(wǎng)絡(luò)不穩(wěn)定的問題同時得到了解決,在不同數(shù)據(jù)集的識別上都能取得比較好的識別效果。

AICon2021

  03 騰訊優(yōu)圖視覺內(nèi)容理解的實際應用案例

目前,騰訊優(yōu)圖視覺內(nèi)容理解的實際應用場景包括ACG敏感內(nèi)容識別和圖像情感傾向分析等多類。

1)ACG敏感內(nèi)容識別:在內(nèi)容安全領(lǐng)域中,由于ACG場景中多種風格之間的差異化較大,導致通用模型在動畫、漫畫和游戲領(lǐng)域中的內(nèi)容識別能力相對較弱,容易出現(xiàn)大量的誤判。為解決此類問題,騰訊優(yōu)圖首先在統(tǒng)計原域和目標域間的特征分布后,使用MMD來縮短兩個特征分布間的距離,實現(xiàn)分布約束;然后通過漸進式學習策略讓模型在遷徙過程中優(yōu)先選擇與原域相近的樣本,有效降低了模型遷徙的難度;最后通過半監(jiān)督實現(xiàn)了通用模型的迅速迭代,生成針對ACG場景識別的專用審核模型。

在實際應用中,使用了漸進式學習策略的專用審核模型相較于直接遷徙的模型,召回率至少提升了17%~30%,極大程度上提升了ACG內(nèi)容審核工作的效率和效果。

2)圖像情感傾向分析:現(xiàn)階段的內(nèi)容審核工作中,審核系統(tǒng)對于出現(xiàn)人民幣、暴力等敏感元素的圖片都會做召回處理。但實際場景中,大量出現(xiàn)人民幣元素的圖片是正常的,這無形中為人審環(huán)節(jié)增加了很多工作負擔。

AICon2021

為此,騰訊優(yōu)圖提出了圖像情感傾向分析和一般的傾向分類,模擬人的主觀感覺對圖像進行識別和分析,如果一張圖中出現(xiàn)了大量人民幣和一個人,并且這個人表現(xiàn)出開心的狀態(tài),那么這張圖的情感傾向就是正向的,無需召回;但如果一張圖中出現(xiàn)了惡搞人民幣的場景,那么這張圖的情感傾向就是負向的,需要召回并進行再審核。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )