再獲佳績(jī),中國(guó)科大-云知聲聯(lián)合團(tuán)隊(duì)斬獲CVPR2024開放環(huán)境情感行為分析競(jìng)賽三項(xiàng)季軍

近日, IEEE/CVF計(jì)算機(jī)視覺(jué)國(guó)際頂級(jí)會(huì)議——CVPR 2024公布第六屆開放環(huán)境下情感行為分析國(guó)際挑戰(zhàn)賽(The 6th Workshop and Competition on Affective Behavior Analysis in-the-wild,簡(jiǎn)稱ABAW6)成績(jī)。由中國(guó)科學(xué)技術(shù)大學(xué)信息學(xué)院自動(dòng)化系於俊老師帶隊(duì)的中國(guó)科學(xué)技術(shù)大學(xué)與云知聲共同組隊(duì),一舉奪得人臉情緒識(shí)別(Expression Recognition, EXPR)、復(fù)合情緒識(shí)別(Compound Expression Recognition, CE)、情緒模仿強(qiáng)度估計(jì)(Emotional Mimicry Intensity Estimation, EMI)三個(gè)賽道季軍。以此競(jìng)賽為基礎(chǔ),聯(lián)合團(tuán)隊(duì)將最新的研究成果整理成多篇學(xué)術(shù)論文,并在 CVPR workshop 上發(fā)表和分享。

CVPR會(huì)議是由IEEE主辦的計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的國(guó)際學(xué)術(shù)盛會(huì),其匯集了全球該領(lǐng)域內(nèi)最前沿的研究成果和技術(shù)進(jìn)展,是全球計(jì)算機(jī)視覺(jué)領(lǐng)域的三大頂級(jí)會(huì)議之一。

ABAW賽事是專注于開放環(huán)境下(in-the-wild)的情感行為分析的國(guó)際賽事,其致力于推動(dòng)計(jì)算機(jī)視覺(jué)技術(shù)在開放環(huán)境下對(duì)人類情感行為的分析能力,進(jìn)而增強(qiáng)人機(jī)交互系統(tǒng)在多樣化場(chǎng)景中的應(yīng)用性和適應(yīng)性,至今已成功舉辦六屆,成為全球范圍內(nèi)學(xué)術(shù)翹楚與業(yè)界巨頭的匯聚之地,吸引了包括南加州大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、南洋理工大學(xué)、萊斯特大學(xué)、清華大學(xué)、天翼云、俄羅斯科學(xué)院、加拿大蒙特利爾計(jì)算機(jī)研究所、美國(guó)普渡大學(xué)等在內(nèi)的諸多研究團(tuán)隊(duì)和行業(yè)專家參與其中。在最新一屆的賽事中,中國(guó)科大-云知聲聯(lián)合團(tuán)隊(duì)從眾多實(shí)力強(qiáng)勁的參賽隊(duì)伍中脫穎而出,充分展現(xiàn)其在情感行為分析賽道的領(lǐng)先實(shí)力。

人類情感行為分析旨在通過(guò)多種模態(tài)信息(視覺(jué)、聽覺(jué)、文本等模態(tài))來(lái)捕獲人類有關(guān)表情和情緒的狀態(tài),從而分析人類內(nèi)心的潛在目的或心理狀況。該領(lǐng)域致力于自動(dòng)識(shí)別、理解和解釋人類情感表達(dá)和行為,以及將其應(yīng)用于情感識(shí)別、人機(jī)交互、心理健康等領(lǐng)域。

人類情感行為分析是一門跨學(xué)科領(lǐng)域,它綜合運(yùn)用視覺(jué)、聽覺(jué)、文本等多種模態(tài)信息來(lái)捕捉和解析人類表情和情緒狀態(tài),以此實(shí)現(xiàn)對(duì)人類情感表達(dá)和行為的自動(dòng)檢測(cè)、深入理解與精確解釋,進(jìn)而推動(dòng)情感識(shí)別、人機(jī)交互、心理健康監(jiān)測(cè)等一系列應(yīng)用的發(fā)展。

ABAW6涵蓋了面部表情分析相關(guān)的多個(gè)挑戰(zhàn)項(xiàng)目,包括AU、EXPR和VA三個(gè)傳統(tǒng)挑戰(zhàn)賽道,此外,今年ABAW6還新增了混合情緒識(shí)別(CE)和情緒模仿強(qiáng)度估計(jì)(EMI)兩個(gè)全新賽道——CE賽道提供56個(gè)無(wú)任何標(biāo)注的視頻,要求參賽者利用已有的數(shù)據(jù)資源和預(yù)訓(xùn)練模型預(yù)測(cè)其中的7種混合情緒;而EMI賽道則要求參賽者分析模仿者的視頻,以推斷原始“源”視頻中所表達(dá)的情感強(qiáng)度。五個(gè)賽道各有千秋,擁有各自獨(dú)特應(yīng)用價(jià)值的同時(shí),也帶來(lái)不同的挑戰(zhàn)。

針對(duì)EXPR賽道數(shù)據(jù)集規(guī)模有限的挑戰(zhàn),研究團(tuán)隊(duì)采用了半監(jiān)督學(xué)習(xí)技術(shù)。該技術(shù)通過(guò)為未標(biāo)記的面部數(shù)據(jù)生成表情類別偽標(biāo)簽,擴(kuò)充了訓(xùn)練數(shù)據(jù)集,從而提升了模型的泛化能力和識(shí)別精度。同時(shí),研究團(tuán)隊(duì)針對(duì)數(shù)據(jù)集中的類別不平衡問(wèn)題和半監(jiān)督學(xué)習(xí)中可能存在的數(shù)據(jù)偏差,引入了去偏反饋學(xué)習(xí)策略,有效提升了模型的穩(wěn)健性和準(zhǔn)確性。為了進(jìn)一步彌補(bǔ)僅從靜態(tài)圖像獲取特征的局限性,研究團(tuán)隊(duì)還引入了時(shí)間編碼器(Temporal Encoder)。該組件能夠?qū)W習(xí)和捕捉相鄰表情圖像特征之間的時(shí)間關(guān)系,從而增強(qiáng)了模型對(duì)面部表情隨時(shí)間變化的動(dòng)態(tài)理解能力。

http://ygpos.cn/uploadfile/pic2020/2024/0708/20240708174012273G.png

針對(duì)CE賽道人類情緒表達(dá)變得復(fù)雜的挑戰(zhàn),需要同時(shí)考慮局部和全局的面部表情來(lái)做出判斷,研究團(tuán)隊(duì)提出了一種基于集成學(xué)習(xí)的解決方案,采用卷積網(wǎng)絡(luò)、視覺(jué)Transformer和多尺度局部注意網(wǎng)絡(luò)分別訓(xùn)練三個(gè)表情分類模型,并通過(guò)后期融合技術(shù)將它們的輸出合并,以綜合考量局部和全局表情特征,從而顯著提升了在RAF-DB數(shù)據(jù)集上的識(shí)別準(zhǔn)確度。此外,方法還展示了在C-EXPR-DB數(shù)據(jù)集上部分區(qū)域?qū)崿F(xiàn)零樣本學(xué)習(xí)的能力,為復(fù)合表情識(shí)別的進(jìn)一步研究和應(yīng)用提供了新的方法和視角。

針對(duì)EMI賽道數(shù)據(jù)集中情感表達(dá)的復(fù)雜性和多樣性的挑戰(zhàn),研究團(tuán)隊(duì)基于ResNet18和面部動(dòng)作單元(AUs)提取了豐富的雙通道視覺(jué)特征用于視頻模態(tài),以及基于Wav2Vec2.0提取了有效的單通道音頻特征用于音頻模態(tài)。這使我們能夠獲得視聽模態(tài)下綜合的情感特征。此外,通過(guò)后期融合策略,我們對(duì)視覺(jué)和聲學(xué)模型的預(yù)測(cè)進(jìn)行了平均,從而更準(zhǔn)確地估計(jì)了視聽情感模仿強(qiáng)度。

作為這些成果的延續(xù)與總結(jié),研究團(tuán)隊(duì)將這些研究成果整理成四篇學(xué)術(shù)論文,并于國(guó)際頂級(jí)(CVPR)會(huì)議上發(fā)表。

繼2023年發(fā)布山海大模型以來(lái),云知聲持續(xù)推動(dòng)AGI技術(shù)在智慧物聯(lián)、智慧醫(yī)療等領(lǐng)域全面應(yīng)用?;谏胶4竽P?,云知聲持續(xù)拓展智能體(Agent)、檢索增強(qiáng)生成(RAG)及多模態(tài)融合能力,積極探索更廣泛的應(yīng)用場(chǎng)景,并先后入選北京市通用人工智能十大模型伙伴及大模型十大應(yīng)用案例,成為大模型領(lǐng)域的佼佼者。這次技術(shù)評(píng)測(cè),是云知聲多模態(tài)能力拓展的重要階段性成果。

展望未來(lái),中國(guó)科大-云知聲聯(lián)合團(tuán)隊(duì)將繼續(xù)秉持技術(shù)創(chuàng)新的精神,積極推動(dòng)情感行為分析技術(shù)的研發(fā)與升級(jí),打造更加真實(shí)、生動(dòng)且富有情感溫度的人機(jī)智能對(duì)話世界。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )