近日, IEEE/CVF計算機視覺國際頂級會議——CVPR 2024公布第六屆開放環(huán)境下情感行為分析國際挑戰(zhàn)賽(The 6th Workshop and Competition on Affective Behavior Analysis in-the-wild,簡稱ABAW6)成績。由中國科學技術大學信息學院自動化系於俊老師帶隊的中國科學技術大學與云知聲共同組隊,一舉奪得人臉情緒識別(Expression Recognition, EXPR)、復合情緒識別(Compound Expression Recognition, CE)、情緒模仿強度估計(Emotional Mimicry Intensity Estimation, EMI)三個賽道季軍。以此競賽為基礎,聯(lián)合團隊將最新的研究成果整理成多篇學術論文,并在 CVPR workshop 上發(fā)表和分享。
CVPR會議是由IEEE主辦的計算機視覺和模式識別領域的國際學術盛會,其匯集了全球該領域內最前沿的研究成果和技術進展,是全球計算機視覺領域的三大頂級會議之一。
ABAW賽事是專注于開放環(huán)境下(in-the-wild)的情感行為分析的國際賽事,其致力于推動計算機視覺技術在開放環(huán)境下對人類情感行為的分析能力,進而增強人機交互系統(tǒng)在多樣化場景中的應用性和適應性,至今已成功舉辦六屆,成為全球范圍內學術翹楚與業(yè)界巨頭的匯聚之地,吸引了包括南加州大學、中國科學技術大學、南洋理工大學、萊斯特大學、清華大學、天翼云、俄羅斯科學院、加拿大蒙特利爾計算機研究所、美國普渡大學等在內的諸多研究團隊和行業(yè)專家參與其中。在最新一屆的賽事中,中國科大-云知聲聯(lián)合團隊從眾多實力強勁的參賽隊伍中脫穎而出,充分展現(xiàn)其在情感行為分析賽道的領先實力。
人類情感行為分析旨在通過多種模態(tài)信息(視覺、聽覺、文本等模態(tài))來捕獲人類有關表情和情緒的狀態(tài),從而分析人類內心的潛在目的或心理狀況。該領域致力于自動識別、理解和解釋人類情感表達和行為,以及將其應用于情感識別、人機交互、心理健康等領域。
人類情感行為分析是一門跨學科領域,它綜合運用視覺、聽覺、文本等多種模態(tài)信息來捕捉和解析人類表情和情緒狀態(tài),以此實現(xiàn)對人類情感表達和行為的自動檢測、深入理解與精確解釋,進而推動情感識別、人機交互、心理健康監(jiān)測等一系列應用的發(fā)展。
ABAW6涵蓋了面部表情分析相關的多個挑戰(zhàn)項目,包括AU、EXPR和VA三個傳統(tǒng)挑戰(zhàn)賽道,此外,今年ABAW6還新增了混合情緒識別(CE)和情緒模仿強度估計(EMI)兩個全新賽道——CE賽道提供56個無任何標注的視頻,要求參賽者利用已有的數據資源和預訓練模型預測其中的7種混合情緒;而EMI賽道則要求參賽者分析模仿者的視頻,以推斷原始“源”視頻中所表達的情感強度。五個賽道各有千秋,擁有各自獨特應用價值的同時,也帶來不同的挑戰(zhàn)。
針對EXPR賽道數據集規(guī)模有限的挑戰(zhàn),研究團隊采用了半監(jiān)督學習技術。該技術通過為未標記的面部數據生成表情類別偽標簽,擴充了訓練數據集,從而提升了模型的泛化能力和識別精度。同時,研究團隊針對數據集中的類別不平衡問題和半監(jiān)督學習中可能存在的數據偏差,引入了去偏反饋學習策略,有效提升了模型的穩(wěn)健性和準確性。為了進一步彌補僅從靜態(tài)圖像獲取特征的局限性,研究團隊還引入了時間編碼器(Temporal Encoder)。該組件能夠學習和捕捉相鄰表情圖像特征之間的時間關系,從而增強了模型對面部表情隨時間變化的動態(tài)理解能力。
針對CE賽道人類情緒表達變得復雜的挑戰(zhàn),需要同時考慮局部和全局的面部表情來做出判斷,研究團隊提出了一種基于集成學習的解決方案,采用卷積網絡、視覺Transformer和多尺度局部注意網絡分別訓練三個表情分類模型,并通過后期融合技術將它們的輸出合并,以綜合考量局部和全局表情特征,從而顯著提升了在RAF-DB數據集上的識別準確度。此外,方法還展示了在C-EXPR-DB數據集上部分區(qū)域實現(xiàn)零樣本學習的能力,為復合表情識別的進一步研究和應用提供了新的方法和視角。
針對EMI賽道數據集中情感表達的復雜性和多樣性的挑戰(zhàn),研究團隊基于ResNet18和面部動作單元(AUs)提取了豐富的雙通道視覺特征用于視頻模態(tài),以及基于Wav2Vec2.0提取了有效的單通道音頻特征用于音頻模態(tài)。這使我們能夠獲得視聽模態(tài)下綜合的情感特征。此外,通過后期融合策略,我們對視覺和聲學模型的預測進行了平均,從而更準確地估計了視聽情感模仿強度。
作為這些成果的延續(xù)與總結,研究團隊將這些研究成果整理成四篇學術論文,并于國際頂級(CVPR)會議上發(fā)表。
繼2023年發(fā)布山海大模型以來,云知聲持續(xù)推動AGI技術在智慧物聯(lián)、智慧醫(yī)療等領域全面應用?;谏胶4竽P停浦暢掷m(xù)拓展智能體(Agent)、檢索增強生成(RAG)及多模態(tài)融合能力,積極探索更廣泛的應用場景,并先后入選北京市通用人工智能十大模型伙伴及大模型十大應用案例,成為大模型領域的佼佼者。這次技術評測,是云知聲多模態(tài)能力拓展的重要階段性成果。
展望未來,中國科大-云知聲聯(lián)合團隊將繼續(xù)秉持技術創(chuàng)新的精神,積極推動情感行為分析技術的研發(fā)與升級,打造更加真實、生動且富有情感溫度的人機智能對話世界。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )