近日,京東AI研究院計算機視覺與多媒體實驗室提出人臉檢測算法“Improved Selective Refinement Network(ISRN)”,在業(yè)界頂級人臉檢測榜單“WIDER FACE”中的“Easy”、“Medium”和“Hard”三項評測集中,以96.3%AP,95.4%AP,90.3%AP的優(yōu)異性能全部獲得排名第一的佳績,在行業(yè)研究平臺上展現(xiàn)出京東AI研究院出色的人臉檢測實力。
圖1 WIDER FACE數(shù)據(jù)集中不同難度的圖片樣例(圖片來自于WIDERFACE官網(wǎng))
“WIDER FACE”由香港中文大學舉辦,是目前人臉研究領域中規(guī)模最大、檢測難度最高的公開人臉檢測數(shù)據(jù)集之一。數(shù)據(jù)集涵蓋32203張圖片與393703張人臉標注,應用極端人臉尺寸變化、拍照角度引起的人臉姿態(tài)變化、不同程度的人臉遮擋、表情變化、光照強弱差異以及化妝等多種影響因素,極大地增加了圖像人臉檢測的難度。
圖2."WIDER FACE"人臉評測集數(shù)據(jù)樣例,從上至下三行分別對應Easy, Medium, Hard三項難度不同的評測
正是基于這種極具挑戰(zhàn)性的檢測難度、精細化的評測標準,“WIDER FACE”吸引了眾多國內(nèi)外眾多高校和企業(yè)實驗室(包括卡耐基梅隆大學、加州大學圣地亞哥分校、浙大、北航、曠視科技、騰訊優(yōu)圖、百度、華為云、滴滴AI、IBM沃森研究院等)參與研究和提升人臉檢測算法的準確性和魯棒性。
京東AI研究院能夠在“WIDER FACE”人臉檢測數(shù)據(jù)集評測的“Easy”、“Medium”和“Hard”三項評測集中,以96.3% AP,95.4% AP,90.3% AP的優(yōu)異性能全部排名第一,核心在于京東AI研究院計算機視覺與多媒體實驗室對“WIDER FACE”數(shù)據(jù)集中圖片內(nèi)容人臉區(qū)域較小,難以檢測問題的處理。
圖3. 京東AI研究院提出的ISRN在“WIDER FACE”的Easy,Medium,Hard三項評測均取得目前業(yè)界最佳性能(結(jié)果來自WIDER FACE官方網(wǎng)站[2])
在這個方面,京東AI研究院計算機視覺與多媒體實驗室的人臉算法組對現(xiàn)有的的SelectiveRefinement Nerwork (SRN) 模型進行了優(yōu)化改進:
利用隨機初始化嘗試大量網(wǎng)絡結(jié)構(gòu)
結(jié)合Group Normalization實現(xiàn)隨機初始化訓練,使人臉檢測算法“Improved Selective Refinement Network(ISRN)”不使用傳統(tǒng)的ImageNet預訓練模型就可以達到較好的結(jié)果。
改用MS COCO數(shù)據(jù)集做預訓練
MS COCO數(shù)據(jù)集中有較多屬于“人類”類別的圖片,而且檢測目標尺度變化較大,小物體較多,相對于ImageNet更適合于WIDERFACE的人臉檢測。
重新設計殘差網(wǎng)絡的輸入模塊
針對WIDERFACE數(shù)據(jù)集中的極小人臉,重新設計殘差網(wǎng)絡的輸入模塊,取消對原始圖片的下采樣操作,最大程度保留人臉的位置信息。然后第一個多通道數(shù)的卷積層進行拆分,來盡可能少地增加計算量與顯存的情況:
提升小目標人臉的檢測性能
利用FPN多層特征融合豐富檢測特征的語義信息,結(jié)合STC(SelectiveTwo-step Classification,在淺層特征的第二階段過濾掉低分數(shù)的樣本)與STR (Selective Two-step Regression,在深層特征的第二階段重新調(diào)整樣本)兩階段分類回歸方法來增強模型的魯棒性,降低模型的誤檢率,提升對小目標人臉的檢測性能。
京東AI研究院計算機視覺與多媒體實驗室一直致力于人臉識別、人臉檢測、人臉關(guān)鍵點檢測、人臉防偽、人臉屬性識別與模型壓縮等計算機視覺領域的技術(shù)研究,并有豐富的算法、產(chǎn)品方面的經(jīng)驗積累。
學術(shù)上,京東AI研究院2018年已經(jīng)在國際級學術(shù)頂會中發(fā)布了10余篇計算機視覺方向研究論文,并在計算機視覺國際頂會CVPR 2018 “Look Into Person” 國際競賽單人和多人人體姿態(tài)估計兩個競賽單元排名第一;在計算機視覺國際頂會ECCV 2018 視覺領域遷移學習挑戰(zhàn)賽的開放式圖像分類(openset classification)和物體檢測(detection)兩個任務場景中均以大比分優(yōu)勢排名第一。
圖4. 照片攝于2014年,是當時世界上人數(shù)最多的自拍合影,JDAI-FD檢測到其中902張人臉,目前業(yè)內(nèi)最佳
應用落地方面,京東AI研究院的人臉檢測與識別技術(shù)已經(jīng)廣泛應用到京東-德清智能門店、京東7Fresh線下商超的實體零售場景之中,在京東與德清聯(lián)合打造的多模態(tài)交互政務機器人——城市綜合服務機器人和同馮氏集團聯(lián)合打造的智能商業(yè)顯示屏中,京東AI研究院先進的人臉檢測與識別技術(shù)也體現(xiàn)出巨大價值。目前京東AI研究院的人臉檢測與識別技術(shù)已形成成熟的技術(shù)解決方案,通過京東NeuHub人工智能平臺對外合作,助力傳統(tǒng)制造業(yè)、實體零售行業(yè)等多維領域轉(zhuǎn)型升級。
圖5 京東人臉檢測技術(shù)在京東實體零售等場景中的應用
京東集團副總裁,AI平臺與研究部負責人周伯文博士表示:“京東一直致力于用最先進的人工智能技術(shù)做最落地的人工智能應用?!贝舜尉〇|AI研究院提出的人臉檢測算法“Improved Selective Refinement Network(ISRN)”,在業(yè)界頂級人臉檢測榜單“WIDER FACE”中的“Easy”、“Medium”和“Hard”三項評測集中,以96.3%AP,95.4%AP,90.3%AP的優(yōu)異性能全部獲得排名第一的佳績,體現(xiàn)了京東AI在人臉檢測領域的領先水平,未來京東將通過人工智能技術(shù)的持續(xù)深耕,將持續(xù)應用人工智能技術(shù)助力行業(yè)升級,引領美好生活,釋放社會價值。
京東AI研究院計算機視覺與多媒體實驗室還將在國際多媒體頂級學術(shù)會議IEEE ICME2019上,舉行人臉關(guān)鍵點競賽“Grand Challenge of 106-p Facial Landmark Localization”,歡迎相關(guān)領域的學生、研究人員的參與。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )