曠視科技Face++公開COCO2017冠軍模型

今年 ICCV 2017會議期間,COCO +Places 2017挑戰(zhàn)賽公布了獲獎榜單。在COCO Challenge 和 Places Challenge 兩個板塊的七項比賽中,曠視科技(Face++)拿下了 COCO Detection/Segmentation Challenge(檢測/分割)、COCO Keypoint Challenge(人體關鍵點檢測)、Places Instance Segmentation(實體分割)三個項目的冠軍。

1.jpg

有趣的是,Places Challenge 中允許提交五次成績,曠視在實體分割項目上第一次提交的成績就以0.27717 Mean AP遠遠甩開了其它隊伍中的最好成績0.24150,最終的第三次提交更繼續(xù)提升到了0.29772,穩(wěn)坐第一名。

近日,曠視科技研究院就在arXiv上連發(fā)三篇論文,內容包括了自己在COCO +Places 2017挑戰(zhàn)賽中的獲獎模型。AI 科技評論把這三篇論文簡單介紹如下,感興趣的讀者歡迎查看原論文仔細研究。

Light-Head R-CNN: In Defense of Two-Stage Object Detector

· 輕量頭部 R-CNN:守護兩階段物體檢測器的尊嚴

· 論文地址:https://arxiv.org/abs/1711.07264

· 論文簡介:這篇論文中,作者們首先探究了典型的兩階段物體檢測方法沒有YOLO和SSD這樣的單階段檢測方法運行速度快的原因。他們發(fā)現(xiàn),F(xiàn)aster R-CNN 和 R-FCN 在候選區(qū)域產生前或后都會進行高強度的計算。Faster R-CNN 在候選區(qū)域識別后有兩個全連接層,而 R-FCN 會產生一張很大的分數(shù)表。這些網(wǎng)絡由于有這樣的高計算開銷的設計,運行速度就較慢。即便作者們嘗試大幅度縮減基準模型的大小,計算開銷也無法以同樣幅度減少。

曠視科技的作者們在論文中提出了一個新的兩階段檢測器,Light-Head R-CNN,輕量頭部 R-CNN,意在改善當前的兩階段方法中計算開銷大的缺點。在他們的設計中,通過使用小規(guī)模的feature map和小規(guī)模的R-CNN子網(wǎng)絡(池化層和單個全連接層),網(wǎng)絡的頭部被做得盡可能輕量化。作者們基于ResNet-101構造了一個輕量頭部的R-CNN網(wǎng)絡,在COCO數(shù)據(jù)集上超越當前最好水準的同時還保持了很高的時間效率。更重要的是,只要把骨干結構換成一個較小的網(wǎng)絡(比如 Xception),作者們的 Light-Head R-CNN 就可以在COCO數(shù)據(jù)集上以102FPS的運行速度得到30.7mmAP的成績,在速度和準確率兩個方面都明顯好于YOLO和SSD這樣的快速單階段檢測方法。相關代碼將會公開發(fā)布。

2.jpg

檢測精度與推理時間對比圖

Cascaded Pyramid Network for Multi-Person Pose Estimation

· 用于多人姿態(tài)估計的級聯(lián)金字塔網(wǎng)絡CPN

· COCO Keypoint Challenge 第一名

· 論文地址:https://arxiv.org/abs/1711.07319

· 論文簡介:多人姿態(tài)估計這個課題的研究成果近期有了很大的提升,尤其是在卷積神經(jīng)網(wǎng)絡快速發(fā)展的幫助下。然而,還是有許多情境會造成檢測困難,比如關鍵點重疊、關鍵點不可見以及背景復雜的情況都還解決得不理想。在這篇論文中,作者們提出了一種新的網(wǎng)絡結構 Cascaded Pyramid Network,級聯(lián)金字塔網(wǎng)絡 CPN,意在解決這些困難情境下的關鍵點識別問題。具體來說,他們的算法包含兩個階段,GlobalNet 和 RefineNet。GlobalNet 是一個特征金字塔網(wǎng)絡,它可以找到所有“簡單”的關鍵點,比如眼、手;重疊的或者不可見的關鍵點就可能無法準確識別。然后RefineNet 是專門用來處理“難”的關鍵點的,它會把 GlobalNet 中所有級別的特征表征和一個難關鍵點的挖掘損失集成到一起。總的來說,為了解決多人姿態(tài)預測問題,他們采用了一個逐步細化的流水線,首先用檢測器生成一組邊界框,框出圖中的人體,然后用級聯(lián)金字塔網(wǎng)絡 CPN在每個人體邊界框中定位關鍵點。

根據(jù)所提的算法,曠視科技的作者們在COCO的關鍵點檢測比賽中刷新了最好成績,在COCO test-dev 數(shù)據(jù)集上取得73.0的平均精度,并在COCO test-challenge 數(shù)據(jù)集上取得72.1的平均精度。這一成績比COCO 2016 關鍵點檢測比賽的最好成績60.5提升了19%之多。

3.jpg

CPN 的部分檢測結果

MegDet: A Large Mini-Batch Object Detector

· mini-batch很大的物體檢測模型MegDet

· COCO Detection/Segmentation Challenge 第一名

· 論文地址:https://arxiv.org/abs/1711.07240

· 論文簡介:基于CNN的物體檢測研究一直在不斷進步,從 R-CNN 到 Fast/Faster R-CNN,到近期的 Mask R-CNN,再到 RetinaNet,主要的改進點都在于新的網(wǎng)絡架構、新的范式、或者新的損失函數(shù)設計。然而mini-batch大小,這個訓練中的關鍵因素并沒有得到完善的研究。在這篇論文中,作者們提出了一個大mini-batch物體檢測模型MegDet,從而可以使用遠大于以往的mini-batch大小訓練網(wǎng)絡(比如從16增大到256),這樣同時也可以高效地利用多塊GPU聯(lián)合訓練(在論文的實驗中最多使用了128塊GPU),大大縮短訓練時間。技術層面上,作者們也了提出了一種學習率選擇策略以及跨GPU的batch normalization方法,兩者共同使用就得以大幅度減少大mini-batch物體檢測器的訓練時間(例如從33小時減少到僅僅4個小時),同時還可以達到更高的準確率。文中所提的MegDet就是提交到COCO2017比賽的mmAP 52.5%成績背后的骨干結構,這個成績也拿下了檢測任務的第一名。

4.jpg

同一個物體檢測網(wǎng)絡在COCO數(shù)據(jù)集上訓練的驗證準確率,mini-batch數(shù)量為16的運行在8塊GPU上,256的運行在128塊GPU上。mini-batch更大的檢測器準確率更高,訓練速度也幾乎要快一個數(shù)量級。

“4.6億美元融資”、“姚期智院士加盟”、“人臉識別方案應用于多款手機上”,再加上COCO比賽相關的技術成果和比賽成績,僅近期的幾則消息就可以說明曠視科技已經(jīng)走得很大、很穩(wěn)了。相信未來曠視科技研究院將在計算機視覺領域做出更多的研究成果,在世界范圍內取得商業(yè)和學術的雙豐收。

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2017-12-04
曠視科技Face++公開COCO2017冠軍模型
今年 ICCV 2017會議期間,COCO +Places 2017挑戰(zhàn)賽公布了獲獎榜單。在COCO Challenge 和 Places Challenge 兩個板塊的七項比賽中,曠視科技(Face++)拿下了 COCO Detection Segmentation Challenge(檢測 分割)、COCO Keypoint Challenge(人體關鍵點檢測)、Places

長按掃碼 閱讀全文