VALSE 2018 涌多項(xiàng)頂級(jí)視覺(jué)科技 曠視科技首展商品識(shí)別技術(shù)

4月20日至22日,第八屆視覺(jué)與學(xué)習(xí)青年學(xué)者研討會(huì)(Vision And Learning SEminar/ VALSE 2018)在美麗的大連如期舉行。曠視科技Face++作為鉑金贊助商和CV產(chǎn)業(yè)界代表受邀赴會(huì),向海內(nèi)外的專(zhuān)家、學(xué)者以及業(yè)界人士展示曠視研究院最新CV研究成果。

VALSE 2018 涌多項(xiàng)頂級(jí)視覺(jué)科技 曠視科技首展商品識(shí)別技術(shù)

作為國(guó)內(nèi)最大規(guī)模的機(jī)器視覺(jué)學(xué)術(shù)盛會(huì),VALSE 2018不僅吸引了超過(guò)3000名國(guó)內(nèi)外頂級(jí)專(zhuān)家、學(xué)者,刷新了歷屆參會(huì)熱度,在嘉賓量級(jí)、內(nèi)容質(zhì)量和學(xué)術(shù)高度方面同樣可圈可點(diǎn)。數(shù)十家CV代表企業(yè)的各式最新Demo和上百篇質(zhì)量上乘的墻報(bào)得以亮相,其中搶鮮展示了CVPR 2018收錄的979篇中的56篇;參會(huì)嘉賓大咖云集,西安電子科技大學(xué)“模式識(shí)別與智能系統(tǒng)”學(xué)科帶頭人高新波,ACM Fellow、IEEE Fellow、騰訊Robotics X實(shí)驗(yàn)室負(fù)責(zé)人張正友,澳大利亞國(guó)立大學(xué)著名3D視覺(jué)重建和機(jī)器人SLAM學(xué)者Hongdong Li,前微軟研究院資深研究員、京東AI研究院副院長(zhǎng)梅濤等學(xué)界、業(yè)界頂級(jí)專(zhuān)家分別做了精彩紛呈的主題報(bào)告。

曠視科技Face++也向現(xiàn)場(chǎng)嘉賓做了精彩的學(xué)術(shù)分享,并匯報(bào)了曠視最新的學(xué)術(shù)工作進(jìn)展以促進(jìn)業(yè)界交流合作,共繪中國(guó)機(jī)器視覺(jué)事業(yè)藍(lán)圖。下文以3位曠視研究員的學(xué)術(shù)分享為主線,描繪曠視的VALSE 2018之行。

俞剛博士解讀人體姿態(tài)估計(jì)冠軍論文

2017 COCO數(shù)據(jù)集競(jìng)賽中,曠視科技的兩篇冠軍論文《MegDet:A Large Mini-Batch Object Detector》、《Cascaded Pyramid Network for Multi-Person Pose Estimation》,在擊敗谷歌、微軟等強(qiáng)勁對(duì)手之后,分別獲得了2017 COCO物體檢測(cè)和人體姿態(tài)估計(jì)第一名的矚目佳績(jī)。在VALSE 2018大會(huì)第一天的First VALSE Workshop on Methods and Technologiesfor Looking At People環(huán)節(jié)中,曠視資深研究員俞剛博士(曾帶隊(duì)參加2017 COCO競(jìng)賽獲得物體檢測(cè)和人體姿態(tài)估計(jì)雙項(xiàng)第一)重點(diǎn)就第二篇論文作了主題報(bào)告。

VALSE 2018 涌多項(xiàng)頂級(jí)視覺(jué)科技 曠視科技首展商品識(shí)別技術(shù)

  曠視科技資深研究員俞剛博士

俞剛指出,多人姿態(tài)估計(jì)(Multi-Person Pose Estimation)是機(jī)器視覺(jué)領(lǐng)域繞不開(kāi)的一個(gè)經(jīng)典問(wèn)題;在傳統(tǒng)算法遭遇瓶頸之時(shí),雖然卷積神經(jīng)網(wǎng)絡(luò)的再次崛起和快速迭代為解決這一問(wèn)題帶來(lái)了新工具,但還是存在一些百啃不動(dòng)的“硬骨頭”,比如關(guān)鍵點(diǎn)重疊、不可見(jiàn)以及復(fù)雜的背景。為此,曠視科技提出級(jí)聯(lián)金字塔網(wǎng)絡(luò)(Cascaded Pyramid Network/CPN),希望更好地解決關(guān)鍵點(diǎn)難以識(shí)別的問(wèn)題。結(jié)果證明CPN非常奏效,在COCO test-dev數(shù)據(jù)集上平均精度(AP)達(dá)到73.0;在COCO test-challenge數(shù)據(jù)集上平均精度(AP)達(dá)到72.1,相較于2016年的最佳成績(jī)(60.5)有19%的提升,從而實(shí)現(xiàn)了當(dāng)前最優(yōu)水平。

那么曠視提出的CPN是如何實(shí)現(xiàn)的呢?俞剛說(shuō)大體在于一個(gè)two-stage的模型架構(gòu):GlobalNet和RefineNet(見(jiàn)下圖),這是一種top-down pipeline,先通過(guò)檢測(cè)器檢測(cè)出圖像之中的人,再把每個(gè)人摳出來(lái)并做單人姿態(tài)估計(jì),最后把結(jié)果整合到原圖上。CPN這種兩階段架構(gòu)設(shè)計(jì)的想法其實(shí)也不復(fù)雜,甚至可以說(shuō)是相當(dāng)樸素直觀,來(lái)源于人是怎么識(shí)別人體關(guān)鍵點(diǎn),即由特征金字塔網(wǎng)絡(luò)GlobalNet先識(shí)別出簡(jiǎn)單關(guān)鍵點(diǎn),再由(借助online hard keypoint mining loss的)RefineNet整合來(lái)自前者的特征表征以識(shí)別余下的困難關(guān)鍵點(diǎn)。這樣從易到難,層層推進(jìn),最終克服了關(guān)鍵點(diǎn)難以識(shí)別的問(wèn)題。

VALSE 2018 涌多項(xiàng)頂級(jí)視覺(jué)科技 曠視科技首展商品識(shí)別技術(shù)

  級(jí)聯(lián)金字塔網(wǎng)絡(luò)(CPN)

這樣做下來(lái),我們也發(fā)現(xiàn)了一些有趣的事情和結(jié)論。CPN的檢測(cè)框來(lái)自曠視研究院的Detection Team,如上所述曠視的MegDet以及Light-Head R-CNN取得了2017 COCO檢測(cè)第一,所以我們很自然地對(duì)兩者做了對(duì)比分析,結(jié)果發(fā)現(xiàn)檢測(cè)平均精度(Detection mAP)對(duì)關(guān)鍵點(diǎn)平均精度(Keypoint mAP)的影響在達(dá)到一定閾值(Det mAP41.1)之后微乎其微,即前者的顯著提升并不會(huì)促成后者的顯著提升。再比如使用Large batch,可以把CPN的mAP提升0.4-0.7個(gè)百分點(diǎn),這說(shuō)明除了物體檢測(cè)之外,Large batch同樣適用于關(guān)鍵點(diǎn)識(shí)別。

張祥雨博士解讀ShuffleNet v2

講臺(tái)之外,曠視的展臺(tái)也不容忽視,學(xué)術(shù)分享的精彩程度與講臺(tái)之上俞剛博士的分享相得益彰。在曠視展區(qū),曠視資深研究員張祥雨(2016 CVPR最佳論文ResNet作者之一)首次公開(kāi)了獨(dú)家干貨ShuffleNet v2論文并親自解讀答疑,成為全場(chǎng)最受關(guān)注的焦點(diǎn)。ShuffleNet v2可謂是VALSE surprise,下面就扼要地為沒(méi)有機(jī)會(huì)到現(xiàn)場(chǎng)的小伙伴們分享一下曠視研究院ShuffleNet v2的工作思想。

#FormatImgID_3#

ShuffleNet v2 @ VALSE 2018

不同于側(cè)重準(zhǔn)確度高效的(給定計(jì)算量下的準(zhǔn)確度)輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)(L-CNN),ShuffleNet v2是一種側(cè)重執(zhí)行高效的(給定速度下的準(zhǔn)確度)的新架構(gòu),而相比于MobileNet v2和ShuffleNet v1,ShuffleNet v2同時(shí)在GPU和ARM上顯著提升了準(zhǔn)確度/執(zhí)行速度之間的權(quán)衡(參見(jiàn)下圖)。

VALSE 2018 涌多項(xiàng)頂級(jí)視覺(jué)科技 曠視科技首展商品識(shí)別技術(shù)

  準(zhǔn)確度/執(zhí)行速度之間的權(quán)衡

L-CNN在實(shí)際的計(jì)算機(jī)視覺(jué)處理系統(tǒng)中扮演著舉足輕重的角色,其核心方向是開(kāi)發(fā)出參數(shù)少、速度快、精度高的移動(dòng)端神經(jīng)網(wǎng)絡(luò)。不同于以往一味地只追求準(zhǔn)確度,最近的L-CNN架構(gòu)設(shè)計(jì)逐漸轉(zhuǎn)向了如何在計(jì)算復(fù)雜度(FLOPs)一定的情況下,更加高效地實(shí)現(xiàn)高準(zhǔn)確度。但是,這依然不夠,因?yàn)镕LOPs和實(shí)際運(yùn)行速度并不能劃等號(hào),可見(jiàn)在FLOPs一定的情況下,執(zhí)行速度更快的架構(gòu),或者執(zhí)行高效的模型在實(shí)際應(yīng)用中同樣不可或缺。

然而,在L-CNN領(lǐng)域,執(zhí)行效率相比準(zhǔn)確度效率更加不受關(guān)注,雖然一些新近研究成功實(shí)現(xiàn)了兩者之間的權(quán)衡,但仍多是基于高效特征嵌入的啟發(fā)法,或者準(zhǔn)確度導(dǎo)向的模型搜索,是從準(zhǔn)確度效率的角度思考和解決問(wèn)題。而對(duì)于現(xiàn)有組件或架構(gòu),執(zhí)行效率僅是錦上添花,一般無(wú)法在實(shí)際設(shè)備上達(dá)到最優(yōu)。我們發(fā)現(xiàn),隨著平臺(tái)和庫(kù)優(yōu)化越發(fā)復(fù)雜,準(zhǔn)確度導(dǎo)向的研究在當(dāng)前條件下推出實(shí)際的高效模型也越來(lái)越難。

VALSE 2018 涌多項(xiàng)頂級(jí)視覺(jué)科技 曠視科技首展商品識(shí)別技術(shù)

  張祥雨(右一)為大家現(xiàn)場(chǎng)講解ShuffleNet v2論文

ShuffleNet v2則為L(zhǎng)-CNN模型的設(shè)計(jì)提供了一種以執(zhí)行效率為導(dǎo)向的方法。首先,我們分析兩個(gè)當(dāng)前最優(yōu)L-CNN模型的核心組件,通過(guò)一系列可控的評(píng)估進(jìn)行相關(guān)操作的基準(zhǔn)測(cè)試,從中得出可在我們平臺(tái)上快速執(zhí)行的4個(gè)啟發(fā)式原則。正是基于上述原則,我們對(duì)ShuffleNet v1進(jìn)行改進(jìn),提出了ShuffleNet v2,在GPU和ARM上其準(zhǔn)確度/速度權(quán)衡明顯優(yōu)于同類(lèi)模型。同時(shí)我們還評(píng)估了ShuffleNet v2在大型分類(lèi)模型和物體檢測(cè)任務(wù)上的泛化能力。

魏秀參博士展示曠視最新商品識(shí)別技術(shù)

曠視展臺(tái)上的亮點(diǎn)還不止于此,除了ShuffleNet v2的良心披露與解讀,曠視同樣展示了不少產(chǎn)業(yè)前沿的應(yīng)用演示,比如時(shí)下大火的ReID(曠視在2017年發(fā)表的AlignedReID分別在Market1501和CUHK03測(cè)試集中使首位命中率達(dá)到了94.0%和96.1%,使機(jī)器首次在行人再識(shí)別問(wèn)題上超越人類(lèi)從而創(chuàng)下業(yè)界紀(jì)錄。)、視頻結(jié)構(gòu)化、人體關(guān)鍵點(diǎn)等,下面本文將重點(diǎn)介紹其中一個(gè)更新的研究成果——無(wú)人貨架和商品識(shí)別,它出自曠視科技南京研究院,其負(fù)責(zé)人魏秀參博士在展臺(tái)為觀眾們進(jìn)行了詳盡的解答。

VALSE 2018 涌多項(xiàng)頂級(jí)視覺(jué)科技 曠視科技首展商品識(shí)別技術(shù)

  魏秀參(左一)、俞剛(左二)、張祥雨(右一)

首先,曠視對(duì)于無(wú)人貨架和商品識(shí)別研究的基礎(chǔ)起源于曠視在AI +IoT產(chǎn)業(yè)進(jìn)深中的切實(shí)需要。近年來(lái),人工智能加快了對(duì)傳統(tǒng)行業(yè)賦能的步伐,零售行業(yè)也不例外。零售中存在的眾多簡(jiǎn)單重復(fù)且容易出錯(cuò)的人工處理環(huán)節(jié),這是AI技術(shù)重塑零售行業(yè)、實(shí)現(xiàn)降本增效價(jià)值的最佳切入點(diǎn)。新零售作為一種AI改造和升級(jí)之后的全新零售業(yè)態(tài),為體量巨大的零售業(yè)開(kāi)拓了一片機(jī)遇和挑戰(zhàn)并存的新戰(zhàn)場(chǎng)。

曠視南京研究院這次在VALSE 2018上亮相的新零售Demo重點(diǎn)展示了自動(dòng)理貨和取物識(shí)別兩大功能。理貨,即統(tǒng)計(jì)貨架上商品SKU的類(lèi)別和數(shù)量,是線下零售中必不可少的一環(huán)。自動(dòng)理貨的目標(biāo)是替代傳統(tǒng)高價(jià)低效且易出錯(cuò)的人工理貨方式,通過(guò)簡(jiǎn)單的拍照上傳(或者本地處理)就能自動(dòng)生成準(zhǔn)確的店內(nèi)審計(jì)報(bào)告,實(shí)現(xiàn)鋪貨率、排面數(shù)、貨架占有率、促銷(xiāo)執(zhí)行度各項(xiàng)指標(biāo)的全面智能化。取物識(shí)別,即自動(dòng)識(shí)別顧客從貨架上拿走的商品,在無(wú)人超市和無(wú)人貨柜這樣的重量級(jí)的新零售產(chǎn)品中有著重要的應(yīng)用。目前,無(wú)人超市和無(wú)人貨柜的自動(dòng)結(jié)算技術(shù)主要是基于電子標(biāo)簽(RFID)的。這一技術(shù)有兩個(gè)弊端:電子標(biāo)簽增加了額外的成本;結(jié)算時(shí)需要人工配合。如果使用純視覺(jué)的取物識(shí)別技術(shù)來(lái)結(jié)算則可以完美的解決以上問(wèn)題,讓零售店面更“輕”、更“智能”,同時(shí)升級(jí)消費(fèi)體驗(yàn)。

自2011年成立以來(lái),VALSE人數(shù)的節(jié)節(jié)攀高從一定程度上反映了全國(guó)乃至全球計(jì)算機(jī)視覺(jué)技術(shù)的方興未艾之勢(shì)。通過(guò)VALSE,你可以一覽學(xué)術(shù)最前沿,收獲不同的視角,碰撞出啟發(fā)性的火花。

曠視科技在分享之余,也喚醒了自己的學(xué)術(shù)信息觸角,收獲頗多。作為一家以計(jì)算機(jī)視覺(jué)為核心技術(shù)的公司,曠視堅(jiān)守技術(shù)信仰與價(jià)值務(wù)實(shí),致力于打造螺旋上升的“算法-產(chǎn)品-數(shù)據(jù)”閉環(huán),實(shí)現(xiàn)軟硬一體化,最終目的是“為了人工智能終將創(chuàng)造的所有美好”;而要做到以上,離不開(kāi)底層的學(xué)術(shù)創(chuàng)新和一流的學(xué)術(shù)研討氛圍,因此對(duì)于包括曠視在內(nèi)的所有CV公司來(lái)說(shuō),這是VALSE作為一個(gè)高水平、強(qiáng)互動(dòng)的學(xué)術(shù)交流舞臺(tái)的最大意義之一。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2018-04-27
VALSE 2018 涌多項(xiàng)頂級(jí)視覺(jué)科技 曠視科技首展商品識(shí)別技術(shù)
4月20日至22日,第八屆視覺(jué)與學(xué)習(xí)青年學(xué)者研討會(huì)(Vision And Learning SEminar/ VALSE 2018)在美麗的大連如期舉行。

長(zhǎng)按掃碼 閱讀全文