計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議ICCV 2017 騰訊優(yōu)圖入選12篇論文,含3篇Oral

被譽(yù)為計(jì)算機(jī)視覺(jué)領(lǐng)域三大頂級(jí)會(huì)議之一的ICCV(另外兩個(gè)為CVPR、ECCV)近日揭曉收錄論文名單,騰訊優(yōu)圖共有12篇論文入選,居業(yè)界實(shí)驗(yàn)室前列,其中3篇被選做口頭報(bào)告(Oral),該類(lèi)論文僅占總投稿數(shù)的2.1%(45/2143)。

本屆 ICCV 共收到2143篇論文投稿,其中621篇被選為大會(huì)論文,錄用比例29%。其中有45篇口頭報(bào)告(Oral)和56篇亮點(diǎn)報(bào)告(Spotlight)。今年參會(huì)人數(shù)預(yù)計(jì)將超過(guò)3000人,可見(jiàn)其火爆程度。

ICCV作為計(jì)算機(jī)視覺(jué)領(lǐng)域最高級(jí)別的會(huì)議之一,其論文集代表了計(jì)算機(jī)視覺(jué)領(lǐng)域最新的發(fā)展方向和水平。此次騰訊優(yōu)圖入選的論文提出了諸多亮點(diǎn):全球首個(gè)AI卸妝效果的算法;現(xiàn)今最準(zhǔn)確的單張圖像深度估計(jì)算法;完美解決多幀信息融合困難的多幀超分辨率視頻結(jié)果;史無(wú)前例的手機(jī)雙攝圖像匹配和分割研究成果。這些論文呈現(xiàn)了有趣且可擴(kuò)展應(yīng)用的技術(shù),讓視覺(jué)AI成為了一個(gè)工業(yè)界和學(xué)術(shù)界的交叉熱點(diǎn)。其中,騰訊優(yōu)圖的智能卸妝超分辨率、雙攝融合、濾鏡還原和智能圖像縮放都是具有極大應(yīng)用前景的技術(shù)。它們創(chuàng)造出新應(yīng)用的同時(shí)也改進(jìn)了現(xiàn)有算法,為后續(xù)的研究提供了更多的經(jīng)驗(yàn)和指導(dǎo)。

下面我們將對(duì)騰訊優(yōu)圖12篇入選論文進(jìn)行解析,也邀請(qǐng)大家在ICCV的現(xiàn)場(chǎng)與我們進(jìn)一步交流與討論。

騰訊優(yōu)圖12篇入選論文詳解

1. Oral論文:美化人像的盲復(fù)原

Makeup-Go: Blind Reversion of Portrait Edit

本文與香港中文大學(xué)合作完成。目前市面上有很多關(guān)于人臉美化的應(yīng)用,如騰訊天天P圖等。由于這些應(yīng)用的流行,網(wǎng)絡(luò)上的人像很多與真人不符。本文提出一種圖像盲復(fù)原的算法,用于將美化過(guò)的人像復(fù)原為真實(shí)的人像。為了簡(jiǎn)化問(wèn)題,本文著重闡述如何解決全局美化操作的復(fù)原問(wèn)題,例如膚色美白,去皺,磨皮等。由于這些操作是在圖像的不同尺度上完成的,而我們又無(wú)法得到人臉美化應(yīng)用中所使用的操作類(lèi)型和參數(shù),直接使用現(xiàn)有的模型并無(wú)法解決這個(gè)問(wèn)題。我們提出了一種新的深度網(wǎng)絡(luò)結(jié)構(gòu),成分回歸網(wǎng)絡(luò),來(lái)對(duì)美化圖像進(jìn)行盲復(fù)原。即使在不知道美化系統(tǒng)具體參數(shù)的情況下,該網(wǎng)絡(luò)結(jié)構(gòu)亦能更好地將美化后的圖像映射為原始圖像。實(shí)驗(yàn)表明,該網(wǎng)絡(luò)在不同尺度上均可以得到較高的還原度。

*本文入選ICCV 2017 口頭報(bào)告(Oral),該類(lèi)論文僅占總投稿數(shù)的2.1%。

2. Oral論文:細(xì)節(jié)還原深度視頻超分辨率

Detail-revealing Deep Video Super-resolution

本論文與香港中文大學(xué)、多倫多大學(xué)和Adobe合作完成。本論文關(guān)注解決視頻超分辨率的問(wèn)題,即利用視頻中低分辨率的多幀信息,恢復(fù)出清晰而真實(shí)的高分辨率圖像。傳統(tǒng)的超分辨率算法處理速度慢,恢復(fù)效果嚴(yán)重依賴(lài)于繁瑣的參數(shù)調(diào)整,因此難以實(shí)用。近期的基于深度學(xué)習(xí)的算法則由于運(yùn)動(dòng)估計(jì)不夠準(zhǔn)確,難以恢復(fù)足夠豐富的真實(shí)細(xì)節(jié)。

本文作者從原理和實(shí)驗(yàn)上發(fā)現(xiàn)并指出:正確的運(yùn)動(dòng)估計(jì)對(duì)于圖像細(xì)節(jié)恢復(fù)至關(guān)重要,并基于此設(shè)計(jì)了亞像素運(yùn)動(dòng)補(bǔ)償網(wǎng)絡(luò)層SPMC Layer。本文提出的適用于視頻超分辨率的網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)崿F(xiàn):?jiǎn)文P吞幚砣我獬叽巛斎?,任意倍率放大,任意多幀處理。同時(shí),本文算法能夠在取得豐富的真實(shí)細(xì)節(jié)情況下,達(dá)到很快的處理速度(百倍于同等效果的傳統(tǒng)方法)。本文算法在效果、速度和實(shí)用性上均能超過(guò)現(xiàn)有其他算法。

*本文入選ICCV 2017 口頭報(bào)告(Oral),該類(lèi)論文僅占總投稿數(shù)的2.1%。

3. Oral論文:基于圖的RGBD圖像分割網(wǎng)絡(luò)

3D Graph Neural Networks for RGBD Semantic Segmentation

本論文與香港中文大學(xué)、多倫多大學(xué)合作完成。本論文專(zhuān)注解決RGBD圖像的語(yǔ)義分割問(wèn)題。與比較常見(jiàn)的RGB圖像分割問(wèn)題相比,這個(gè)問(wèn)題又有了深度的信息。深度信息能夠表征物體的幾何形狀,并且能夠更精確的描述像素件的幾何鏈接。因此如何利用深度信息做到更精確的圖像分割成為這個(gè)問(wèn)題最核心的模塊。在此之前的方法都是先將深度圖編碼成HHA圖像,然后再把HHA圖當(dāng)作另外一張圖像并輸入到神經(jīng)網(wǎng)絡(luò)里抽取特征。這種方法在本質(zhì)上還是一個(gè)基于2D的解決思路,無(wú)法更好的融合點(diǎn)之間在真實(shí)空間的聯(lián)系,并不能使得到的結(jié)果很好的利用深度信息。本文作者提出在把深度信息轉(zhuǎn)化為點(diǎn)真實(shí)的三維坐標(biāo),然后建立基于點(diǎn)實(shí)際坐標(biāo)的knn 圖。并且利用基于圖的神經(jīng)網(wǎng)絡(luò),能夠讓圖像特征可以根據(jù)knn圖相互迭代更新每個(gè)點(diǎn)的特征。最后再利用分類(lèi)網(wǎng)絡(luò)對(duì)更新過(guò)的特征進(jìn)行分類(lèi)完成圖像RGBD圖像分割的問(wèn)題。本文算法在效果上超過(guò)現(xiàn)在的基于2d卷積的方法,體現(xiàn)了該方法利用幾何信息完成特征迭代更新的有效性。

*本文入選ICCV 2017 口頭報(bào)告(Oral),該類(lèi)論文僅占總投稿數(shù)的2.1%。

4. Poster論文:高質(zhì)量的手機(jī)雙攝圖像匹配和分割估計(jì)

High-Quality Correspondence and Segmentation Estimation for Dual-Lens Smart-Phone Portraits

本文提出了一個(gè)高質(zhì)量的手機(jī)雙攝圖像匹配以及分割的算法。同時(shí)解決了圖像匹配和物體分割這兩大計(jì)算機(jī)視覺(jué)里的難題。隨著雙攝逐漸成為手機(jī)的標(biāo)配,怎樣更好的匹配雙攝圖像一直以來(lái)都是學(xué)術(shù)界和工業(yè)界關(guān)心的問(wèn)題。為了解決這一難題,作者提出了一種聯(lián)合優(yōu)化匹配和分割的框架,為了讓優(yōu)化高效,還提出了一種區(qū)域的匹配算法。作者建立了一個(gè)2000對(duì)雙攝圖像的數(shù)據(jù)集用于算法的評(píng)估和測(cè)試。

5. Poster論文:立體匹配的無(wú)監(jiān)督機(jī)器學(xué)習(xí)

Unsupervised Learning of Stereo Matching

本論文與香港中文大學(xué)合作完成,主要提出了全新的立體匹配(Stereo Matching)的無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning)框架。深度神經(jīng)網(wǎng)絡(luò)在立體匹配問(wèn)題中被廣泛應(yīng)用,與傳統(tǒng)方法相比較下,精度和效率都有顯著的提高。然而現(xiàn)有的方法大多基于有監(jiān)督學(xué)習(xí)(Supervised Learning),另外少有的一些通過(guò)無(wú)監(jiān)督學(xué)習(xí)得到的模型的精度也不甚理想。

在這篇論文中,作者提出了一種簡(jiǎn)單又高效的對(duì)立體匹配問(wèn)題的無(wú)監(jiān)督學(xué)習(xí)方法。通過(guò)左右一致性檢測(cè),此方法在每一次迭代中都會(huì)篩選出正確的匹配。這些正確的匹配會(huì)被用作下一次迭代的訓(xùn)練數(shù)據(jù)。經(jīng)過(guò)數(shù)次迭代,此方法收斂到穩(wěn)定狀態(tài)。實(shí)驗(yàn)結(jié)果證明了此方法的精度遠(yuǎn)優(yōu)于現(xiàn)有的無(wú)監(jiān)督方法,且十分接近有監(jiān)督方法。

6. Poster論文:基于零階優(yōu)化的圖像濾鏡還原

Zero-order Reverse Filtering

本論文與香港中文大學(xué)、多倫多大學(xué)和Adobe合作完成。在圖像處理領(lǐng)域,研究者們?cè)O(shè)計(jì)了種類(lèi)的繁多的濾鏡用來(lái)消除噪聲,去除紋理等。本文另辟蹊徑,首次提出并探討了濾鏡問(wèn)題的一個(gè)新方向:能否恢復(fù)經(jīng)過(guò)圖像濾鏡處理之后的圖片?

通過(guò)對(duì)圖像濾鏡過(guò)程的分析,本文作者發(fā)現(xiàn)傳統(tǒng)平滑濾鏡可以近似看做測(cè)度理論中的壓縮映射。因此,在無(wú)需知道濾鏡實(shí)現(xiàn)算法的情況下,用簡(jiǎn)單地零階迭代算法便可以恢復(fù)濾鏡前的效果。作者在常用的數(shù)十種濾鏡上測(cè)試了算法,并均能取得很好的效果。本算法本身實(shí)現(xiàn)簡(jiǎn)單(無(wú)需知道濾鏡算法,無(wú)需計(jì)算梯度),效果顯著,其揭示的現(xiàn)象和背后的原理有望引起后續(xù)研究者們對(duì)濾鏡算法領(lǐng)域新的理解。

7. Poster論文:基于圖模型神經(jīng)網(wǎng)絡(luò)的情景識(shí)別

Situation Recognition with Graph Neural Networks

本論文與香港中文大學(xué)和多倫多大學(xué)合作完成,作者提出了一種基于圖模型的神經(jīng)網(wǎng)絡(luò)用于情景識(shí)別任務(wù)。在情景識(shí)別任務(wù)中,算法需要同時(shí)識(shí)別圖中所展示的動(dòng)作以及參與完成這個(gè)動(dòng)作的各種角色,比如主語(yǔ)、賓語(yǔ)、目標(biāo)、工具等等。為了顯式地對(duì)不同角色間的關(guān)系建模,文中提出的圖模型神經(jīng)網(wǎng)絡(luò)將表示不同角色的節(jié)點(diǎn)連接在了一起,并通過(guò)信息傳遞的方式使得網(wǎng)絡(luò)可以輸出一個(gè)結(jié)構(gòu)化的結(jié)果。作者在實(shí)驗(yàn)中比較了不同的連接方式,比如線形結(jié)構(gòu),樹(shù)形結(jié)構(gòu)和全連接結(jié)構(gòu),發(fā)現(xiàn)在情景識(shí)別任務(wù)中全連接結(jié)構(gòu)的效果最好。最后,文中還展示網(wǎng)絡(luò)所學(xué)習(xí)到的對(duì)于不同動(dòng)作的特有的連接結(jié)構(gòu)。上圖所示的結(jié)果圖,比較了不同模型的檢測(cè)結(jié)果。其中藍(lán)底的表示參與動(dòng)作的角色,綠底表示正確的預(yù)測(cè)結(jié)果,紅底表示錯(cuò)誤的預(yù)測(cè)結(jié)果。我們可以看到,使用全連接圖模型能夠糾正一些由其他模型產(chǎn)生的錯(cuò)誤。

8. Poster論文:基于序列性組合深度網(wǎng)絡(luò)的實(shí)例分割

Sequential Grouping Networks (SGN) for Instance Segmentation

本論文與香港中文大學(xué),多倫多大學(xué)和Uber合作完成。實(shí)例分割是比物體檢測(cè)和語(yǔ)義分割更進(jìn)一步的識(shí)別任務(wù),旨在為圖中每個(gè)實(shí)例都提供一個(gè)像素級(jí)別的掩膜,既保持了區(qū)分不同實(shí)例的能力,又保證了定位實(shí)例的精確性。該任務(wù)在自動(dòng)駕駛,機(jī)器人等領(lǐng)域有廣闊的應(yīng)用前景。

在本論文中,作者提出了一種全新的方式,通過(guò)一組序列性的不同的深度網(wǎng)絡(luò)逐步將一些低級(jí)的元素不斷組合成更加復(fù)雜的結(jié)構(gòu),最終得到每個(gè)實(shí)例對(duì)應(yīng)的掩膜。該方法同時(shí)解決了一些早期工作中自下而上的方法會(huì)把被隔斷的物體錯(cuò)判為多個(gè)物體的問(wèn)題。該方法在兩個(gè)數(shù)據(jù)集上都取得了比早期工作更好的結(jié)果。

9.Spotlight論文:基于弱監(jiān)督和自監(jiān)督的深度卷積神經(jīng)網(wǎng)絡(luò)圖片縮放算法

Weakly- and Self-Supervised Learning for Content-Aware Deep Image Retargeting

本論文與韓國(guó)KAIST大學(xué)一起合作。隨著數(shù)字顯示設(shè)備的普及,隨之而來(lái)的一個(gè)問(wèn)題就是同一張圖片在不同分辨率設(shè)備上顯示效果的適應(yīng)性問(wèn)題。傳統(tǒng)的線性縮放,或是簡(jiǎn)單裁剪等方法會(huì)帶來(lái)諸如圖片內(nèi)容扭曲、內(nèi)容丟失等負(fù)面效果。

作者提出了一種利用弱監(jiān)督和自監(jiān)督深度卷積神經(jīng)網(wǎng)絡(luò)(WSSDCNN)來(lái)進(jìn)行圖片縮放的算法。該算法通過(guò)建立一個(gè)在輸入圖片與目標(biāo)分辨率圖片之間像素級(jí)別的映射,旨在對(duì)圖片大小進(jìn)行調(diào)整的同時(shí),盡量保留圖片中重要語(yǔ)義信息的比例結(jié)構(gòu),從而避免了內(nèi)容扭曲、內(nèi)容丟失等傳統(tǒng)方法的缺陷,在最大程度上保持了圖片顯示效果的一致性。

10. Poster論文:分區(qū)域多人姿態(tài)識(shí)別算法

RMPE: Regional Multi-Person Pose Estimation

本論文與上海交通大學(xué)合作完成。自然場(chǎng)景下的多人姿態(tài)識(shí)別一直都是計(jì)算機(jī)視覺(jué)領(lǐng)域中較難攻克的課題之一。盡管目前人物檢測(cè)的算法已經(jīng)十分穩(wěn)定,但微小的誤差仍然很難避免。

針對(duì)在人物檢測(cè)結(jié)果不準(zhǔn)的情況下進(jìn)行穩(wěn)定的多人姿態(tài)識(shí)別這一問(wèn)題,作者提出了一種全新的解決方案——分區(qū)域多人姿態(tài)識(shí)別算法(RMPE)。該算法綜合利用了對(duì)稱(chēng)性空間遷移網(wǎng)絡(luò)(Symmetric Spatial Transformer Network)和單人姿態(tài)估計(jì)算法,從而擺脫了多人姿態(tài)識(shí)別任務(wù)對(duì)人物檢測(cè)準(zhǔn)確性的依賴(lài),并且進(jìn)一步通過(guò)參數(shù)化的人物姿態(tài)表達(dá)對(duì)識(shí)別結(jié)果進(jìn)行了優(yōu)化。根據(jù)在公開(kāi)數(shù)據(jù)集MPII上的測(cè)試結(jié)果,該算法相較CMU提出的OpenPose算法提升了1個(gè)百分點(diǎn),尤其是對(duì)手肘、手腕、膝蓋、腳踝等細(xì)小關(guān)鍵點(diǎn)的改善尤為明顯。

11. Poster論文:學(xué)習(xí)判別判別數(shù)據(jù)擬合函數(shù)來(lái)做圖像的去模糊

Learning Discriminative Data Fitting Functions for Blind Image Deblurring

本論文與南京科學(xué)技術(shù)大學(xué),大連理工大學(xué)和加州大學(xué)默塞德分校合作完成。本論文是關(guān)于一個(gè)用數(shù)據(jù)擬合函數(shù)來(lái)解決圖像的去模糊問(wèn)題。圖像去模糊是一個(gè)經(jīng)典的計(jì)算機(jī)視覺(jué)問(wèn)題,需要合理定義數(shù)據(jù)擬合函數(shù)和圖像先驗(yàn)知識(shí)。但是目前的大部分算法都是通過(guò)更好的定義圖像先驗(yàn)來(lái)提高去模糊的效果,對(duì)數(shù)據(jù)擬合函數(shù)的研究比較少。本文提出了一種機(jī)器學(xué)習(xí)方法來(lái)學(xué)習(xí)模糊圖像和清晰圖像之間的關(guān)系,從而得到更好的數(shù)據(jù)擬合函數(shù)。該擬合函數(shù)能進(jìn)一步幫助估計(jì)更加準(zhǔn)確的模糊核。該算法在非常難的去模糊圖像數(shù)據(jù)集中得到了最好結(jié)果。

12. Poster論文:利用已知物體和物質(zhì)信息遷移的弱監(jiān)督物體檢測(cè)算法

Weakly Supervised Object Localization Using Things and Stuff Transfer

本論文與愛(ài)丁堡大學(xué)合作完成。本論文關(guān)注弱監(jiān)督的物體檢測(cè)問(wèn)題并利用已知物體(可數(shù))和物質(zhì)(不可數(shù))信息遷移來(lái)提供幫助。弱監(jiān)督物體檢測(cè)的目標(biāo)集合的中物體位置信息未知,而源集合中對(duì)應(yīng)的物體和物質(zhì)的信息包括位置、標(biāo)記等則已知。源集合和目標(biāo)集合中的物體類(lèi)別有一定的相似性,比如外形相似或者擁有共同物質(zhì)背景。

為了遷移利用這種相似性,本文作者從源集合中獲取三種信息:一個(gè)分割模型;源集合與目標(biāo)集合物體類(lèi)別之間相似度;源集合中物體與物質(zhì)類(lèi)別之間的共生性。作者緊接著利用分割模型對(duì)目標(biāo)集合圖片首先做圖像分割,同時(shí)利用物體物質(zhì)類(lèi)別之間的相似度和共生性來(lái)修正分割結(jié)果。修正后結(jié)果被嵌入到多物體檢測(cè)框架中聯(lián)合訓(xùn)練并檢測(cè)目標(biāo)集合中的物體。本文算法效果在公開(kāi)數(shù)據(jù)集上超過(guò)其他現(xiàn)有弱監(jiān)督物體檢測(cè)算法。同時(shí)本文特別選擇了目標(biāo)集和源集合差別很大的物體類(lèi)別進(jìn)行測(cè)試,顯示本文遷移算法具有很強(qiáng)大的泛化能力。

帶你一分鐘了解ICCV

ICCV全稱(chēng)為International Conference on Computer Vision(國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)),由美國(guó)電氣和電子工程師學(xué)會(huì)(IEEE,Institute of Electrical & Electronic Engineers)主辦。作為世界頂級(jí)的學(xué)術(shù)會(huì)議,首屆國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)于1987年在倫敦揭幕,其后兩年舉辦一屆。今年ICCV將于10月 22 日到 29 日在意大利威尼斯舉辦。

ICCV作為計(jì)算機(jī)視覺(jué)領(lǐng)域最高級(jí)別的會(huì)議之一,是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的A類(lèi)會(huì)議。其論文集代表了計(jì)算機(jī)視覺(jué)領(lǐng)域最新的發(fā)展方向和水平。會(huì)議的論文收錄率較低,影響力遠(yuǎn)超一般SCI期刊,大致與中科院JCR分區(qū)1區(qū)和Web of Science的JCR分區(qū)Q1中靠前的學(xué)術(shù)期刊相當(dāng)。


極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2017-10-19
計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議ICCV 2017 騰訊優(yōu)圖入選12篇論文,含3篇Oral
被譽(yù)為計(jì)算機(jī)視覺(jué)領(lǐng)域三大頂級(jí)會(huì)議之一的ICCV(另外兩個(gè)為CVPR、ECCV)近日揭曉收錄論文名單,騰訊優(yōu)圖共有12篇論文入選,居業(yè)界實(shí)驗(yàn)室前列,其中3篇被選做口頭報(bào)告(Oral),該類(lèi)論文僅占總投稿數(shù)的2 1%(45 2143)。本屆 ICCV 共收到2143篇論文投稿,其中621篇被選為大會(huì)論文,錄

長(zhǎng)按掃碼 閱讀全文