華人科學(xué)家一人斬獲三篇CVPR論文!技術(shù)成果或?qū)a(chǎn)品化

近日美國(guó)夏威夷刮起了“阿里旋風(fēng)”。繼淘寶的“拍立淘”讓外國(guó)工程師大呼好用之后,又傳來阿里巴巴人工智能實(shí)驗(yàn)室共有三篇論文入選 CVPR 2017 的好消息。

CVPR被譽(yù)為科技界中的“春晚”,是近十年來計(jì)算機(jī)視覺領(lǐng)域全球最有影響力、內(nèi)容最全面的頂級(jí)學(xué)術(shù)會(huì)議,由全球最大的非營(yíng)利性專業(yè)技術(shù)學(xué)會(huì)IEEE(電氣和電子工程師協(xié)會(huì))主辦。2017谷歌學(xué)術(shù)指標(biāo)(Google Scholar)按論文引用率排名, CVPR位列計(jì)算機(jī)視覺領(lǐng)域榜首。據(jù)CVPR評(píng)委會(huì)披露,今年CVPR審核了2620篇文章,最終收錄783篇,錄取率為29%。

阿里巴巴人工智能實(shí)驗(yàn)室此次入選的三篇論文均有杰出科學(xué)家王剛的深度參與,分別針對(duì)深度學(xué)習(xí)和計(jì)算機(jī)視覺所涉及的上下文模擬、場(chǎng)景分割、行為理解等問題提出了解決辦法。 王剛向記者表示,“這三篇論文都來自于深度學(xué)習(xí)中的應(yīng)用場(chǎng)景,未來或?qū)⑼ㄟ^人工智能實(shí)驗(yàn)室進(jìn)行落地,例如運(yùn)用到家庭安全監(jiān)測(cè)場(chǎng)景中”。

王剛于2017年3月加入阿里巴巴人工智能實(shí)驗(yàn)室,擔(dān)任杰出科學(xué)家,負(fù)責(zé)機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和自然語言理解的研發(fā)工作。他此前曾是南洋理工大學(xué)的終身教授,同時(shí)也是人工智能領(lǐng)域最頂尖雜志IEEE Transactions on Pattern Analysis and Machine Intelligence的編委 (Associate Editor),曾多次受邀成為人工智能頂級(jí)學(xué)術(shù)會(huì)議如International Conference on Computer Vision的領(lǐng)域主席,在深度學(xué)習(xí)算法領(lǐng)域具有深厚的研究積累和國(guó)際權(quán)威。2016年,他還因在深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)上的卓越貢獻(xiàn),成為當(dāng)年《麻省理工技術(shù)評(píng)論雜志》評(píng)選出的10名亞洲區(qū)35歲以下青年創(chuàng)新獎(jiǎng)得主之一。

以下是對(duì)三篇論文的解讀

1.Deep Level Sets for Salient Object Detection

結(jié)合深度網(wǎng)絡(luò)的水平集方法在顯著性目標(biāo)檢測(cè)中的應(yīng)用

簡(jiǎn)介:

如圖,a是輸入圖像,b是對(duì)應(yīng)saliency區(qū)域的ground truth,c、d對(duì)應(yīng)使用BCE loss訓(xùn)練的深度網(wǎng)絡(luò)和使用水平集方法的效果,e對(duì)應(yīng)論文的方法;可以看到e在分割細(xì)節(jié)方面和ground truth最為接近,效果更好,在細(xì)節(jié)方面提升明顯。

顯著性目標(biāo)檢測(cè)能夠幫助計(jì)算機(jī)發(fā)現(xiàn)圖片中最吸引人注意的區(qū)域,有效的圖像分割和圖像的語意屬性對(duì)顯著性目標(biāo)檢測(cè)非常重要。由南洋理工大學(xué)和阿里巴巴人工智能實(shí)驗(yàn)室合作,共同提出了一種結(jié)合深度網(wǎng)絡(luò)的水平集方法,將分割信息和語意信息進(jìn)行結(jié)合,獲得了很好的效果。水平集方法是處理封閉運(yùn)動(dòng)界面隨時(shí)間演化過程中幾何拓?fù)渥兓挠行У挠?jì)算工具,后來被用到圖像分割算法當(dāng)中。深度學(xué)習(xí)能夠很好的建模顯著性目標(biāo)的語意屬性,進(jìn)而進(jìn)行顯著性目標(biāo)檢測(cè),但更多的語意屬性信息導(dǎo)致分割邊界的低層信息不準(zhǔn)確。論文巧妙的結(jié)合了深度網(wǎng)絡(luò)和水平集方法(Deep Level Sets),同時(shí)利用圖片低層的邊界信息以及高層的語意信息,在顯著性目標(biāo)檢測(cè)領(lǐng)域獲得了state-of-art的效果。

2.Global Context-Aware Attention LSTM Networks for 3D Action Recognition

將全局上下文注意力機(jī)制引入長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的3D動(dòng)作識(shí)別

簡(jiǎn)介:

如圖,3D動(dòng)作識(shí)別能夠幫助計(jì)算及更好的理解人體動(dòng)作(最左側(cè)的文字),未來可以作為人機(jī)交互的一種補(bǔ)充。

3D動(dòng)作識(shí)別能夠幫助計(jì)算機(jī)更好的分析人的動(dòng)作以及為多樣化的人機(jī)交互提供更多的選擇。一個(gè)好的3D動(dòng)作識(shí)別系統(tǒng)需要很好的處理動(dòng)作在時(shí)間(動(dòng)作需要一定時(shí)延)、空間(結(jié)構(gòu))上的信息。LSTM(長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))能夠很好的建模動(dòng)態(tài)的、相互依賴的時(shí)間序列數(shù)據(jù)(如人的3D動(dòng)作序列),注意力機(jī)制能夠更有效的獲取數(shù)據(jù)中的結(jié)構(gòu)信息,并排除掉噪聲的干擾。由南洋理工大學(xué)、北京大學(xué)、阿里巴巴人工智能實(shí)驗(yàn)室合作,論文結(jié)合LSTM和上下文注意力機(jī)制,提出了一種新的LSTM網(wǎng)絡(luò):GCA-LSTM(Global Context-Aware Attention LSTM);用來建模動(dòng)作序列中有效的全局上下文信息(時(shí)間信息+空間信息),進(jìn)而進(jìn)行3D動(dòng)作識(shí)別。同時(shí),論文為GCA-LSTM網(wǎng)絡(luò)提出了一種循環(huán)注意力機(jī)制來迭代提升注意力模型的效果。論文方法在3個(gè)主流的3D動(dòng)作識(shí)別數(shù)據(jù)集上都達(dá)到了state-of-art的效果。

3.Episodic CAMN: Contextual Attention-based Memory Networks With Iterative Feedback For Scene Labeling

引入迭代反饋的上下文注意力機(jī)制記憶網(wǎng)絡(luò)在場(chǎng)景分割中的應(yīng)用

簡(jiǎn)介:

如圖,這是場(chǎng)景分隔在自動(dòng)駕駛中的應(yīng)用,通過對(duì)路面場(chǎng)景進(jìn)行分割,可以幫助無人車分析那部分區(qū)域是可行駛區(qū)域(如圖粉紅色部分)。

場(chǎng)景分割有著廣闊的應(yīng)用前景,比如自動(dòng)駕駛汽車通過場(chǎng)景分割獲取可行駛區(qū)域,比如室內(nèi)機(jī)器人通過場(chǎng)景分割獲知室內(nèi)物體的分布。場(chǎng)景分割對(duì)待分割區(qū)域周圍的區(qū)域以及全局信息有較強(qiáng)的依賴關(guān)系,但這種依賴關(guān)系是動(dòng)態(tài)變化的(即使同一區(qū)域在不同的場(chǎng)景中對(duì)周圍信息的依賴是不同的),因此動(dòng)態(tài)的獲知不同區(qū)域的依賴關(guān)系以及圖像全局上下文特征的使用至關(guān)重要。由南洋理工大學(xué),伊利諾伊大學(xué)厄巴納-香檳分校,阿里巴巴人工智能實(shí)驗(yàn)室合作,論文通過一個(gè)可學(xué)習(xí)的注意力機(jī)制網(wǎng)絡(luò)來刻畫不同區(qū)域之間的依賴關(guān)系,并獲取包含上下文信息的特征。進(jìn)一步,論文通過引入迭代反饋的方式對(duì)注意力機(jī)制網(wǎng)絡(luò)的輸出進(jìn)行調(diào)節(jié),以獲得更好的包含上下文的特征。上述方法在場(chǎng)景分隔任務(wù)中獲得了和當(dāng)前state-of-art算法相當(dāng)?shù)男Ч?/p>

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2020-06-10
華人科學(xué)家一人斬獲三篇CVPR論文!技術(shù)成果或?qū)a(chǎn)品化
近日美國(guó)夏威夷刮起了“阿里旋風(fēng)”。繼淘寶的“拍立淘”讓外國(guó)工程師大呼好用之后,又傳來阿里巴巴人工智能實(shí)驗(yàn)室共有三篇論文入選 CVPR 2017 的好消息。

長(zhǎng)按掃碼 閱讀全文