騰訊優(yōu)圖榮獲CVPR2021 Image Matching Workshop雙賽道冠亞軍

近日,騰訊優(yōu)圖實驗室在CVPR2021舉辦的Image Matching Workshop(IMW2021)比賽中,提出的圖像匹配技術(shù) (SS-Fusing)榮獲雙賽道冠亞軍。IMW2021是Google和University of British Columbia(UBC)聯(lián)合舉辦的Workshop比賽,吸引了包括曠視,商湯,EPFL,KORNIA,華中科大和OPPO等公司、學校和機構(gòu)參加。

騰訊優(yōu)圖榮獲CVPR2021 Image Matching Workshop雙賽道冠亞軍

作為計算機視覺領(lǐng)域的基礎(chǔ)技術(shù)之一,Image Matching是指尋找一張圖片中拍攝的子區(qū)域在另一張圖片中的對應(yīng)位置,廣泛應(yīng)用于包括SFM、SLAM、三維重建、大規(guī)模圖像檢索,缺陷檢測與配準等領(lǐng)域。

騰訊優(yōu)圖榮獲CVPR2021 Image Matching Workshop雙賽道冠亞軍

圖1、圖像匹配技術(shù)示例

本次比賽的評測機制如圖2所示,參賽者根據(jù)自己提出的方法提取每張圖的關(guān)鍵點和對應(yīng)描述子,并提交每兩張圖之間的匹配結(jié)果,賽方會根據(jù)提交的結(jié)果統(tǒng)計兩種評估方案:1.通過對比兩張圖之間匹配結(jié)果對應(yīng)的相機位姿和真實位姿之間的差異(Stereo)。2.根據(jù)多張圖之間的關(guān)鍵點匹配結(jié)果,統(tǒng)計重建后預(yù)測全圖的相機位姿和真實位姿之間的差異(Multi-view)。因此對于任意兩張圖之間,關(guān)鍵點的分布越分散,匹配的點越準,則位姿估計的效果越好。

騰訊優(yōu)圖榮獲CVPR2021 Image Matching Workshop雙賽道冠亞軍

圖2、比賽流程圖

此外,本屆比賽分為限制性賽道(Restricted category)和非限制性賽道(Unlimited category),其中限制性賽道要求參賽者提交有限的關(guān)鍵點和對應(yīng)描述子,非限制性賽道可提交不限數(shù)量的關(guān)鍵點對和對應(yīng)描述子。相較于前兩屆比賽,本屆比賽增加了街景和公園等場景,圖片之間的角度和尺度變換更大,對算法挑戰(zhàn)非常大,因此我們同時針對關(guān)鍵點的提取部分和匹配準確度部分都做了相應(yīng)的改善,具體思路如下:

我們使用SuperPoint+Autoencoder+SuperGlue作為我們的關(guān)鍵點匹配pipeline。其中SuperPoint用于提取關(guān)鍵點和對應(yīng)描述子,Autoencoder用于特征壓縮,SuperGlue用于關(guān)鍵點匹配,最后通過DEGENSAC進行離群點過濾。同時我們優(yōu)化了SuperGlue的訓練過程和損失函數(shù),提升了模型在比賽數(shù)據(jù)集下的匹配精度。

騰訊優(yōu)圖榮獲CVPR2021 Image Matching Workshop雙賽道冠亞軍

圖3、SS-Fusing算法流程圖

我們針對輸入圖片進行隨機變換增加了提取到的關(guān)鍵點對尺度變換的魯棒性,同時提出了針對描述子的特征融合模塊,以提升描述子的表達能力和尺度魯棒性。同時我們還對比了我們的特征融合和平均特征融合的效果,其中橫坐標為描述子的cos相似度,縱坐標為二者的分布差異,可見我們的方法在高相似度區(qū)域下的占比明顯高于平均特征,而在低相似度區(qū)域下的占比明顯低于平均特征,驗證了我們方法的有效性。

騰訊優(yōu)圖榮獲CVPR2021 Image Matching Workshop雙賽道冠亞軍

圖4、特征融合模塊

騰訊優(yōu)圖榮獲CVPR2021 Image Matching Workshop雙賽道冠亞軍

圖5、加權(quán)特征和平均特征相似度分布差異圖

我們提出了前背景分割和coarse-to-fine的匹配結(jié)構(gòu),進一步提升關(guān)鍵點匹配的有效性。其中前背景分割可以有效過濾掉與匹配無關(guān)的背景部分。Coarse-to-fine的匹配結(jié)構(gòu)可以提升拍攝尺度差異過大導(dǎo)致的匹配率過低的問題。

騰訊優(yōu)圖榮獲CVPR2021 Image Matching Workshop雙賽道冠亞軍

圖6、前背景分離示意圖

騰訊優(yōu)圖榮獲CVPR2021 Image Matching Workshop雙賽道冠亞軍

圖7、coarse-to-fine匹配前后示意圖

視覺圖像匹配作為基礎(chǔ)的計算機視覺能力,在其基礎(chǔ)上可拓展眾多的下游任務(wù)。如在圖像檢索中,可以通過image matching來檢索到和Database中相似的圖片,如圖8所示。在SFM(Structure from motion)中,可以通過關(guān)鍵點匹配來獲取攝像頭外參并結(jié)合內(nèi)參進行深度估計并重建出拍攝物體(如圖9所示)。在圖像跟蹤與配準中,通過前后幀的匹配可以捕捉視頻的運動軌跡,并針對目標物體進行視頻跟蹤與圖像配準。

騰訊優(yōu)圖榮獲CVPR2021 Image Matching Workshop雙賽道冠亞軍

圖8、圖像檢索

騰訊優(yōu)圖榮獲CVPR2021 Image Matching Workshop雙賽道冠亞軍

圖9、三維重建

作為騰訊旗下頂尖的人工智能實驗室,優(yōu)圖實驗室聚焦計算機視覺,專注人臉識別、圖像識別、OCR等領(lǐng)域開展技術(shù)研發(fā)和行業(yè)落地,在推動產(chǎn)業(yè)數(shù)字化升級過程中,始終堅持基礎(chǔ)研究、產(chǎn)業(yè)落地兩條腿走路的發(fā)展戰(zhàn)略,與騰訊云與智慧產(chǎn)業(yè)深度融合,挖掘客戶痛點,切實為行業(yè)降本增效。

未來,騰訊優(yōu)圖實驗室也將繼續(xù)深耕CV技術(shù),并將持續(xù)探索更多的應(yīng)用場景和應(yīng)用空間,讓更多的用戶享受到科技帶來的紅利。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )