百分點(diǎn)科技:基于計(jì)算機(jī)視覺(jué)的語(yǔ)義分割技術(shù)如何在水域監(jiān)控上發(fā)揮作用

編者按:語(yǔ)義分割(Semantic Segmentation)是計(jì)算機(jī)視覺(jué)中的一個(gè)重要領(lǐng)域,它可以將圖像中的每一個(gè)像素劃分到不同類別的集合中。近年來(lái),語(yǔ)義分割在自動(dòng)駕駛、醫(yī)療圖像識(shí)別等領(lǐng)域發(fā)展迅速、應(yīng)用廣泛。

本文中,百分點(diǎn)感知智能實(shí)驗(yàn)室介紹了語(yǔ)義分割的技術(shù)原理及應(yīng)用場(chǎng)景,并分享了百分點(diǎn)科技基于語(yǔ)義分割技術(shù)在水域監(jiān)控中的應(yīng)用和具體落地流程。

一、場(chǎng)景需求及技術(shù)難點(diǎn)

水域監(jiān)控是為了定期監(jiān)控水域、灘地、堤壩等區(qū)域情況,檢查是否有堤壩缺失或水域變化異常情況的發(fā)生。水域圖像會(huì)定時(shí)定點(diǎn)拍攝,為了實(shí)現(xiàn)輔助監(jiān)控任務(wù)需要將傳回的圖像分割,并將圖像中的不同類型區(qū)域區(qū)分并標(biāo)明。

百分點(diǎn)科技:基于計(jì)算機(jī)視覺(jué)的語(yǔ)義分割技術(shù)如何在水域監(jiān)控上發(fā)揮作用

上圖簡(jiǎn)單列出了幾種需要識(shí)別的類型:河流、河流兩岸的堤壩、用于加固大壩的防備石,以及河流與堤壩旁的灘地。目前,水域分割任務(wù)的技術(shù)難點(diǎn)有以下幾類:

所需分割類型較多且有些較為相似,畫(huà)面中的元素較多,背景復(fù)雜;拍攝高度較高,一些目標(biāo)像素較小且不同類型目標(biāo)大小差異巨大;相機(jī)拍攝距離的不同會(huì)造成同一物體在圖像中存在很大差距,占幅不同;部分區(qū)域相鄰的像素對(duì)應(yīng)的圖像信息太過(guò)相似;圖像中不同類別或?qū)嵗南袼卮嬖诓痪獾膯?wèn)題;拍攝條件造成的影響,如光照過(guò)曝或過(guò)暗、抖動(dòng)造成的模糊等。

二、技術(shù)路線

在技術(shù)路線上,百分點(diǎn)科技使用了基于語(yǔ)義分割的地理信息提取系統(tǒng)來(lái)實(shí)現(xiàn)既定任務(wù)。地理信息提取系統(tǒng)可以通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)讓機(jī)器輸入衛(wèi)星遙感影像,自動(dòng)識(shí)別道路、河流、莊稼和建筑物等,并且對(duì)圖像中每個(gè)像素進(jìn)行標(biāo)注。

百分點(diǎn)科技:基于計(jì)算機(jī)視覺(jué)的語(yǔ)義分割技術(shù)如何在水域監(jiān)控上發(fā)揮作用

語(yǔ)義分割同實(shí)例分割(InstanceSegmentation )、全景分割(Panorama Segmentation)共同組成了圖像分割(Image Segmentation)。當(dāng)前人類對(duì)用計(jì)算機(jī)視覺(jué)解決的最重要問(wèn)題就是圖像分類(Image Classification)、目標(biāo)檢測(cè)(Object Detection)和圖像分割,按難度遞增。在傳統(tǒng)的圖像分類任務(wù)中,人們只對(duì)獲取圖像中存在的所有對(duì)象的標(biāo)簽感興趣。在目標(biāo)檢測(cè)中,百分點(diǎn)科技嘗試在邊界框的幫助下了解圖像中存在的所有目標(biāo)以及目標(biāo)所在的位置。圖像分割通過(guò)嘗試準(zhǔn)確找出圖像中對(duì)象的確切邊界,將其提升到一個(gè)新的水平。接下來(lái)用圖例簡(jiǎn)單介紹以下它們分別是如何工作的:

百分點(diǎn)科技:基于計(jì)算機(jī)視覺(jué)的語(yǔ)義分割技術(shù)如何在水域監(jiān)控上發(fā)揮作用

從上面圖例中可以看出,需要?jiǎng)澐殖鏊驁D像中不同類別的區(qū)域及大小(如河流、灘地、大壩區(qū)域),能夠完成此任務(wù)的技術(shù)路線就是使用語(yǔ)義分割或?qū)嵗指?因?yàn)橹挥兴鼈兡軌驅(qū)⑺驁D像中的每一個(gè)像素分割確定為不同類型,從而確定圖像中每種類型區(qū)域的大小和位置,同時(shí)該任務(wù)又不需要區(qū)分每個(gè)類型的實(shí)例,因此最適合方案的就是使用語(yǔ)義分割。下面就為大家介紹一下語(yǔ)義分割的原理。

2. 語(yǔ)義分割原理

語(yǔ)義分割是為完全理解場(chǎng)景鋪平道路的高級(jí)任務(wù)之一。越來(lái)越多的應(yīng)用程序從圖像中提取、推斷信息和知識(shí),這一事實(shí)凸顯了場(chǎng)景理解作為核心計(jì)算機(jī)視覺(jué)問(wèn)題的重要性。其中一些應(yīng)用包括自動(dòng)駕駛、人機(jī)交互、虛擬現(xiàn)實(shí)等。近年來(lái),隨著深度學(xué)習(xí)(Deep Learning,DL)的普及,許多語(yǔ)義分割問(wèn)題正在使用深度學(xué)習(xí)架構(gòu)來(lái)解決,最常見(jiàn)的是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),它超越了其他方法在準(zhǔn)確性和效率方面有很大的進(jìn)步。百分點(diǎn)科技同樣也使用了當(dāng)前較為先進(jìn)的基于深度學(xué)習(xí)的語(yǔ)義分割技術(shù),其中最重要的一個(gè)核心就是卷積神經(jīng)網(wǎng)絡(luò)。

3. 語(yǔ)義分割網(wǎng)絡(luò)結(jié)構(gòu)

基于深度學(xué)習(xí)的語(yǔ)義分割基本架構(gòu)由編碼器和解碼器組成,編碼器通過(guò)濾波器(filter)從圖像中提取特征,解碼器負(fù)責(zé)生成最終輸出,它通常是一個(gè)包含對(duì)象輪廓的分割掩碼。大多數(shù)架構(gòu)都有這種架構(gòu)或其變體。

百分點(diǎn)科技:基于計(jì)算機(jī)視覺(jué)的語(yǔ)義分割技術(shù)如何在水域監(jiān)控上發(fā)揮作用

因?yàn)樾畔⒃谧詈蟮木矸e層(即1 X 1卷積網(wǎng)絡(luò))丟失了,所以解碼器產(chǎn)生的輸出是粗糙的,這使得網(wǎng)絡(luò)很難通過(guò)使用這些少量信息進(jìn)行上采樣。為了解決這個(gè)上采樣問(wèn)題,使用基于全卷積網(wǎng)絡(luò)的兩種架構(gòu):FCN-16 和 FCN-8。

在FCN-16中,來(lái)自前一個(gè)池化層的信息與最終特征圖一起用于生成分割圖。FCN-8 試圖通過(guò)包含更多先前池化層的信息來(lái)使其變得更好。

與傳統(tǒng)用CNN進(jìn)行圖像分割的方法相比,FCN有兩大明顯的優(yōu)點(diǎn):一是可以接受任意大小的輸入圖像,而不用要求所有的訓(xùn)練圖像和測(cè)試圖像具有同樣的尺寸;二是更加高效,因?yàn)楸苊饬擞捎谑褂孟袼貕K而帶來(lái)的重復(fù)存儲(chǔ)和計(jì)算卷積的問(wèn)題。

同時(shí)FCN的缺點(diǎn)也比較明顯:一是得到的結(jié)果還是不夠精細(xì),進(jìn)行8倍上采樣雖然比32倍的效果好了很多,但是上采樣的結(jié)果還是比較模糊和平滑,對(duì)圖像中的細(xì)節(jié)不敏感;二是對(duì)各個(gè)像素進(jìn)行分類,沒(méi)有充分考慮像素與像素之間的關(guān)系,忽略了在通常的基于像素分類的分割方法中使用的空間規(guī)整(spatial regularization)步驟,缺乏空間一致性。

為了避免FCN的這些缺點(diǎn),后來(lái)又衍生出了許多語(yǔ)義分割網(wǎng)絡(luò),如U-Net、SegNet、PSPNet、DeepLab等。

百分點(diǎn)科技:基于計(jì)算機(jī)視覺(jué)的語(yǔ)義分割技術(shù)如何在水域監(jiān)控上發(fā)揮作用

標(biāo)注完成之后進(jìn)行數(shù)據(jù)預(yù)處理,如圖像切割、數(shù)據(jù)平衡、數(shù)據(jù)增強(qiáng)等。

圖像切割在原始圖像較大時(shí)運(yùn)用較多,可將一張非常大的圖切割成若干張小圖進(jìn)行訓(xùn)練防止很多圖像細(xì)節(jié)的缺失,也可進(jìn)行隨機(jī)切割增加圖像的多樣性。

數(shù)據(jù)平衡是當(dāng)訓(xùn)練集中存在某些類別的樣本數(shù)量遠(yuǎn)大于另一些類別時(shí)對(duì)數(shù)據(jù)樣本量進(jìn)行平衡,最簡(jiǎn)單的方法有過(guò)采樣或欠采樣等。

數(shù)據(jù)增強(qiáng)包含了很多方法,如翻轉(zhuǎn)、旋轉(zhuǎn)、拉伸、模糊、加噪聲、亮度調(diào)節(jié)等,增加數(shù)據(jù)多樣性,增強(qiáng)模型泛化能力。

訓(xùn)練模型時(shí)基于全卷積網(wǎng)絡(luò)(FCN)框架使用了金字塔池化,也就是進(jìn)行了多尺度特征融合,這是因?yàn)橛捎谠谏顚泳W(wǎng)絡(luò)中,高層特征包含了更多的語(yǔ)義和較少的位置信息。這也使得模型除了具備基于深度學(xué)習(xí)的語(yǔ)義分割具備的優(yōu)勢(shì)外又結(jié)合多尺度特征,可以提高性能適應(yīng)不同大小的目標(biāo)。

百分點(diǎn)科技:基于計(jì)算機(jī)視覺(jué)的語(yǔ)義分割技術(shù)如何在水域監(jiān)控上發(fā)揮作用

三、應(yīng)用場(chǎng)景

隨著語(yǔ)義分割的發(fā)展,基于語(yǔ)義分割的落地應(yīng)用也越來(lái)越多,其中比較典型的有無(wú)人駕駛、醫(yī)療影像分析、地理信息提取系統(tǒng)等,百分點(diǎn)科技開(kāi)發(fā)的水域分割系統(tǒng)就屬于地理信息提取系統(tǒng),下面將展開(kāi)介紹一下。

無(wú)人車(chē)駕駛:語(yǔ)義分割也是無(wú)人車(chē)駕駛的核心算法技術(shù),車(chē)載攝像頭,或者激光雷達(dá)探查到圖像后輸入到神經(jīng)網(wǎng)絡(luò)中,后臺(tái)計(jì)算機(jī)可以自動(dòng)將圖像分割歸類,以避讓行人和車(chē)輛等障礙。

百分點(diǎn)科技:基于計(jì)算機(jī)視覺(jué)的語(yǔ)義分割技術(shù)如何在水域監(jiān)控上發(fā)揮作用

總結(jié)

本文介紹了使用語(yǔ)義分割技術(shù)對(duì)水域圖像進(jìn)行分割,實(shí)現(xiàn)水域監(jiān)控。語(yǔ)義分割可以將圖像中的每一個(gè)像素分類,從而更好地理解圖像中的場(chǎng)景信息,并從中推斷出相關(guān)的知識(shí)或語(yǔ)義,這使得語(yǔ)義分割在自動(dòng)駕駛、醫(yī)療影像分析、增強(qiáng)現(xiàn)實(shí)等方向的發(fā)展迅速。此外,語(yǔ)義分割也讓大家進(jìn)一步了解了計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)中的一些原理和應(yīng)用。

百分點(diǎn)科技一直關(guān)注和研究圖像分割技術(shù)領(lǐng)域,目前,百分點(diǎn)科技應(yīng)用圖像分割技術(shù)在土地治理、安防監(jiān)控等多個(gè)領(lǐng)域已經(jīng)有項(xiàng)目應(yīng)用落地,今后我們也將更加深入地在圖像分割領(lǐng)域進(jìn)行研究。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )