8月20日,在中國圖象圖形大會的華為昇思MindSpore技術(shù)論壇上,中國科學(xué)院空天信息創(chuàng)新研究院(以下簡稱“空天院”)發(fā)布了首個面向跨模態(tài)遙感數(shù)據(jù)的生成式預(yù)訓(xùn)練大模型“空天.靈眸”(RingMo,Remote Sensing Foundation Model)。
“空天.靈眸”大模型現(xiàn)場發(fā)布圖
“空天.靈眸”大模型是空天院聯(lián)合北京昇騰人工智能生態(tài)創(chuàng)新中心技術(shù)團(tuán)隊(duì),基于人工智能計(jì)算中心的昇騰AI澎湃算力訓(xùn)練而完成。在昇騰AI基礎(chǔ)軟硬件平臺的支持下,尤其是依托昇思MindSpore AI框架原生支持大模型的能力,“空天.靈眸”大模型的并行訓(xùn)練及下游任務(wù)開發(fā)得以加速實(shí)現(xiàn),已在8個國際標(biāo)準(zhǔn)數(shù)據(jù)集上達(dá)到領(lǐng)先水平,填補(bǔ)了跨模態(tài)生成式預(yù)訓(xùn)練模型在遙感領(lǐng)域的空白。
在模型設(shè)計(jì)、模型訓(xùn)練、推理優(yōu)化等方向均進(jìn)行了獨(dú)特的技術(shù)創(chuàng)新,“空天.靈眸”大模型
深入結(jié)合光學(xué)、SAR(合成孔徑雷達(dá))等跨模態(tài)遙感數(shù)據(jù)的成像機(jī)理和目標(biāo)特性,并在場景分類、檢測定位、細(xì)粒度識別、要素提取及變化檢測等典型下游任務(wù)中得到有效驗(yàn)證。
總體來看,“空天.靈眸”大模型具備如下四大亮點(diǎn):
(1)以遙感特性為研發(fā)驅(qū)動
不同于現(xiàn)有遙感預(yù)訓(xùn)練模型大都采用有監(jiān)督或者對比式學(xué)習(xí)的模式,基于昇騰AI的“空天.靈眸”大模型依托掩膜自編碼結(jié)構(gòu),是面向復(fù)雜場景且更具通用表征能力的遙感生成式自監(jiān)督預(yù)訓(xùn)練模型。
由于采用的是ViT和Swin Transformer等Transformer類骨干網(wǎng)絡(luò),該大模型可對遙感數(shù)據(jù)的局部和全局特征的依賴關(guān)系進(jìn)行有效建模,并結(jié)合目標(biāo)特性引導(dǎo)的自監(jiān)督學(xué)習(xí)方法,通過引入幾何、電磁、目標(biāo)結(jié)構(gòu)等多特性約束,讓遙感地物通用特征可被自動提取。
(2)擁有跨模態(tài)遙感數(shù)據(jù)集
為提升遙感預(yù)訓(xùn)練模型的特征表達(dá)能力,“空天.靈眸”大模型的數(shù)據(jù)集包含了200多萬幅分辨率為0.1m到30m的遙感影像,分別來源于中國遙感衛(wèi)星地面站、航空遙感飛機(jī)等平臺,以及高分系列衛(wèi)星、吉林衛(wèi)星、QuickBird衛(wèi)星等。
同時,在數(shù)據(jù)集中包含了1億多具有任意角度分布的目標(biāo)實(shí)例,覆蓋全球150多個典型城市、鄉(xiāng)鎮(zhèn)以及常用機(jī)場、港口等場景。所用樣本數(shù)據(jù)具備遙感專業(yè)特色,且整個樣本集都無需標(biāo)注,能大幅節(jié)省訓(xùn)練數(shù)據(jù)標(biāo)注成本。
(3)具備應(yīng)用任務(wù)泛化能力
“空天.靈眸”大模型具備遙感數(shù)據(jù)理解、復(fù)原能力,可實(shí)現(xiàn)對跨模態(tài)遙感數(shù)據(jù)的共性語義空間進(jìn)行表征。
針對不同的下游任務(wù)僅需修改預(yù)測頭部網(wǎng)絡(luò),即可靈活快速遷移到不同領(lǐng)域的下游任務(wù)中,進(jìn)行簡單微調(diào)后可適應(yīng)多目標(biāo)細(xì)粒度分類、小目標(biāo)檢測識別、復(fù)雜地物提取等任務(wù)。
(4)廣泛的產(chǎn)業(yè)應(yīng)用方向
從目標(biāo)檢測識別、地物要素分類等任務(wù)的實(shí)測比較看,相對于業(yè)界通用的視覺模型,“空天.靈眸”大模型對遙感數(shù)據(jù)應(yīng)用效果的提升是顯著的。
可預(yù)見,在未來,基于昇騰AI的“空天.靈眸”大模型的應(yīng)用不止于在實(shí)景三維等領(lǐng)域,或?qū)⑦M(jìn)一步推廣至國土資源、住建交通、水利環(huán)保等更多行業(yè),為天臨空地一體化應(yīng)用提供整套解決方案。
“空天.靈眸”大模型的相關(guān)成果已在遙感領(lǐng)域頂刊《IEEE Transactions on Geoscience and Remote Sensing》上公開發(fā)表。
相關(guān)論文信息:
"RingMo: A Remote Sensing Foundation Model with Masked Image Modeling," in IEEE Transactions on Geoscience and Remote Sensing, 2022, doi: 10.1109/TGRS.2022.3194732.
論文鏈接:https://ieeexplore.ieee.org/abstract/document/9844015
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )