“智能視覺計算技術與應用”第二期中國人工智能學會創(chuàng)新技術講習班成功舉辦

人工智能與計算機視覺技術息息相關,視覺信息處理成為人工智能現(xiàn)階段最重要的技術引擎之一,智能視覺計算技術也已經(jīng)廣泛應用于各行各業(yè)。為加快實施創(chuàng)新驅動發(fā)展戰(zhàn)略,促進人工智能領域智能視覺計算技術的研究創(chuàng)新與應用突破。2022年12月17日-12月18日,由中國人工智能學會主辦,中國人工智能學會會士之家(杭州站)承辦,浙江杭州未來科技城(海創(chuàng)園)管委會協(xié)辦的中國人工智能學會創(chuàng)新技術講習班第二期“智能視覺計算技術與應用”在線上成功舉辦。

在此期的講習班上,來自北大、清華、大連理工、哈工大等8所頂尖高校智能視覺計算技術與應用領域的10位國內外領軍人才、權威學者開展線上8場授課交流,與50W+在線觀眾開展學術對話。聚焦“智能視覺計算技術與應用”領域,旨在為我國人工智能領域學者和科創(chuàng)人才提供重要交流平臺,加速人工智能科技創(chuàng)新和產業(yè)應用高水平高質量發(fā)展。

中國人工智能學會組織主席徐楓老師主持開場,彭宇新教授發(fā)表致辭。計算機視覺作為人工智能領域的一個重要分支,是工程與科學領域中的一個極具挑戰(zhàn)性的研究方向。隨著深度學習的快速發(fā)展,這一技術已成長為技術發(fā)展和數(shù)字化轉型不可或缺的力量。未來伴隨著算法更迭、硬件算力升級、數(shù)據(jù)大爆發(fā)及5G技術發(fā)展帶來的高速網(wǎng)絡,計算機視覺技術的應用將會擁有更廣闊的發(fā)展空間。

(徐楓老師作開場主持)

(彭宇新教授作開場致辭)

程明明教授進行了“開放環(huán)境下的自適應圖像理解”的專題分享。面對計算機圖像視覺感知和理解技術在實際應用中的痛點問題,從自適應的角度出發(fā),解釋該技術如何適應開放環(huán)境。詳細講解通過粒度自適應表達、算力自適應的高效視覺感知以及通用屬性知識引導的視感知三方面技術緩解現(xiàn)實開放環(huán)境中遭遇的三大挑戰(zhàn)性問題。強調盡管無監(jiān)督無法事先預知類別數(shù),但從evaluation的角度出發(fā),類別數(shù)作為一個不固定參數(shù),一般會略大于實際的類別數(shù)。

(程明明教授授課)

王立君副教授圍繞“單目圖像深度估計”開展專題分享。從背景出發(fā),細致介紹了國內外研究現(xiàn)狀,團隊最新研究進展及單目圖像深度估計在計算機視覺其它任務中的四方面應用。指出,單一數(shù)據(jù)集下訓練后的模型泛化能力較弱,主要是數(shù)據(jù)集在室內室外不同場景中,存在深度尺度不兼容的問題。團隊為解決該問題開展了“相對深度預測”的探索,可實現(xiàn)多場景數(shù)據(jù)集混合的訓練,泛化能力更強,但存在不是絕對深度的缺陷。基于網(wǎng)絡結構設計進行優(yōu)化是訓練數(shù)據(jù)外必要的探索方向。單目圖像深度估計的誤差值依據(jù)不同場景存在差異,誤差與評價指標存在相關性(關注絕對誤差或相對誤差),誤差計算一般考慮所處區(qū)域遠近及其容忍度,根據(jù)不同的任務會設計不同評價標準。為了更好對同一類別物體的深度相似性進行建模會采用同一套參數(shù),但同一物體出現(xiàn)在不同位置,其深度存在差異。要求模型在預測過程對類似“近大遠小”信息進行歸納總結,根據(jù)語意信息判定類別、根據(jù)可能的變化、大小判斷深度,并結合上下文和相對尺度進行預測。通過端到端的映射,能夠實現(xiàn)從輸入圖像到真值的預測,但存在一定誤差,需要判定任務對誤差的容忍度。單目圖像深度可能無法滿足對精度有高要求的任務,需結合多種數(shù)據(jù)源才能解決問題。

(王立君副教授授課)

谷延鋒教授圍繞“多模遙感圖像本征分解”帶來了專題授課,結合高光譜遙感探測和高光譜本征分解兩部分,分享了其團隊近幾年圍繞遙感圖像本征分解的研究進展。詳細介紹了高光譜遙感探測的成像原理、多模探測及其存在的關鍵問題。系統(tǒng)闡述了高光譜本征分解中多模本征信息提取、理論模型、先驗信息建模、實驗驗證、方法流程等內容。谷教授指出通過衛(wèi)星的粒子測繪,利用多角度相機可計算地面上對應的高程數(shù)據(jù),基于高程數(shù)據(jù)可進行空間三維建模,描述地面物體空間三維結構。均勻的光照和它法線方向作用并不需要額外相機參數(shù),同理激光雷達可直接利用它的點云數(shù)據(jù)。

(谷延鋒教授授課)

鄭偉詩教授進行了“行為協(xié)同與交互建模”的專題分享。基于行為分析的背景,回顧現(xiàn)有行為協(xié)同與交互建模的方法,探討團隊主要研究進展及未來方向。指出協(xié)同技術商業(yè)化廣泛應用的主要障礙在于未知環(huán)境下難以對未識別物體進行建模的問題。例如機器人對于未識別物體的抓取成功率低,需進行泛化處理的問題,未來商業(yè)化應用將聚焦人和機器的行為協(xié)同研究。構建多尺度的幾何特征主要通過多個Scale的建模,拓展自由度抓取,進行點云分析,擴大感知范圍。行為分析的訓練工具是目前團隊待解決的痛點問題,未來標準化的算法庫建設值得團隊探索的研究方向。

(鄭偉詩教授授課)

操曉春教授圍繞“‘病態(tài)的’計算機視覺算法”進行專題授課,指出“計算機視覺”是一個相對“病態(tài)”的問題。圍繞解決“病態(tài)”問題的“規(guī)則化的數(shù)值分析”與“引進新假設”兩個方法詳細闡釋現(xiàn)有研究工作。指出主流的視頻分析軟件有生成、識別、分類等多種類型,區(qū)別較大且領域內更新迭代快。強調了學術角度的視覺算法攻擊是指攻擊對方的識別模型。

(操曉春教授授課)

方玉明教授開展了“圖像質量評價:理論、方法及應用”專題講解,介紹圖像質量評價的概念、分類及評價研究的主流方法,解釋了真實相機失真的圖像質量評價,多曝光圖像融合以及相關內容,分享圖像質量評價在PerceptualOptimization中的應用及進展。強調HDR圖像如何評價來選擇多曝光圖像的張數(shù)主要取決工作的過程。

(方玉明教授授課)

黃惠教授圍繞“面向智能機器人的智能圖形技術”帶來專題授課。從概念出發(fā)講解了目前的主流智能機器人及其智能化深入發(fā)展的卡脖子難題。在當前非實驗環(huán)境下機器人面臨的挑戰(zhàn)和技術應用之間依舊存在較大的空間局限性,需在工業(yè)制造、智能倉儲等預定環(huán)境和場景中進行預定設計才能運行,但預定設計的控制算法在面臨人類真實的物理環(huán)境及復雜的動態(tài)情況時可能會失敗,機器人認知真實三維動態(tài)環(huán)境能力缺失會阻礙其智能化深入發(fā)展。期望在未來實現(xiàn)城市信息的精準映射和良性代謝,最終形成完善的城市孿生數(shù)字生態(tài)。關于智能圖形技術與無人機攝像渲染的區(qū)別性問題,黃教授指出,圖像采集的最終目的是三維重建,其機理是基于Multi-View System的實景重建,與無人機攝像渲染具有本質區(qū)別。目前智能圖形技術正應用于將激光雷達和視覺技術相結合的自動駕駛環(huán)境建模,通過深入研究有助于推進僅依靠激光雷達難以實現(xiàn)的、真正意義上的3D地圖的重建。

(黃惠教授授課)

馬思偉教授開展了以“視頻編碼:從信號建模到特征學習”為專題的分享,深入闡釋視頻編碼的歷史及關鍵技術進展。從技術背景、難題出發(fā),講解了深度學習、智能視頻編碼的研究進展及挑戰(zhàn)。強調深度學習正推動視頻編碼技術框架的演變,基于神經(jīng)網(wǎng)絡的智能編碼是突破傳統(tǒng)視頻編碼效率提升瓶頸的重要方向。智能編碼雖面臨算法模型、計算平臺和質量評價等多方挑戰(zhàn),但也在推動深度編碼的發(fā)展。馬教授指出,全景視頻雖簡單沿用傳統(tǒng)視頻編碼技術進行視頻拼接,但概念有了更大的拓展,更強調指陣列式、多路相機的、使用多視點的編碼方法。另“MIV”形式主要通過投影映射進行拼接處理,保留多路相機的視頻內容進行傳輸。在未來人們更加看好數(shù)據(jù)量大、表現(xiàn)形式更豐富的點云式三維模型的采集和傳輸。

(馬思偉教授授課)

講習班的尾聲,盧湖川教授總結指出,專家學者們的專題授課,精彩紛呈、亮點頻現(xiàn)、交流碰撞,提出了人工智能領域探索的新觀點、新見解、新方法,為人工智能的創(chuàng)造性發(fā)展提供了諸多可供參考的新路徑。

(盧湖川教授作結業(yè)總結)

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )