GAITC智能傳媒專題|翟廣濤:視覺質量的腦機制探索

6月23日,由中國人工智能學會主辦,CAAI 智能傳媒專業(yè)委員會、中國傳媒大學數據科學與智能媒體學院、媒體融合與傳播國家重點實驗室、新浪新聞承辦的主題為“變量激蕩 增量涌現”2024全球人工智能技術大會 智能傳媒專題活動在杭州拉開帷幕。上海交通大學電子信息與電氣工程學院教授、國家杰青獲得者翟廣濤分享了題為《視覺質量的腦機制探索》的演講。

翟廣濤主題演講中。

以下是翟廣濤演講實錄,內容經編輯略有刪減:

感謝大家來聆聽這個報告。

智能傳媒論壇,我們還是從傳媒的角度切入。傳媒內容的演進,從PGC、UGC、P-UGC、AIGC,再到全部的AIGC有一個過程,我們在這個演進的過程中會遇到各種各樣關于質量的問題。比如在PGC時代,我們有一些壓縮傳輸方面的事情要考慮;在UGC時代是拍攝的環(huán)境、拍攝的設備不好;在P-UGC時代,所謂大V產生的內容,是構圖、美感方面的內容。在AI-UGC時代,我們產生的圖像到底跟我們的預期符合不符合,還有產生的圖像本身質量好不好的問題;到了全部AIGC時代,可能質量問題就被解決了。

(圖示)一般說到視覺質量這件事,老是拿這個圖作為切入,剛才在隔壁我已經用過一次了,有些人聽過一遍了。網上的內容80%都是視頻,但是80%的視頻其中1%的視頻看了99%的時間,剩下80%的時間基本上沒有人看,主要是因為質量太差。我們去評測質量好不好,可以從主觀角度我們自己來看,也可以用計算機來實現,必須用計算機才能滿足我們目前的需求。從視覺質量來看,無論是在采集、處理、傳輸、顯示還是在改制的過程中,都有一些讓人對它的質量產生不滿意的地方。從質量評價研究角度來看,一般我們追溯它到Hubel&T.Wiesel的諾貝爾獎,到D.Marr的計算視覺/計算神經學方面的研究。到了近代,D.Mumford做了一些關于自然圖像統計方面的研究,A.Bovik在2000年左右開啟了SCM近代我們用的質量評價方面的研究。

再往后看就有點意思了,在2010年左右,K.Friston提出來感知自由能原理,再往下是深度學習的方法、CNN的方法、大模型的方法逐漸得到了應用。但是反過來看,從2010年之后,視覺感知質量的腦機制的研究基本上沒有人做了。我們現在有一些工作評測大模型的視覺能力,尤其是Low-level Vision的能力,在這個評測過程中,假設Low-level Vision包括了視覺質量感知的能力,視覺質量感知這個具體的過程由于時間所限不展開介紹了。進一步我們還可以提升多模態(tài)大模型的Low-level Vision的能力,比如去判斷這個圖片是不是模糊,去描述這個圖像關于質量方面的內容。這個工作目前比較重要,大家比較關心的一個領域。但是我們一直把跟質量感知相關的內容稱之為是Low-level Vision,這個事對不對,至少從我這個角度,我做這個研究已經20年了,很困擾我,就是到底是不是一個Low-level Vision的命令?所以我們近期在這個領域做了一些探索,也跟大家分享一下。

這個探索怎么做?就是我們把人放在磁共振里面去,給人看圖片,把響應記錄下來,做了一些分析。要解決的問題有三個:第一是我們看一下大腦在觀看不同內容、不同質量水平圖像的時候到底是什么狀態(tài),有沒有一個腦區(qū)對這個質量比較敏感;第二是探索視覺質量跟腦區(qū)連接功能之間的關系;第三是能不能做解碼,就是我們能不能從磁共振響應里面去解碼我們看過的圖像質量。

這個過程有一些基礎的知識,不細說了。我們采用了一種混合的模型設計,找了18個被試,基本上都是我們的學生,10男8女。我們的圖像是從目前的質量評價數據集里面選的,選圖像的時候我們注意的內容分為三類:人臉、物體和場景。質量有高中低三級,一次掃描是4block,一共做8次,總共是32個block,有一些隨機發(fā)明的設計。人塞到這個磁共振里面,上面有一個鏡子,鏡子背后有一個顯示器,這個顯示器和磁共振是兼容的,所以躺在這里能看到圖像。打分怎么打呢?人的左手和右手分別有兩個手柄,左手有兩個按鈕,右手有兩個按鈕,我們可以通過這樣的方式收集他對質量的反饋。

有一些有意思的結論,第一個結論是高質量圖像的質量評價速度顯著快于中低質量,這個好理解,我們看到高質量的時候,我們要做質量評價這件事就做得非???。低質量圖像語義判別速度顯著慢于中高質量,這個也非常好理解,給你一個低質量圖像,我問你看上去是人臉還是物體,受到質量的影響所以這個比較慢,因為低質量圖像中的失真使得語義識別更加困難。第三個是語義對質量判別的速度沒有顯著影響,就是看不同的圖像問你質量好壞,不同圖像的內容對這個事沒有什么影響。第四個也比較顯然,在于分類任務里頭,對人臉的響應顯然是最快的,因為我們有一個區(qū)域是專門進化用來處理人臉的,所以這個評價比較快,這是一個行為學方面的分析。

如果我們做兩個任務,內容分類是QAvsCC Task,這兩個任務進行比較,也有幾個比較有意思的結論。

第一個是在質量評價過程之中,更多的視覺輔助通路被激活了,包括額上回、右腦島、額下回等等,也就是一些比較高級的視覺區(qū)域,在做質量評價任務的時候被激活。

(圖示)這是一個功能連接的示意圖,左邊是做質量評價的時候功能連接,右邊是做場景分類的時候功能連接。簡單說一下,藍色是負項連接,紅色是正項連接,兩種任務都出現了跟體感、運動、調節(jié)相關的區(qū)域負相關,意思是說我們做這個任務的時候人不動,要控制自己的注意力,這些都是正常的現象。更重要的是下面的這幾個結論,質量評價任務涉及了更加復雜的功能連接,這邊的功能連接是質量評價的,比場景分類的要更分析一些,因為質量評價任務強調了同時是高級和詳細的視覺感知,而內容分類任務傾向于是一種初級和快速的視覺反應。

質量評價涉及了比較高級的皮層,枕下外側皮層、顳枕葉梭狀皮層,抑制了很多非直接相關的體感、運動或注意力資源的分配,確保我們在質量評價過程中對圖像的細節(jié)比較關注。質量評價的任務之中,兩個半球之間的連接功能也更加豐富。

所以通過以上的分析,我們可以得出一個結論,質量評價是一個比較高級的視覺功能,比內容分類至少高級。我們一般認為內容識別算是高級了,因為它牽扯到語義,但質量評價絕對不是一個低級的視覺功能,因為它比語義更高級。

再接下來,不同的質量對于在觀看過程中的連接有什么影響呢?在看高質量圖像的時候,我們的折回、枕下回、枕中回,這個可能不太熟,但是說V1、V2大家就比較熟了,初級視覺皮層里面V1、V2或者BA17、BA18這樣的區(qū)域有響應。在看低質量圖像的時候,相對較高的視覺皮層,比如梭狀回、枕中回、枕上回,這塊是視覺相關的區(qū)域,V1、V2、V3是從枕葉后端往前排的,這些區(qū)域是有激活的。什么意思?看低質量圖像的時候,我們更高級的腦區(qū)在被激活,看高質量圖像的時候,反而是低級腦區(qū)在被激活。這可能跟我們一般的印象相反,一般我們認為看低質量圖像的時候,你都看不清內容,你的高層腦區(qū)不會工作。但實際上恰恰相反,看低質量圖像的時候,高層腦區(qū)被激活的反而更多。

這是為什么?因為看低質量圖像的時候,顳中回、顳下回這種高級的腦區(qū)要跟低級的腦區(qū)協同工作,去調動我們的記憶,去做所謂的腦補。所以處理次優(yōu)視覺輸入的時候,我們需要動用更多的腦資源,消耗更多的算力,也就是葡萄糖,來保證我們能夠理解這個視覺內容。

所以我們可以得到一個結論:低質量圖像的主觀厭惡是有明確生理解釋的。也就是說,我們的畫質,我們在做傳媒過程之中看到低質量的圖像不舒服,不舒服是有原因的,是因為你看到不舒服的圖片的時候,你會控制不住地需要做補償,需要調動你的知識去理解圖像的內容,這個過程消耗了更多的葡萄糖,會使得你更累,所以會不喜歡低質量的圖像。

(圖示)我們在不同腦區(qū)的活動跟質量之間的變化有一個結論,從低級腦區(qū)到高級腦區(qū),比如這是舌回、枕中回、枕上回、額中回,腦區(qū)的激活,在低級的腦區(qū),隨著質量的上升,腦區(qū)活動的活性是上升的。但是在高級的腦區(qū),隨著質量的上升活動是下降的,這是什么意思?如果你看低級腦區(qū),質量越高我的反應越高,在高級腦區(qū),質量越高我的反應越低。也就是說,對于低質量圖像的腦補,發(fā)生在了低級腦區(qū)和高級腦區(qū)之間的位置。大概是這個意思,結論是這樣的。

再仔細說一下,如果你為了研究到底低質量到高質量的過渡發(fā)生在什么地方,就要用一個表征相似性學習的工具,大概是把語義標簽或者質量標簽跟人腦的響應做一個相關性分析,看這個相關性,如果高的話就比較一致。

(圖示)這是對于不同腦區(qū)的表征相似性分析的矩陣,可能不太好理解,我們其中把枕下回區(qū)域單獨拿出來看一下,對于低質量圖像分了三塊,分別是對人臉、物體和場景,紅藍放到一起了,看不清。對于低質量的圖像,我們對于不同的內容其實是混疊了,不太好區(qū)分。但是對于比較高質量的圖像,這塊區(qū)域相應來說能看出來區(qū)別,比如仔細拿出來看,這個區(qū)域相對放得比較開,至少人臉和其他區(qū)域分開了。對于高質量的圖像,我們能夠更好地區(qū)分它的語義,這是一個定量的證明。低質量的圖像受失真的影響,它在我們腦中的語義編碼相對比較混亂,這是一個定量的結果。更進一步,我們可以通過把這個矩陣跟語義標簽直接做相關性,這樣就可以算不同腦區(qū)所蘊含的語義信息的含量。

(圖示)這也是一個結果,從左到右是腦區(qū)從低到高,左邊是距狀溝、楔葉、舌回、枕上回、枕中回、枕下回、梭狀回,是這么一個傳遞的過程??催@張圖會更明顯一些,我們看不同質量圖像的時候有幾個結論:從低級腦區(qū)到高級腦區(qū)所蘊含的語義信息逐漸升高,這個非常合理,高腦區(qū)是負責處理語義的,在枕上回到枕中回存在一個明顯的跳升。所有的圖像質量,好的質量語義含量高,中低質量的語義含量比較低。但是這中間的gap,隨著腦區(qū)的提升而逐漸降低,也就是說,高低質量在高腦區(qū)的影響會降低,所以對于低質量的圖像補償是發(fā)生在中層腦區(qū),低層到高層之間影響會比較大,到了高層影響比較小了。

所以我們可以得到一個重要的結論,就是枕中回這個區(qū)域是質量感知的關鍵區(qū)域,你對于質量的判斷好不好,其實是發(fā)生在枕中回的位置??梢哉fX和Y有兩個點,它們之間有一個信息傳遞的過程,如果我們把它想象成H方程的話,X到Y信息傳遞的過程,它所傳遞的機制的模式不同,導致了我們對質量感知的最后結果的不同。

(圖示)再仔細分析一下,為前面這個結論提供一點證據。我們可以用高層腦區(qū)的響應,來預測低層腦區(qū)的響應。對于高質量圖像,如果我們用高層腦區(qū)來預測低層腦區(qū)的響應,對于高低質量圖像的響應差別,就是一個指征。如果我們在高質量圖像情況下,用高層腦區(qū)預測低層腦區(qū),對于高低質量圖像預測的差是顯著的,那就證明我們提取到了信息。反之,如果我們在低質量圖像的情況下,用高層腦區(qū)去預測低層腦區(qū),你找不到這么顯著的區(qū)域,這個圖中畫圈紅色的是顯著的,P小于0.01。如果用高層腦區(qū)預測低層腦區(qū),但是在低質量的情況下,就找不到這么多的顯著性,唯一一個顯著的是發(fā)生在枕中回預測舌回的時候。

所以這就進一步說明了在枕中回位置上,是跟質量相關的關鍵區(qū)域。所以更進一步我們又有一個想法,如果你解碼這個視覺圖像的時候,你用全部腦區(qū)去解碼當然可以,但能不能只用枕中回附近的兩個腦區(qū)?比如枕中回和枕上回這兩個腦區(qū),來解碼視覺質量。事實上證明,這是單個人的結果,這是把所有人放在一塊的結果,這塊區(qū)域去做解碼,只用枕中回和枕上回的解碼結果實際上跟用全圖是差不多的。也就是說,這塊區(qū)域確實對應了我們對質量感知的關鍵區(qū)域。

更進一步,枕中回這個區(qū)域對于質量感知很關鍵,但是它單獨起作用嗎?也不是,你可以用Seed-based Functional Connectivity去發(fā)現它跟前面的眶額區(qū)域,這顯然跟情緒、記憶相關的高層腦區(qū),它們之間的相關性是比較強的。所以我們的質量評價過程,除了枕中回這塊比較重要,眶額皮層也比較重要,它同時要聯動很多高級的腦區(qū)。

做一個總結,說得很簡單,但是也是做了不少分析。通過數據各種各樣預處理的分析,我們得到了相應的五個結論,這五個結論分別是:

1、質量評價不是簡單的視覺任務,激活區(qū)域和功能連接至少相比于場景分類是更加復雜的。

2、低質量圖像對應著高級腦區(qū)的活動增加,大腦功耗相應地增加,這是為什么我們會厭惡低質量圖像的原因。

3、失真對低級到高級腦區(qū)域編碼的負面影響逐漸降低,也就是失真不影響你看清楚這個東西是什么,最終是不影響的,只是在過程之中增加了你的功耗。

4、視覺質量的感知可能是源于高級和初級視覺區(qū)間的信息差獲取。

5、低質量圖像認知過程存在與高級腦區(qū)之間的聯動,只用我們的枕中回也做不了質量評價,所以需要更高級的腦區(qū)聯動。

以上是我們的一些發(fā)現,跟各位進行了分享。謝謝各位。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )