GAITC智能傳媒專題|翟廣濤:視覺質(zhì)量的腦機制探索

6月23日,由中國人工智能學會主辦,CAAI 智能傳媒專業(yè)委員會、中國傳媒大學數(shù)據(jù)科學與智能媒體學院、媒體融合與傳播國家重點實驗室、新浪新聞承辦的主題為“變量激蕩 增量涌現(xiàn)”2024全球人工智能技術(shù)大會 智能傳媒專題活動在杭州拉開帷幕。上海交通大學電子信息與電氣工程學院教授、國家杰青獲得者翟廣濤分享了題為《視覺質(zhì)量的腦機制探索》的演講。

翟廣濤主題演講中。

以下是翟廣濤演講實錄,內(nèi)容經(jīng)編輯略有刪減:

感謝大家來聆聽這個報告。

智能傳媒論壇,我們還是從傳媒的角度切入。傳媒內(nèi)容的演進,從PGC、UGC、P-UGC、AIGC,再到全部的AIGC有一個過程,我們在這個演進的過程中會遇到各種各樣關(guān)于質(zhì)量的問題。比如在PGC時代,我們有一些壓縮傳輸方面的事情要考慮;在UGC時代是拍攝的環(huán)境、拍攝的設(shè)備不好;在P-UGC時代,所謂大V產(chǎn)生的內(nèi)容,是構(gòu)圖、美感方面的內(nèi)容。在AI-UGC時代,我們產(chǎn)生的圖像到底跟我們的預期符合不符合,還有產(chǎn)生的圖像本身質(zhì)量好不好的問題;到了全部AIGC時代,可能質(zhì)量問題就被解決了。

(圖示)一般說到視覺質(zhì)量這件事,老是拿這個圖作為切入,剛才在隔壁我已經(jīng)用過一次了,有些人聽過一遍了。網(wǎng)上的內(nèi)容80%都是視頻,但是80%的視頻其中1%的視頻看了99%的時間,剩下80%的時間基本上沒有人看,主要是因為質(zhì)量太差。我們?nèi)ピu測質(zhì)量好不好,可以從主觀角度我們自己來看,也可以用計算機來實現(xiàn),必須用計算機才能滿足我們目前的需求。從視覺質(zhì)量來看,無論是在采集、處理、傳輸、顯示還是在改制的過程中,都有一些讓人對它的質(zhì)量產(chǎn)生不滿意的地方。從質(zhì)量評價研究角度來看,一般我們追溯它到Hubel&T.Wiesel的諾貝爾獎,到D.Marr的計算視覺/計算神經(jīng)學方面的研究。到了近代,D.Mumford做了一些關(guān)于自然圖像統(tǒng)計方面的研究,A.Bovik在2000年左右開啟了SCM近代我們用的質(zhì)量評價方面的研究。

再往后看就有點意思了,在2010年左右,K.Friston提出來感知自由能原理,再往下是深度學習的方法、CNN的方法、大模型的方法逐漸得到了應用。但是反過來看,從2010年之后,視覺感知質(zhì)量的腦機制的研究基本上沒有人做了。我們現(xiàn)在有一些工作評測大模型的視覺能力,尤其是Low-level Vision的能力,在這個評測過程中,假設(shè)Low-level Vision包括了視覺質(zhì)量感知的能力,視覺質(zhì)量感知這個具體的過程由于時間所限不展開介紹了。進一步我們還可以提升多模態(tài)大模型的Low-level Vision的能力,比如去判斷這個圖片是不是模糊,去描述這個圖像關(guān)于質(zhì)量方面的內(nèi)容。這個工作目前比較重要,大家比較關(guān)心的一個領(lǐng)域。但是我們一直把跟質(zhì)量感知相關(guān)的內(nèi)容稱之為是Low-level Vision,這個事對不對,至少從我這個角度,我做這個研究已經(jīng)20年了,很困擾我,就是到底是不是一個Low-level Vision的命令?所以我們近期在這個領(lǐng)域做了一些探索,也跟大家分享一下。

這個探索怎么做?就是我們把人放在磁共振里面去,給人看圖片,把響應記錄下來,做了一些分析。要解決的問題有三個:第一是我們看一下大腦在觀看不同內(nèi)容、不同質(zhì)量水平圖像的時候到底是什么狀態(tài),有沒有一個腦區(qū)對這個質(zhì)量比較敏感;第二是探索視覺質(zhì)量跟腦區(qū)連接功能之間的關(guān)系;第三是能不能做解碼,就是我們能不能從磁共振響應里面去解碼我們看過的圖像質(zhì)量。

這個過程有一些基礎(chǔ)的知識,不細說了。我們采用了一種混合的模型設(shè)計,找了18個被試,基本上都是我們的學生,10男8女。我們的圖像是從目前的質(zhì)量評價數(shù)據(jù)集里面選的,選圖像的時候我們注意的內(nèi)容分為三類:人臉、物體和場景。質(zhì)量有高中低三級,一次掃描是4block,一共做8次,總共是32個block,有一些隨機發(fā)明的設(shè)計。人塞到這個磁共振里面,上面有一個鏡子,鏡子背后有一個顯示器,這個顯示器和磁共振是兼容的,所以躺在這里能看到圖像。打分怎么打呢?人的左手和右手分別有兩個手柄,左手有兩個按鈕,右手有兩個按鈕,我們可以通過這樣的方式收集他對質(zhì)量的反饋。

有一些有意思的結(jié)論,第一個結(jié)論是高質(zhì)量圖像的質(zhì)量評價速度顯著快于中低質(zhì)量,這個好理解,我們看到高質(zhì)量的時候,我們要做質(zhì)量評價這件事就做得非???。低質(zhì)量圖像語義判別速度顯著慢于中高質(zhì)量,這個也非常好理解,給你一個低質(zhì)量圖像,我問你看上去是人臉還是物體,受到質(zhì)量的影響所以這個比較慢,因為低質(zhì)量圖像中的失真使得語義識別更加困難。第三個是語義對質(zhì)量判別的速度沒有顯著影響,就是看不同的圖像問你質(zhì)量好壞,不同圖像的內(nèi)容對這個事沒有什么影響。第四個也比較顯然,在于分類任務里頭,對人臉的響應顯然是最快的,因為我們有一個區(qū)域是專門進化用來處理人臉的,所以這個評價比較快,這是一個行為學方面的分析。

如果我們做兩個任務,內(nèi)容分類是QAvsCC Task,這兩個任務進行比較,也有幾個比較有意思的結(jié)論。

第一個是在質(zhì)量評價過程之中,更多的視覺輔助通路被激活了,包括額上回、右腦島、額下回等等,也就是一些比較高級的視覺區(qū)域,在做質(zhì)量評價任務的時候被激活。

(圖示)這是一個功能連接的示意圖,左邊是做質(zhì)量評價的時候功能連接,右邊是做場景分類的時候功能連接。簡單說一下,藍色是負項連接,紅色是正項連接,兩種任務都出現(xiàn)了跟體感、運動、調(diào)節(jié)相關(guān)的區(qū)域負相關(guān),意思是說我們做這個任務的時候人不動,要控制自己的注意力,這些都是正常的現(xiàn)象。更重要的是下面的這幾個結(jié)論,質(zhì)量評價任務涉及了更加復雜的功能連接,這邊的功能連接是質(zhì)量評價的,比場景分類的要更分析一些,因為質(zhì)量評價任務強調(diào)了同時是高級和詳細的視覺感知,而內(nèi)容分類任務傾向于是一種初級和快速的視覺反應。

質(zhì)量評價涉及了比較高級的皮層,枕下外側(cè)皮層、顳枕葉梭狀皮層,抑制了很多非直接相關(guān)的體感、運動或注意力資源的分配,確保我們在質(zhì)量評價過程中對圖像的細節(jié)比較關(guān)注。質(zhì)量評價的任務之中,兩個半球之間的連接功能也更加豐富。

所以通過以上的分析,我們可以得出一個結(jié)論,質(zhì)量評價是一個比較高級的視覺功能,比內(nèi)容分類至少高級。我們一般認為內(nèi)容識別算是高級了,因為它牽扯到語義,但質(zhì)量評價絕對不是一個低級的視覺功能,因為它比語義更高級。

再接下來,不同的質(zhì)量對于在觀看過程中的連接有什么影響呢?在看高質(zhì)量圖像的時候,我們的折回、枕下回、枕中回,這個可能不太熟,但是說V1、V2大家就比較熟了,初級視覺皮層里面V1、V2或者BA17、BA18這樣的區(qū)域有響應。在看低質(zhì)量圖像的時候,相對較高的視覺皮層,比如梭狀回、枕中回、枕上回,這塊是視覺相關(guān)的區(qū)域,V1、V2、V3是從枕葉后端往前排的,這些區(qū)域是有激活的。什么意思?看低質(zhì)量圖像的時候,我們更高級的腦區(qū)在被激活,看高質(zhì)量圖像的時候,反而是低級腦區(qū)在被激活。這可能跟我們一般的印象相反,一般我們認為看低質(zhì)量圖像的時候,你都看不清內(nèi)容,你的高層腦區(qū)不會工作。但實際上恰恰相反,看低質(zhì)量圖像的時候,高層腦區(qū)被激活的反而更多。

這是為什么?因為看低質(zhì)量圖像的時候,顳中回、顳下回這種高級的腦區(qū)要跟低級的腦區(qū)協(xié)同工作,去調(diào)動我們的記憶,去做所謂的腦補。所以處理次優(yōu)視覺輸入的時候,我們需要動用更多的腦資源,消耗更多的算力,也就是葡萄糖,來保證我們能夠理解這個視覺內(nèi)容。

所以我們可以得到一個結(jié)論:低質(zhì)量圖像的主觀厭惡是有明確生理解釋的。也就是說,我們的畫質(zhì),我們在做傳媒過程之中看到低質(zhì)量的圖像不舒服,不舒服是有原因的,是因為你看到不舒服的圖片的時候,你會控制不住地需要做補償,需要調(diào)動你的知識去理解圖像的內(nèi)容,這個過程消耗了更多的葡萄糖,會使得你更累,所以會不喜歡低質(zhì)量的圖像。

(圖示)我們在不同腦區(qū)的活動跟質(zhì)量之間的變化有一個結(jié)論,從低級腦區(qū)到高級腦區(qū),比如這是舌回、枕中回、枕上回、額中回,腦區(qū)的激活,在低級的腦區(qū),隨著質(zhì)量的上升,腦區(qū)活動的活性是上升的。但是在高級的腦區(qū),隨著質(zhì)量的上升活動是下降的,這是什么意思?如果你看低級腦區(qū),質(zhì)量越高我的反應越高,在高級腦區(qū),質(zhì)量越高我的反應越低。也就是說,對于低質(zhì)量圖像的腦補,發(fā)生在了低級腦區(qū)和高級腦區(qū)之間的位置。大概是這個意思,結(jié)論是這樣的。

再仔細說一下,如果你為了研究到底低質(zhì)量到高質(zhì)量的過渡發(fā)生在什么地方,就要用一個表征相似性學習的工具,大概是把語義標簽或者質(zhì)量標簽跟人腦的響應做一個相關(guān)性分析,看這個相關(guān)性,如果高的話就比較一致。

(圖示)這是對于不同腦區(qū)的表征相似性分析的矩陣,可能不太好理解,我們其中把枕下回區(qū)域單獨拿出來看一下,對于低質(zhì)量圖像分了三塊,分別是對人臉、物體和場景,紅藍放到一起了,看不清。對于低質(zhì)量的圖像,我們對于不同的內(nèi)容其實是混疊了,不太好區(qū)分。但是對于比較高質(zhì)量的圖像,這塊區(qū)域相應來說能看出來區(qū)別,比如仔細拿出來看,這個區(qū)域相對放得比較開,至少人臉和其他區(qū)域分開了。對于高質(zhì)量的圖像,我們能夠更好地區(qū)分它的語義,這是一個定量的證明。低質(zhì)量的圖像受失真的影響,它在我們腦中的語義編碼相對比較混亂,這是一個定量的結(jié)果。更進一步,我們可以通過把這個矩陣跟語義標簽直接做相關(guān)性,這樣就可以算不同腦區(qū)所蘊含的語義信息的含量。

(圖示)這也是一個結(jié)果,從左到右是腦區(qū)從低到高,左邊是距狀溝、楔葉、舌回、枕上回、枕中回、枕下回、梭狀回,是這么一個傳遞的過程??催@張圖會更明顯一些,我們看不同質(zhì)量圖像的時候有幾個結(jié)論:從低級腦區(qū)到高級腦區(qū)所蘊含的語義信息逐漸升高,這個非常合理,高腦區(qū)是負責處理語義的,在枕上回到枕中回存在一個明顯的跳升。所有的圖像質(zhì)量,好的質(zhì)量語義含量高,中低質(zhì)量的語義含量比較低。但是這中間的gap,隨著腦區(qū)的提升而逐漸降低,也就是說,高低質(zhì)量在高腦區(qū)的影響會降低,所以對于低質(zhì)量的圖像補償是發(fā)生在中層腦區(qū),低層到高層之間影響會比較大,到了高層影響比較小了。

所以我們可以得到一個重要的結(jié)論,就是枕中回這個區(qū)域是質(zhì)量感知的關(guān)鍵區(qū)域,你對于質(zhì)量的判斷好不好,其實是發(fā)生在枕中回的位置。可以說X和Y有兩個點,它們之間有一個信息傳遞的過程,如果我們把它想象成H方程的話,X到Y(jié)信息傳遞的過程,它所傳遞的機制的模式不同,導致了我們對質(zhì)量感知的最后結(jié)果的不同。

(圖示)再仔細分析一下,為前面這個結(jié)論提供一點證據(jù)。我們可以用高層腦區(qū)的響應,來預測低層腦區(qū)的響應。對于高質(zhì)量圖像,如果我們用高層腦區(qū)來預測低層腦區(qū)的響應,對于高低質(zhì)量圖像的響應差別,就是一個指征。如果我們在高質(zhì)量圖像情況下,用高層腦區(qū)預測低層腦區(qū),對于高低質(zhì)量圖像預測的差是顯著的,那就證明我們提取到了信息。反之,如果我們在低質(zhì)量圖像的情況下,用高層腦區(qū)去預測低層腦區(qū),你找不到這么顯著的區(qū)域,這個圖中畫圈紅色的是顯著的,P小于0.01。如果用高層腦區(qū)預測低層腦區(qū),但是在低質(zhì)量的情況下,就找不到這么多的顯著性,唯一一個顯著的是發(fā)生在枕中回預測舌回的時候。

所以這就進一步說明了在枕中回位置上,是跟質(zhì)量相關(guān)的關(guān)鍵區(qū)域。所以更進一步我們又有一個想法,如果你解碼這個視覺圖像的時候,你用全部腦區(qū)去解碼當然可以,但能不能只用枕中回附近的兩個腦區(qū)?比如枕中回和枕上回這兩個腦區(qū),來解碼視覺質(zhì)量。事實上證明,這是單個人的結(jié)果,這是把所有人放在一塊的結(jié)果,這塊區(qū)域去做解碼,只用枕中回和枕上回的解碼結(jié)果實際上跟用全圖是差不多的。也就是說,這塊區(qū)域確實對應了我們對質(zhì)量感知的關(guān)鍵區(qū)域。

更進一步,枕中回這個區(qū)域?qū)τ谫|(zhì)量感知很關(guān)鍵,但是它單獨起作用嗎?也不是,你可以用Seed-based Functional Connectivity去發(fā)現(xiàn)它跟前面的眶額區(qū)域,這顯然跟情緒、記憶相關(guān)的高層腦區(qū),它們之間的相關(guān)性是比較強的。所以我們的質(zhì)量評價過程,除了枕中回這塊比較重要,眶額皮層也比較重要,它同時要聯(lián)動很多高級的腦區(qū)。

做一個總結(jié),說得很簡單,但是也是做了不少分析。通過數(shù)據(jù)各種各樣預處理的分析,我們得到了相應的五個結(jié)論,這五個結(jié)論分別是:

1、質(zhì)量評價不是簡單的視覺任務,激活區(qū)域和功能連接至少相比于場景分類是更加復雜的。

2、低質(zhì)量圖像對應著高級腦區(qū)的活動增加,大腦功耗相應地增加,這是為什么我們會厭惡低質(zhì)量圖像的原因。

3、失真對低級到高級腦區(qū)域編碼的負面影響逐漸降低,也就是失真不影響你看清楚這個東西是什么,最終是不影響的,只是在過程之中增加了你的功耗。

4、視覺質(zhì)量的感知可能是源于高級和初級視覺區(qū)間的信息差獲取。

5、低質(zhì)量圖像認知過程存在與高級腦區(qū)之間的聯(lián)動,只用我們的枕中回也做不了質(zhì)量評價,所以需要更高級的腦區(qū)聯(lián)動。

以上是我們的一些發(fā)現(xiàn),跟各位進行了分享。謝謝各位。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )