7月26日消息,在多媒體領(lǐng)域世界頂級學(xué)術(shù)會議ICME 2021的「壓縮UGC視頻質(zhì)量評估」比賽中,字節(jié)跳動旗下火山引擎多媒體實驗室組成的“QA-FTE”隊伍,憑借自研的VQScore算法,拿下了該比賽「無參考視頻質(zhì)量評價(NR-VQA)MOS賽道」的第一名。
除了火山引擎多媒體實驗室,另有11支來自全球知名院校和企業(yè)的隊伍參加該項競賽。整場競賽包含兩個賽道,分別對應(yīng)VQA領(lǐng)域兩類主流的解決方法:
一、無參考視頻質(zhì)量評價(NR-VQA)MOS賽道:在參考信息缺失的前提下對損傷視頻質(zhì)量進行評價;
二、全參考視頻質(zhì)量評價(FR-VQA)DMOS賽道:衡量參考視頻和損傷視頻之間的質(zhì)量差異。
除了在無參考視頻質(zhì)量評價(NR-VQA)MOS賽道中包攬全部最高分之外,在全參考視頻質(zhì)量評價(FR-VQA)DMOS賽道,火山引擎多媒體實驗室同樣拿下了部分指標的最高分。
什么是「壓縮UGC視頻質(zhì)量評估」
視頻質(zhì)量評估,就是用算法模型來自動評判一段視頻的質(zhì)量,比如清不清晰、有沒有噪點、畫質(zhì)好不好,給出高低不同的分數(shù)。視頻質(zhì)量的高低,直接影響到用戶看視頻的體驗。
有了自動評估視頻質(zhì)量的算法模型,就可以在用戶生產(chǎn)視頻、系統(tǒng)處理視頻的過程中自動的用一些手段來更好的處理視頻。
比如評估發(fā)現(xiàn)一段視頻分辨率太低讓人看不清楚,就可以用超分辨率算法讓它清晰起來;或者評估發(fā)現(xiàn)一段視頻噪點太多,就可以用去噪算法減輕這些噪點。
比如發(fā)現(xiàn)視頻本身已經(jīng)很模糊了,就把轉(zhuǎn)碼的碼率調(diào)低,節(jié)省系統(tǒng)帶寬,也幫觀看用戶省點流量。
比如用戶拍攝視頻的時候發(fā)現(xiàn)當前場景是逆光的,人物五官都看不清楚,就可以提示用戶:該調(diào)整下燈光和角度了。
可以理解為,視頻質(zhì)量評估就是一場視頻們的「入學(xué)考試」,根據(jù)考試的分數(shù),算法老師們因材施教,讓每一段視頻都看起來更美觀。
但和傳統(tǒng)的專業(yè)電視臺拍攝的視頻相比,給UGC的視頻打分是更困難的一件事——畢竟在做視頻這件事上,你沒有辦法低估網(wǎng)友們的腦洞。
比如UGC的視頻里,包含用戶拍攝的自然風景、食物、建筑、人像、動物等各種題材的內(nèi)容,甚至有些不是自然拍攝,而是游戲錄屏,并且還會加上五花八門的字幕。
比如有的視頻本身并非豎屏視頻,為了在移動端播放,就在上下加上背景填充。填充的圖案其實是很清晰的色塊,但中間的視頻可不一定清晰,你不能因為兩側(cè)的填充圖案看起來很清晰,就判斷這個視頻很清晰。
再比如這種大頭特效,特效的部分很清晰,但特效之外的人物部分卻有些模糊,這到底是算清晰還是不清晰?
另外,因為UGC拍攝有各種情況,用戶手一抖,視頻就變模糊,噪點、過曝、抖動、失真,各種問題交織在一起,算法很難評價。
火山引擎多媒體實驗室研究出的算法VQScore就是專門做視頻質(zhì)量評分的,訓(xùn)練這個算法的數(shù)據(jù)集都是眾包用戶根據(jù)自己的審美和觀看感受來評分的,能夠保證算法的評分契合大部分普通觀眾的觀看體驗,此前已經(jīng)有了2年多的積累。
目前,VQScore系列視頻質(zhì)量評估算法不僅在抖音、西瓜視頻等產(chǎn)品落地,并且已經(jīng)作為火山引擎視頻點播服務(wù)的一部分對外開放。
從用戶出發(fā),巧「拆」數(shù)據(jù)集
回顧整個參賽過程,火山引擎多媒體實驗室也曾遇到過模型分數(shù)的瓶頸,無論怎么優(yōu)化,都無法提升分數(shù)。
這里需要說明,整場比賽的數(shù)據(jù)集均來自一些視頻App中的真實視頻,包含:
訓(xùn)練集:6400個訓(xùn)練視頻片段
驗證集:800個驗證視頻片段
測試集:800個測試視頻片段,用于對參賽模型進行比較和評分,參賽者無法獲取。
每個視頻被H.264/AVC編碼器壓縮成損傷程度由弱到強的7個壓縮片段,主辦方通過主觀測試針對每一支視頻片段收集了超過50個主觀MOS評分。
參賽者訓(xùn)練模型的數(shù)據(jù)必須來自比賽主辦方的官方數(shù)據(jù),不可以用自己的數(shù)據(jù)。數(shù)據(jù)就是訓(xùn)練模型的原材料,如果數(shù)據(jù)不足,那么算法工程師們常常會遇到巧婦難為無米之炊的難題,雖然不是「無米」,但「米」的數(shù)量并不夠用。
怎么才能提升「米」的數(shù)量呢?
火山引擎多媒體實驗室參賽同學(xué)決定直接挨個看數(shù)據(jù)集里的視頻,看了很多樣本之后發(fā)現(xiàn)了突破口:
原本的方法里,用到了很多時域信息——通俗來講,就是隨著視頻時間進度條的進展,視頻的每一幀之間都是有相關(guān)性的,視頻的主角完成一個動作、場景發(fā)生一點變化,前后幀之間都是有聯(lián)系的。
比賽數(shù)據(jù)集中的視頻,大多只在短短的10秒左右,時域信息相當穩(wěn)定,畫質(zhì)也沒有明顯變化。
因為對數(shù)據(jù)和用戶都有深刻的理解,根據(jù)多年處理數(shù)據(jù)的經(jīng)驗,工程師們意識到一件事情:
用戶其實對時域并不敏感,更注重每一幀里的畫面信息——也就是空域信息。
本著尊重用戶體驗的出發(fā)點,他們做出了一項更為務(wù)實的權(quán)衡:
把單個的視頻數(shù)據(jù)集,拆成分散的幀來用。
在看重時域信息的方法中,數(shù)據(jù)集中的每個視頻都被當做單獨一個數(shù)據(jù)用來訓(xùn)練,總共6400個輸入數(shù)據(jù)。但如果放棄時域信息,把每個10秒鐘左右的訓(xùn)練視頻拆成單獨的幀,就可以獲得300幀左右的數(shù)據(jù),相當于訓(xùn)練算法的數(shù)據(jù)集增大到原來的30倍,6400個輸入數(shù)據(jù)就可以變成192000個。
并且這種新的方法還獲得了一個額外的好處——避免了過擬合,也就是模型死記硬背了訓(xùn)練集里的答案,在測試集里表現(xiàn)失靈的情況。“時域信息用太多會過擬合,相當于我們犧牲了一小塊,保留了更大的蛋糕。”
參賽模型的技術(shù)實現(xiàn)
火山引擎多媒體實驗室在比賽中不僅使用了較為傳統(tǒng)的CNN(卷積神經(jīng)網(wǎng)絡(luò)),另外考慮到Transformer在NLP領(lǐng)域取得巨大成功,決定采用Transformer進行UGC視頻的質(zhì)量評估,提出了一種CNN和Transformer相結(jié)合的框架,采用CNN提取局部特征,利用Transformer結(jié)構(gòu)通過自注意機制預(yù)測主觀質(zhì)量分數(shù)。
無參考模型框架如上圖所示。
火山引擎多媒體實驗室使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為特征提取器來計算輸入視頻塊的深度特征。提取ResNet不同層的特征,在空間維度上利用MaxPooling將這些特征降采樣到相同大小,并在特征維度上進行拼接。將該特征的空間維度展平并進行Linear projection,并添加embedding作為Transformer的輸入:
采用的Transformer架構(gòu)遵循標準的Vision Transformer,包含L層多頭注意力模塊(MSA)和多層感知器模塊(MLP)。Transformer與MLP頭連接,用于回歸最終的主觀評分。
用于訓(xùn)練的損失函數(shù)均方誤差l1-Loss和PLCC-Loss加權(quán)相加構(gòu)成:
PLCC表示一個batch內(nèi)預(yù)測值和groudturthlabel的相關(guān)性,其值歸一化至[-1,1],PLCC值越大性能越好,因此PLCC損失表示為:
全參考模型框架如下圖所示。reference patch和對應(yīng)位置的distortion patch輸入共享權(quán)值的孿生神經(jīng)網(wǎng)絡(luò)分別提取深度特征,并在特征空間的計算L1距離,拼接成新的特征輸入回歸模塊映射得到主觀DMOS分值。
如下圖所示,在訓(xùn)練過程中,從壓縮視頻片段和相應(yīng)的參考視頻片段中隨機裁剪出一個256×256的圖像塊patch(針對FR框架),然后將壓縮視頻的質(zhì)量評分直接作為裁剪patch的訓(xùn)練標簽。測試時,從每一幀的四個角和中心裁剪得到5個大小為256×256的patch分別計算分值(FR框架),所有patch的平均得分作為壓縮視頻的預(yù)測分。
在實驗中,用于特征提取的ResNet18網(wǎng)絡(luò)使用在ImageNet上預(yù)訓(xùn)練的用于分類任務(wù)的網(wǎng)絡(luò)的權(quán)值進行初始化,并使用相同的學(xué)習率與框架的其他部分一起進行訓(xùn)練;Transformer包含2層,MSA頭數(shù)為16。在加權(quán)w1=1.00, w2=0.02的條件下,利用L1損失和PLCC損失聯(lián)合優(yōu)化框架。
通過對比競賽結(jié)果中的各隊伍在測試集上的性能指標(PLCC/SROCC/KROCC/RMSE)以及SOTA FR/NR算法預(yù)測質(zhì)量分數(shù)散點圖,對提出模型的性能進行驗證,其中PLCC/SRCC/KROCC越接近1越好,RMSE越接近0越好。
A. MOS track:
Comparing with SOTA NR-VQA metrics:
B. DMOS track:
Comparing with SOTA FR-VQA metrics:
對于直接預(yù)測壓縮損傷視頻MOS分的NR方法,火山引擎多媒體實驗室提出的NR框架在所有評價指標中排名第一;對于預(yù)測參考視頻和損傷視頻質(zhì)量差異DMOS分值的FR方法,火山引擎多媒體實驗室提出的FR框架在預(yù)測單調(diào)性(即SROCC和KROCC)方面排名第一,在預(yù)測精度(即PLCC和RMSE)方面排名第二。 同時通過散點圖可以看出,提出的方法與主觀評分具有較高的相關(guān)性,顯著超出了其他的SOTA FR/NR方法。
目前行業(yè)內(nèi),視頻畫質(zhì)好壞直接影響實際業(yè)務(wù)QoE,包括用戶行為包括完播、留存、關(guān)注等,已經(jīng)是不爭的事實。由于模仿人類主觀感受是一件非常困難的事,受到很多因素的干擾。而用戶真實感知和學(xué)術(shù)上那些行業(yè)已有衡量體系(PSNR、SSIM、VMAF等)仍有鴻溝包括他們彼此之間評價標準也不完全統(tǒng)一。
導(dǎo)致在視頻工業(yè)生產(chǎn)中的需求,如扶持高清原創(chuàng)、打擊視頻劣質(zhì)內(nèi)容、針對畫質(zhì)精準匹配轉(zhuǎn)碼檔位節(jié)省成本等,都沒有很好的解決方案。基于以上原因,字節(jié)/火山引擎花大力氣研發(fā)出VQScore用于解決這一現(xiàn)狀,解決公司業(yè)務(wù)中的長期痛點,同時向工業(yè)界推出他們的無參考質(zhì)量評價標準。
針對UGC內(nèi)容的研究與實際應(yīng)用場景更加貼近,UGC質(zhì)量評價算法對監(jiān)控視頻平臺整體畫質(zhì)、監(jiān)督畫質(zhì)提升算法、指導(dǎo)壓縮效率提升等場景有重要作用。據(jù)悉,火山引擎多媒體實驗室提出的Transformer結(jié)構(gòu)實現(xiàn)了算法性能的提升,對后續(xù)相關(guān)算法研究具有較強的指導(dǎo)意義。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )