國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

7月26日消息,在多媒體領(lǐng)域世界頂級(jí)學(xué)術(shù)會(huì)議ICME 2021的「壓縮UGC視頻質(zhì)量評(píng)估」比賽中,字節(jié)跳動(dòng)旗下火山引擎多媒體實(shí)驗(yàn)室組成的“QA-FTE”隊(duì)伍,憑借自研的VQScore算法,拿下了該比賽「無(wú)參考視頻質(zhì)量評(píng)價(jià)(NR-VQA)MOS賽道」的第一名。

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

除了火山引擎多媒體實(shí)驗(yàn)室,另有11支來(lái)自全球知名院校和企業(yè)的隊(duì)伍參加該項(xiàng)競(jìng)賽。整場(chǎng)競(jìng)賽包含兩個(gè)賽道,分別對(duì)應(yīng)VQA領(lǐng)域兩類主流的解決方法:

一、無(wú)參考視頻質(zhì)量評(píng)價(jià)(NR-VQA)MOS賽道:在參考信息缺失的前提下對(duì)損傷視頻質(zhì)量進(jìn)行評(píng)價(jià);

二、全參考視頻質(zhì)量評(píng)價(jià)(FR-VQA)DMOS賽道:衡量參考視頻和損傷視頻之間的質(zhì)量差異。

除了在無(wú)參考視頻質(zhì)量評(píng)價(jià)(NR-VQA)MOS賽道中包攬全部最高分之外,在全參考視頻質(zhì)量評(píng)價(jià)(FR-VQA)DMOS賽道,火山引擎多媒體實(shí)驗(yàn)室同樣拿下了部分指標(biāo)的最高分。

什么是「壓縮UGC視頻質(zhì)量評(píng)估」

視頻質(zhì)量評(píng)估,就是用算法模型來(lái)自動(dòng)評(píng)判一段視頻的質(zhì)量,比如清不清晰、有沒(méi)有噪點(diǎn)、畫質(zhì)好不好,給出高低不同的分?jǐn)?shù)。視頻質(zhì)量的高低,直接影響到用戶看視頻的體驗(yàn)。

有了自動(dòng)評(píng)估視頻質(zhì)量的算法模型,就可以在用戶生產(chǎn)視頻、系統(tǒng)處理視頻的過(guò)程中自動(dòng)的用一些手段來(lái)更好的處理視頻。

比如評(píng)估發(fā)現(xiàn)一段視頻分辨率太低讓人看不清楚,就可以用超分辨率算法讓它清晰起來(lái);或者評(píng)估發(fā)現(xiàn)一段視頻噪點(diǎn)太多,就可以用去噪算法減輕這些噪點(diǎn)。

比如發(fā)現(xiàn)視頻本身已經(jīng)很模糊了,就把轉(zhuǎn)碼的碼率調(diào)低,節(jié)省系統(tǒng)帶寬,也幫觀看用戶省點(diǎn)流量。

比如用戶拍攝視頻的時(shí)候發(fā)現(xiàn)當(dāng)前場(chǎng)景是逆光的,人物五官都看不清楚,就可以提示用戶:該調(diào)整下燈光和角度了。

可以理解為,視頻質(zhì)量評(píng)估就是一場(chǎng)視頻們的「入學(xué)考試」,根據(jù)考試的分?jǐn)?shù),算法老師們因材施教,讓每一段視頻都看起來(lái)更美觀。

但和傳統(tǒng)的專業(yè)電視臺(tái)拍攝的視頻相比,給UGC的視頻打分是更困難的一件事——畢竟在做視頻這件事上,你沒(méi)有辦法低估網(wǎng)友們的腦洞。

比如UGC的視頻里,包含用戶拍攝的自然風(fēng)景、食物、建筑、人像、動(dòng)物等各種題材的內(nèi)容,甚至有些不是自然拍攝,而是游戲錄屏,并且還會(huì)加上五花八門的字幕。

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

比如有的視頻本身并非豎屏視頻,為了在移動(dòng)端播放,就在上下加上背景填充。填充的圖案其實(shí)是很清晰的色塊,但中間的視頻可不一定清晰,你不能因?yàn)閮蓚?cè)的填充圖案看起來(lái)很清晰,就判斷這個(gè)視頻很清晰。

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

再比如這種大頭特效,特效的部分很清晰,但特效之外的人物部分卻有些模糊,這到底是算清晰還是不清晰?

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

另外,因?yàn)閁GC拍攝有各種情況,用戶手一抖,視頻就變模糊,噪點(diǎn)、過(guò)曝、抖動(dòng)、失真,各種問(wèn)題交織在一起,算法很難評(píng)價(jià)。

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

火山引擎多媒體實(shí)驗(yàn)室研究出的算法VQScore就是專門做視頻質(zhì)量評(píng)分的,訓(xùn)練這個(gè)算法的數(shù)據(jù)集都是眾包用戶根據(jù)自己的審美和觀看感受來(lái)評(píng)分的,能夠保證算法的評(píng)分契合大部分普通觀眾的觀看體驗(yàn),此前已經(jīng)有了2年多的積累。

目前,VQScore系列視頻質(zhì)量評(píng)估算法不僅在抖音、西瓜視頻等產(chǎn)品落地,并且已經(jīng)作為火山引擎視頻點(diǎn)播服務(wù)的一部分對(duì)外開(kāi)放。

從用戶出發(fā),巧「拆」數(shù)據(jù)集

回顧整個(gè)參賽過(guò)程,火山引擎多媒體實(shí)驗(yàn)室也曾遇到過(guò)模型分?jǐn)?shù)的瓶頸,無(wú)論怎么優(yōu)化,都無(wú)法提升分?jǐn)?shù)。

這里需要說(shuō)明,整場(chǎng)比賽的數(shù)據(jù)集均來(lái)自一些視頻App中的真實(shí)視頻,包含:

訓(xùn)練集:6400個(gè)訓(xùn)練視頻片段

驗(yàn)證集:800個(gè)驗(yàn)證視頻片段

測(cè)試集:800個(gè)測(cè)試視頻片段,用于對(duì)參賽模型進(jìn)行比較和評(píng)分,參賽者無(wú)法獲取。

每個(gè)視頻被H.264/AVC編碼器壓縮成損傷程度由弱到強(qiáng)的7個(gè)壓縮片段,主辦方通過(guò)主觀測(cè)試針對(duì)每一支視頻片段收集了超過(guò)50個(gè)主觀MOS評(píng)分。

參賽者訓(xùn)練模型的數(shù)據(jù)必須來(lái)自比賽主辦方的官方數(shù)據(jù),不可以用自己的數(shù)據(jù)。數(shù)據(jù)就是訓(xùn)練模型的原材料,如果數(shù)據(jù)不足,那么算法工程師們常常會(huì)遇到巧婦難為無(wú)米之炊的難題,雖然不是「無(wú)米」,但「米」的數(shù)量并不夠用。

怎么才能提升「米」的數(shù)量呢?

火山引擎多媒體實(shí)驗(yàn)室參賽同學(xué)決定直接挨個(gè)看數(shù)據(jù)集里的視頻,看了很多樣本之后發(fā)現(xiàn)了突破口:

原本的方法里,用到了很多時(shí)域信息——通俗來(lái)講,就是隨著視頻時(shí)間進(jìn)度條的進(jìn)展,視頻的每一幀之間都是有相關(guān)性的,視頻的主角完成一個(gè)動(dòng)作、場(chǎng)景發(fā)生一點(diǎn)變化,前后幀之間都是有聯(lián)系的。

比賽數(shù)據(jù)集中的視頻,大多只在短短的10秒左右,時(shí)域信息相當(dāng)穩(wěn)定,畫質(zhì)也沒(méi)有明顯變化。

因?yàn)閷?duì)數(shù)據(jù)和用戶都有深刻的理解,根據(jù)多年處理數(shù)據(jù)的經(jīng)驗(yàn),工程師們意識(shí)到一件事情:

用戶其實(shí)對(duì)時(shí)域并不敏感,更注重每一幀里的畫面信息——也就是空域信息

本著尊重用戶體驗(yàn)的出發(fā)點(diǎn),他們做出了一項(xiàng)更為務(wù)實(shí)的權(quán)衡:

把單個(gè)的視頻數(shù)據(jù)集,拆成分散的幀來(lái)用。

在看重時(shí)域信息的方法中,數(shù)據(jù)集中的每個(gè)視頻都被當(dāng)做單獨(dú)一個(gè)數(shù)據(jù)用來(lái)訓(xùn)練,總共6400個(gè)輸入數(shù)據(jù)。但如果放棄時(shí)域信息,把每個(gè)10秒鐘左右的訓(xùn)練視頻拆成單獨(dú)的幀,就可以獲得300幀左右的數(shù)據(jù),相當(dāng)于訓(xùn)練算法的數(shù)據(jù)集增大到原來(lái)的30倍,6400個(gè)輸入數(shù)據(jù)就可以變成192000個(gè)。

并且這種新的方法還獲得了一個(gè)額外的好處——避免了過(guò)擬合,也就是模型死記硬背了訓(xùn)練集里的答案,在測(cè)試集里表現(xiàn)失靈的情況。“時(shí)域信息用太多會(huì)過(guò)擬合,相當(dāng)于我們犧牲了一小塊,保留了更大的蛋糕。”

參賽模型的技術(shù)實(shí)現(xiàn)

火山引擎多媒體實(shí)驗(yàn)室在比賽中不僅使用了較為傳統(tǒng)的CNN(卷積神經(jīng)網(wǎng)絡(luò)),另外考慮到Transformer在NLP領(lǐng)域取得巨大成功,決定采用Transformer進(jìn)行UGC視頻的質(zhì)量評(píng)估,提出了一種CNN和Transformer相結(jié)合的框架,采用CNN提取局部特征,利用Transformer結(jié)構(gòu)通過(guò)自注意機(jī)制預(yù)測(cè)主觀質(zhì)量分?jǐn)?shù)。

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

無(wú)參考模型框架如上圖所示。

火山引擎多媒體實(shí)驗(yàn)室使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為特征提取器來(lái)計(jì)算輸入視頻塊的深度特征。提取ResNet不同層的特征,在空間維度上利用MaxPooling將這些特征降采樣到相同大小,并在特征維度上進(jìn)行拼接。將該特征的空間維度展平并進(jìn)行Linear projection,并添加embedding作為Transformer的輸入:

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

采用的Transformer架構(gòu)遵循標(biāo)準(zhǔn)的Vision Transformer,包含L層多頭注意力模塊(MSA)和多層感知器模塊(MLP)。Transformer與MLP頭連接,用于回歸最終的主觀評(píng)分。

用于訓(xùn)練的損失函數(shù)均方誤差l1-Loss和PLCC-Loss加權(quán)相加構(gòu)成:

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

PLCC表示一個(gè)batch內(nèi)預(yù)測(cè)值和groudturthlabel的相關(guān)性,其值歸一化至[-1,1],PLCC值越大性能越好,因此PLCC損失表示為:

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

全參考模型框架如下圖所示。reference patch和對(duì)應(yīng)位置的distortion patch輸入共享權(quán)值的孿生神經(jīng)網(wǎng)絡(luò)分別提取深度特征,并在特征空間的計(jì)算L1距離,拼接成新的特征輸入回歸模塊映射得到主觀DMOS分值。

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

如下圖所示,在訓(xùn)練過(guò)程中,從壓縮視頻片段和相應(yīng)的參考視頻片段中隨機(jī)裁剪出一個(gè)256×256的圖像塊patch(針對(duì)FR框架),然后將壓縮視頻的質(zhì)量評(píng)分直接作為裁剪patch的訓(xùn)練標(biāo)簽。測(cè)試時(shí),從每一幀的四個(gè)角和中心裁剪得到5個(gè)大小為256×256的patch分別計(jì)算分值(FR框架),所有patch的平均得分作為壓縮視頻的預(yù)測(cè)分。

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

在實(shí)驗(yàn)中,用于特征提取的ResNet18網(wǎng)絡(luò)使用在ImageNet上預(yù)訓(xùn)練的用于分類任務(wù)的網(wǎng)絡(luò)的權(quán)值進(jìn)行初始化,并使用相同的學(xué)習(xí)率與框架的其他部分一起進(jìn)行訓(xùn)練;Transformer包含2層,MSA頭數(shù)為16。在加權(quán)w1=1.00, w2=0.02的條件下,利用L1損失和PLCC損失聯(lián)合優(yōu)化框架。

通過(guò)對(duì)比競(jìng)賽結(jié)果中的各隊(duì)伍在測(cè)試集上的性能指標(biāo)(PLCC/SROCC/KROCC/RMSE)以及SOTA FR/NR算法預(yù)測(cè)質(zhì)量分?jǐn)?shù)散點(diǎn)圖,對(duì)提出模型的性能進(jìn)行驗(yàn)證,其中PLCC/SRCC/KROCC越接近1越好,RMSE越接近0越好。

A. MOS track:

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

Comparing with SOTA NR-VQA metrics:

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

B. DMOS track:

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

Comparing with SOTA FR-VQA metrics:

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽:火山引擎成功奪冠

對(duì)于直接預(yù)測(cè)壓縮損傷視頻MOS分的NR方法,火山引擎多媒體實(shí)驗(yàn)室提出的NR框架在所有評(píng)價(jià)指標(biāo)中排名第一;對(duì)于預(yù)測(cè)參考視頻和損傷視頻質(zhì)量差異DMOS分值的FR方法,火山引擎多媒體實(shí)驗(yàn)室提出的FR框架在預(yù)測(cè)單調(diào)性(即SROCC和KROCC)方面排名第一,在預(yù)測(cè)精度(即PLCC和RMSE)方面排名第二。 同時(shí)通過(guò)散點(diǎn)圖可以看出,提出的方法與主觀評(píng)分具有較高的相關(guān)性,顯著超出了其他的SOTA FR/NR方法。

目前行業(yè)內(nèi),視頻畫質(zhì)好壞直接影響實(shí)際業(yè)務(wù)QoE,包括用戶行為包括完播、留存、關(guān)注等,已經(jīng)是不爭(zhēng)的事實(shí)。由于模仿人類主觀感受是一件非常困難的事,受到很多因素的干擾。而用戶真實(shí)感知和學(xué)術(shù)上那些行業(yè)已有衡量體系(PSNR、SSIM、VMAF等)仍有鴻溝包括他們彼此之間評(píng)價(jià)標(biāo)準(zhǔn)也不完全統(tǒng)一。

導(dǎo)致在視頻工業(yè)生產(chǎn)中的需求,如扶持高清原創(chuàng)、打擊視頻劣質(zhì)內(nèi)容、針對(duì)畫質(zhì)精準(zhǔn)匹配轉(zhuǎn)碼檔位節(jié)省成本等,都沒(méi)有很好的解決方案?;谝陨显?,字節(jié)/火山引擎花大力氣研發(fā)出VQScore用于解決這一現(xiàn)狀,解決公司業(yè)務(wù)中的長(zhǎng)期痛點(diǎn),同時(shí)向工業(yè)界推出他們的無(wú)參考質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)。

針對(duì)UGC內(nèi)容的研究與實(shí)際應(yīng)用場(chǎng)景更加貼近,UGC質(zhì)量評(píng)價(jià)算法對(duì)監(jiān)控視頻平臺(tái)整體畫質(zhì)、監(jiān)督畫質(zhì)提升算法、指導(dǎo)壓縮效率提升等場(chǎng)景有重要作用。據(jù)悉,火山引擎多媒體實(shí)驗(yàn)室提出的Transformer結(jié)構(gòu)實(shí)現(xiàn)了算法性能的提升,對(duì)后續(xù)相關(guān)算法研究具有較強(qiáng)的指導(dǎo)意義。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )