国产日韩欧美精品区性色,被男生舔小兔兔的感觉知乎,亚洲中字无码AV电影在线观看

7月26日消息，在多媒體領(lǐng)域世界頂級(jí)學(xué)術(shù)會(huì)議ICME 2021的「壓縮UGC視頻質(zhì)量評(píng)估」比賽中，字節(jié)跳動(dòng)旗下火山引擎多媒體實(shí)驗(yàn)室組成的“QA-FTE”隊(duì)伍，憑借自研的VQScore算法，拿下了該比賽「無參考視頻質(zhì)量評(píng)價(jià)(NR-VQA)MOS賽道」的第一名。

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽：火山引擎成功奪冠

除了火山引擎多媒體實(shí)驗(yàn)室，另有11支來自全球知名院校和企業(yè)的隊(duì)伍參加該項(xiàng)競(jìng)賽。整場(chǎng)競(jìng)賽包含兩個(gè)賽道，分別對(duì)應(yīng)VQA領(lǐng)域兩類主流的解決方法：

一、無參考視頻質(zhì)量評(píng)價(jià)(NR-VQA)MOS賽道：在參考信息缺失的前提下對(duì)損傷視頻質(zhì)量進(jìn)行評(píng)價(jià);

二、全參考視頻質(zhì)量評(píng)價(jià)(FR-VQA)DMOS賽道：衡量參考視頻和損傷視頻之間的質(zhì)量差異。

除了在無參考視頻質(zhì)量評(píng)價(jià)(NR-VQA)MOS賽道中包攬全部最高分之外，在全參考視頻質(zhì)量評(píng)價(jià)(FR-VQA)DMOS賽道，火山引擎多媒體實(shí)驗(yàn)室同樣拿下了部分指標(biāo)的最高分。

什么是「壓縮UGC視頻質(zhì)量評(píng)估」

視頻質(zhì)量評(píng)估，就是用算法模型來自動(dòng)評(píng)判一段視頻的質(zhì)量，比如清不清晰、有沒有噪點(diǎn)、畫質(zhì)好不好，給出高低不同的分?jǐn)?shù)。視頻質(zhì)量的高低，直接影響到用戶看視頻的體驗(yàn)。

有了自動(dòng)評(píng)估視頻質(zhì)量的算法模型，就可以在用戶生產(chǎn)視頻、系統(tǒng)處理視頻的過程中自動(dòng)的用一些手段來更好的處理視頻。

比如評(píng)估發(fā)現(xiàn)一段視頻分辨率太低讓人看不清楚，就可以用超分辨率算法讓它清晰起來;或者評(píng)估發(fā)現(xiàn)一段視頻噪點(diǎn)太多，就可以用去噪算法減輕這些噪點(diǎn)。

比如發(fā)現(xiàn)視頻本身已經(jīng)很模糊了，就把轉(zhuǎn)碼的碼率調(diào)低，節(jié)省系統(tǒng)帶寬，也幫觀看用戶省點(diǎn)流量。

比如用戶拍攝視頻的時(shí)候發(fā)現(xiàn)當(dāng)前場(chǎng)景是逆光的，人物五官都看不清楚，就可以提示用戶：該調(diào)整下燈光和角度了。

可以理解為，視頻質(zhì)量評(píng)估就是一場(chǎng)視頻們的「入學(xué)考試」，根據(jù)考試的分?jǐn)?shù)，算法老師們因材施教，讓每一段視頻都看起來更美觀。

但和傳統(tǒng)的專業(yè)電視臺(tái)拍攝的視頻相比，給UGC的視頻打分是更困難的一件事——畢竟在做視頻這件事上，你沒有辦法低估網(wǎng)友們的腦洞。

比如UGC的視頻里，包含用戶拍攝的自然風(fēng)景、食物、建筑、人像、動(dòng)物等各種題材的內(nèi)容，甚至有些不是自然拍攝，而是游戲錄屏，并且還會(huì)加上五花八門的字幕。

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽：火山引擎成功奪冠

比如有的視頻本身并非豎屏視頻，為了在移動(dòng)端播放，就在上下加上背景填充。填充的圖案其實(shí)是很清晰的色塊，但中間的視頻可不一定清晰，你不能因?yàn)閮蓚?cè)的填充圖案看起來很清晰，就判斷這個(gè)視頻很清晰。

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽：火山引擎成功奪冠

再比如這種大頭特效，特效的部分很清晰，但特效之外的人物部分卻有些模糊，這到底是算清晰還是不清晰?

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽：火山引擎成功奪冠

另外，因?yàn)閁GC拍攝有各種情況，用戶手一抖，視頻就變模糊，噪點(diǎn)、過曝、抖動(dòng)、失真，各種問題交織在一起，算法很難評(píng)價(jià)。

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽：火山引擎成功奪冠

火山引擎多媒體實(shí)驗(yàn)室研究出的算法VQScore就是專門做視頻質(zhì)量評(píng)分的，訓(xùn)練這個(gè)算法的數(shù)據(jù)集都是眾包用戶根據(jù)自己的審美和觀看感受來評(píng)分的，能夠保證算法的評(píng)分契合大部分普通觀眾的觀看體驗(yàn)，此前已經(jīng)有了2年多的積累。

目前，VQScore系列視頻質(zhì)量評(píng)估算法不僅在抖音、西瓜視頻等產(chǎn)品落地，并且已經(jīng)作為火山引擎視頻點(diǎn)播服務(wù)的一部分對(duì)外開放。

從用戶出發(fā)，巧「拆」數(shù)據(jù)集

回顧整個(gè)參賽過程，火山引擎多媒體實(shí)驗(yàn)室也曾遇到過模型分?jǐn)?shù)的瓶頸，無論怎么優(yōu)化，都無法提升分?jǐn)?shù)。

這里需要說明，整場(chǎng)比賽的數(shù)據(jù)集均來自一些視頻App中的真實(shí)視頻，包含：

訓(xùn)練集：6400個(gè)訓(xùn)練視頻片段

驗(yàn)證集：800個(gè)驗(yàn)證視頻片段

測(cè)試集：800個(gè)測(cè)試視頻片段，用于對(duì)參賽模型進(jìn)行比較和評(píng)分，參賽者無法獲取。

每個(gè)視頻被H.264/AVC編碼器壓縮成損傷程度由弱到強(qiáng)的7個(gè)壓縮片段，主辦方通過主觀測(cè)試針對(duì)每一支視頻片段收集了超過50個(gè)主觀MOS評(píng)分。

參賽者訓(xùn)練模型的數(shù)據(jù)必須來自比賽主辦方的官方數(shù)據(jù)，不可以用自己的數(shù)據(jù)。數(shù)據(jù)就是訓(xùn)練模型的原材料，如果數(shù)據(jù)不足，那么算法工程師們常常會(huì)遇到巧婦難為無米之炊的難題，雖然不是「無米」，但「米」的數(shù)量并不夠用。

怎么才能提升「米」的數(shù)量呢?

火山引擎多媒體實(shí)驗(yàn)室參賽同學(xué)決定直接挨個(gè)看數(shù)據(jù)集里的視頻，看了很多樣本之后發(fā)現(xiàn)了突破口：

原本的方法里，用到了很多時(shí)域信息——通俗來講，就是隨著視頻時(shí)間進(jìn)度條的進(jìn)展，視頻的每一幀之間都是有相關(guān)性的，視頻的主角完成一個(gè)動(dòng)作、場(chǎng)景發(fā)生一點(diǎn)變化，前后幀之間都是有聯(lián)系的。

比賽數(shù)據(jù)集中的視頻，大多只在短短的10秒左右，時(shí)域信息相當(dāng)穩(wěn)定，畫質(zhì)也沒有明顯變化。

因?yàn)閷?duì)數(shù)據(jù)和用戶都有深刻的理解，根據(jù)多年處理數(shù)據(jù)的經(jīng)驗(yàn)，工程師們意識(shí)到一件事情：

用戶其實(shí)對(duì)時(shí)域并不敏感，更注重每一幀里的畫面信息——也就是空域信息。

本著尊重用戶體驗(yàn)的出發(fā)點(diǎn)，他們做出了一項(xiàng)更為務(wù)實(shí)的權(quán)衡：

把單個(gè)的視頻數(shù)據(jù)集，拆成分散的幀來用。

在看重時(shí)域信息的方法中，數(shù)據(jù)集中的每個(gè)視頻都被當(dāng)做單獨(dú)一個(gè)數(shù)據(jù)用來訓(xùn)練，總共6400個(gè)輸入數(shù)據(jù)。但如果放棄時(shí)域信息，把每個(gè)10秒鐘左右的訓(xùn)練視頻拆成單獨(dú)的幀，就可以獲得300幀左右的數(shù)據(jù)，相當(dāng)于訓(xùn)練算法的數(shù)據(jù)集增大到原來的30倍，6400個(gè)輸入數(shù)據(jù)就可以變成192000個(gè)。

并且這種新的方法還獲得了一個(gè)額外的好處——避免了過擬合，也就是模型死記硬背了訓(xùn)練集里的答案，在測(cè)試集里表現(xiàn)失靈的情況。“時(shí)域信息用太多會(huì)過擬合，相當(dāng)于我們犧牲了一小塊，保留了更大的蛋糕。”

參賽模型的技術(shù)實(shí)現(xiàn)

火山引擎多媒體實(shí)驗(yàn)室在比賽中不僅使用了較為傳統(tǒng)的CNN(卷積神經(jīng)網(wǎng)絡(luò))，另外考慮到Transformer在NLP領(lǐng)域取得巨大成功，決定采用Transformer進(jìn)行UGC視頻的質(zhì)量評(píng)估，提出了一種CNN和Transformer相結(jié)合的框架，采用CNN提取局部特征，利用Transformer結(jié)構(gòu)通過自注意機(jī)制預(yù)測(cè)主觀質(zhì)量分?jǐn)?shù)。

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽：火山引擎成功奪冠

無參考模型框架如上圖所示。

火山引擎多媒體實(shí)驗(yàn)室使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為特征提取器來計(jì)算輸入視頻塊的深度特征。提取ResNet不同層的特征，在空間維度上利用MaxPooling將這些特征降采樣到相同大小，并在特征維度上進(jìn)行拼接。將該特征的空間維度展平并進(jìn)行Linear projection，并添加embedding作為Transformer的輸入：

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽：火山引擎成功奪冠

采用的Transformer架構(gòu)遵循標(biāo)準(zhǔn)的Vision Transformer，包含L層多頭注意力模塊(MSA)和多層感知器模塊(MLP)。Transformer與MLP頭連接，用于回歸最終的主觀評(píng)分。

用于訓(xùn)練的損失函數(shù)均方誤差l1-Loss和PLCC-Loss加權(quán)相加構(gòu)成：

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽：火山引擎成功奪冠

PLCC表示一個(gè)batch內(nèi)預(yù)測(cè)值和groudturthlabel的相關(guān)性，其值歸一化至[-1,1]，PLCC值越大性能越好，因此PLCC損失表示為：

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽：火山引擎成功奪冠

全參考模型框架如下圖所示。reference patch和對(duì)應(yīng)位置的distortion patch輸入共享權(quán)值的孿生神經(jīng)網(wǎng)絡(luò)分別提取深度特征，并在特征空間的計(jì)算L1距離，拼接成新的特征輸入回歸模塊映射得到主觀DMOS分值。

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽：火山引擎成功奪冠

如下圖所示，在訓(xùn)練過程中，從壓縮視頻片段和相應(yīng)的參考視頻片段中隨機(jī)裁剪出一個(gè)256×256的圖像塊patch(針對(duì)FR框架)，然后將壓縮視頻的質(zhì)量評(píng)分直接作為裁剪patch的訓(xùn)練標(biāo)簽。測(cè)試時(shí)，從每一幀的四個(gè)角和中心裁剪得到5個(gè)大小為256×256的patch分別計(jì)算分值(FR框架)，所有patch的平均得分作為壓縮視頻的預(yù)測(cè)分。

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽：火山引擎成功奪冠

在實(shí)驗(yàn)中，用于特征提取的ResNet18網(wǎng)絡(luò)使用在ImageNet上預(yù)訓(xùn)練的用于分類任務(wù)的網(wǎng)絡(luò)的權(quán)值進(jìn)行初始化，并使用相同的學(xué)習(xí)率與框架的其他部分一起進(jìn)行訓(xùn)練;Transformer包含2層，MSA頭數(shù)為16。在加權(quán)w1=1.00, w2=0.02的條件下，利用L1損失和PLCC損失聯(lián)合優(yōu)化框架。

通過對(duì)比競(jìng)賽結(jié)果中的各隊(duì)伍在測(cè)試集上的性能指標(biāo)(PLCC/SROCC/KROCC/RMSE)以及SOTA FR/NR算法預(yù)測(cè)質(zhì)量分?jǐn)?shù)散點(diǎn)圖，對(duì)提出模型的性能進(jìn)行驗(yàn)證，其中PLCC/SRCC/KROCC越接近1越好，RMSE越接近0越好。

A. MOS track：

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽：火山引擎成功奪冠

Comparing with SOTA NR-VQA metrics：

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽：火山引擎成功奪冠

B. DMOS track:

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽：火山引擎成功奪冠

Comparing with SOTA FR-VQA metrics：

國(guó)際視頻質(zhì)量評(píng)估算法競(jìng)賽：火山引擎成功奪冠

對(duì)于直接預(yù)測(cè)壓縮損傷視頻MOS分的NR方法，火山引擎多媒體實(shí)驗(yàn)室提出的NR框架在所有評(píng)價(jià)指標(biāo)中排名第一;對(duì)于預(yù)測(cè)參考視頻和損傷視頻質(zhì)量差異DMOS分值的FR方法，火山引擎多媒體實(shí)驗(yàn)室提出的FR框架在預(yù)測(cè)單調(diào)性(即SROCC和KROCC)方面排名第一，在預(yù)測(cè)精度(即PLCC和RMSE)方面排名第二。同時(shí)通過散點(diǎn)圖可以看出，提出的方法與主觀評(píng)分具有較高的相關(guān)性，顯著超出了其他的SOTA FR/NR方法。

目前行業(yè)內(nèi)，視頻畫質(zhì)好壞直接影響實(shí)際業(yè)務(wù)QoE，包括用戶行為包括完播、留存、關(guān)注等，已經(jīng)是不爭(zhēng)的事實(shí)。由于模仿人類主觀感受是一件非常困難的事，受到很多因素的干擾。而用戶真實(shí)感知和學(xué)術(shù)上那些行業(yè)已有衡量體系(PSNR、SSIM、VMAF等)仍有鴻溝包括他們彼此之間評(píng)價(jià)標(biāo)準(zhǔn)也不完全統(tǒng)一。

導(dǎo)致在視頻工業(yè)生產(chǎn)中的需求，如扶持高清原創(chuàng)、打擊視頻劣質(zhì)內(nèi)容、針對(duì)畫質(zhì)精準(zhǔn)匹配轉(zhuǎn)碼檔位節(jié)省成本等，都沒有很好的解決方案?；谝陨显颍止?jié)/火山引擎花大力氣研發(fā)出VQScore用于解決這一現(xiàn)狀，解決公司業(yè)務(wù)中的長(zhǎng)期痛點(diǎn)，同時(shí)向工業(yè)界推出他們的無參考質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)。

針對(duì)UGC內(nèi)容的研究與實(shí)際應(yīng)用場(chǎng)景更加貼近，UGC質(zhì)量評(píng)價(jià)算法對(duì)監(jiān)控視頻平臺(tái)整體畫質(zhì)、監(jiān)督畫質(zhì)提升算法、指導(dǎo)壓縮效率提升等場(chǎng)景有重要作用。據(jù)悉，火山引擎多媒體實(shí)驗(yàn)室提出的Transformer結(jié)構(gòu)實(shí)現(xiàn)了算法性能的提升，對(duì)后續(xù)相關(guān)算法研究具有較強(qiáng)的指導(dǎo)意義。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）