智能化視頻開(kāi)發(fā)神器來(lái)了,AV Pipeline Kit 架構(gòu)解析

作者 | 宋慧

出品 | CSDN

在中國(guó),93.4%的上網(wǎng)者都是網(wǎng)絡(luò)視頻、短視頻的受眾。隨著寬帶提速,5G 普及,用戶對(duì)網(wǎng)絡(luò)視頻播放速度和清晰度需求水漲船高。AI 技術(shù)讓音視頻有了更多玩法,例如用戶對(duì)視頻的美化與互動(dòng),商家借助智能化視頻推廣,另外,AI 技術(shù)也被用在視頻領(lǐng)域修復(fù)電影資料等。不過(guò)從技術(shù)層面來(lái)看,AI 視頻開(kāi)發(fā)和應(yīng)用的新場(chǎng)景,讓視頻開(kāi)發(fā)者面臨著新的智能化視頻技術(shù)挑戰(zhàn)。

具體來(lái)說(shuō),與以往的視頻開(kāi)發(fā)鏈路有所不同,在智能音視頻開(kāi)發(fā)鏈路里,包含了例如人臉識(shí)別、圖像分割等 AI 相關(guān)的新技術(shù);通過(guò) AI、CV 逐幀處理視頻,比普通視頻處理所需資源開(kāi)銷更大,對(duì)移動(dòng)端性能要求也更高;而資源需求也會(huì)引起移動(dòng)端硬件功耗增加,手機(jī)發(fā)熱,更損傷用戶的使用體驗(yàn)。面對(duì)新的視頻應(yīng)用趨勢(shì),開(kāi)發(fā)者需要熟練地運(yùn)用 AI 新技術(shù)、優(yōu)化資源和性能的更多矛盾、硬件功耗,每一件都是一個(gè)專業(yè)視頻開(kāi)發(fā)者要耗費(fèi)大量時(shí)間和精力才能搞定的難點(diǎn)。

業(yè)界目前將 AI 用于視頻處理,大多是從服務(wù)器側(cè)實(shí)現(xiàn)。隨著移動(dòng)設(shè)備不斷刷新硬件高配置,以及網(wǎng)絡(luò)條件的改善,端側(cè)的智能化視頻其實(shí)蘊(yùn)藏了更多的潛力有待挖掘。

針對(duì)智能化視頻開(kāi)發(fā)的這些痛點(diǎn),華為在2021 年 7 月推出了面向移動(dòng)端開(kāi)發(fā)者的多媒體開(kāi)放能力體系——多媒體管線服務(wù)AV Pipeline Kit(以下簡(jiǎn)稱為AV Pipeline)。近日,CSDN專訪了 AV Pipeline 開(kāi)發(fā)團(tuán)隊(duì)的多位技術(shù)研發(fā)負(fù)責(zé)人,深度揭秘和解析了 AV Pipeline 的架構(gòu)設(shè)計(jì),以及最核心的兩項(xiàng)特性:視頻超分與聲音事件檢測(cè)的核心技術(shù)。

輕量級(jí)開(kāi)發(fā)框架,“拼樂(lè)高”式的插件化

音視頻開(kāi)發(fā)

據(jù)介紹,AV Pipeline 里包含輕量級(jí)多媒體開(kāi)發(fā)框架和多種高性能的音視頻處理插件。多媒體開(kāi)發(fā)框架負(fù)責(zé)解析配置文件并將多個(gè)插件按照配置文件中的編排關(guān)系連接組成一個(gè)流水線,實(shí)現(xiàn)特定的媒體業(yè)務(wù),如播放、錄制、編輯等。音視頻處理插件負(fù)責(zé)完成特定的任務(wù),例如解封裝、解碼、濾波等。

AV Pipeline 框架旨在降低媒體應(yīng)用的開(kāi)發(fā)難度,讓開(kāi)發(fā)者們可以通過(guò) AV Pipeline 自定義流水線編排,將原本需要幾千行代碼才能實(shí)現(xiàn)的 AI 視頻功能,只通過(guò)幾十行代碼,將多種高性能插件快速集成到應(yīng)用中,輕松實(shí)現(xiàn)更加豐富的多媒體功能。

詳細(xì)來(lái)說(shuō),通過(guò)定義插件的標(biāo)準(zhǔn)接口和數(shù)據(jù)流在插件之間的流轉(zhuǎn)方式,開(kāi)發(fā)者只需要按照標(biāo)準(zhǔn)接口完成插件開(kāi)發(fā),就可以迅速構(gòu)建出新型的媒體場(chǎng)景。視頻開(kāi)發(fā)者如果需要在(端側(cè))視頻采集、播放、編輯等場(chǎng)景中加入 AI 和計(jì)算機(jī)視覺(jué)、音頻等算法,采用 AV Pipeline 框架即可。

AV Pipeline 已預(yù)置可應(yīng)用在播放場(chǎng)景的 Pipeline,如視頻播放、視頻超分、聲音事件檢測(cè),提供 Java 接口,同時(shí)支持開(kāi)發(fā)者通過(guò) C++接口直接調(diào)用單個(gè)預(yù)置插件。開(kāi)發(fā)者可以如樂(lè)高積木式搭建,將不同 Pipeline 插件按不同的連接關(guān)系串聯(lián)起來(lái)形成新的業(yè)務(wù)場(chǎng)景。另外,若預(yù)置插件或預(yù)置Pipeline 不滿足使用要求,開(kāi)發(fā)者可以開(kāi)發(fā)自定義插件與 Pipeline。

AV Pipeline 已支持的多種插件

揭秘視頻超分與聲音事件檢測(cè),以深度學(xué)習(xí)實(shí)現(xiàn)“升體驗(yàn)、降成本”

端側(cè)最高 3 倍超分背后,采用深度學(xué)習(xí)與 NPU 方案

手機(jī)和移動(dòng)設(shè)備可以隨時(shí)隨處播放視頻,不過(guò)網(wǎng)絡(luò)質(zhì)量會(huì)因?yàn)榈攸c(diǎn)條件各有不同。為了降低網(wǎng)絡(luò)差異對(duì)觀眾觀看體驗(yàn)的影響,視頻 App 一般會(huì)針對(duì)網(wǎng)絡(luò)調(diào)整降低視頻碼率,減少播放卡頓。另外,用戶對(duì)畫(huà)質(zhì)要求水漲船高,視頻App 需在服務(wù)器端存儲(chǔ)高清視頻,大大增加了視頻網(wǎng)站服務(wù)器端的成本開(kāi)支。

這種情況下,AV Pipeline 用端側(cè)超分技術(shù),提升畫(huà)質(zhì)和觀看體驗(yàn),同時(shí)降低運(yùn)營(yíng)成本,堪稱一舉兩得。而這背后,是AV Pipeline 采用 AI 深度學(xué)習(xí)對(duì)超分功能進(jìn)行了設(shè)計(jì)和應(yīng)用。

智能化視頻集成開(kāi)發(fā)神器來(lái)了,AV Pipeline Kit 架構(gòu)解析

根據(jù)技術(shù)專家介紹,首先在模型方面 ,AV Pipeline 利用卷積神經(jīng)網(wǎng)絡(luò)的非線性擬合能力,去近似自然場(chǎng)景中高分辨率圖像到低分辨率圖像的復(fù)雜的退化過(guò)程,實(shí)現(xiàn)更為真實(shí)的超分效果。其次,在數(shù)據(jù)工程上,除超分素材里龐雜的真實(shí)采集的數(shù)據(jù)外,AV Pipeline 也會(huì)構(gòu)造接近真實(shí)場(chǎng)景的合成數(shù)據(jù),用于模型的優(yōu)化過(guò)程。最后也是非常重要的一點(diǎn),為了突破手機(jī)端側(cè)的性能瓶頸,AV Pipeline 采用了多種模型小型化的方案,包括剪枝、量化、蒸餾、神經(jīng)架構(gòu)搜索等。

AV Pipeline 有 GPU 超分方案和NPU 超分兩種方案。GPU 超分方案具有較高的并行效率以及較好的通用性,對(duì)于 270P 及以下的視頻,可以實(shí)現(xiàn)最高 2 倍超分。而 NPU 超分方案則具有更好的超分體驗(yàn),可以提供 3 倍的超分能力,但是需要專有硬件的支持。這是因?yàn)?NPU 提供了直接支持視頻格式的接口,可以實(shí)現(xiàn)端到端的視頻轉(zhuǎn)化,減少了調(diào)用開(kāi)銷。

另外,AV Pipeline 針對(duì)視頻超分提出特有的融合機(jī)制,對(duì)計(jì)算流水進(jìn)行重排,可以降低超分對(duì)內(nèi)存帶寬的需求,提高了推理性能,降低內(nèi)存讀寫(xiě)的功耗。 

現(xiàn)在,AV Pipeline 視頻超分支持 270P-720P 等多種分辨率,最高可以實(shí)現(xiàn) 3 倍效果。根據(jù)視頻分辨率的不同,AV Pipeline 視頻超分插件會(huì)靈活采用不同的增強(qiáng)策略,以達(dá)到效果和時(shí)延功耗的平衡。 

聲音事件檢測(cè):98%識(shí)別準(zhǔn)確率背后的四大設(shè)計(jì)亮點(diǎn)

AV Pipeline 另一個(gè)重要的插件是聲音事件檢測(cè),聲音事件檢測(cè)采用主流的深度學(xué)習(xí) NN 網(wǎng)絡(luò)算法模型,重點(diǎn)關(guān)注準(zhǔn)確率和誤闖問(wèn)題。在設(shè)計(jì)中,首先,根據(jù)聲音事件長(zhǎng)短不同,AV Pipeline 采用并行計(jì)算多個(gè)不同卷積,以分析更豐富的特征。

第二,在頻譜中很難區(qū)分的易混淆聲音事件,AV Pipeline 采用注意力機(jī)制,對(duì)不同聲音特征計(jì)算貢獻(xiàn)度,以區(qū)分易混淆的聲音類別,并且可用于對(duì)誤闖聲音的抑制。第三,分類后的聲音事件,在時(shí)間維度(時(shí)域上),也使用注意力機(jī)制,為貢獻(xiàn)度打分。第四,AV Pipeline 設(shè)計(jì)了融合判決池,得分較高聲音事件直接判決,得分較低但不想遺漏的聲音事件,采用融合判決池做平滑處理。

AV Pipeline 聲音事件檢測(cè)現(xiàn)在可支持日常使用的 13 種聲音,可以用于無(wú)障礙功能、健康檢測(cè)、輔助安全駕駛、安全防盜、事故報(bào)警防剮蹭、停車(chē)啟動(dòng)安全等更豐富的場(chǎng)景。研發(fā)團(tuán)隊(duì)針對(duì)預(yù)置聲音類別進(jìn)行了深度優(yōu)化、組合驗(yàn)證,當(dāng)前識(shí)別準(zhǔn)確率平均在 98% 以上。

最后,AV Pipeline 技術(shù)專家透露,AV Pipeline 已經(jīng)在和視頻 App 大廠合作超分商用方案,目前灰度測(cè)試階段。同時(shí),AV Pipeline 也可用于視頻編輯軟件和直播類應(yīng)用。接下來(lái),AV Pipeline 會(huì)繼續(xù)完善框架和插件,例如預(yù)置視頻錄制、編輯等業(yè)務(wù)的 Pipeline,還會(huì)新增與人像拍攝美化相關(guān)的插件能力。

從 AV Pipeline 在視頻領(lǐng)域新的玩法和探索,可以看到華為在持續(xù)投入大量核心技術(shù),簡(jiǎn)化底層開(kāi)發(fā)繁瑣流程和難點(diǎn),用以降低智能化音視頻開(kāi)發(fā)的門(mén)檻,這是贏得開(kāi)發(fā)者的最好契機(jī)。AV Pipeline 的設(shè)計(jì)與進(jìn)展,也讓業(yè)界看到,華為正在探索核心場(chǎng)景和痛點(diǎn)的技術(shù)方案,持續(xù)加碼技術(shù)生態(tài)實(shí)力,未來(lái)可期。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2021-09-23
智能化視頻開(kāi)發(fā)神器來(lái)了,AV Pipeline Kit 架構(gòu)解析
在中國(guó),93.4%的上網(wǎng)者都是網(wǎng)絡(luò)視頻、短視頻的受眾。隨著寬帶提速,5G 普及,用戶對(duì)網(wǎng)絡(luò)視頻播放速度和清晰度需求水漲船高。

長(zhǎng)按掃碼 閱讀全文