網(wǎng)易云信亮相LiveVideoStackCon2020,分享RTC中AI音頻算法產(chǎn)品化經(jīng)驗(yàn)

10月31日-11月1日,LiveVideoStackCon2020音視頻技術(shù)大會在北京隆重舉辦。本次大會以“多媒體開啟新視界”為主題,聚焦在音頻、視頻、圖像等技術(shù)的最新探索與應(yīng)用實(shí)踐,覆蓋教育、娛樂、醫(yī)療、安防、旅游、電商、社交、游戲、智能設(shè)備等行業(yè)領(lǐng)域,數(shù)十位業(yè)內(nèi)知名講師與來自全國各地的音視頻工程師、多媒體工程師、圖像算法工程師、運(yùn)維與物聯(lián)網(wǎng)工程師等分享了技術(shù)創(chuàng)新與最佳實(shí)踐。

網(wǎng)易云信亮相LiveVideoStackCon2020,分享RTC中AI音頻算法產(chǎn)品化經(jīng)驗(yàn)

本次大會中,人工智能相關(guān)話題十分火爆,AI已經(jīng)滲透到多媒體技術(shù)的各個環(huán)節(jié),無論內(nèi)容生產(chǎn)、編解碼、音視頻前后處理等,AI都有一席之地,甚至被寄予厚望。網(wǎng)易云信資深音頻算法工程師郝一亞博士受邀參會,在“音頻技術(shù):逼近人耳極限”專題會場進(jìn)行了題為《RTC中AI音頻算法的產(chǎn)品化》的主題演講,并在“5G、AI,新技術(shù)與新變革”圓桌論壇中分享了AI在音視頻領(lǐng)域應(yīng)用的實(shí)踐經(jīng)驗(yàn)。

主題分享中,郝一亞博士首先介紹了AI在音頻處理中日漸強(qiáng)大的力量。隨著AI在計(jì)算機(jī)視覺等領(lǐng)域的成功應(yīng)用,CNN、RNN等深度學(xué)習(xí)網(wǎng)絡(luò)被迅速應(yīng)用到了音頻領(lǐng)域,AI在音頻降噪、場景分類、回聲控制、盲源分離等方向著發(fā)揮著越來越重要的作用。

網(wǎng)易云信亮相LiveVideoStackCon2020,分享RTC中AI音頻算法產(chǎn)品化經(jīng)驗(yàn)

雖然AI在音頻領(lǐng)域的價值日漸明顯,但在目前的算法中,特別是RTC音頻中,還沒有被大范圍的應(yīng)用起來。針對音頻處理中AI的挑戰(zhàn)與局限,郝一亞博士概括為三點(diǎn)。一是計(jì)算復(fù)雜度。AI模型通常需要巨大的計(jì)算量,就目前我們大部分終端設(shè)備的計(jì)算能力來說壓力很大,對RTC中的實(shí)時性提出了考驗(yàn)。二是泛化能力。AI算法是基于有限的數(shù)據(jù)集訓(xùn)練出來的,泛化能力有限一直是問題所在。而RTC中覆蓋的業(yè)務(wù)場景非常多,AI算法要覆蓋所有場景更是難上加難。三是魯棒性。RTC豐富的應(yīng)用場景中會有很多突發(fā)情況,對于AI算法魯棒性的要求也非常高。

由于算力、數(shù)據(jù)和AI模型本身的限制,現(xiàn)在AI還達(dá)不到替換傳統(tǒng)信號處理方法的階段,但音頻AI在效果上的優(yōu)勢已經(jīng)被證實(shí)。郝一亞博士提出,在RTC領(lǐng)域,要想更好地發(fā)揮出AI的優(yōu)勢,有效規(guī)避不足,進(jìn)行“模塊化”處理是一個有效的途徑。把端到端、長鏈路的處理拆分,分別找到合適的AI模塊,讓專業(yè)的“人”做專業(yè)的事。

網(wǎng)易云信亮相LiveVideoStackCon2020,分享RTC中AI音頻算法產(chǎn)品化經(jīng)驗(yàn)

以音頻降噪中的AI算法為例,傳統(tǒng)降噪算法中包含了很多模塊,其中“噪聲估計(jì)”模塊很適合做深度學(xué)習(xí)訓(xùn)練,特別是針對一些穩(wěn)態(tài)噪聲。在這里,不用端到端地去訓(xùn)練整個AI模型,而是把這一模塊訓(xùn)練成單獨(dú)的噪聲估計(jì)模型。通過模塊化的處理,實(shí)現(xiàn)了輕量級模型、簡單的訓(xùn)練目標(biāo)以及更適合DNN模型,從而最大程度的發(fā)揮了AI的優(yōu)勢。

郝一亞博士認(rèn)為,未來越來越多的AI技術(shù)將融入到RTC中,一些新的爆發(fā)點(diǎn)可能是更先進(jìn)的神經(jīng)網(wǎng)絡(luò)模型,更高效的GPU等,但是,有一項(xiàng)關(guān)鍵點(diǎn)不會變,那就是大量的數(shù)據(jù)。目前,網(wǎng)易云信已配備了全套工具和環(huán)境采集多種來源的數(shù)據(jù)集用于訓(xùn)練AI算法,已經(jīng)在音頻降噪和視頻超分等場景中實(shí)踐應(yīng)用。

網(wǎng)易云信亮相LiveVideoStackCon2020,分享RTC中AI音頻算法產(chǎn)品化經(jīng)驗(yàn)

2015年10月至今,網(wǎng)易云信一直專注于即時通訊和音視頻技術(shù)領(lǐng)域的前沿探索和應(yīng)用實(shí)踐,已幫助100萬企業(yè)開發(fā)者成功發(fā)送10000億條消息,日活突破3億,在百家爭鳴的PaaS市場中實(shí)現(xiàn)穩(wěn)中增長。近期,網(wǎng)易云信再度加碼技術(shù)能力,全面升級的音視頻通話2.0產(chǎn)品上線,AI等新興技術(shù)已融入產(chǎn)品開始服務(wù)客戶。未來,網(wǎng)易云信將堅(jiān)持不斷創(chuàng)新,探索融合通訊領(lǐng)域的新技術(shù)、新產(chǎn)品、新應(yīng)用,與行業(yè)共創(chuàng)美好新時代。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )