聲網(wǎng) AI 降噪:解決實(shí)時(shí)互動(dòng)中100+突發(fā)噪聲,兼顧語(yǔ)音無(wú)損傷與混響抑制

“喂喂,大家能聽得清我說(shuō)話嗎,我這邊有點(diǎn)吵“。在視頻會(huì)議、語(yǔ)聊房、游戲語(yǔ)音等眾多場(chǎng)景中,相信很多人都有過(guò)類似的經(jīng)歷,尤其在疫情發(fā)生后,在線辦公變的越來(lái)越普遍,但復(fù)雜的辦公場(chǎng)景卻常常伴隨吵鬧的環(huán)境噪聲影響視頻會(huì)議的效果,例如同事們的鍵盤敲擊聲、家里寵物的吵鬧聲、孩子的哭鬧聲、家人的剁菜聲等,都會(huì)通過(guò)視頻會(huì)議傳送到各個(gè)參會(huì)者的耳中,讓會(huì)議過(guò)程非常糟心。

面對(duì)這些實(shí)時(shí)互動(dòng)場(chǎng)景里的環(huán)境噪聲,到底該怎么處理?聲網(wǎng)音頻技術(shù)團(tuán)隊(duì)自研了基于海量數(shù)據(jù)訓(xùn)練的 AI 降噪算法,可以有效抑制在音視頻通話過(guò)程中的上百種背景噪聲,并保證語(yǔ)音無(wú)損傷,最終有效提升在多種復(fù)雜場(chǎng)景下的實(shí)時(shí)互動(dòng)體驗(yàn),讓通話體驗(yàn)更佳。

我們可以通過(guò)下方的兩組場(chǎng)景海報(bào)更直觀的了解聲網(wǎng) AI 降噪在實(shí)時(shí)互動(dòng)場(chǎng)景的應(yīng)用。

聲網(wǎng)AI 降噪:兼顧強(qiáng)降噪與高保真,實(shí)現(xiàn)遠(yuǎn)場(chǎng)去混響

相比于傳統(tǒng)的一些降噪算法,聲網(wǎng) AI 降噪的效果有巨大提升,可以一次性解決上百種突發(fā)性噪聲,比如在會(huì)議場(chǎng)景可能經(jīng)常會(huì)遇到敲鍵盤,裝修、背景討論等噪聲;居家辦公可能會(huì)遇到小孩哭叫、廚房做飯等噪聲,這些噪聲通通可以抑制干凈。

聲網(wǎng) AI 降噪在強(qiáng)降噪的同時(shí)還能兼顧高保真,即使在多人同時(shí)說(shuō)話的場(chǎng)景下,做到在抑制噪聲的同時(shí)不對(duì)說(shuō)話人語(yǔ)音產(chǎn)生損傷,使每個(gè)人的聲音都聽得清晰。

我們還實(shí)現(xiàn)了在不增加額外運(yùn)算量的前提下,對(duì)遠(yuǎn)場(chǎng)語(yǔ)音具有明顯的混響抑制能力,如果你在一個(gè)房間里面離麥克風(fēng)比較遠(yuǎn),這時(shí)候?qū)Ψ铰犇愕穆曇羰悄:?,使用了聲網(wǎng)的 AI 降噪算法,可以使對(duì)端也能清晰地聽到你的聲音。

此外,聲網(wǎng)自研的 AI 推理引擎還可以使得 AI 降噪算法在 Android、iOS、Mac、Windows、Web 等主流平臺(tái)以低精度損傷、高性能、低功耗方式運(yùn)行,使用戶的設(shè)備不卡不燙。

我們可以通過(guò)聲網(wǎng)公眾號(hào)找到這篇文章,通過(guò)微信文章中的 AI 降噪音頻Demo 更直觀的體驗(yàn)聲網(wǎng) AI 降噪帶來(lái)的遠(yuǎn)場(chǎng)去混響和噪聲抑制能力,Demo中依次展示敲擊鍵盤音、辦公室噪聲等典型非穩(wěn)態(tài)噪聲以及室內(nèi)去混響的效果,因?yàn)檫@是AI降噪相對(duì)于傳統(tǒng)降噪所具有的核心價(jià)值;

行業(yè)同類降噪算法對(duì)比:聲網(wǎng)AI 降噪更優(yōu)概率超過(guò)47%

在聲網(wǎng)推出 AI降噪前,行業(yè)已存在一些降噪算法,但大多數(shù)傳統(tǒng)的語(yǔ)音降噪算法是基于嚴(yán)密的數(shù)學(xué)推導(dǎo)而來(lái)的,其中存在一些嚴(yán)格的假設(shè)條件,實(shí)際上很多時(shí)候這些假設(shè)條件并不都是成立的。例如傳統(tǒng)降噪算法在處理穩(wěn)態(tài)噪聲(噪聲功率起伏比較平緩)這類符合假設(shè)條件的情況效果較好,在處理非穩(wěn)態(tài)噪聲這類不符合假設(shè)條件的情況,降噪效果會(huì)有明顯回退。而隨著深度學(xué)習(xí)的發(fā)展,當(dāng)前基于數(shù)據(jù)驅(qū)動(dòng)的 AI 語(yǔ)音降噪算法發(fā)展迅猛,它們相較于傳統(tǒng)的語(yǔ)音降噪算法的一大優(yōu)勢(shì)是不依賴于任何假設(shè)條件,處理非穩(wěn)態(tài)噪聲效果顯著。

此外,隨著算力持續(xù)增長(zhǎng),基于大數(shù)據(jù)訓(xùn)練的 AI 語(yǔ)音降噪算法具有強(qiáng)大的擬合能力和魯棒性(系統(tǒng)性能的健壯性),使實(shí)時(shí) AI 語(yǔ)音降噪算法商業(yè)化落地成為可能。

于是,聲網(wǎng)的 AI 降噪算法融合了傳統(tǒng)語(yǔ)音降噪算法與AI語(yǔ)音降噪算法的各自優(yōu)勢(shì),通過(guò)采用兼顧強(qiáng)降噪和高保真的損失函數(shù)、自研的 AI 推理引擎等一系列技術(shù)手段,同時(shí)實(shí)現(xiàn)了優(yōu)秀的噪聲抑制和遠(yuǎn)場(chǎng)去混響功能,可以很好的應(yīng)用在視頻會(huì)議、語(yǔ)聊房、遠(yuǎn)程問(wèn)診等實(shí)時(shí)互動(dòng)場(chǎng)景中。

此外,為了更清晰的了解聲網(wǎng) AI 降噪在用戶端的體驗(yàn)評(píng)價(jià),我們還選取了一些行業(yè)同類的降噪算法進(jìn)行效果對(duì)比,在由真實(shí)數(shù)據(jù)組成的大規(guī)模測(cè)試集上,和行業(yè)標(biāo)桿國(guó)際友商 A 和友商 B 對(duì)比,聲網(wǎng)均取得了最高的 MOS 分?jǐn)?shù)(平均主觀意見分)。參與測(cè)試的人員,在體驗(yàn)后給出的推薦評(píng)分中,聲網(wǎng)明顯占優(yōu);聲網(wǎng)優(yōu)于友商 A 和友商 B 的概率分別是 47.4067% 和 48.1341%,聲網(wǎng)輸給友商 A 和友商 B 的概率分別是 31.4674% 和 30.7717%,聲網(wǎng)和友商 A 和友商 B 打平的概率分別是 21.1259% 和 21.0942%。

目前聲網(wǎng) WebSDK AI 降噪插件和 Native SDK AI 降噪動(dòng)態(tài)庫(kù)已跟多個(gè)客戶進(jìn)行了集成,得到了客戶的高度認(rèn)可;聲網(wǎng)也將持續(xù)提升 AI 降噪算法的性能,目前基于最新 AI 降噪算法的 AI 降噪插件可以與 Web SDK v4.10.0 及以上配合使用,同時(shí)也推出了基于最新 AI 降噪算法的 AI 降噪動(dòng)態(tài)庫(kù)可以與 Native SDK v3.7.0 及以上配合使用,如您想進(jìn)一步體驗(yàn)或者接入聲網(wǎng) AI 降噪,可以通過(guò)聲網(wǎng)微信公眾號(hào)找到這篇文章, 點(diǎn)擊文章最下方閱讀原文,與我們進(jìn)行聯(lián)系。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )