阿里聯(lián)手中科院研發(fā)“聽音識人”技術(shù)被CVPR收錄

近日,中科院和阿里安全的研究者讓AI掌握通過聲音找到“主人”的任務(wù)。經(jīng)驗證,相較于人類67%的正確率,AI的準確率接近90%。在“1對N”的匹配實驗中,AI還能對聲音歸屬人臉的“可能性”進行排序。

該技術(shù)是一種自適應(yīng)的學(xué)習(xí)框架,用來挖掘和學(xué)習(xí)人臉與聲音的潛在聯(lián)系,該論文研究成果隨即也被CVPR 2021接收。

現(xiàn)有研究表明,人臉和聲音受到年齡、性別、生理結(jié)構(gòu)、語言習(xí)慣等共同因素的影響,兩者的聯(lián)系強烈而復(fù)雜多樣。該研究第一作者、中科院計算所博士研究生溫佩松介紹,中科院和阿里安全的研究團隊將公開數(shù)據(jù)集中兩種類型的數(shù)據(jù)在共享空間中表示,從而達到跨模態(tài)匹配的目的,在學(xué)習(xí)策略上利用了數(shù)據(jù)集的局部和全局信息,提高了模型的學(xué)習(xí)效率和效果。

通俗來看,即聲音可能是音頻格式,人臉是圖片格式,兩類信息以不同的格式存儲,難以比較,所以研究者將聲音和人臉“翻譯”成了同一種格式的信息,讓AI模型可以對兩種信息之間的關(guān)聯(lián)自行學(xué)習(xí)。AI學(xué)會了兩種信息的關(guān)聯(lián)性之后,就能幫聲音找到人臉,或者幫人臉找到聲音。因此,AI的這項技能不僅可以“聽音識人”,還能“見人知聲”。

溫佩松介紹,該研究進行了三類實驗,第一種,給定一段聲音和僅含有一張正確人臉的若干張人臉圖片,AI匹配聲音和人臉的正確率最高可達87.2%;第二種,給定一段聲音和一張人臉,詢問AI這是否屬于同一個人,準確率最高可達87.2%;第三種,給定一段聲音和含有若干張正確人臉的圖片,要求AI把所有人臉排序,使得正確的人臉盡可能靠前,AI也能準確完成任務(wù)。該實驗在公開測試集上一共測試了20076張人臉和21850段音頻,AI的表現(xiàn)都令人驚喜。

圖說:AI模型通過比較聲音和人臉圖片在共享空間的距離,推斷出相似度,按相似度將候選人臉排序。

在相同的任務(wù)上,如果待鑒別對象不限制性別,人類判斷的準確率達81.3%,在限制性別的情況下,準確率僅為57.1%,性別因素對AI的影響卻非常小,準確率依然如上述結(jié)果,高于人類。

據(jù)阿里安全圖靈實驗室資深算法專家華棠介紹,該技術(shù)后續(xù)將在內(nèi)容安全和賬戶安全領(lǐng)域探索應(yīng)用,對抗偽造類視頻攻擊,保護用戶財產(chǎn)和信息安全。“有些人利用偽造視頻試圖騙過認證系統(tǒng),AI的這項技能將進一步驗證聲音與相應(yīng)真人是否匹配,防范欺詐,守護安全。”華棠說,這也是讓AI在提升安全水位上有更多用武之地。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-03-24
阿里聯(lián)手中科院研發(fā)“聽音識人”技術(shù)被CVPR收錄
近日,中科院和阿里安全的研究者讓AI掌握通過聲音找到“主人”的任務(wù)。經(jīng)驗證,相較于人類67%的正?

長按掃碼 閱讀全文