2022年1月14日,由廈門大學、清華大學、海天瑞聲、西北工業(yè)大學及昆山杜克大學聯(lián)合主辦,中國計算機學會語音對話與聽覺專委會、中文信息學會協(xié)辦的第六屆“OLR2021東方語種識別”國際競賽研討會在線上成功召開。網(wǎng)易互娛AI Lab在本次競賽中以絕對領先的優(yōu)勢奪取了多語種語音識別賽道雙料冠軍,分別是多語種語音識別受限任務的第一名和多語種語音識別開放任務的第一名。
東方語種識別競賽主要專注于東亞(中國、日本、韓國等)以及東南亞(印尼、越南等)地區(qū)的語言研究。此次比賽多語種語音識別任務突破了歷屆比賽僅識別語種的任務限制,在不給定測試語音語種標簽的情況下,參賽隊伍模型需要識別出多語種混合測試集的語音內容。今年已經(jīng)是OLR比賽的第六屆,本屆比賽吸引來自中國、加拿大、印度 等國家的高校和企業(yè)參加。
圖1. OLR歷屆冠軍隊伍及2021參賽隊伍信息
本次比賽多語種語音識別賽道的任務是構建包含13種語言(普通話、粵語、日文、印尼語、越南語以及地區(qū)方言等)的混合語音識別系統(tǒng)。而其中受限任務賽道每種語言僅提供約10小時帶標簽訓練數(shù)據(jù),訓練數(shù)據(jù)資源的稀缺使得設計相應模型具有較大的挑戰(zhàn)。針對比賽中的難點,網(wǎng)易互娛AI Lab采用基于Hybrid和E2E的結構,針對普通話、粵語、上海話、日語和印尼語,使用Hybrid結構并訓練相應單語種語音識別模型,該方法在低資源數(shù)據(jù)場景下,可以獲得比E2E模型更好的結果;針對其他語言,由于缺少發(fā)音詞典和文本數(shù)據(jù),則使用多種語言混合訓練E2E結構。比賽通過語種識別模型將多語種模型和單語種模型進行耦合,進一步提升性能。
比賽使用CER(字符錯誤率)作為評價指標,CER越小表示系統(tǒng)識別率越高。在受限任務賽道上,網(wǎng)易互娛AI Lab取得13.1%的平均CER,字符錯誤率比官方基線系統(tǒng)相對降低66%,比第二名相對降低28%。值得一提的是,網(wǎng)易互娛AI Lab的多語種單模型亦超過第二名的融合系統(tǒng)。在實際工業(yè)級語音識別應用中,使用單系統(tǒng)部署可以降低服務成本,也便于快速更新維護。
圖2.多語種語音識別受限賽道排名情況
在開放任務賽道上,網(wǎng)易互娛AI Lab基于受限賽道系統(tǒng),融合了中文普通話、日語、印尼語等三個利用外部數(shù)據(jù)的模型,取得12.6%的CER,字符錯誤率比第二名相對降低30%。
圖3.多語種語音識別開放賽道排名情況
目前,網(wǎng)易互娛多語種語音識別的應用價值主要在海外業(yè)務應用場景。對于海外語音識別,僅根據(jù)用戶手機語言設置、IP所在地區(qū)進行相應語言、語種的判斷,無法做到非常高的準確率。通過使用多語種語音識別系統(tǒng),在一定程度上可以解決/緩解語種不匹配導致的語音轉文字語種混亂問題。針對東南亞地區(qū),網(wǎng)易互娛AI Lab目前已支持集印尼、馬來、英語三種語言于一體的多語言混合語音識別系統(tǒng),該系統(tǒng)可以同時支持3種語言的語音識別。
網(wǎng)易互娛AI Lab成立于2017年,隸屬于網(wǎng)易互動娛樂事業(yè)群,在廣州、杭州、上海均有分部,是游戲行業(yè)領先的人工智能實驗室。實驗室致力于計算機視覺、語音和自然語言處理,以及強化學習等技術在游戲場景下的研究,應用和落地,旨在通過AI技術助力互娛旗下熱門游戲及產品的技術升級,目前技術已應用于網(wǎng)易互娛旗下多款熱門游戲,如《夢幻西游》《哈利波特:魔法覺醒》《陰陽師》《天下3》等等。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )