騰訊云小微&騰訊云智能鈦聯(lián)合團隊獲Interspeech 2020口音英語語音識別技術(shù)挑戰(zhàn)賽冠軍

近日,語音研究領(lǐng)域頂級會議Interspeech2020召開,在本次大會的口音英語語音識別挑戰(zhàn)賽上,騰訊云小微&騰訊云智能鈦聯(lián)合團隊在口音英語語音識別賽道中以大幅領(lǐng)先的成績獲得冠軍。

Interspeech是由國際語音通信協(xié)會ISCA組織的語音研究領(lǐng)域的頂級會議之一。本次大會上提出,在全球范圍內(nèi),標準英文ASR系統(tǒng)已經(jīng)具備較高的識別正確率,但口音英語識別仍然是具有挑戰(zhàn)性的課題,也是技術(shù)應(yīng)用中亟待克服的最大挑戰(zhàn)。為此,大會特別設(shè)置了口音英語語音識別挑戰(zhàn)賽,正是為了促進行業(yè)技術(shù)交流,展示最新技術(shù)突破。

在本次口音英語語音識別挑戰(zhàn)賽中,向參賽者開放了來自不同國家的共八種口音英文數(shù)據(jù),覆蓋了各種發(fā)音特點、口音輕重等典型難點。騰訊云小微&騰訊云智能鈦聯(lián)合團隊的技術(shù)方案,以識別錯誤率最低且優(yōu)于第二名10%的好成績獲得賽道第一。

騰訊云小微&騰訊云智能鈦聯(lián)合團隊獲Interspeech 2020口音英語語音識別技術(shù)挑戰(zhàn)賽冠軍

采用探索性語音識別方案,騰訊聯(lián)合團隊展示技術(shù)研究實力

口音語音識別難點主要源于口音本身的不一致性、語速與音素發(fā)音的多變性難以建模等問題。另外,帶有口音標注的語音數(shù)據(jù)的短缺也嚴重限制了相關(guān)研究的開展。作為在業(yè)內(nèi)頗具代表性的AI語音技術(shù)團隊,騰訊云小微&騰訊云智能鈦聯(lián)合團隊在此次比賽中,突破性的選擇了基于Wav2Vector無監(jiān)督預訓練+CTC Fine-tuning的Wav2Vec方案。該方案的原型是Facebook公司在今年首次提出的。在本次比賽前,幾乎沒有其他關(guān)于Wav2Vector的成功應(yīng)用。因此,此次比賽是騰訊云小微團隊在語音識別方案上的全新探索。

在這個方案中,騰訊團隊首先使用Librispeech無監(jiān)督預訓練的Wav2Vector模型進行模型初始化,之后在預訓練模型上添加一層輸出層,采用英文字母作為建模單元,并使用CTC損失函數(shù)進行訓練。由于模型采用的是字母建模,識別結(jié)果隨機性較大,容易引入過多錯誤。因此,團隊引入了語言模型進行約束,大幅提高了識別性能。經(jīng)實驗發(fā)現(xiàn),解碼時引入N元文法(N-Gram)語言模型,可以下降30%的識別錯誤率。同時,進一步采用基于Transformer的語言模型對解碼的候選結(jié)果進行重打分,錯誤率可以下降7%。

大規(guī)模分布式訓練加速,騰訊云智能鈦為AI研究與應(yīng)用提供極致的平臺支撐

此次比賽由云小微團隊與智能鈦團隊合力完成,是智能鈦平臺繼2020.8.21與騰訊機智團隊一道打破128卡訓練ImageNet的業(yè)界新記錄后,在大規(guī)模分布式訓練加速場景上的又一個成功案例。智能鈦平臺整合了騰訊內(nèi)部各業(yè)務(wù)團隊的豐富經(jīng)驗,針對大規(guī)模分布式訓練加速場景,在單機性能、多機擴展、AutoML等三個方面進行了深度優(yōu)化,可以有效地支撐各AI團隊的研究與應(yīng)用。具體如下:

極致的單機性能: 智能鈦團隊協(xié)同內(nèi)部的開源團隊,推出了深度定制版TensorFlow(TI-TensorFlow),在高維動態(tài)稀疏特征支持、編譯優(yōu)化、自動混合精度訓練等特性上對社區(qū)版TensorFlow進行了深度優(yōu)化,大大提升了模型單機性能。

線性多機擴展: 智能鈦TI-Horovod在開源框架的基礎(chǔ)上,結(jié)合騰訊云的軟硬件環(huán)境進行了深度優(yōu)化。通過自研的自適應(yīng)梯度融合、2D AllReduce和多流通信等技術(shù),實現(xiàn)了近千卡的線性擴展加速。通過首創(chuàng)的層級Topk技術(shù),突破了弱網(wǎng)環(huán)境下的帶寬瓶頸。

高效AutoML: 針對深度學習訓練規(guī)模大、超參數(shù)范圍廣和人工調(diào)參效率低的問題,智能鈦TI-AutoML內(nèi)置了騰訊自研的高效自動化搜索技術(shù),充分利用騰訊云的海量算力,讓算法工程師從繁瑣的手工調(diào)參中解放出來。

語音技術(shù)持續(xù)突破,加速各行業(yè)落地應(yīng)用

在AI語音助手的實際應(yīng)用中,如何提高口音識別成功率,是業(yè)內(nèi)一直在關(guān)注和探索的問題。在中英文翻譯方面,騰訊云小微輸出的技術(shù)方案,旨在提高英語語音識別的準確率,進而提升翻譯效率和準確性。已經(jīng)在騰訊翻譯君、騰訊同傳等各行業(yè)方案中廣泛應(yīng)用。

除了中英文翻譯領(lǐng)域,騰訊云小微AI助手,已經(jīng)在智能網(wǎng)聯(lián)汽車、智慧文旅、智慧教育、智能家居等多行業(yè)領(lǐng)域落地,服務(wù)廣泛的用戶群體??谝粽Z音識別的突破,對于中文語音助手的技術(shù)提升也有很大的價值。比如在車載語音助手的應(yīng)用上,一款汽車產(chǎn)品需要滿足全國范圍不同區(qū)域、不同口音用戶的交互需求。比如車載語音助手上,由于用戶來自全國不同區(qū)域,用戶的口音將直接影響識別的準確性,特別是對于口音較重的用戶。本次挑戰(zhàn)賽中,騰訊云小微參賽團隊探索端到的AI訓練方法,為日后的方案應(yīng)用落地和迭代提供了更有價值的技術(shù)助力,將推動AI語音助手方案為用戶帶來更好的服務(wù)體驗。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )