超1800萬累計觀看,多次占據(jù)熱榜前列……“無障礙字幕直播間”帶來的遠(yuǎn)不止這些!

截至12月6日,世界杯無障礙字幕直播間已累計觀看超1800萬,多次占據(jù)熱榜前列……但TA帶來的遠(yuǎn)不止這些。

“過去覺得世界杯距離我太遠(yuǎn)了,熬夜看球卻聽不懂、聽不清只能緊緊盯著屏幕;但今年無障礙字幕直播間一出,似乎一下子就把我骨子里的體育DNA帶動起來了,字幕和畫面同時播放,那感覺說身臨其境也不為過,最重要的是再也不用擔(dān)心跟不上、聽不懂了……”

“以前觀看這種節(jié)目其實(shí)我挺迷茫的,周圍人都在熱烈討論,甚至到精彩處歡呼雀躍,但因?yàn)槲易约旱纳眢w原因,很難融入,脫節(jié)帶來的孤獨(dú)感一度讓我很沮喪……如今借助無障礙字幕直播間,我又找到了那份可以與朋友快樂同步的體驗(yàn)!”

無障礙字幕直播間展示

沉浸體驗(yàn)并與快樂同步,是“無障礙字幕直播間”帶來的驚喜與感動;但對火山語音團(tuán)隊來說,做好“無障礙字幕直播間”的技術(shù)支持與保障,讓精彩持續(xù),卻是前所未有的挑戰(zhàn)。

攻克口語現(xiàn)象、語速語氣差異化 火山語音自研端到端流式語音識別系統(tǒng)

“其實(shí)語音識別本身就是一種挑戰(zhàn)!足球比賽瞬息萬變,解說下來,很多口語現(xiàn)象不可避免,尤其是自我修正以及語序顛倒,差異化的語速語氣更是司空見慣。如果再碰上一些沒有經(jīng)過專業(yè)訓(xùn)練的解說嘉賓參與其中,識別的難度就會進(jìn)一步加碼。為應(yīng)對這個問題,我們其實(shí)思考了很久,最終還是通過自研端到端的流式語音識別系統(tǒng)得到了解決。”火山語音團(tuán)隊表示。

據(jù)了解,火山語音團(tuán)隊基于RNN-T框架,通過大量訓(xùn)練數(shù)據(jù)的積累和持續(xù)的算法優(yōu)化,自研推出的端到端的流式語音識別系統(tǒng),可以有效規(guī)避傳統(tǒng)語音識別系統(tǒng)中涉及的大量人工流程,例如依賴專業(yè)人員設(shè)計各種口音的發(fā)聲規(guī)則等,大幅度提高口音識別的效果。當(dāng)然其他中間環(huán)節(jié)的人工假設(shè)也減少了很多,比方說對于猶豫、自我修正、語序顛倒等口語現(xiàn)象的表達(dá),會有更好的建模能力。

混合模型和端到端模型的對比示意圖

據(jù)團(tuán)隊介紹,端到端識別系統(tǒng)的backbone結(jié)構(gòu)(主干網(wǎng)絡(luò)結(jié)構(gòu))對識別效果至關(guān)重要,所以火山語音采用了業(yè)界領(lǐng)先的Conformer結(jié)構(gòu),可以同時對局部信息和全局信息進(jìn)行建模,識別效果較傳統(tǒng)的CNN、LSTM和DFSMN等結(jié)構(gòu)都有了大幅提升。但隨之而來的Conformer的計算開銷也會增加不少,因此團(tuán)隊又從模型角度優(yōu)化了Conformer的訓(xùn)練和推理耗時,主要包括下采樣、Attention Mask和模型壓縮等方式。“首先Conformer結(jié)構(gòu)的計算復(fù)雜度與輸入音頻的長度相關(guān),特別是Attention計算復(fù)雜度與n的平方相關(guān),即音頻序列長度越長模型越慢,因此在整個模型的淺層,我們通過增加下采樣來降低模型的序列長度;其次通過Attention Mask的方式約束Attention的范圍;最后通過自研的模型壓縮框架,自動對模型進(jìn)行裁剪和量化,在降低計算復(fù)雜度的同時,效果基本無損。”

除了對識別準(zhǔn)確率的要求之外,字幕的上屏速度也對觀賽體驗(yàn)起到重要影響?;鹕秸Z音團(tuán)隊通過在RNN-T訓(xùn)練過程中,對于每個字的發(fā)射延遲增加損失函數(shù),疊加Conformer結(jié)構(gòu)強(qiáng)大的上下文建模能力,發(fā)射延遲提升了300-400ms。

“無視”背景噪聲 優(yōu)化術(shù)語識別 品質(zhì)字幕如此煉成

在過往的很多大型競技比賽中,因?yàn)?ldquo;遭遇”大量背景噪音,例如背景音樂以及現(xiàn)場歡呼聲等,而帶來的識別困擾,被認(rèn)為是同傳字幕不準(zhǔn)的“罪魁禍?zhǔn)?rdquo;。“賽場上經(jīng)常會出現(xiàn)的觀眾吶喊聲,特別容易被誤識別為'嗯、啊、哈'的語氣詞;背景音樂和觀眾聲則會降低解說員聲音的清晰度,對識別模型造成了較大挑戰(zhàn)。”火山語音團(tuán)隊提出。

針對上述問題,團(tuán)隊設(shè)計了一整套流程應(yīng)對優(yōu)化:首先需要自動化地從足球比賽音頻中提取出這些噪聲片段,通過在模型中顯式地建模噪聲, 將噪聲誤出字的比例下降了95%;同時通過數(shù)據(jù)增強(qiáng)方式提高聲學(xué)模型在足球場景下的魯棒性,即在有背景音的情況下也能清晰識別人聲,實(shí)現(xiàn)更好的流式字幕效果。

在世界杯這樣的大型賽事中,提高對相關(guān)術(shù)語的識別效果,提升同傳字幕的專業(yè)度往往很關(guān)鍵。通常的做法是收集相關(guān)場景的語音識別訓(xùn)練集,但收集的過程耗費(fèi)時間太長且成本較高;此外面對大量文本語料,如何利用這些純文本來優(yōu)化領(lǐng)域識別效果,這對于端到端的語音識別是一個業(yè)界難題。

“針對足球術(shù)語的優(yōu)化,我們選擇在收集的足球文本語料的基礎(chǔ)上訓(xùn)練語言模型,通過語言模型干預(yù)方式提高模型在足球領(lǐng)域的適配性。”由于端到端模型本身也隱含語言模型信息,直接與外部語言模型進(jìn)行融合,往往效果不佳。所以團(tuán)隊根據(jù) RNN-T 的建模方式,通過解藕聲學(xué)模型和語言模型,顯式建模內(nèi)部語言模型,調(diào)整內(nèi)部語言模型和外部語言模型的權(quán)重,可以實(shí)現(xiàn)最佳的融合效果。

“對于教練與運(yùn)動員人名識別難的問題,我們從足球相關(guān)語料中自動挖掘?qū)S忻~、球隊和球員名稱等術(shù)語,通過在解碼備選中引入FST(Finite State Transducer)邏輯結(jié)構(gòu),結(jié)合'匹配走圖+Backoff權(quán)重償還'的方式對熱詞進(jìn)行干預(yù),有效利用該熱詞專項技術(shù)優(yōu)化后,這些術(shù)語的召回從 64% 提升到 76%。”團(tuán)隊總結(jié)道。

盡管成功使用了熱詞干預(yù)的方式,但經(jīng)過大量測試實(shí)踐,火山語音團(tuán)隊發(fā)現(xiàn),人名又是一種特殊的熱詞,在 RNN-T 訓(xùn)練平行語料中多為 OOV,采用簡單的熱詞干預(yù)方式會存在兩個問題:第一,人名中的每個單字RNN-T建模單元都是常見字,但是組合起來作為熱詞是OOV,這種情況下,純熱詞激勵權(quán)重會導(dǎo)致在不該出現(xiàn)人名的時候召回了人名,即“過召回”,再加上scale過大,導(dǎo)致弧上的邊加分過于明顯,更易過召回,這是人名重復(fù)出字的主要原因;第二,Top10備選路徑里面不會出現(xiàn)人名,單純通過外掛熱詞FST根本無法有效加分。

針對上述兩個問題,團(tuán)隊對人名熱詞干預(yù)做出了兩方面優(yōu)化,分別是擴(kuò)大FST干預(yù)備選以及對熱詞區(qū)分稀疏熱詞和普通熱詞,然后對兩種熱詞分別構(gòu)圖,在解碼邏輯區(qū)別處理。經(jīng)過兩項優(yōu)化,人名的召回率從76%提升到84%。此外還聯(lián)合火山語音音頻合成團(tuán)隊的同學(xué),采用TTS技術(shù)合成術(shù)語音頻,并加入聲學(xué)模型訓(xùn)練中,將這些術(shù)語的召回率進(jìn)一步提高到90%,字幕效果更佳。

熱詞干預(yù)方案的流程示意圖

如今在火山語音識別技術(shù)支持下,火山引擎語音識別產(chǎn)品已廣泛應(yīng)用于視頻娛樂、辦公會議、硬件交互、智能客服等諸多行業(yè),為客戶提供了優(yōu)質(zhì)且有前景的語音識別解決方案。近日,在火山語音識別能力的技術(shù)支持下,火山引擎語音識別產(chǎn)品獲得了國家語音及圖像識別產(chǎn)品質(zhì)量檢驗(yàn)檢測中心(簡稱“AI國檢中心”)頒發(fā)的語音識別增強(qiáng)級檢驗(yàn)檢測證書,充分表明其語音識別技術(shù)能力已達(dá)到行業(yè)領(lǐng)先水平。

從洗腦主題曲“下蛋歌”的魔性旋律與動作被爭先效仿,到可愛吉祥物“拉伊卜”被譽(yù)為“會飛的餃子皮兒”,再到旅居中東的大熊貓四海竟然能聽懂四川話,鄉(xiāng)音未改好不歡樂……不得不說今年的卡塔爾世界杯確實(shí)貢獻(xiàn)了很多“眼前一亮”,如今賽程已進(jìn)四強(qiáng)爭霸,想必?zé)o障礙字幕直播間還將帶來更多驚喜。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )