国产狂喷潮在线观看国产片,精品少妇AV无码免费久久洗澡

截至12月6日，世界杯無障礙字幕直播間已累計觀看超1800萬，多次占據(jù)熱榜前列……但TA帶來的遠不止這些。

“過去覺得世界杯距離我太遠了，熬夜看球卻聽不懂、聽不清只能緊緊盯著屏幕;但今年無障礙字幕直播間一出，似乎一下子就把我骨子里的體育DNA帶動起來了，字幕和畫面同時播放，那感覺說身臨其境也不為過，最重要的是再也不用擔(dān)心跟不上、聽不懂了……”

“以前觀看這種節(jié)目其實我挺迷茫的，周圍人都在熱烈討論，甚至到精彩處歡呼雀躍，但因為我自己的身體原因，很難融入，脫節(jié)帶來的孤獨感一度讓我很沮喪……如今借助無障礙字幕直播間，我又找到了那份可以與朋友快樂同步的體驗!”

無障礙字幕直播間展示

沉浸體驗并與快樂同步，是“無障礙字幕直播間”帶來的驚喜與感動;但對火山語音團隊來說，做好“無障礙字幕直播間”的技術(shù)支持與保障，讓精彩持續(xù)，卻是前所未有的挑戰(zhàn)。

攻克口語現(xiàn)象、語速語氣差異化火山語音自研端到端流式語音識別系統(tǒng)

“其實語音識別本身就是一種挑戰(zhàn)!足球比賽瞬息萬變，解說下來，很多口語現(xiàn)象不可避免，尤其是自我修正以及語序顛倒，差異化的語速語氣更是司空見慣。如果再碰上一些沒有經(jīng)過專業(yè)訓(xùn)練的解說嘉賓參與其中，識別的難度就會進一步加碼。為應(yīng)對這個問題，我們其實思考了很久，最終還是通過自研端到端的流式語音識別系統(tǒng)得到了解決。”火山語音團隊表示。

據(jù)了解，火山語音團隊基于RNN-T框架，通過大量訓(xùn)練數(shù)據(jù)的積累和持續(xù)的算法優(yōu)化，自研推出的端到端的流式語音識別系統(tǒng)，可以有效規(guī)避傳統(tǒng)語音識別系統(tǒng)中涉及的大量人工流程，例如依賴專業(yè)人員設(shè)計各種口音的發(fā)聲規(guī)則等，大幅度提高口音識別的效果。當(dāng)然其他中間環(huán)節(jié)的人工假設(shè)也減少了很多，比方說對于猶豫、自我修正、語序顛倒等口語現(xiàn)象的表達，會有更好的建模能力。

混合模型和端到端模型的對比示意圖

據(jù)團隊介紹，端到端識別系統(tǒng)的backbone結(jié)構(gòu)(主干網(wǎng)絡(luò)結(jié)構(gòu))對識別效果至關(guān)重要，所以火山語音采用了業(yè)界領(lǐng)先的Conformer結(jié)構(gòu)，可以同時對局部信息和全局信息進行建模，識別效果較傳統(tǒng)的CNN、LSTM和DFSMN等結(jié)構(gòu)都有了大幅提升。但隨之而來的Conformer的計算開銷也會增加不少，因此團隊又從模型角度優(yōu)化了Conformer的訓(xùn)練和推理耗時，主要包括下采樣、Attention Mask和模型壓縮等方式。“首先Conformer結(jié)構(gòu)的計算復(fù)雜度與輸入音頻的長度相關(guān)，特別是Attention計算復(fù)雜度與n的平方相關(guān)，即音頻序列長度越長模型越慢，因此在整個模型的淺層，我們通過增加下采樣來降低模型的序列長度;其次通過Attention Mask的方式約束Attention的范圍;最后通過自研的模型壓縮框架，自動對模型進行裁剪和量化，在降低計算復(fù)雜度的同時，效果基本無損。”

除了對識別準(zhǔn)確率的要求之外，字幕的上屏速度也對觀賽體驗起到重要影響?；鹕秸Z音團隊通過在RNN-T訓(xùn)練過程中，對于每個字的發(fā)射延遲增加損失函數(shù)，疊加Conformer結(jié)構(gòu)強大的上下文建模能力，發(fā)射延遲提升了300-400ms。

“無視”背景噪聲優(yōu)化術(shù)語識別品質(zhì)字幕如此煉成

在過往的很多大型競技比賽中，因為“遭遇”大量背景噪音，例如背景音樂以及現(xiàn)場歡呼聲等，而帶來的識別困擾，被認(rèn)為是同傳字幕不準(zhǔn)的“罪魁禍?zhǔn)?rdquo;。“賽場上經(jīng)常會出現(xiàn)的觀眾吶喊聲，特別容易被誤識別為'嗯、啊、哈'的語氣詞;背景音樂和觀眾聲則會降低解說員聲音的清晰度，對識別模型造成了較大挑戰(zhàn)。”火山語音團隊提出。

針對上述問題，團隊設(shè)計了一整套流程應(yīng)對優(yōu)化：首先需要自動化地從足球比賽音頻中提取出這些噪聲片段，通過在模型中顯式地建模噪聲，將噪聲誤出字的比例下降了95%;同時通過數(shù)據(jù)增強方式提高聲學(xué)模型在足球場景下的魯棒性，即在有背景音的情況下也能清晰識別人聲，實現(xiàn)更好的流式字幕效果。

在世界杯這樣的大型賽事中，提高對相關(guān)術(shù)語的識別效果，提升同傳字幕的專業(yè)度往往很關(guān)鍵。通常的做法是收集相關(guān)場景的語音識別訓(xùn)練集，但收集的過程耗費時間太長且成本較高;此外面對大量文本語料，如何利用這些純文本來優(yōu)化領(lǐng)域識別效果，這對于端到端的語音識別是一個業(yè)界難題。

“針對足球術(shù)語的優(yōu)化，我們選擇在收集的足球文本語料的基礎(chǔ)上訓(xùn)練語言模型，通過語言模型干預(yù)方式提高模型在足球領(lǐng)域的適配性。”由于端到端模型本身也隱含語言模型信息，直接與外部語言模型進行融合，往往效果不佳。所以團隊根據(jù) RNN-T 的建模方式，通過解藕聲學(xué)模型和語言模型，顯式建模內(nèi)部語言模型，調(diào)整內(nèi)部語言模型和外部語言模型的權(quán)重，可以實現(xiàn)最佳的融合效果。

“對于教練與運動員人名識別難的問題，我們從足球相關(guān)語料中自動挖掘?qū)Ｓ忻~、球隊和球員名稱等術(shù)語，通過在解碼備選中引入FST(Finite State Transducer)邏輯結(jié)構(gòu)，結(jié)合'匹配走圖+Backoff權(quán)重償還'的方式對熱詞進行干預(yù)，有效利用該熱詞專項技術(shù)優(yōu)化后，這些術(shù)語的召回從 64% 提升到 76%。”團隊總結(jié)道。

盡管成功使用了熱詞干預(yù)的方式，但經(jīng)過大量測試實踐，火山語音團隊發(fā)現(xiàn)，人名又是一種特殊的熱詞，在 RNN-T 訓(xùn)練平行語料中多為 OOV，采用簡單的熱詞干預(yù)方式會存在兩個問題：第一，人名中的每個單字RNN-T建模單元都是常見字，但是組合起來作為熱詞是OOV，這種情況下，純熱詞激勵權(quán)重會導(dǎo)致在不該出現(xiàn)人名的時候召回了人名，即“過召回”，再加上scale過大，導(dǎo)致弧上的邊加分過于明顯，更易過召回，這是人名重復(fù)出字的主要原因;第二，Top10備選路徑里面不會出現(xiàn)人名，單純通過外掛熱詞FST根本無法有效加分。

針對上述兩個問題，團隊對人名熱詞干預(yù)做出了兩方面優(yōu)化，分別是擴大FST干預(yù)備選以及對熱詞區(qū)分稀疏熱詞和普通熱詞，然后對兩種熱詞分別構(gòu)圖，在解碼邏輯區(qū)別處理。經(jīng)過兩項優(yōu)化，人名的召回率從76%提升到84%。此外還聯(lián)合火山語音音頻合成團隊的同學(xué)，采用TTS技術(shù)合成術(shù)語音頻，并加入聲學(xué)模型訓(xùn)練中，將這些術(shù)語的召回率進一步提高到90%，字幕效果更佳。

熱詞干預(yù)方案的流程示意圖

如今在火山語音識別技術(shù)支持下，火山引擎語音識別產(chǎn)品已廣泛應(yīng)用于視頻娛樂、辦公會議、硬件交互、智能客服等諸多行業(yè)，為客戶提供了優(yōu)質(zhì)且有前景的語音識別解決方案。近日，在火山語音識別能力的技術(shù)支持下，火山引擎語音識別產(chǎn)品獲得了國家語音及圖像識別產(chǎn)品質(zhì)量檢驗檢測中心(簡稱“AI國檢中心”)頒發(fā)的語音識別增強級檢驗檢測證書，充分表明其語音識別技術(shù)能力已達到行業(yè)領(lǐng)先水平。

從洗腦主題曲“下蛋歌”的魔性旋律與動作被爭先效仿，到可愛吉祥物“拉伊卜”被譽為“會飛的餃子皮兒”，再到旅居中東的大熊貓四海竟然能聽懂四川話，鄉(xiāng)音未改好不歡樂……不得不說今年的卡塔爾世界杯確實貢獻了很多“眼前一亮”，如今賽程已進四強爭霸，想必?zé)o障礙字幕直播間還將帶來更多驚喜。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

超1800萬累計觀看，多次占據(jù)熱榜前列……“無障礙字幕直播間”帶來的遠不止這些！

超1800萬累計觀看，多次占據(jù)熱榜前列……“無障礙字幕直播間”帶來的遠不止這些！