亚洲高清揄拍自拍色狐,阅小喵咪动漫番

作為在無障礙領(lǐng)域的新進展，谷歌于今年五月在I/O大會上宣布推出Euphonia項目：試圖讓語音識別系統(tǒng)理解具有非標準語音或障礙的人。谷歌在近期發(fā)布的文章和論文中，解釋了人工智能的一些功能。

需要解決的問題是顯而易見的：那些有運動障礙的患者，如肌萎縮側(cè)索硬化癥（ALS）等退化性疾病，他們的說話聲音根本無法被現(xiàn)有的自然語言處理系統(tǒng)所理解。

研究小組將其描述如下:

ASR（自動語音識別）系統(tǒng)通常是從“典型”語音中訓(xùn)練出來的，這意味著代表性不足的群體，比如那些有語音障礙或口音重的群體，無法體驗到同樣程度的實用功能。

目前最先進的ASR模型在服務(wù)中等語音障礙的ALS患者時，也會產(chǎn)生高誤碼率（WER）。

值得注意的是，這種情況至少在一定程度上要歸咎于訓(xùn)練集，通?？梢酝ㄟ^更具包容性的源數(shù)據(jù)來解決。這是我們在人工智能模型中發(fā)現(xiàn)的內(nèi)隱偏見之一，這些偏見可能會在其他地方導(dǎo)致高錯誤率，比如面部識別。

對谷歌的研究人員來說，這意味著要從ALS患者那里收集數(shù)十小時的語音。正如你可能預(yù)期的那樣，每個人受自身狀況的影響都不一樣，這就對研究造成了不小的障礙。

為此，研究人員將一個標準的語音識別模型用作基準，然后以一些實驗性的方式進行調(diào)整，在新的音頻上進行訓(xùn)練。僅這一點就大大降低了單詞錯誤率，而且對原始模型的更改相對較小，這意味著在調(diào)整到一個新的語音時不需要太多的計算。

研究人員發(fā)現(xiàn)，當這個模型仍然被一個給定的音素（即像“e”或“f”這樣的單個語音）所混淆時，它會出現(xiàn)兩種錯誤。首先，事實是，它不能識別意圖的音素，因此不能識別單詞。其次，模型必須猜測說話者想要表達的音素，在兩個或兩個以上單詞發(fā)音大致相似的情況下，可能會選擇錯誤的音素。

第二個錯誤是可以智能處理的錯誤。也許你說，“我要回到房子里去”，而系統(tǒng)卻不能識別出句子里的“b（back）”和“h（house）”；也有可能house在患者口中更像是mouse（鼠標），人工智能系統(tǒng)也許能夠利用它對人類語言的了解——以及你自己的聲音或你說話的語境——來聰明地填補空白。

但這要留給未來的研究。目前，你可以閱讀該團隊目前為止的研究成果，論文名為《Personalizing ASR for Dysarthric and Accented Speech with Limited Data》，將于下月在奧地利舉行的Interspeech大會上發(fā)表。

AD：還在為資金緊張煩惱嗎？獵云銀企貸，全面覆蓋京津冀地區(qū)主流銀行及信托、擔(dān)保公司，幫您細致梳理企業(yè)融資問題，統(tǒng)籌規(guī)劃融資思路，合理撬動更大杠桿。填寫只需兩分鐘，剩下交給我們！詳情咨詢微信：zhangbiner870616 (來源：獵云網(wǎng))

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

關(guān)注殘障用戶，谷歌Euphonia項目如何幫助語言障礙人士更好地交流

下一篇

關(guān)注殘障用戶，谷歌Euphonia項目如何幫助語言障礙人士更好地交流

下一篇

關(guān)注殘障用戶，谷歌Euphonia項目如何幫助語言障礙人士更好地交流