這一刻,“無聲”勝有聲 ——華為首個AI手語直播誕生記

在2021年10月22日華為開發(fā)者大會的直播中,有一位紅衣女孩一直在直播屏幕左下角,兢兢業(yè)業(yè)地為整場大會做實時手語翻譯。這位紅衣女孩是HMS Core團(tuán)隊的手語數(shù)字人,她基于團(tuán)隊最新研發(fā)的手語服務(wù),可以完成實時手語翻譯,生成包括身體姿態(tài)、手部動作以及面部表情的手語。有了她,聽障手語使用者也可以“聽”懂HDC大會,獲取到更多感興趣的資訊。這是華為首次采用AI全程手語直播,引發(fā)了線上線下觀眾和媒體的關(guān)注。

這一刻,“無聲”勝有聲  ——華為首個AI手語直播誕生記

一個美好的愿望

手語項目起源于一款在2018年推出的應(yīng)用StorySign,這是一個將歐美流行兒童書籍轉(zhuǎn)化成手語動畫,幫助有聽力障礙的兒童學(xué)習(xí)閱讀的App。StorySign的推出為眾多聽障兒童打開了連接世界的一扇窗,也給他們的家庭帶去了溫暖。發(fā)布一段時間后,StorySign逐步上架了71本兒童讀物,支持了英、法、德等15種語言的手語,但同時項目也遇到瓶頸:想要普及手語,讓更多的人學(xué)習(xí)更豐富的手語,就要有充足的手語動畫作為手語學(xué)習(xí)的資源。但如何更快速地生成豐富的手語動畫呢?

StorySign集成了HMS Core的OCR(Optical Character Recognition, 光學(xué)字符識別)技術(shù),這是一種基于深度學(xué)習(xí),將圖片上的文字智能識別成文本的AI技術(shù)。那么,既然AI可以智能識別圖片上的文字, AI能不能做手語翻譯呢?給AI一段話,它如果可以自動翻譯成手語動畫,大家就可以跟著AI學(xué)習(xí)手語了,甚至AI也能成為聾人與健聽人之間的實時翻譯官,這樣AI造福的不僅僅是兒童的閱讀場景,更是更廣泛的聽障群體!

為了讓AI手語翻譯通過HMS Core能力開放出去,讓開發(fā)者去集成,進(jìn)而服務(wù)到全球4.6億的聽障人群。首先要面對的難題便是 - AI能不能做手語翻譯,從文字智能生成手語動畫?HMS Core組建了覆蓋AI手語翻譯所需要的3D數(shù)字人建模、自然語言理解、計算機(jī)視覺、3D動畫、圖形渲染、移動端Android開發(fā)、云側(cè)服務(wù)化等眾多關(guān)鍵技術(shù)專家團(tuán)隊,并邀請到國內(nèi)權(quán)威手語語言學(xué)專業(yè)教授作為項目顧問,攜手共同攻關(guān)智能實時手語翻譯項目。

算法和數(shù)據(jù)的雙重挑戰(zhàn)

手語翻譯項目啟動后,團(tuán)隊通過查閱大量文獻(xiàn)和專利,快速對行業(yè)內(nèi)相關(guān)技術(shù)進(jìn)行了調(diào)研,一起梳理出了幾大難題。首先,要考慮到手語動作對于精度的高要求,1厘米指尖位置的誤差就可能表示完全不同的意思。其次,中文和手語成對的大規(guī)模高質(zhì)量手語語料極難獲取,無法在短時間內(nèi)找到這么多專業(yè)的手語老師來提供語料。第三,手語作為獨(dú)立的語言,有其自身的語法及語序,中文與手語的語法及語序存在差異。例如中文“我沒有帶身份證”,對應(yīng)的手語語序為“身份證/我/帶/沒有”。最后,手語不僅包括手部動作,還包含身體姿態(tài)及面部表情和口動,多模態(tài)數(shù)據(jù)的協(xié)同生成很重要。

通過對這些難題的逐一分析與解決方案的討論,手語團(tuán)隊輸出了一種基于文本的多模態(tài)數(shù)字人動作和表情生成方案。這個方案由手語轉(zhuǎn)寫模塊和手語動作表情生成模塊組成,融合了手語語言學(xué)領(lǐng)域知識,并且能夠有效解決高質(zhì)量動捕數(shù)據(jù)較少的問題。

算法方案確定后,手語團(tuán)隊迎來了更大的挑戰(zhàn)——數(shù)據(jù)。在人工智能領(lǐng)域,有句話是“兵馬未動,糧草先行”,對手語翻譯項目來說,“糧草”就是手語數(shù)據(jù)獲取問題,包括手語轉(zhuǎn)寫數(shù)據(jù)和3D動作數(shù)據(jù)。如何制定合理的轉(zhuǎn)寫方案?什么樣的動作捕捉設(shè)備采集的數(shù)據(jù)可以滿足手語項目的商用要求?

轉(zhuǎn)寫是一件需要緊密結(jié)合語言學(xué)和計算機(jī)學(xué)的工作。為此,技術(shù)專家們與手語顧問緊密配合,投入到手語語言學(xué)知識學(xué)習(xí)中,經(jīng)過了大量的討論,制定適合項目的手語轉(zhuǎn)寫標(biāo)準(zhǔn)。語言本是一件語感驅(qū)動的事,而計算機(jī)則是講究規(guī)則的。為了將手語語言學(xué)的知識總結(jié)成計算機(jī)能表達(dá)出的規(guī)則,團(tuán)隊里的人工智能專家們和手語顧問對轉(zhuǎn)寫規(guī)則進(jìn)行了多次討論,反復(fù)修改優(yōu)化了20多個版本,最終完成了適合項目要求的定制化轉(zhuǎn)寫方案。

在動作捕捉數(shù)據(jù)方面,通過多方調(diào)研以及對動捕設(shè)備現(xiàn)場考察,過數(shù)十種之后,手語團(tuán)隊發(fā)現(xiàn)發(fā)現(xiàn),動捕數(shù)據(jù)采集情況遠(yuǎn)比想象的復(fù)雜得多。在動捕采集的過程中,可能引入誤差的原因有很多,例如動捕服不夠貼身、動捕人員身型比例與手語數(shù)字人比例不一致等,導(dǎo)致動捕的原始數(shù)據(jù)無法直接使用。因此,手語團(tuán)隊立刻組建動作修復(fù)小組,加快動捕數(shù)據(jù)的采集進(jìn)度,使項目得以穩(wěn)步推進(jìn)。

手語數(shù)字人和開發(fā)者大會的故事

隨著數(shù)據(jù)采集進(jìn)度的推進(jìn)和AI算法模型的迭代優(yōu)化,手語服務(wù)的工程化也同步進(jìn)展順利。手語翻譯團(tuán)隊在短短一周的時間內(nèi)就寫完了移動端SDK開發(fā)代碼,并且順利地完成了端云聯(lián)調(diào)。同時,在嘗試了多種不同的解決方案后,手語翻譯團(tuán)隊通過旋轉(zhuǎn)角直接驅(qū)動骨骼的方式,避免在驅(qū)動后數(shù)字人動作的微小差別導(dǎo)致手語意思相差甚遠(yuǎn),讓手語數(shù)字人能夠準(zhǔn)確地完成手語動作

一切就緒,手語服務(wù)準(zhǔn)備開放首版本,在HDC交出一份滿意的答卷。手語團(tuán)隊決定讓手語數(shù)字人全程支持開發(fā)者大會直播演講。這個挑戰(zhàn)可想而知,華為開發(fā)者大會上直播,觀看的人數(shù)非常龐大。如果手語數(shù)字人可以登上這個舞臺,在直播時為聽障朋友們提供手語翻譯,所有觀看直播的人都會注意到這個會打手語的紅衣女孩。這無疑可以吸引更多人來關(guān)注聽障人士,也就可以吸引到更多開發(fā)者借助手語服務(wù)來為聽障手語使用者提供服務(wù)。

手語服務(wù)是從文本生成手語,直播時算法的輸出嚴(yán)重依賴于語音識別的結(jié)果,語音識別的準(zhǔn)確性如何保障?HDC大會演講中包含大量中英文混合的技術(shù)名詞,怎么讓手語數(shù)字人打出這些詞?把整套驅(qū)動和渲染方案搬到自研引擎上能否兼容?面對這些棘手的問題,手語團(tuán)隊組建了HDC大會直播攻關(guān)小組,一部分成員攻關(guān)算法,在優(yōu)化手語生成算法模型以覆蓋HDC大會可能會出現(xiàn)的科技語料;另一部分成員攻關(guān)直播時云上語音識別、文字轉(zhuǎn)手語算法部署以及3D模型驅(qū)動問題,以保證直播時手語數(shù)字人能順利識別到話筒中的聲音并打手語。在不到一個月的時間里做足了充足的準(zhǔn)備。

在HDC2021如約舉辦的當(dāng)天。手語團(tuán)隊的伙伴們在后臺緊張地守著直播畫面,他們緊緊盯著直播屏幕左下角的紅衣女孩,擔(dān)心手語數(shù)字人出現(xiàn)任何故障。所幸在整場直播中,她表現(xiàn)得游刃有余,非常驚艷!這一刻,團(tuán)隊所有人的心情都是一樣的:不懈的努力沒有白費(fèi),手語數(shù)字人終于在HDC這個大舞臺上被大家看見了!

這是國內(nèi)首次由數(shù)字虛擬人物進(jìn)行的實時大會直播手語翻譯,這一切都得益于華為自研的AI算法以及渲染技術(shù),讓大會直播實時手語翻譯在完全無需真人的情況下得以實現(xiàn)。這套基于云技術(shù)的語音識別、手語生成、驅(qū)動渲染的手語翻譯方案經(jīng)過HDC2021得到了驗證,它不僅準(zhǔn)確呈現(xiàn)了手語動作,也解決了手語翻譯目前普遍的的一個技術(shù)難點(diǎn)——表情系統(tǒng)。表情的出現(xiàn)讓手語數(shù)字人能夠更加完整準(zhǔn)確地表達(dá)手語含義,目前手語服務(wù)已支持輸出10種不同的表情類型。相信在不久的將來,這套方案可以被搬上媒體內(nèi)容制作中,聽障朋友們也可以獲取更多的社會資訊。

技術(shù)傳遞溫度

全球有4.6億聽障人群,當(dāng)前的中文手語生成遠(yuǎn)遠(yuǎn)不足以覆蓋這些人群。未來,HMS Core手語團(tuán)隊將持續(xù)優(yōu)化手語翻譯效果和手語數(shù)字人渲染效果,同時也將構(gòu)建英文手語生成能力,將手語服務(wù)全球化,以服務(wù)更多的聽障人群。

相信在不久的將來,手語數(shù)字人可以在更多的場合和大家見面,她可以出現(xiàn)在電視新聞節(jié)目的手語翻譯小窗口中,為大家翻譯新聞;也可以在大家乘坐地鐵、飛機(jī)的時候,可以用手語為聽障朋友們播報安全須知;甚至,在一些特殊教育學(xué)校里,她可以做一位手語老師,教聽力障礙的同學(xué)們學(xué)習(xí)手語……。懷揣著這個美好的愿望, HMS Core團(tuán)隊基于手語服務(wù)能力正在打造StorySign2.0 APP,希望能帶給聽障人士更多的溫度。

正如HDC大會上的一句話:沒有人能夠熄滅滿天星光,每一位開發(fā)者,都是華為要匯聚的星星之火。目前,手語數(shù)字人已經(jīng)通過HMS Core手語服務(wù)向開發(fā)者全面開放,讓更多的應(yīng)用開發(fā)者都可以通過調(diào)用我們的手語服務(wù)SDK,快速實現(xiàn)手語實時翻譯,打造各類手語App,為聽障人士提供更加多樣化的服務(wù)。手語服務(wù)團(tuán)隊希望和開發(fā)者一起,共筑華為移動服務(wù)的滿天星光,打造一個溝通無障礙的世界。

文章轉(zhuǎn)自《華為人》

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )