近日,由國際計(jì)算語言學(xué)協(xié)會(huì)(The Association for Computational Linguistics,ACL)舉辦的WMT 2021國際機(jī)器翻譯比賽結(jié)果揭曉。首次參加該項(xiàng)大賽的傳音AI翻譯團(tuán)隊(duì)在「科薩語-祖魯語」雙向翻譯的賽道上斬獲機(jī)器自動(dòng)評測冠軍,并在「孟加拉語-印地語」、「印地語-孟加拉語」翻譯任務(wù)的機(jī)器自動(dòng)評測中分別獲得第二名、第三名的佳績。
WMT大賽(Conference on Machine Translation)是全球頂級的機(jī)器翻譯評測比賽,在全球?qū)W術(shù)界、工業(yè)界享有盛譽(yù)。自2006年起,WMT大賽已成功舉辦16屆,每年都吸引了來自世界各地的頂級企業(yè)、高校和科研機(jī)構(gòu)參賽,包括微軟、Facebook、騰訊、字節(jié)跳動(dòng)、百度、金山等。
WMT 2021大賽共有72支實(shí)力雄厚的隊(duì)伍參賽,共計(jì)提交1308次譯文數(shù)據(jù),競爭異常激烈。組委會(huì)按照在國際上具有廣泛認(rèn)可度的BLEU自動(dòng)評估指標(biāo)對提交的機(jī)器譯文和標(biāo)準(zhǔn)答案進(jìn)行擬合計(jì)算,擬合程度高者排在前面。傳音AI翻譯團(tuán)隊(duì)經(jīng)過多次角逐脫穎而出,成功占據(jù)「科薩語-祖魯語」雙向翻譯機(jī)器自動(dòng)評測指標(biāo)的榜首。
深耕AI翻譯領(lǐng)域,打造前沿研究、產(chǎn)品應(yīng)用和用戶反饋閉環(huán)
傳音AI翻譯團(tuán)隊(duì)在本次WMT 2021中主要面臨低資源語料的挑戰(zhàn)。為了更好能利用低資源語料,提升低資源機(jī)器翻譯的效果,傳音AI翻譯團(tuán)隊(duì)采用自研的混合神經(jīng)統(tǒng)計(jì)機(jī)器翻譯和機(jī)器翻譯(Hybrid-SNMT)。在模型上,Hybrid-SNMT首先應(yīng)用N元語法得到向量,并統(tǒng)計(jì)對齊概率等方式得到各個(gè)詞庫和語言模型,再以此訓(xùn)練雙向互譯的對偶NMT模型。在數(shù)據(jù)上,Hybrid-SNMT通過迭代回譯等方式,不斷提煉和豐富各個(gè)詞庫,并增廣數(shù)據(jù)。
在國際賽事中斬獲佳績與認(rèn)可,得益于傳音AI翻譯團(tuán)隊(duì)在人工智能領(lǐng)域持續(xù)不斷的技術(shù)研究和產(chǎn)品體驗(yàn)的打磨。傳音AI翻譯團(tuán)隊(duì)基于神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù),持續(xù)進(jìn)行迭代,引?了前沿的機(jī)器翻譯算法,不斷創(chuàng)新算法和架構(gòu),提升翻譯能力。
目前,傳音翻譯已成為一個(gè)日翻譯數(shù)億字符的多語種機(jī)器翻譯引擎,支持多語種間的雙向翻譯,質(zhì)量達(dá)到新興市場業(yè)界領(lǐng)先水平。在技術(shù)和數(shù)據(jù)的協(xié)同之下,傳音深度布局機(jī)器翻譯生態(tài),服務(wù)場景已涵蓋社交對話翻譯、閱讀翻譯、傳音掃一掃等,同時(shí)還為傳音語言大師、傳音智能語音助手、Hi Translate、菲酷等提供翻譯服務(wù)支持,后續(xù)將陸續(xù)拓展更多應(yīng)用場景。同時(shí),通過海量的傳音智能終端用戶使用反饋,不斷提升、改進(jìn)機(jī)器翻譯算法,打造“前沿研究-產(chǎn)品應(yīng)用-用戶反饋”的完整閉環(huán)。
以洞察為基點(diǎn),加速構(gòu)建非洲智能翻譯服務(wù)體系
長期以來,傳音深耕以非洲為代表的新興市場,為消費(fèi)者提供適切需求的智能終端產(chǎn)品和移動(dòng)互聯(lián)服務(wù)。本次獲獎(jiǎng),正是傳音多維度市場洞察及本地化創(chuàng)新產(chǎn)品理念的最佳注腳。
在不斷提升的機(jī)器翻譯技術(shù)背后,是傳音深厚的語言基因。非洲大陸幅員遼闊,國家眾多,是世界上最復(fù)雜、多樣化的地區(qū)之一,也是語言種類最多的大陸,許多當(dāng)?shù)孛癖娏?xí)慣使用本民族語言。以科薩語(Xhosa)及祖魯語(isiZulu)為例,兩者分別是科薩族和祖魯族的民族語言,同時(shí)也是南非共和國的官方語言。在南非,科薩語的使用人口分布最廣,而祖魯語的使用人數(shù)最多。傳音手機(jī)產(chǎn)品不僅支持英語、法語、阿拉伯語、西班牙語、葡萄牙語等官方語言或通用語,更支持多種非洲本地語言,包括阿姆哈拉語、奧羅莫語、提格雷語、索馬里語、斯瓦希里語、豪薩語等小語種,以滿足本地用戶的需求。
傳音AI翻譯團(tuán)隊(duì)以技術(shù)為核心,結(jié)合非洲語言種類和使用格局,不斷延伸服務(wù)場景,創(chuàng)造性地進(jìn)行非洲智能翻譯服務(wù)體系構(gòu)建,為本地用戶帶來更便捷的溝通體驗(yàn)。隨著傳音全球新興市場業(yè)務(wù)的不斷拓展,傳音AI翻譯團(tuán)隊(duì)也加大了針對南亞、東南亞等其他新市場本地小語種的研究探索,不斷提升相應(yīng)的翻譯能力。
未來,傳音將持續(xù)加大對人工智能領(lǐng)域的學(xué)習(xí)與投?,積極將技術(shù)升級運(yùn)用在產(chǎn)品之中,并基于傳音平臺(tái)生態(tài)帶來覆蓋更廣的應(yīng)用場景,為新興市場用戶提供更優(yōu)質(zhì)的智能產(chǎn)品體驗(yàn)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )