網(wǎng)易有道上線神經(jīng)網(wǎng)絡(luò)翻譯 質(zhì)量媲美英語八級

在機(jī)器翻譯領(lǐng)域深耕了近十年的網(wǎng)易有道,再次給人們帶來了驚喜。

近日,網(wǎng)易有道在GMIC(全球移動互聯(lián)網(wǎng)大會)未來創(chuàng)新峰會上公布:由網(wǎng)易公司自主研發(fā)的神經(jīng)網(wǎng)絡(luò)翻譯( Neural Machine Translation,以下簡稱NMT)技術(shù)正式上線。作為受到丁磊親自“過問”、網(wǎng)易最重要技術(shù)創(chuàng)新之一,此次在有道上線的NMT技術(shù),由網(wǎng)易有道與網(wǎng)易杭州研究院歷時兩年合力研發(fā),將服務(wù)于有道詞典、有道翻譯官、有道翻譯網(wǎng)頁版、有道e讀等產(chǎn)品;這不但意味著借力于NMT技術(shù),有道產(chǎn)品在語言翻譯質(zhì)量方面將有巨大的提升——超過7億用戶將享受到NMT帶來的高效與便利,更意味著低調(diào)務(wù)實(shí)的網(wǎng)易,早已在人工智能的領(lǐng)域未雨綢繆,并早于業(yè)界實(shí)現(xiàn)人工智能技術(shù)在更廣泛網(wǎng)民中的深度使用。

人工智能改變翻譯讓翻譯更“聰明”

深度學(xué)習(xí)是推動當(dāng)前人工智能熱潮最關(guān)鍵的技術(shù),它首先在圖像、音頻等感知領(lǐng)域獲得了巨大成功,目前在語言方面的應(yīng)用也獲得了長足的進(jìn)展。

而神經(jīng)網(wǎng)絡(luò)翻譯就是深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域的具體應(yīng)用。

作為目前機(jī)器翻譯領(lǐng)域最前沿的技術(shù),神經(jīng)網(wǎng)絡(luò)翻譯采用獨(dú)到的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠?qū)Ψg的全過程整體建模;與統(tǒng)計翻譯模型(SMT)相比,神經(jīng)網(wǎng)絡(luò)翻譯模型更像一個有機(jī)體。

NMT對整個句子進(jìn)行編碼,能夠更充分地利用上下文信息,判定多義詞的詞義,生成更高質(zhì)量的譯文。最直觀的一點(diǎn)就是,NMT譯文的句子結(jié)構(gòu)完整,語序更接近人類語言使用習(xí)慣,翻譯結(jié)果更加通順;而SMT則像由多個組件構(gòu)成的機(jī)器,每個組件完成各自的目標(biāo),但“拼接”出來的翻譯結(jié)果,常常不盡人意。

網(wǎng)易有道上線神經(jīng)網(wǎng)絡(luò)翻譯 質(zhì)量可媲美英語八級

NMT翻譯原理

如果從具體的例子來看,此次在有道上線的NMT的翻譯結(jié)果更準(zhǔn)確,斷句和語法比起傳統(tǒng)機(jī)器翻譯(SMT)有了直觀可感知的提升,更接近人們心中“會說話”的人工智能。

網(wǎng)易有道上線神經(jīng)網(wǎng)絡(luò)翻譯 質(zhì)量可媲美英語八級

NMT與SMT英譯中結(jié)果對比

據(jù)悉,與傳統(tǒng)的基于短語的統(tǒng)計翻譯模型相比,此次在有道上線的NMT翻譯質(zhì)量的提升是SMT過去十年累計提升的總和。

新聞和口語翻譯出色質(zhì)量可媲美英語八級

從翻譯界通用的BLEU值評價指標(biāo)來看,此次在有道上線的NMT在新聞文章、英語學(xué)習(xí)及口語等場景下的英文翻譯,做得比同類國際產(chǎn)品更加出色。而丁磊也曾在內(nèi)部表示,新聞和口語是中國人接觸英語最常見的兩個領(lǐng)域,應(yīng)在這兩方面加大研究。

事實(shí)上,詞典本就是有道的傳統(tǒng)優(yōu)勢,其詞條數(shù)據(jù)龐大、解釋準(zhǔn)確,已經(jīng)成為國內(nèi)用戶學(xué)習(xí)英語的首選。憑借這一優(yōu)勢,再加上有針對性的優(yōu)化,此次在有道上線的NMT對英語學(xué)習(xí)場景下的翻譯結(jié)果更加精準(zhǔn)。這類翻譯需求的特點(diǎn)是,原文規(guī)整、語法及句式較為規(guī)范,因此用戶對其準(zhǔn)確性要求更高。在該類數(shù)據(jù)上的盲測結(jié)果顯示,此次在有道上線的NMT,其英譯中和中譯英的BLEU值均領(lǐng)先同行7個多百分點(diǎn)。

網(wǎng)易有道上線神經(jīng)網(wǎng)絡(luò)翻譯 質(zhì)量可媲美英語八級

英譯中對比

新聞文章翻譯是另外一個常見的需求,它的特點(diǎn)是,長句較多、句子結(jié)構(gòu)復(fù)雜且有大量人名地名。在這類數(shù)據(jù)上,此次在有道上線的NMT同樣表現(xiàn)不俗,英譯中BLEU值超同行6個百分點(diǎn),而中譯英也超其8個百分點(diǎn)。

網(wǎng)易有道上線神經(jīng)網(wǎng)絡(luò)翻譯 質(zhì)量可媲美英語八級

中譯英對比

而從以上的例子可以看出,有道上線的神經(jīng)網(wǎng)絡(luò)翻譯的結(jié)果十分通順和準(zhǔn)確,幾乎沒有任何語法錯誤。這樣的結(jié)果,即使是普通人中等英文水平都很難達(dá)到,而據(jù)翻譯專業(yè)人士表示,要達(dá)到這樣翻譯水平,至少英語水平在專業(yè)八級。

集網(wǎng)易公司之力攻堅(jiān)技術(shù)難題

此次在有道上線的NMT,其翻譯質(zhì)量的大幅提升,源于有道及網(wǎng)易杭州研究院的通力合作。

作為國內(nèi)最早開發(fā)統(tǒng)計機(jī)器翻譯(SMT)的公司,有道早在兩年前也開始涉足神經(jīng)網(wǎng)絡(luò)翻譯領(lǐng)域的探索,并為此投入了巨大的研發(fā)力量。為了加快項(xiàng)目進(jìn)度,網(wǎng)易杭州研究院于一年前也參與進(jìn)來。

網(wǎng)易有道首席科學(xué)家段亦濤表示,“有道在用戶翻譯場景上近十年的積累,使得我們擁有豐富的數(shù)據(jù)資源,同時我們研究深度學(xué)習(xí)和機(jī)器翻譯技術(shù)多年,攻克了數(shù)據(jù)處理、大規(guī)??蚣堋⒛P蛢?yōu)化、領(lǐng)域適配等技術(shù)難題,并開發(fā)出一些我們特有的技術(shù),比如領(lǐng)域適配技術(shù),使我們的模型能夠自動適應(yīng)不同的場景,目前有道的NMT已經(jīng)在新聞、學(xué)習(xí)、口語和一些科技領(lǐng)域等場景下做到了最優(yōu)。”

網(wǎng)易杭州研究院感知與智能中心總經(jīng)理李曉燕則表示,“此次在有道中上線NMT技術(shù),可以說是機(jī)器翻譯領(lǐng)域的標(biāo)桿,作為擁有十余年技術(shù)沉淀的互聯(lián)網(wǎng)實(shí)力研發(fā)團(tuán)隊(duì),杭研院從深度學(xué)習(xí)理論出發(fā),解決了大規(guī)??蚣?、模型優(yōu)化等技術(shù)難題,高效完成了翻譯場景對接和NMT技術(shù)應(yīng)用工程化。”

機(jī)器翻譯的未來 讓語言不再是障礙

此次在有道上線的NMT把人工智能接入機(jī)器翻譯,并結(jié)合自身優(yōu)勢以及對技術(shù)的優(yōu)化從而大幅提升翻譯質(zhì)量,對有道乃至整個翻譯行業(yè)來說,都是一次重要突破。

過去由于技術(shù)的限制,機(jī)器翻譯僅能翻譯一些簡單詞組,對復(fù)雜內(nèi)容翻譯效果并不佳。而神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)的發(fā)展,給翻譯質(zhì)量帶來了極大提升,高質(zhì)量的機(jī)器翻譯將更廣泛更便捷地被人們使用,那么語言對于人類來說,還將是一個障礙么?

段亦濤坦言,神經(jīng)網(wǎng)絡(luò)翻譯在全球范圍內(nèi)都屬于前沿技術(shù),雖然業(yè)內(nèi)已有一定成果,但可挖掘的空間還很大。目前我們的技術(shù)突破,的確讓業(yè)內(nèi)感到振奮, 但機(jī)器翻譯作為人工智能領(lǐng)域的核心難題之一,未來還有很多的努力要做。

李曉燕也談到,今天我們在有道產(chǎn)品中上線的NMT,只是人工智能在機(jī)器翻譯領(lǐng)域探索的起點(diǎn)。得益于有道在翻譯數(shù)據(jù)的強(qiáng)大積累,我們的NMT技術(shù)將快速迭代更新,未來將不斷帶來更優(yōu)質(zhì)的翻譯體驗(yàn)。

據(jù)悉,此次推出的NMT技術(shù)未來兩周將陸續(xù)在有道詞典、有道翻譯官、有道翻譯網(wǎng)頁版、有道e讀等產(chǎn)品中正式應(yīng)用。

網(wǎng)易有道上線神經(jīng)網(wǎng)絡(luò)翻譯 質(zhì)量可媲美英語八級

有道翻譯官拍照翻譯中應(yīng)用

在機(jī)器翻譯領(lǐng)域深耕了近十年的網(wǎng)易有道,再次給人們帶來了驚喜。

近日,網(wǎng)易有道在GMIC(全球移動互聯(lián)網(wǎng)大會)未來創(chuàng)新峰會上公布:由網(wǎng)易公司自主研發(fā)的神經(jīng)網(wǎng)絡(luò)翻譯( Neural Machine Translation,以下簡稱NMT)技術(shù)正式上線。作為受到丁磊親自“過問”、網(wǎng)易最重要技術(shù)創(chuàng)新之一,此次在有道上線的NMT技術(shù),由網(wǎng)易有道與網(wǎng)易杭州研究院歷時兩年合力研發(fā),將服務(wù)于有道詞典、有道翻譯官、有道翻譯網(wǎng)頁版、有道e讀等產(chǎn)品;這不但意味著借力于NMT技術(shù),有道產(chǎn)品在語言翻譯質(zhì)量方面將有巨大的提升——超過7億用戶將享受到NMT帶來的高效與便利,更意味著低調(diào)務(wù)實(shí)的網(wǎng)易,早已在人工智能的領(lǐng)域未雨綢繆,并早于業(yè)界實(shí)現(xiàn)人工智能技術(shù)在更廣泛網(wǎng)民中的深度使用。

人工智能改變翻譯讓翻譯更“聰明”

深度學(xué)習(xí)是推動當(dāng)前人工智能熱潮最關(guān)鍵的技術(shù),它首先在圖像、音頻等感知領(lǐng)域獲得了巨大成功,目前在語言方面的應(yīng)用也獲得了長足的進(jìn)展。

而神經(jīng)網(wǎng)絡(luò)翻譯就是深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域的具體應(yīng)用。

作為目前機(jī)器翻譯領(lǐng)域最前沿的技術(shù),神經(jīng)網(wǎng)絡(luò)翻譯采用獨(dú)到的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠?qū)Ψg的全過程整體建模;與統(tǒng)計翻譯模型(SMT)相比,神經(jīng)網(wǎng)絡(luò)翻譯模型更像一個有機(jī)體。

NMT對整個句子進(jìn)行編碼,能夠更充分地利用上下文信息,判定多義詞的詞義,生成更高質(zhì)量的譯文。最直觀的一點(diǎn)就是,NMT譯文的句子結(jié)構(gòu)完整,語序更接近人類語言使用習(xí)慣,翻譯結(jié)果更加通順;而SMT則像由多個組件構(gòu)成的機(jī)器,每個組件完成各自的目標(biāo),但“拼接”出來的翻譯結(jié)果,常常不盡人意。

網(wǎng)易有道上線神經(jīng)網(wǎng)絡(luò)翻譯 質(zhì)量可媲美英語八級

NMT翻譯原理

如果從具體的例子來看,此次在有道上線的NMT的翻譯結(jié)果更準(zhǔn)確,斷句和語法比起傳統(tǒng)機(jī)器翻譯(SMT)有了直觀可感知的提升,更接近人們心中“會說話”的人工智能。

網(wǎng)易有道上線神經(jīng)網(wǎng)絡(luò)翻譯 質(zhì)量可媲美英語八級

NMT與SMT英譯中結(jié)果對比

據(jù)悉,與傳統(tǒng)的基于短語的統(tǒng)計翻譯模型相比,此次在有道上線的NMT翻譯質(zhì)量的提升是SMT過去十年累計提升的總和。

新聞和口語翻譯出色質(zhì)量可媲美英語八級

從翻譯界通用的BLEU值評價指標(biāo)來看,此次在有道上線的NMT在新聞文章、英語學(xué)習(xí)及口語等場景下的英文翻譯,做得比同類國際產(chǎn)品更加出色。而丁磊也曾在內(nèi)部表示,新聞和口語是中國人接觸英語最常見的兩個領(lǐng)域,應(yīng)在這兩方面加大研究。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-05-05
網(wǎng)易有道上線神經(jīng)網(wǎng)絡(luò)翻譯 質(zhì)量媲美英語八級
在機(jī)器翻譯領(lǐng)域深耕了近十年的網(wǎng)易有道,再次給人們帶來了驚喜。

長按掃碼 閱讀全文