虎博科技提升機(jī)器翻譯效果3倍 加速文化全球化融合

近日,全球領(lǐng)先的智能金融搜索引擎虎博科技公布了最新前沿研究成果Levenshtein Transformer,在機(jī)器翻譯領(lǐng)域提升相關(guān)速率3倍以上,占領(lǐng)現(xiàn)有機(jī)器翻譯高地。虎博科技創(chuàng)始人兼CEO陳燁表示,機(jī)器翻譯能力的明顯提升,不僅有助于提高人力效率,還能推動計算機(jī)科學(xué)、數(shù)學(xué)、語言學(xué)、翻譯學(xué)等多種學(xué)科的快速發(fā)展,更對解決全球信息不對稱難題有著重大幫助,可加速文化全球化的快速融合。

虎博科技提升機(jī)器翻譯效果3倍 加速文化全球化融合

Levenshtein Transformer基于Transformer模型上進(jìn)行優(yōu)化與升級,是第一個可以自由控制長度的翻譯模型,顛覆了現(xiàn)有機(jī)器翻譯的流程和方式,以更靈活的序列打造機(jī)器翻譯的機(jī)制和流程。通過在不同分詞間進(jìn)行增加詞或者刪除詞的行為,突破了原有限定邊界,同步優(yōu)化整體語言表達(dá),提升譯文效果、摘要能力和時間效率,實現(xiàn)了目前最短時間達(dá)成長文本高質(zhì)量譯文的記錄。據(jù)悉,Transformer是目前國際上公認(rèn)的最先進(jìn)的機(jī)器翻譯模型,由Google于2017年提出并開源,全球一線科技公司均在使用。

虎博科技算法負(fù)責(zé)人Jake Zhao參與了此次研究,并針對不同目標(biāo)、3組不同語言,在公開數(shù)據(jù)集上進(jìn)行了多次試驗。研究結(jié)果顯示,新模型不僅在翻譯速度上至少提升3倍,更在譯文質(zhì)量上有了顯著變化。通常來說,現(xiàn)有Transformer模型需要對原文進(jìn)行至少20次以上的串行解碼行為,在測試集上的平均用時超過300毫秒,但Levenshtein Transformer可將串行的部分顯著減少,通過并行得進(jìn)行插詞、刪詞來完成翻譯。這樣的模型設(shè)計不但將翻譯的平均用時減到了100毫秒左右,還給予了模型在翻譯中的能動靈活性。從譯文質(zhì)量上來說,基于Levenshtein Transformer的譯文質(zhì)量普遍評分更高。

虎博科技提升機(jī)器翻譯效果3倍 加速文化全球化融合

Levenshtein Transformer實驗結(jié)果

以“ The too high rotation speed produces the reverse deformation”為例,Levenshtein Transformer模型在3個插入刪除周期后得到了質(zhì)量較高的翻譯。據(jù)了解,該模型在全球語言的轉(zhuǎn)換中游刃有余,支持任何語種的直接翻譯和總結(jié)。

虎博科技提升機(jī)器翻譯效果3倍 加速文化全球化融合

Levenshtein Transformer實驗示例

Jake Zhao表示,Levenshtein Transformer利用模仿學(xué)習(xí)的方式來訓(xùn)練插入和刪除,讓機(jī)器能更快更自然地進(jìn)行模擬交流。同時,由于插入刪除的互補(bǔ)性,借助模型插入后的句子去訓(xùn)練如何刪除、用模型刪除后的句子去訓(xùn)練插入,給予模型一個自我檢查修改的機(jī)會,“例如,傳統(tǒng)的autoregressive模型只能實現(xiàn)長度的增長和停止,但如果模型發(fā)現(xiàn)生成了不佳的詞,并沒有辦法將該詞撤回。而得益于可實現(xiàn)插入和刪除的Levenshtein Transformer模型,它能自主、動態(tài)得控制模型的生成長度,讓模型解碼更具靈活性”。Jake Zhao進(jìn)一步解釋:“就和人類寫作文一樣,以前的模型不但是一個字一個字的寫,而且不支持寫完后修改,Levenshtein Transformer就更聰明,寫完了還會自己修改”。

目前,虎博科技每天的全球資訊及金融數(shù)據(jù)機(jī)器翻譯總量達(dá)上億萬次。以使用虎博搜索查找海外上市公司活躍用戶為例,當(dāng)鍵入“拼多多活躍用戶”進(jìn)行提問,搜索后臺在一秒內(nèi)進(jìn)行千百萬次計算,經(jīng)過對“拼多多”“活躍用戶的語言理解,識別并提取對應(yīng)“PDD”、“Active Buyers”對應(yīng)內(nèi)容,一鍵呈現(xiàn)最準(zhǔn)確的數(shù)據(jù),又如搜索“Tesla Model 3產(chǎn)能”,系統(tǒng)自動理解產(chǎn)能的意義,抽取財報對應(yīng)的“Model 3 production”內(nèi)容,第一時間提供。這個過程中,虎博核心技術(shù)之一——機(jī)器翻譯就承擔(dān)了對公司名、業(yè)務(wù)描述及英文財報的理解和翻譯工作。

據(jù)了解,此項研究成果將應(yīng)用于虎博科技底層架構(gòu),全面提升現(xiàn)有機(jī)器翻譯能力,以更地道的理解和表達(dá)直接作用于虎博搜索、西梅、招股書、財神股票、虎博翻譯等產(chǎn)品中,打破全球金融信息的語言壁壘,為用戶提供更貼心的產(chǎn)品體驗。隨著未來虎博科技業(yè)務(wù)領(lǐng)域的擴(kuò)展,優(yōu)異的機(jī)器翻譯能力也將同步應(yīng)用于更廣闊的全領(lǐng)域信息獲取范疇,加速文化全球化的融合。

文化全球化同經(jīng)濟(jì)全球化一樣,是一種世界發(fā)展的趨勢,因為前沿科技的發(fā)展,人們的交流更加容易,文化之間的交流更加順暢。陳燁表示,虎博科技將持續(xù)致力于前沿科技的探索,以科技之力加速產(chǎn)業(yè)智能化的落地,推動全球經(jīng)濟(jì)的發(fā)展,“我們將不遺余力的開展全球前沿技術(shù)交流,探索全球文化融合與發(fā)展的更多可能”。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-06-12
虎博科技提升機(jī)器翻譯效果3倍 加速文化全球化融合
近日,全球領(lǐng)先的智能金融搜索引擎虎博科技公布了最新前沿研究成果Levenshtein Transformer,在機(jī)器翻譯領(lǐng)域提升相關(guān)速率3倍以上,占領(lǐng)現(xiàn)有機(jī)器

長按掃碼 閱讀全文