雷鋒網(wǎng)編者按:十年前,Google Translate發(fā)布。當(dāng)時(shí),這項(xiàng)服務(wù)背后的核心算法還是基于短語的機(jī)器翻譯。
而十年后的今天,更先進(jìn)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯( Neural Machine Translation)技術(shù)已經(jīng)使得翻譯系統(tǒng)的速度和準(zhǔn)確度有了大幅提升。Google發(fā)現(xiàn),在多個(gè)樣本的翻譯中,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)將誤差降低了 55%-85%甚至以上。
雖然成就喜人,但這對(duì)研究人員來說卻遠(yuǎn)遠(yuǎn)不夠。在他們看來,NMT領(lǐng)域還有太多可提升的空間。
近日,來自Google Brain的四位研究人員Denny Britz, Anna Goldie , Thang Luong, Quoc Le就由NMT訓(xùn)練成本太高這一問題出發(fā),對(duì)NMT 架構(gòu)的超參數(shù)進(jìn)行了大規(guī)模分析,并且對(duì)建立和擴(kuò)展NMT構(gòu)架提出了一些新穎觀點(diǎn)和實(shí)用建議。研究人員表示,學(xué)界還未有過類似的研究。
同時(shí),該論文也已提交了今年的ACL大會(huì)(Association for Computational Linguistics)。
以下是為雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))編譯的部分論文內(nèi)容。
摘要
在過去幾年里,基于神經(jīng)機(jī)器翻譯(NMT)技術(shù)的產(chǎn)品系統(tǒng)被越來越多部署在終端客戶端中,NMT本身也因此獲得了巨大進(jìn)步。但目前,NMT構(gòu)架還存在著一個(gè)很大的缺點(diǎn),即訓(xùn)練它們的成本太高,尤其是GPU的收斂時(shí)間,有時(shí)會(huì)達(dá)到幾天到數(shù)周不等。這就使得窮舉超參數(shù)搜索(exhaustive hyperparameter search)的成本和其他常見神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一樣,讓人望而卻步。
為此,我們首次對(duì) NMT 架構(gòu)的超參數(shù)進(jìn)行了大規(guī)模分析。我們報(bào)告了數(shù)百次實(shí)驗(yàn)測試的經(jīng)驗(yàn)結(jié)果和方差數(shù)(variance numbers),這相當(dāng)于在標(biāo)準(zhǔn)WMT英譯德任務(wù)上運(yùn)行超過250,000 GPU小時(shí)數(shù)的效果。從實(shí)驗(yàn)結(jié)果中,我們提出了有關(guān)建立和擴(kuò)展NMT構(gòu)架的創(chuàng)新觀點(diǎn),也提供了一些實(shí)用建議。
作為此次研究成果的一部分,我們也發(fā)布了一個(gè)開源的NMT框架,讓研究員們能輕松使用該新技術(shù),并得出最新試驗(yàn)結(jié)果。
研究結(jié)論
在研究過程中,我們通過梳理關(guān)鍵因素,以獲得最新的實(shí)驗(yàn)結(jié)果。
有些研究人員可能并不認(rèn)為“集束搜索調(diào)節(jié)(beam search tuning)和大多數(shù)架構(gòu)變化同等重要”,以及“使用了當(dāng)前優(yōu)化技術(shù)的深度模型并不總是優(yōu)于淺度模型”等說法,但通過實(shí)驗(yàn),我們?yōu)檫@類說法給出了實(shí)驗(yàn)證據(jù)。
以下是實(shí)驗(yàn)收獲總結(jié):
使用 2048 維的大型嵌入(embeddings)有最優(yōu)實(shí)驗(yàn)結(jié)果,不過優(yōu)勢不大;僅有 128 維的小型嵌入似乎也有足夠的能力去捕捉絕大多數(shù)必要的語義信息。
LSTM Cell 始終比 GRU Cell表現(xiàn)得好。
2-4 層的雙向編碼器性能最佳。更深層的編碼器在訓(xùn)練中不如2-4層的穩(wěn)定,這一點(diǎn)表現(xiàn)得很明顯。不過,如果能接受高質(zhì)量得優(yōu)化,更深層的編碼器也很有潛力。
深度 4 層解碼器略優(yōu)于較淺層的解碼器。殘差連接在訓(xùn)練 8 層的解碼器時(shí)不可或缺,而且,密集的殘差連接能使魯棒性有額外增加。
把額外的關(guān)注度參數(shù)化(Parameterized additive attention),會(huì)產(chǎn)生總體最優(yōu)結(jié)果。
有一個(gè)調(diào)適良好、具有長度罰分(length penalty)的集束搜索(beam search)很關(guān)鍵。5-10集束寬度搭配1.0長度罰分的工作效果好像不錯(cuò)。
我們還強(qiáng)調(diào)了幾個(gè)重要的研究課題,包括:
高效利用嵌入?yún)?shù) (4.1)(雷鋒網(wǎng)注:4.1代表論文章節(jié),下同)
注意機(jī)制(attention mechanisms)作為加權(quán)跳過連接(weighted skip connections)(4.5),而不是記憶單元的角色作用,
深度循環(huán)網(wǎng)絡(luò)需要更好的優(yōu)化方法(4.3),
超參數(shù)變化(hyperparameter variations)還需要更具穩(wěn)健性的集束搜索(4.6)。
此外,我們還專門發(fā)布了一個(gè)開源NMT框架,讓大家能對(duì)該框架的創(chuàng)新點(diǎn)一探究竟,并進(jìn)行可重復(fù)試驗(yàn),同時(shí)我們還發(fā)布了所有實(shí)驗(yàn)配置的文件。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- ?5年投入200億打造飛行汽車!?長安汽車布局萬億“低空”市場
- 英偉達(dá)涉嫌違反反壟斷法 市場監(jiān)管總局依法決定立案調(diào)查
- 上海敲定5G-A發(fā)展目標(biāo):到2026年發(fā)展500萬用戶,建設(shè)3.2萬個(gè)3CC基站
- 中國電信注資10億成立天通衛(wèi)星科技公司,將推動(dòng)衛(wèi)星通信手機(jī)向3000元下探
- 上汽今年銷量或會(huì)被比亞迪反超,痛失18年“中國車企銷量冠軍”
- 英特爾CEO基辛格名為退休,實(shí)為被董事會(huì)趕下臺(tái)?
- 華為申請(qǐng)多枚鴻蒙辦公商標(biāo),涉及辦公用品等多個(gè)領(lǐng)域
- “數(shù)智化”登頂《咬文嚼字》十大流行語,數(shù)智技術(shù)應(yīng)用深入人心
- IDC預(yù)計(jì):2028年AI基礎(chǔ)設(shè)施支出將超1000億美元
- 韓系動(dòng)力電池裝機(jī)量下挫,三大廠商市占率降至17.2%,落后寧王比亞迪
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。