人工智能助力下,“世界語(yǔ)”真的有可能誕生嗎?

題記:12月21日,在“百度機(jī)器翻譯技術(shù)開(kāi)放日”上,百度技術(shù)委員會(huì)聯(lián)席主席、自然語(yǔ)言處理部技術(shù)負(fù)責(zé)人吳華博士向到場(chǎng)嘉賓介紹了百度機(jī)器翻譯的最新進(jìn)展。百度在1年多前發(fā)布的,基于領(lǐng)先的人工智能、神經(jīng)網(wǎng)絡(luò)及自然語(yǔ)言處理技術(shù)的世界上首個(gè)互聯(lián)網(wǎng)NMT系統(tǒng),可謂引領(lǐng)機(jī)器翻譯進(jìn)入神經(jīng)網(wǎng)絡(luò)翻譯時(shí)代。這一成果刷新了業(yè)界對(duì)于機(jī)器翻譯潛能的估值,也掀起了人們對(duì)于全球溝通介質(zhì)的重新審度。

1887年,處于維多利亞時(shí)代尾聲的世界,第一次工業(yè)革命帶來(lái)的世界歷史上的第一次全球化正進(jìn)入高潮。盡管在大多數(shù)地區(qū),這種全球化伴隨著血腥的戰(zhàn)爭(zhēng)與殖民,但全球化正如一股不可抵擋的洪流席卷著世界的每一個(gè)角落。

在這一年,波蘭籍猶太人柴門(mén)霍夫博士創(chuàng)造了一種新的語(yǔ)言,并希望其也能隨著全球化浪潮而傳播,消除國(guó)際交往中的語(yǔ)言障礙,這門(mén)語(yǔ)言就是“世界語(yǔ)”。

人類無(wú)縫溝通曾經(jīng)的希望

這個(gè)毫無(wú)根基的語(yǔ)言借助歷史的大趨勢(shì)迅速傳播,甚至在民國(guó)初年傳入中國(guó)之后,被蔡元培、魯迅、巴金等人推廣傳播,進(jìn)入數(shù)十所大學(xué)的課程列表。

簡(jiǎn)單易學(xué)是這種語(yǔ)言最大的特點(diǎn),有人曾表示學(xué)會(huì)世界語(yǔ)只需要150小時(shí),而說(shuō)好世界語(yǔ)也不過(guò)需要1500小時(shí),是最容易學(xué)習(xí)的外語(yǔ)之一。但這種語(yǔ)言本身也存在很多問(wèn)題,作為一種新生語(yǔ)言,全球只有2000人把世界語(yǔ)作為母語(yǔ),這導(dǎo)致了世界語(yǔ)在傳播上缺少足夠的根基,更多的是被很多人當(dāng)做興趣來(lái)學(xué)習(xí),而非一種實(shí)用性的語(yǔ)種。加之目前掌握世界語(yǔ)的人分布過(guò)于分散,使得這一語(yǔ)言很難被人們頻繁使用和傳播。

回顧世界語(yǔ)的歷史,從風(fēng)靡一時(shí)到只有2000人作為母語(yǔ)的沒(méi)落,這一語(yǔ)言可以說(shuō)是伴隨著全球化的進(jìn)程起起伏伏,盡管如今鮮有人知曉,但世界語(yǔ)無(wú)疑是文化融合的先驅(qū)。

而時(shí)至今日,盡管以英美為代表國(guó)家的全球化進(jìn)程將英語(yǔ)推向世界,成為目前最為通用的交流語(yǔ)言,但英語(yǔ)也依然沒(méi)有實(shí)現(xiàn)世界語(yǔ)當(dāng)初的理想——消除國(guó)際交往中的語(yǔ)言障礙,因?yàn)樯杏?0%的人不會(huì)說(shuō)英語(yǔ),在30%會(huì)說(shuō)英語(yǔ)的人中,還存在大量非英語(yǔ)母語(yǔ)國(guó)家的人不能熟練使用英語(yǔ)。

古老但擁有新希望的機(jī)器翻譯

有語(yǔ)言溝通的障礙,自然就有翻譯,而如今翻譯作為一種古老的職業(yè)也正在面臨一種新的溝通輔助形式的沖擊,那就是機(jī)器自動(dòng)翻譯。不同于世界語(yǔ),盡管目的同樣是消除語(yǔ)言障礙,但機(jī)器自動(dòng)翻譯并不會(huì)改變?nèi)藗冊(cè)械哪刚Z(yǔ),只是在人與人之間搭建一個(gè)溝通橋梁。

但機(jī)器翻譯并不是一個(gè)新鮮詞,早在1949年,美國(guó)數(shù)學(xué)家Warren Weaver就在其發(fā)表的《翻譯備忘錄》中正式提出了機(jī)器翻譯的思想。而在5年之后的1954年,美國(guó)喬治敦大學(xué)則在IBM公司的協(xié)同下第一次進(jìn)行了機(jī)器翻譯的試驗(yàn),拉開(kāi)了機(jī)器翻譯實(shí)際研究和應(yīng)用的序幕。可以說(shuō)機(jī)器翻譯同樣也有著70年的悠久歷史,那我們?yōu)槭裁磿?huì)說(shuō)機(jī)器翻譯正在完成世界語(yǔ)當(dāng)初韋靜的事業(yè)——消除語(yǔ)言溝通障礙呢?答案是人工智能的應(yīng)用。

在過(guò)去,由于機(jī)器自動(dòng)翻譯結(jié)果在準(zhǔn)確性和通順性上的問(wèn)題,很多時(shí)候這種翻譯結(jié)果更多的只是能讓用戶知道大概意思,很難實(shí)現(xiàn)真正的“信達(dá)雅”。由人類親手創(chuàng)造的語(yǔ)言變化極其靈活,哪怕同一單詞,在不同地域,文化,語(yǔ)境甚至情緒里的意義也迥然不同。但隨著人工智能的應(yīng)用,機(jī)器自動(dòng)翻譯與人工翻譯的差距正在縮小。

以目前在人工智能+翻譯上走的比較遠(yuǎn)的百度為例,百度翻譯所采用的技術(shù)是基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯(Neural Machine Translation,簡(jiǎn)稱NMT)技術(shù),這一技術(shù)的使用讓機(jī)器翻譯在多場(chǎng)景、長(zhǎng)對(duì)話中的應(yīng)用表現(xiàn)得更出色。

而在百度采用NMT技術(shù)之前,基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯(SMT)方法是業(yè)界主流,這一模型最早成型于2003年,當(dāng)時(shí)愛(ài)丁堡大學(xué)的Koehn提出短語(yǔ)翻譯模型,加之同時(shí)期Franz Och提出的對(duì)數(shù)線性模型及其權(quán)重訓(xùn)練方法,使得機(jī)器翻譯較此前有了極大的進(jìn)步,并一直沿用至今。

在基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯(SMT)時(shí)代,最大的問(wèn)題就是翻譯內(nèi)容讓人感覺(jué)像是多個(gè)短語(yǔ)或單詞拼湊,而非一氣呵成的一句話,以百度為代表的互聯(lián)網(wǎng)公司開(kāi)始應(yīng)用基于神經(jīng)網(wǎng)絡(luò)算法的NMT技術(shù),目的就是為了解決這個(gè)問(wèn)題,讓機(jī)器模擬人對(duì)語(yǔ)義的理解,從而給出通順的語(yǔ)句翻譯。比如百度在2016年5月推出的自動(dòng)寫(xiě)詩(shī)功能,就是利用了基于深度神經(jīng)網(wǎng)絡(luò)的翻譯模型,可以將詩(shī)歌韻律、平仄規(guī)則、語(yǔ)義完整性甚至意境都考慮進(jìn)去,得出的結(jié)果也自然不是那些平常會(huì)讓我們哭笑不得的“直譯”。

可以說(shuō),百度在2015年采用NMT技術(shù)取代傳統(tǒng)的SMT是開(kāi)創(chuàng)了業(yè)界先河,做了第一個(gè)吃螃蟹的人,效果也顯而易見(jiàn),目前百度可以支持全球28種語(yǔ)言、756個(gè)方向的相互翻譯,并成功應(yīng)用到拍照翻譯、跨境、出境游電商等多個(gè)場(chǎng)景。而代表國(guó)外先進(jìn)翻譯技術(shù)的谷歌在2016年3月才宣布“谷歌翻譯將會(huì)利用深度學(xué)習(xí)為用戶提供服務(wù)”。

機(jī)器翻譯會(huì)帶來(lái)新的“世界語(yǔ)”么?

隨著機(jī)器翻譯的發(fā)展,關(guān)于機(jī)器翻譯是否可以帶來(lái)新型世界語(yǔ)的討論也在國(guó)外開(kāi)始出現(xiàn)。不過(guò)這種可能性或許并不存在。因?yàn)闄C(jī)器翻譯本身的價(jià)值并不是創(chuàng)造一種新的語(yǔ)言,而只是消除了原有不同語(yǔ)言之間的溝通障礙,起到彌縫的價(jià)值。

事實(shí)上,如今的機(jī)器翻譯能夠在越來(lái)越多的場(chǎng)景中應(yīng)用,未來(lái)的人類似乎也不需要一種通用語(yǔ)言,而是可以自由的使用本民族的母語(yǔ)。事實(shí)上,但凡涉及多語(yǔ)言應(yīng)用場(chǎng)景,無(wú)論在線教育,互聯(lián)網(wǎng)金融,還是傳媒和跨境交易,機(jī)器翻譯都可自如嫁接。

比如在出境游場(chǎng)景下,百度翻譯推出了一個(gè)新功能——拍照可以翻譯說(shuō)明書(shū)、路牌、菜單,這一功能解決了用戶出境游時(shí)語(yǔ)言不通,需要一個(gè)個(gè)單詞或短語(yǔ)查詢翻譯的痛點(diǎn),只需一拍照就直接給出翻譯結(jié)果。

盡管此前微信和有道詞典等產(chǎn)品也推出過(guò)拍照翻譯功能,但更多還是針對(duì)單詞和短語(yǔ)的翻譯,在說(shuō)明書(shū)、旅游指南等長(zhǎng)內(nèi)容翻譯上表現(xiàn)一般,甚至是無(wú)法實(shí)現(xiàn)翻譯,百度基于NMT的新翻譯技術(shù)則并不存在這一問(wèn)題。

我們可以預(yù)見(jiàn)到的是,隨著語(yǔ)音識(shí)別和語(yǔ)義理解技術(shù)的提升,機(jī)器翻譯取代部分同聲傳譯的功能,實(shí)現(xiàn)實(shí)時(shí)的對(duì)話翻譯并不是不可能的事情。

機(jī)器翻譯的出現(xiàn)使得地球上任何一個(gè)角落的人享有平等、便捷、自由信息和服務(wù)成為可能,可以說(shuō),隨著技術(shù)的進(jìn)步,機(jī)器翻譯正在實(shí)現(xiàn)當(dāng)初世界語(yǔ)的愿景——全球無(wú)障礙溝通。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2016-12-22
人工智能助力下,“世界語(yǔ)”真的有可能誕生嗎?
有語(yǔ)言溝通的障礙,自然就有翻譯,而如今翻譯作為一種古老的職業(yè)也正在面臨一種新的溝通輔助形式的沖擊,那就是機(jī)器自動(dòng)翻譯。

長(zhǎng)按掃碼 閱讀全文