面對(duì)百度仍缺“本土”氣質(zhì),谷歌翻譯重返路有多長(zhǎng)?

在3月29日,谷歌悄然在新版谷歌翻譯App中增加了對(duì)“中國(guó)區(qū)用戶的優(yōu)化”,這也意味著谷歌翻譯再次回到內(nèi)地市場(chǎng)。

不過或許令不少中國(guó)用戶失望的是,在闊別中國(guó)市場(chǎng)7年之后,谷歌翻譯在產(chǎn)品體驗(yàn)上與國(guó)內(nèi)這一領(lǐng)域的領(lǐng)頭羊百度翻譯有了較大的差距。

重返中國(guó)的谷歌翻譯才剛剛重新開始

面對(duì)龐大的中國(guó)市場(chǎng),谷歌翻譯自然也是不愿意放過。根據(jù)App Annie數(shù)據(jù),自從2016年第三季度開始,中國(guó)就已經(jīng)超過美國(guó),成為全球iOS應(yīng)用商店收入最高的市場(chǎng)。中國(guó)移動(dòng)互聯(lián)網(wǎng)市場(chǎng)不僅僅在絕對(duì)數(shù)量上遠(yuǎn)超美國(guó),也在消費(fèi)能力超過美國(guó),成為名副其實(shí)的全球第一大互聯(lián)網(wǎng)經(jīng)濟(jì)市場(chǎng)。

但谷歌想在中國(guó)市場(chǎng)獲得其在美國(guó)同樣的領(lǐng)先優(yōu)勢(shì)并不容易,由于缺少大量、優(yōu)質(zhì)的語(yǔ)料訓(xùn)練,谷歌翻譯在中英文互譯的實(shí)際效果中和深耕中國(guó)市場(chǎng)的,被認(rèn)為是最懂中文的百度短時(shí)間內(nèi)還無法比擬。

可以想見,為了提高翻譯的效果,谷歌此番低調(diào)開放內(nèi)地市場(chǎng)的翻譯App,第一階段很大程度上是出于積累更多中文語(yǔ)料數(shù)據(jù)的目的,通過實(shí)時(shí)實(shí)景翻譯等比較酷的玩法吸引用戶更多的使用。

不過考慮到翻譯本身的嚴(yán)肅性,在細(xì)節(jié)上略遜一籌的谷歌面對(duì)百度翻譯的競(jìng)爭(zhēng)依然缺少一定的底氣。尤其是谷歌離開中國(guó)市場(chǎng)的這幾年間,深度學(xué)習(xí)被應(yīng)用到機(jī)器翻譯領(lǐng)域,而機(jī)器學(xué)習(xí)的基礎(chǔ)則是足夠龐大的數(shù)據(jù)量。

在這方面,作為中文搜索市場(chǎng)份額最大的搜索引擎百度,自然是更具優(yōu)勢(shì)。從另一個(gè)角度來看,谷歌翻譯此番重返中國(guó)市場(chǎng)本身也承載著為谷歌積累更多中文數(shù)據(jù)的重要任務(wù)。

機(jī)器翻譯,與搜索一脈相承

在前不久百度內(nèi)部的結(jié)構(gòu)調(diào)整中,百度副總裁王海峰出任AIG總負(fù)責(zé)人,而在此之前作為百度NLP部門的負(fù)責(zé)人,百度翻譯一直是出身機(jī)器翻譯技術(shù)研發(fā)背景的王海峰最為重視的業(yè)務(wù)之一。王海峰本人則是全球機(jī)器翻譯技術(shù)大牛,是自然語(yǔ)言處理領(lǐng)域最著名的國(guó)際學(xué)術(shù)組織ACL50多年來的首位華人主席,和目前最年輕的ACL Fellow。

2016年,百度機(jī)器翻譯獲得國(guó)家科學(xué)技術(shù)進(jìn)步二等獎(jiǎng),機(jī)器翻譯項(xiàng)目負(fù)責(zé)人王海峰則作為第一獲獎(jiǎng)人接受了這一獎(jiǎng)項(xiàng)。作為國(guó)家最權(quán)威的科技類獎(jiǎng)項(xiàng),這一獎(jiǎng)項(xiàng)在此前數(shù)年中曾先后頒發(fā)給過“載人航天”“探月工程”“青藏鐵路”等技術(shù)團(tuán)隊(duì)。由此可見百度在中文翻譯領(lǐng)域的技術(shù)積累,和產(chǎn)品的實(shí)際影響力。

國(guó)際機(jī)器翻譯學(xué)會(huì)主席、《機(jī)器翻譯》期刊主編Andy Way曾對(duì)其進(jìn)行高度評(píng)價(jià):“與谷歌和其他互聯(lián)網(wǎng)翻譯服務(wù)相比,百度的翻譯質(zhì)量,尤其是在中文相關(guān)翻譯方向上具有明顯優(yōu)勢(shì)?!?/p>

這樣的優(yōu)勢(shì)背后則是百度自身的技術(shù)和數(shù)據(jù)積累,機(jī)器翻譯天然與自然語(yǔ)言處理技術(shù)相關(guān)聯(lián),而自然語(yǔ)言技術(shù)天然又是搜索的基礎(chǔ),這也使得百度在中文自然語(yǔ)言處理技術(shù)方面的優(yōu)勢(shì)可以直接應(yīng)用在百度翻譯上。

從語(yǔ)言學(xué)角度來看,中文和英文是兩種完全不同的語(yǔ)言。在王海峰看來“中文是孤立語(yǔ),文本的詞與詞之間沒有空格,主要通過詞序來表示語(yǔ)法關(guān)系。這些因素加大了中文在詞匯、句法和語(yǔ)義層面消除歧義的難度。相比中文,現(xiàn)代語(yǔ)言學(xué)的概念與語(yǔ)法更適用于英文?!?/p>

這樣巨大的不同也就帶來了中英文在自然語(yǔ)言處理技術(shù)上需要不同的積累和訓(xùn)練語(yǔ)料,從而使得在谷歌離開的7年時(shí)間中,百度在其中文自然語(yǔ)言處理技術(shù)上已然甩開谷歌。

翻譯只是一部分,百度靜待人工智能革命到來

對(duì)于百度而言,機(jī)器翻譯同樣也只是其人工智能布局的一部分,自從百度2013年成立IDL研究院以來,百度對(duì)人工智能的重視程度不斷提高,在最近一段時(shí)間,李彥宏更是直稱“百度就是一家人工智能公司”。

而在百度總裁張亞勤看來,百度“正在人工智能革命的前夕,等待著黎明到來”,不過相比于2013年時(shí),如今的百度在人工智能上的重點(diǎn)正在從學(xué)術(shù)理論轉(zhuǎn)向?qū)嶋H的工程化應(yīng)用。

作為百度副總裁,王海峰本身就是工程化的高手,如今他成為了百度AIG的負(fù)責(zé)人。除了搜索,PK谷歌翻譯的百度翻譯同樣也是百度將人工智能技術(shù)落地的重要場(chǎng)景。而百度集團(tuán)總裁兼首席運(yùn)營(yíng)官陸奇直接主抓的無人駕駛和度秘更是處在工程化的第一線,屬于直接toC的人工智能產(chǎn)品

在完成了最初的技術(shù)和人才儲(chǔ)備之后,近年來,百度在新技術(shù)應(yīng)用到實(shí)際場(chǎng)景中的速度不斷提升。以翻譯產(chǎn)品為例,百度在2015年就應(yīng)用了基于神經(jīng)網(wǎng)絡(luò)的翻譯方法(NMT),是世界上最早運(yùn)用這一技術(shù)的主流在線翻譯產(chǎn)品,而谷歌則是在2016年才向外界介紹了其神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)的進(jìn)展,仍為實(shí)際產(chǎn)品化。

對(duì)于百度而言,NMT技術(shù)的基礎(chǔ)則是百度在過去幾年積累的相關(guān)技術(shù)。早在2015年就發(fā)表了論文《Multi-Task Learning for Multiple Language Translation》,探討用 NMT 技術(shù)解決多語(yǔ)言翻譯及語(yǔ)料稀疏的問題。這篇論文引發(fā)了業(yè)內(nèi)研究人員的關(guān)注,并被ACL2016 的 NMT Tutorial 列為研究方向。Google 團(tuán)隊(duì)也同樣是在這一論文的基礎(chǔ)上進(jìn)行了進(jìn)一步的擴(kuò)展研究。

由此可見,努力將人工智能推向工程化落地的百度正在享受到較早布局人工智能帶來的巨大紅利。雖然國(guó)內(nèi)的對(duì)手阿里和騰訊也摩拳擦掌,前者由馬云親自在阿里巴巴技術(shù)大會(huì)上宣布啟動(dòng)了代號(hào)為NASA的行動(dòng)計(jì)劃,緊鑼密鼓地招募AI科學(xué)家,且“預(yù)算不設(shè)上限”;后者則已經(jīng)有圍棋AI“絕藝”橫掃棋壇高手的牛刀小試。

但無論是技術(shù)基因還是人員、技術(shù)儲(chǔ)備上,百度在這場(chǎng)AI較量中仍然處于優(yōu)勢(shì),如果我們重新再翻出移動(dòng)互聯(lián)網(wǎng)初期的船票論,或許百度正在成為那個(gè)最容易拿到第一章船票的互聯(lián)網(wǎng)公司。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

1970-01-01
面對(duì)百度仍缺“本土”氣質(zhì),谷歌翻譯重返路有多長(zhǎng)?
在闊別中國(guó)市場(chǎng)7年之后,谷歌翻譯在產(chǎn)品體驗(yàn)上與國(guó)內(nèi)這一領(lǐng)域的領(lǐng)頭羊百度翻譯有了較大的差距。

長(zhǎng)按掃碼 閱讀全文