我查了下機(jī)器翻譯專利的申請量,于是有了些思考

近日,機(jī)器翻譯受到格外關(guān)注,很多關(guān)心中譯語通的朋友紛紛問詢機(jī)器翻譯的未來到底會是什么樣子?一時間被問得也覺得需要好好思考下。于是默默地、很是認(rèn)真地梳理了2015年以來中譯語通在機(jī)器翻譯及其核心組件語料庫方向申請受理的專利情況,也想借以認(rèn)真判斷一下和國內(nèi)巨頭們的差距到底有多大。

我查了下機(jī)器翻譯專利的申請量,于是有了些思考162.jpg

 

為了比較準(zhǔn)確的分析自家研發(fā)水平到底咋樣,所以還是比較認(rèn)真的設(shè)定了一些標(biāo)準(zhǔn)。比如,近年來機(jī)器翻譯發(fā)展尤為迅速,特別是2016年神經(jīng)網(wǎng)絡(luò)算法的出現(xiàn)使得機(jī)器翻譯技術(shù)有了突破性發(fā)展,所以選取了時間區(qū)間2015年至今,在專利分類中G06F17(特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法)進(jìn)行比對。此外,在專利檢索引擎我們使用了我們自家的JoveEye科技大數(shù)據(jù)平臺(www.joveeye.com)和合享Incopat專利檢索系統(tǒng)(www.incopat.com)交叉驗證,避免俺們自家的系統(tǒng)搞區(qū)別對待。

首先,為了避免遺漏,我使用最寬的條件進(jìn)行檢索,將“翻譯”作為關(guān)鍵詞在專利分類計算機(jī)領(lǐng)域進(jìn)行檢索,得到申請專利數(shù)量排名前10的公司列表如下:

我查了下機(jī)器翻譯專利的申請量,于是有了些思考487.jpg

 

然后我們再將“機(jī)器翻譯”、“文本翻譯”作為關(guān)鍵詞進(jìn)行檢索,相關(guān)專利申請數(shù)量排名前五的公司如下: 

我查了下機(jī)器翻譯專利的申請量,于是有了些思考538.jpg

 

還是為了避免遺漏,我們又將“語音翻譯”、“圖片翻譯”、“圖像翻譯”、“視頻翻譯”、“字幕翻譯”、“輔助翻譯”、“翻譯系統(tǒng)”、“文件翻譯”、“網(wǎng)頁翻譯”作為關(guān)鍵詞進(jìn)行檢索,相關(guān)專利申請數(shù)量排名前五的公司如下:

我查了下機(jī)器翻譯專利的申請量,于是有了些思考644.jpg

 

然后,我把“機(jī)器翻譯”、“文本翻譯”、“語音翻譯”、“圖片翻譯”、“圖像翻譯”、“視頻翻譯”一起合并作為關(guān)鍵詞檢索分析,專利申請數(shù)量排名前五的公司如下:

我查了下機(jī)器翻譯專利的申請量,于是有了些思考723.jpg

 

至此,在機(jī)器翻譯領(lǐng)域國內(nèi)的大體情況已大概能知曉。但為了更加的嚴(yán)謹(jǐn),我對這五家公司的專利類型做了些分析。因為在搜索過程中,我發(fā)現(xiàn)有些專利是指的機(jī)器翻譯應(yīng)用裝置等相關(guān)的申請。所以,想看看真正機(jī)器翻譯核心技術(shù)研發(fā)的專利情況如何。

我查了下機(jī)器翻譯專利的申請量,于是有了些思考836.jpg

 

我查了下機(jī)器翻譯專利的申請量,于是有了些思考838.jpg

 

我查了下機(jī)器翻譯專利的申請量,于是有了些思考840.jpg

 

我查了下機(jī)器翻譯專利的申請量,于是有了些思考842.jpg

我查了下機(jī)器翻譯專利的申請量,于是有了些思考843.jpg

考慮到搜狗和網(wǎng)易有道在業(yè)內(nèi)的知名度,我也對他們的相關(guān)專利進(jìn)行了了解,按照我第一步最寬的條件以“翻譯”為關(guān)鍵詞進(jìn)行檢索,結(jié)果是搜狗擁有18個,網(wǎng)易有道有5個。


我查了下機(jī)器翻譯專利的申請量,于是有了些思考924.jpg

在最開始我提到過,神經(jīng)網(wǎng)絡(luò)算法從2016年開始推動了機(jī)器翻譯技術(shù)的發(fā)展,各家也當(dāng)然會加強(qiáng)此算法的專利研究。我特別看了一下從2015年到2018年的情況,百度擁有8個、中譯語通擁有7個、騰訊擁有2個、科大訊飛擁有2個,而且大部分發(fā)力階段都從2017年開始。

如果要全面分析機(jī)器翻譯技術(shù)的發(fā)展,光在國內(nèi)肯定是不夠的。我又繼續(xù)以機(jī)器翻譯、文本翻譯為關(guān)鍵詞對于國外專利情況進(jìn)行了檢索和分析,排名前五的公司不出意外的依然是耳熟能詳?shù)膰H大品牌:

我查了下機(jī)器翻譯專利的申請量,于是有了些思考1144.jpg

詳細(xì)的專利列表清單如下:

我查了下機(jī)器翻譯專利的申請量,于是有了些思考1158.jpg

我查了下機(jī)器翻譯專利的申請量,于是有了些思考1159.jpg

我查了下機(jī)器翻譯專利的申請量,于是有了些思考1161.jpg

我查了下機(jī)器翻譯專利的申請量,于是有了些思考1163.jpg

我查了下機(jī)器翻譯專利的申請量,于是有了些思考1165.jpg

我查了下機(jī)器翻譯專利的申請量,于是有了些思考1167.jpg

我查了下機(jī)器翻譯專利的申請量,于是有了些思考1168.jpg

我查了下機(jī)器翻譯專利的申請量,于是有了些思考1170.jpg

我查了下機(jī)器翻譯專利的申請量,于是有了些思考1172.jpg

總算花了些時間,基本上從國內(nèi)和國際兩個范圍,從大范圍到小范圍,分析了機(jī)器翻譯領(lǐng)域相關(guān)專利的分布情況。基于此,幾點思考與大家探討:

1、機(jī)器翻譯最大的意義是擴(kuò)大了人類認(rèn)知信息的廣度與深度;

2、#新摩爾定律#“每18個月全球新增信息量是計算機(jī)有史以來全部信息量的總和”。某種意義上,今天99%以上機(jī)器翻譯處理的信息,都是此前人類力所不能及的;

3、高質(zhì)量的機(jī)器翻譯引擎,其單位時間內(nèi)翻譯的速度與質(zhì)量可能都是人類無法企及的;

4、所謂替代人類,孰優(yōu)孰劣,要有比較對象和對比標(biāo)準(zhǔn);高質(zhì)量引擎,不考慮消耗的時間,僅評比翻譯質(zhì)量,如若還是垂直領(lǐng)域的,那么機(jī)器翻譯超過90%以上的人類完全可能。太多的替代與不可替代的討論,設(shè)定條件根本就不在同一個場景,如同雞同鴨講;

5、不相信機(jī)器翻譯,是因為沒見到過更好的,但并不代表不存在,如同今天的特斯拉無人生產(chǎn)車間,阿里京東全自動化的包裹物流,已經(jīng)可以無人工作。其實只是你沒見過而已;

6、有人問“人機(jī)耦合”是機(jī)器翻譯發(fā)展的未來嗎?對這個問題我做了認(rèn)真思考。個人認(rèn)為“人機(jī)耦合”輔助同聲傳譯,在會議口譯實踐中是個偽命題。與其人機(jī)耦合不如純機(jī)器翻譯質(zhì)量提高來得更靠譜。同聲傳譯工作過程中,聽說時差(EVS,Ear Voice Span)一般為2-3秒鐘。同傳譯員耳機(jī)一側(cè)蓋住耳朵聽發(fā)言人聲音,另一側(cè)耳機(jī)是不蓋住耳朵,目的是要聽到自己講話的聲音,以控制譯員自身語音語調(diào)和語速。(我們自己帶耳機(jī)唱歌的時候會有感受,聽不到自己的聲音跑調(diào)太正常了。)因此譯員需要多任務(wù)的精力分配,聽懂,翻譯,重要數(shù)字記筆記,發(fā)言人表情,會議現(xiàn)場情況等等。在當(dāng)前人類大腦多任務(wù)處理能力現(xiàn)狀,人機(jī)耦合的概念提出顯然是非專業(yè)人士的一廂情愿,顯得格外格外的牽強(qiáng)。


極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-09-30
我查了下機(jī)器翻譯專利的申請量,于是有了些思考
近日,機(jī)器翻譯受到格外關(guān)注,很多關(guān)心中譯語通的朋友紛紛問詢機(jī)器翻譯的未來到底會是什么樣子?一時間被問得也覺得需要好好思考下。

長按掃碼 閱讀全文