阿里達摩院包攬AI領(lǐng)域六大權(quán)威榜單冠軍:用人類的學(xué)習(xí)方式超越人類

AI模仿人類的學(xué)習(xí)方式,結(jié)果會怎樣?

8月26日,阿里達摩院語言技術(shù)實驗室取得一系列突破,斬獲自然語言處理(NLP)領(lǐng)域6大權(quán)威技術(shù)榜單冠軍。據(jù)介紹,參與競賽的6項自研AI技術(shù)均采用模仿人類的學(xué)習(xí)模式,全方位提升了機器的語言理解能力,部分能力甚至已超越人類。目前,這些技術(shù)均已大規(guī)模應(yīng)用于閱讀理解、機器翻譯、人機交互等場景。

據(jù)悉,過去幾年,AI在圖像識別、語音識別等方面已逐步超越人類水平,但在復(fù)雜文本語義的理解上,AI與人類尚有差距,其主要原因就是傳統(tǒng)AI學(xué)習(xí)文本知識效率較低。

為此,業(yè)界提出了一種模仿人類的學(xué)習(xí)思路,即先讓AI在大規(guī)模的網(wǎng)頁和書籍文字中進行訓(xùn)練,學(xué)習(xí)基本的詞法、語法和語義知識,然后再在固定領(lǐng)域內(nèi)的文本上進行訓(xùn)練,學(xué)習(xí)領(lǐng)域?qū)S兄R。

這一思想就是預(yù)訓(xùn)練語言模型的核心創(chuàng)新。自Google提出模仿人類注意力機制的BERT模型以來,預(yù)訓(xùn)練語言模型已成為NLP領(lǐng)域的熱點研究方向。

達摩院早在2018年就開始布局通用的預(yù)訓(xùn)練語言模型,并逐漸將該思路拓展到了多語言、多模態(tài)、結(jié)構(gòu)化和篇章文本理解和文本生成領(lǐng)域,如今已建立一套系統(tǒng)化的深度語言模型體系,其自研通用語言模型StructBERT、多語言模型VECO、多模態(tài)語言模型StructVBERT、生成式語言模型PALM等6大自研模型分別刷新了世界紀(jì)錄。

達摩院自研模型位居GLUE榜單第一名

其中,StructBERT能讓機器更好地掌握人類語法,使機器在面對語序錯亂或不符合語法習(xí)慣的詞句時,仍能準(zhǔn)確理解并給出正確的表達和回應(yīng),大大提高機器對詞語、句子以及語言整體的理解力。該模型以平均分90.6分在自然語言處理領(lǐng)域權(quán)威數(shù)據(jù)集GLUE Benchmark中位居第一,顯著超越人類水平(87.1分)。

達摩院語言技術(shù)實驗室團隊表示:“實驗室的目標(biāo)是讓AI掌握人類知識的基礎(chǔ)技術(shù),預(yù)訓(xùn)練語言模型的誕生使得AI像人一樣學(xué)習(xí)新知識成為可能,未來達摩院會全面對外開放這些技術(shù),讓特定領(lǐng)域的AI變得更加智能?!?/p>

過去兩年,阿里獲得了30多項NLP領(lǐng)域頂級賽事世界冠軍,有100多篇相關(guān)頂會論文; 阿里自然語言技術(shù)已在金融、新零售、通訊、互聯(lián)網(wǎng)、醫(yī)療、電力、客服等領(lǐng)域服務(wù)超十億用戶和數(shù)萬企業(yè)客戶。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2020-08-26
阿里達摩院包攬AI領(lǐng)域六大權(quán)威榜單冠軍:用人類的學(xué)習(xí)方式超越人類
讓AI模仿人類的學(xué)習(xí)方式,結(jié)果會怎樣?8月26日,阿里達摩院語言技術(shù)實驗室取得一系列突破,斬獲自然語言處理(NLP)領(lǐng)域6大權(quán)威技術(shù)榜單冠軍。

長按掃碼 閱讀全文