北京時間12月10日,預(yù)訓(xùn)練模型界的“MVP”百度ERNIE再展鋒芒,在自然語言處理領(lǐng)域權(quán)威數(shù)據(jù)集GLUE中榮登榜首,并以9個任務(wù)平均得分首次突破90大關(guān)刷新該榜單歷史,其超越微軟MT-DNN-SMART, 谷歌T5、ALBERT等一眾國際頂級預(yù)訓(xùn)練模型的表現(xiàn),實力得到極大彰顯。
本次GLUE榜單第一的含金量可謂十足。眾所周知,通用語言理解評估基準(zhǔn)GLUE是自然語言處理領(lǐng)域最權(quán)威的排行榜之一,由紐約大學(xué)、華盛頓大學(xué)、谷歌DeepMind等機(jī)構(gòu)聯(lián)合推出,以其涵蓋大量不同類型的NLP任務(wù),包括自然語言推斷、語義相似度、問答匹配、情感分析等9大任務(wù),成為衡量自然語言處理研究進(jìn)展的行業(yè)標(biāo)準(zhǔn)。因此,吸引了谷歌、Facebook、微軟等國際頂尖公司以及斯坦福大學(xué)、卡耐基·梅隆大學(xué)等頂尖大學(xué)參加。GLUE排行榜的效果,在一定程度上成為了衡量各機(jī)構(gòu)自然語言處理預(yù)訓(xùn)練技術(shù)水平最重要的指標(biāo)之一。此次能夠超越國際頂尖公司及高校榮登榜首,背后是百度NLP技術(shù)的長足積累。
2018年底以來,以BERT為代表的預(yù)訓(xùn)練模型大幅提升了自然語言處理任務(wù)的基準(zhǔn)效果,取得了顯著技術(shù)突破,基于大規(guī)模數(shù)據(jù)的預(yù)訓(xùn)練技術(shù)在自然語言處理領(lǐng)域變得至關(guān)重要。眾AI公司紛紛發(fā)力預(yù)訓(xùn)練領(lǐng)域,相繼發(fā)布了XLNet、RoBERTa、ALBERT、T5等預(yù)訓(xùn)練模型。百度也先后發(fā)布了ERNIE 1.0、ERNIE 2.0,在16個中英數(shù)據(jù)集上取得了當(dāng)時的SOTA。
從GLUE排行榜上來看,BERT使用預(yù)訓(xùn)練加微調(diào)的方式,相對過往的基線成績大幅提升各任務(wù)的效果,首次突破了80大關(guān)。XLNet、RoBERTa、T5、MT-DNN-SMART等模型則分布在88-89分范圍,人類水平則是87.1。
百度ERNIE此次登頂,成為首個突破90大關(guān)的模型,并在CoLA、SST-2、QQP、WNLI等數(shù)據(jù)集上達(dá)到SOTA。相對BERT的80.5的成績,提升近10個點,取得了顯著的效果突破。
ERNIE 2.0 持續(xù)學(xué)習(xí)的語義理解框架, 支持增量引入不同角度的自定義預(yù)訓(xùn)練任務(wù),通過多任務(wù)學(xué)習(xí)對模型進(jìn)行訓(xùn)練更新,每當(dāng)引入新任務(wù)時,該框架可在學(xué)習(xí)該任務(wù)的同時,不遺忘之前學(xué)到過的信息。
此次登頂?shù)哪P椭饕贓RNIE 2.0持續(xù)學(xué)習(xí)語義理解框架下的系列優(yōu)化。引入更多新預(yù)訓(xùn)練任務(wù), 例如引入基于互信息的動態(tài)邊界掩碼算法。對預(yù)訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)也做了精細(xì)化調(diào)整。
同時,百度ERNIE 2.0的論文(https://arxiv.org/abs/1907.12412)已被國際人工智能頂級學(xué)術(shù)會議AAAI-2020收錄,AAAI-2020將于2020年2月7日-12日在美國紐約舉行, 屆時百度的技術(shù)團(tuán)隊將會進(jìn)一步展示近期的技術(shù)成果。
相較于谷歌BERT,后來居上的百度ERNIE為AI領(lǐng)域展現(xiàn)了驚人的中國“AI速度”。如今,百度在自然語言處理領(lǐng)域的深厚積累已輻射至不同領(lǐng)域。ERNIE預(yù)訓(xùn)練技術(shù)已廣泛地應(yīng)用于公司內(nèi)外多個產(chǎn)品和技術(shù)場景,在百度搜索、小度音箱、信息流推薦等一系列產(chǎn)品應(yīng)用中發(fā)揮了重要作用,大幅提升了產(chǎn)品的技術(shù)效果和用戶體驗,逐步賦能各行各業(yè)。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 這里不止“羊毛月”,少年也在以電商助農(nóng)
- 同仁堂醫(yī)養(yǎng)IPO: “三位一體”診療服務(wù)體系高效協(xié)同 “中醫(yī)+”健康服務(wù)未來可期
- 國產(chǎn)手機(jī)大勝,蘋果銷量大跌,難怪急哄哄降價千元
- 走出群山,長賽道“攀登者”vivo
- 三線結(jié)構(gòu)光與升降LDS激光雷達(dá) 石頭自清潔掃拖機(jī)器人G30導(dǎo)航避障新里程
- 石頭科技閃耀CES2025 首創(chuàng)仿生機(jī)械手掃拖機(jī)器人
- TCL華星亮相CES2025,印刷OLED等創(chuàng)新顯示技術(shù)全球吸睛
- 科技云報到:從大模型到云端,“AI+云計算”還能講出什么新故事?
- 承載AI的云南花卉,正在盛開
- 打造個人辦公新范式,科大訊飛召開辦公智能體產(chǎn)品升級發(fā)布會
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。