超越華為盤古千億模型,搜狗搜索再創(chuàng)中文語言理解評測CLUE世界第一

近日,搜狗搜索技術(shù)團隊在CLUE(中文語言理解測評基準)的任務(wù)比賽中,基于自研的中文預(yù)訓(xùn)練模型擊敗了包括華為盤古在內(nèi)的一眾強勁對手,在CLUE總榜、分類總榜、閱讀理解榜再次獲得第一名,刷新業(yè)界記錄。

超越華為盤古千億模型,搜狗搜索再創(chuàng)中文語言理解評測CLUE世界第一

“BERTSG”為搜狗搜索自研模型,“HUMAN”為人類成績(不計入選手)

  不懼業(yè)內(nèi)強勁挑戰(zhàn)搜狗搜索用技術(shù)與算法彰顯實力

作為中文語言理解領(lǐng)域最具權(quán)威性的測評基準之一,CLUE基于原始的中文文本語料共開設(shè)了8個方向的比賽,由文本相似度、分類、上下文推理、閱讀理解等共11個子任務(wù)組成。此前,搜狗搜索曾長期霸榜CLUE多個任務(wù)比賽冠軍寶座,但在今年4月遭遇到來自華為、阿里達摩院等競爭對手的強勁挑戰(zhàn),華為更是利用其兩千億參數(shù)模型盤古一度取得領(lǐng)先。

就在近日,搜狗搜索技術(shù)團隊基于自研的中文預(yù)訓(xùn)練模型,一舉超越華為盤古,再度在CLUE總榜、分類總榜、閱讀理解榜獲得冠軍,展示了其在自然語義理解領(lǐng)域強大的技術(shù)創(chuàng)新實力和領(lǐng)先的AI算法能力。

據(jù)了解,搜狗搜索技術(shù)團隊近一年來在預(yù)訓(xùn)練模型研發(fā)上加強投入,已完成從億級到百億級中文預(yù)訓(xùn)練模的研發(fā),目前正開展千億級中文預(yù)訓(xùn)練模型及多模態(tài)預(yù)訓(xùn)練模型的研發(fā)工作。搜狗搜索技術(shù)團隊自研的預(yù)訓(xùn)練模型之所以能夠比參數(shù)量更大的華為盤古在CLUE榜單取得更好的效果,主要是在訓(xùn)練語料、模型結(jié)構(gòu)、訓(xùn)練方法三個方面進行了創(chuàng)新突破。

訓(xùn)練語料方面,憑借自身作為第二大搜索引擎的基礎(chǔ)優(yōu)勢,搜狗搜索技術(shù)團隊首先從萬億網(wǎng)頁中篩選出10T優(yōu)質(zhì)語料,依托搜狗搜索的內(nèi)容理解技術(shù)、大規(guī)模聚類等系統(tǒng),進而從10T優(yōu)質(zhì)語料中精選出2T最終語料,這樣在保證語料內(nèi)容質(zhì)量的同時,還可以確保內(nèi)容的多樣性,從訓(xùn)練語料上提升了模型的訓(xùn)練效率和泛化能力。

模型結(jié)構(gòu)方面,原始的BERT模型使用了Post-LN的結(jié)構(gòu),該結(jié)構(gòu)的弊端是在訓(xùn)練超大模型時,若沒有設(shè)置好warmup,會導(dǎo)致收斂效果變差。而搜狗的預(yù)訓(xùn)練模型在結(jié)構(gòu)上采用了Pre-LN的方式,大大提升了訓(xùn)練效率。

而在訓(xùn)練方法方面,搜狗搜索技術(shù)團隊做了兩方面的創(chuàng)新優(yōu)化。第一,采用了cross thought預(yù)訓(xùn)練方法,同時引入對比學(xué)習(xí)訓(xùn)練方法,解決原始BERT模型學(xué)習(xí)出來的cls token向量存在各向異性的問題,大大增強預(yù)訓(xùn)練模型的表征能力,使得下游任務(wù)效果得到明顯提升。第二,加入了根據(jù)文章標題生成和段落順序預(yù)測兩個任務(wù),進一步增強預(yù)訓(xùn)練模型的文章理解能力。具體而言,在標題生成任務(wù)上,輸入一篇文章的內(nèi)容和標題,并且對文章和標題都做詞語級別的mask操作,文章mask策略與Roberta-wwm采用的策略一樣,標題則mask超過80%的詞。而段落順序預(yù)測任務(wù)的目標是預(yù)測段落之間的上下文關(guān)系,在加入這兩種預(yù)測任務(wù)后,預(yù)訓(xùn)練模型的效果得到明顯提升。

搜狗搜索NLP技術(shù)長期領(lǐng)先,成功落地產(chǎn)品、加速賦能行業(yè)

與此同時,此次搜狗搜索自研預(yù)訓(xùn)練模型在CLUE總榜、分類總榜、閱讀理解榜再度獲得冠軍,也意味著搜狗搜索在自然語言預(yù)訓(xùn)練、語義理解、長文本和短文本分類、閱讀理解、問答等領(lǐng)域皆持續(xù)處于業(yè)界領(lǐng)先水平,展現(xiàn)了其在NLP的超群實力。在此之前,搜狗搜索還曾在國際閱讀理競賽CoQA等競賽中取得了冠軍的成績。

事實上,搜狗搜索之所以在NLP領(lǐng)域長期處于領(lǐng)先地位,與搜狗公司長期專注在自然語言處理領(lǐng)域進行深耕細作密不可分。作為一家將AI作為企業(yè)基因的公司,搜狗基于搜狗搜索、搜狗輸入法等核心產(chǎn)品,一直堅持其以語言為核心的AI戰(zhàn)略,并成功進行了一系列AI技術(shù)創(chuàng)新和產(chǎn)品落地實踐。

據(jù)了解,搜狗自研的預(yù)訓(xùn)練模型已在搜狗搜索產(chǎn)品中落地,大幅提升了用戶的搜索效率和體驗。此外,相關(guān)技術(shù)在語言翻譯、聊天機器人、知識圖譜等領(lǐng)域也具有廣泛的應(yīng)用空間。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )