11月6日,由中國中文信息學會(CIPS)和中國計算機學會(CCF)聯(lián)合主辦的“第五屆語言與智能高峰論壇”在線舉行。大會同期為“2020語言與智能技術競賽”五大任務領域優(yōu)秀團隊授獎,憑借在閱讀理解技術方向的深厚積累,云知聲認知智能團隊摘得機器閱讀理解任務冠軍獎牌。
“2020語言與智能技術競賽”由中國中文信息學會(CIPS)和中國計算機學會(CCF)聯(lián)合主辦,百度公司、中國中文信息學會評測工作委員會和中國計算機學會中文信息技術專委會聯(lián)合承辦,設立機器閱讀理解、面向推薦的對話、關系抽取、語義解析與事件抽取五大熱門競賽任務,并提供面向真實應用場景的大規(guī)模數(shù)據(jù)集。
今年的參賽規(guī)模創(chuàng)歷年新高,五大任務領域累計報名參賽隊伍超5300支,參賽選手超6000人,大賽累積收到有效提交結(jié)果近15000份,成為中文NLP領域參賽人數(shù)最多的賽事。除整體參賽人數(shù)規(guī)模翻倍之外,參賽隊伍陣容亦堪稱豪華,覆蓋了海內(nèi)外知名高校、科研機構(gòu)以及諸多知名企業(yè)。
作為本次競賽的核心任務之一,機器閱讀理解 (Machine Reading Comprehension)是指讓機器閱讀文本,然后回答和閱讀內(nèi)容相關的問題。閱讀理解是自然語言處理和人工智能領域的重要前沿課題,對于提升機器的智能水平,使機器具有持續(xù)獲取知識的能力等方面具有重要價值,近年來受到學術界和工業(yè)界的廣泛關注。本次大賽機器閱讀理解評測是連續(xù)舉辦多年的一個任務,吸引了包括中國科學技術大學、中國科學院大學等一千多支知名校企隊伍參加。
本次大賽的機器閱讀理解任務注重閱讀理解模型在真實應用場景中的魯棒性,挑戰(zhàn)模型的過敏感性、過穩(wěn)定性以及泛化能力。比賽過程中,云知聲認知智能團隊依托自身雄厚的技術積累,以及在醫(yī)療等領域的產(chǎn)業(yè)化實戰(zhàn)經(jīng)驗,所提交系統(tǒng)取得F1值較基線提升26%的佳績,在預賽和復賽F1值和EM值在均位列第一。
比賽中,云知聲認知智能團隊針對閱讀理解系統(tǒng)存在的過敏感、過穩(wěn)定和泛化性不足三個問題進行了有針對性的優(yōu)化,增強了閱讀理解系統(tǒng)在真實場景中的魯棒性;團隊還借助云知聲預訓練語言模型平臺UniPLM,對模型進行了快速迭代和高效訓練;最后利用模型集成的方法進一步提高了閱讀理解模型的性能指標。
1. 利用數(shù)據(jù)增強的方法來處理過敏感、過穩(wěn)定問題。針對過敏感問題,使用問句生成和相似度匹配模型兩階段過程后生成候選樣本,用來攻擊訓練好的閱讀理解模型,若攻擊成功則生成過敏感類型的增強樣本。針對過穩(wěn)定問題,使用實體識別方法從文章中識別與答案相關實體,與問句信息結(jié)合融入篇章中生成候選樣本,用來攻擊訓練好的閱讀理解模型,若攻擊成功則生成過穩(wěn)定類型的增強樣本。
2. 利用領域外數(shù)據(jù)來增強模型的泛化能力。增加了包括DuReader、CMRC等通用領域的語料。還增加了證券公告、五種學科的教育領域數(shù)據(jù)。
3. 借助云知聲預訓練語言模型平臺UniPLM來進行模型的快速迭代和高效訓練。UniPLM基于Huggingface的transformers庫進行開發(fā),支持各類主流的預訓練語言模型以及分類、序列標注、閱讀理解等NLP任務。UniPLM融合了TensorBoard和微軟NNI框架,支持可視化訓練和自動調(diào)調(diào)參。它還可以高效地在分布式訓練平臺Atlas上進行多機多卡訓練。
讓機器理解人類語言是人類長期以來的夢想,也是人工智能應用必須迎接的挑戰(zhàn)。作為云知聲全棧技術版圖的重要模塊,經(jīng)過多年的持續(xù)投入與潛心研發(fā),當前云知聲認知智能技術已處行業(yè)領先水平,由云知聲與中科院自動化所合作完成的項目——“大規(guī)模知識圖譜構(gòu)建關鍵技術與應用”亦榮獲2019年北京市科學技術進步一等獎。相關技術成果也已先后應用至醫(yī)療、家居、車載等諸多垂直領域。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )