近期,中文大語言模型蓬勃發(fā)展,但卻一直沒有出現(xiàn)可應(yīng)用于評測大模型能力的測試。甲骨易AI研究院提出一種衡量中文大模型處理多任務(wù)準(zhǔn)確度的測試,并在此基礎(chǔ)上制作了一套適配測試中文大模型的數(shù)據(jù)集,并將其命名為“超越”。
數(shù)據(jù)集的測試內(nèi)容涵蓋四大領(lǐng)域:醫(yī)療、法律、心理學(xué)和教育。通過綜合評估模型在多個(gè)學(xué)科上的知識廣度和深度,能夠幫助研究者更精準(zhǔn)地找出模型的缺陷,并對模型的能力進(jìn)行打分。
簡介
自ChatGPT發(fā)布以來,大語言模型(LLMs)保持著在計(jì)算機(jī)科學(xué)技術(shù)與自然語言處理領(lǐng)域的熱度,并且仍不斷升溫。ChatGLM、 MOSS、文心一言、通義千問、商量、星火等眾多具備中文能力的大模型也接連發(fā)布。這些模型有著龐大的數(shù)據(jù)規(guī)模,通過廣泛的預(yù)訓(xùn)練以達(dá)到能夠正確理解人類話語和指令并生成類似人類語言的文本的能力。
目前,針對英文大語言模型已經(jīng)有較為完善的評測方式,如2021年由Dan Hendrycks等人發(fā)布的MMLU。然而,針對中文大語言模型能力的測試仍然缺失,推出高質(zhì)量中文評測數(shù)據(jù)集已經(jīng)迫在眉睫。
于是,甲骨易AI研究院制作了一個(gè)大規(guī)模的多任務(wù)測試數(shù)據(jù)集——“超越”(Massive Multitask Chinese Understanding)?!俺健钡囊饬x是希望中文大語言模型“超”出多數(shù)模型只能基于英文數(shù)據(jù)集測試的現(xiàn)狀,通過發(fā)現(xiàn)大模型的缺陷,從而促進(jìn)大模型理解中文語言的能力,使其“越”來越強(qiáng)大。
“超越”所包含的題目由來自不同知識分支的單項(xiàng)和多項(xiàng)選擇題組成。數(shù)據(jù)集中的問題是由專業(yè)人員從公開免費(fèi)資源中收集,覆蓋學(xué)科面廣,專業(yè)知識難度高,適合用來評估大模型的綜合能力。
為了測試數(shù)據(jù)集的可行性和效果,甲骨易AI研究院在正式公開前已經(jīng)使用其對目前開源的大模型進(jìn)行了評測?!俺健睌?shù)據(jù)集預(yù)計(jì)于2023年5月20日正式公開發(fā)布獲取方式,具體發(fā)布相關(guān)信息詳見文末。
接下來,將對“超越”數(shù)據(jù)集(MMCU)中所收錄的題目進(jìn)行介紹,并基于測試結(jié)果分析數(shù)據(jù)在語言模型訓(xùn)練過程中的重要性。
多任務(wù)測試
“超越”數(shù)據(jù)集(MMCU)的測試內(nèi)容來自醫(yī)療、法律、心理學(xué)和教育四個(gè)大類的題目,包含單項(xiàng)選擇和多項(xiàng)選擇題,目的旨在使測試過程中模型更接近人類考試的方式。
數(shù)據(jù)集共收集了11900個(gè)問題,將其分成 few-shot開發(fā)集和一個(gè)測試集。few-shot開發(fā)集每個(gè)主題有5個(gè)問題,共有55個(gè)問題;測試集共有11845個(gè)問題。
下面分別對不同領(lǐng)域測試題目的學(xué)科和子任務(wù)示例進(jìn)行展示。
醫(yī)療
醫(yī)療類題目來自大學(xué)醫(yī)學(xué)專業(yè)考試,包括醫(yī)學(xué)三基、藥理學(xué)、護(hù)理學(xué)、病理學(xué)、臨床醫(yī)學(xué)、傳染病學(xué)、外科學(xué)、解剖學(xué)等,共有2819個(gè)問題。
示例:
首次急性發(fā)作的腰椎間盤突出的治療方法首選:
A. 絕對臥床休息,3 周后戴腰圍下床活動
B. 臥床休息,可以站立坐起
C. 皮質(zhì)類固醇硬膜外注射
D. 髓核化學(xué)溶解
法律
法律類題目來自國家統(tǒng)一法律職業(yè)資格考試,包括中國特色社會主義法治理論、憲法、中國法律史、國際法、刑法、民法、知識產(chǎn)權(quán)法、商法、經(jīng)濟(jì)法、勞動與社會保障法等,共有3695個(gè)問題。
示例:
根據(jù)法律規(guī)定,下列哪一種社會關(guān)系應(yīng)由民法調(diào)整?
A. 甲請求稅務(wù)機(jī)關(guān)退還其多繳的個(gè)人所得稅
B. 乙手機(jī)丟失后發(fā)布尋物啟事稱:“拾得者送還手機(jī),本人當(dāng)面酬謝”
C. 丙對女友書面承諾:“如我在上海找到工作,則陪你去歐洲旅游”
D. 丁作為青年志愿者,定期去福利院做幫工
心理學(xué)
心理學(xué)類題目來自心理咨詢師考試和研究生入學(xué)考試心理學(xué)專業(yè)基礎(chǔ)綜合考試,包括心理學(xué)概論、人格與社會心理學(xué)、發(fā)展心理學(xué)、心理咨詢概論、心理評估、咨詢方法等,共有2000個(gè)問題。
示例:
把與自己本無關(guān)系的事情認(rèn)為有關(guān),這種臨床表現(xiàn)最可能出現(xiàn)于:
A. 被害妄想
B. 鐘情妄想
C. 關(guān)系妄想
D. 夸大妄想
教育
教育學(xué)題目來自中國普通高等學(xué)校招生全國統(tǒng)一考試(中國高考),包括語文、數(shù)學(xué)、物理、化學(xué)、政治、歷史、地理、生物,共有3331個(gè)問題。
示例:
若圓錐的側(cè)面積等于其底面積的3倍,則該圓錐側(cè)面展開圖所對應(yīng)扇形圓心角的度數(shù)為( )。
A. 60°
B. 90°
C. 120°
D. 180°
評測過程
依靠以上獲取到的優(yōu)質(zhì)數(shù)據(jù),可以開始對大模型的能力評測。下面將介紹本次評測的一些模型和評測方式。
評測模型:
Bloom系列:bloomz_560m、bloomz_1b1、bloomz_3b、bloomz_7b1_mt
清華大學(xué)知識工程和數(shù)據(jù)挖掘小組:ChatGLM 6B
復(fù)旦大學(xué):MOSS 16B
OpenAI:GPT-3.5-turbo
評測方式:zero-shot和few-shot
zero-shot模式:題目直接輸入到模型以獲取答案并計(jì)算準(zhǔn)確率。
few-shot模式:先給模型提供5個(gè)問題和答案的例子,再附上問題讓模型給出答案。
評測結(jié)果
通過比較各個(gè)模型的 zero-shot準(zhǔn)確率(如圖1和表1),GPT-3.5-turbo在四個(gè)領(lǐng)域的正確率都遙遙領(lǐng)先;MOSS 16B模型雖然有160億參數(shù),但準(zhǔn)確率卻只接近隨機(jī)準(zhǔn)確率(大約25%);bloomz_560m 模型的參數(shù)量最小,表現(xiàn)卻超越了參數(shù)量更大的模型。評測結(jié)果體現(xiàn)了大模型的參數(shù)量不是評價(jià)大模型的唯一標(biāo)準(zhǔn),在訓(xùn)練過程中數(shù)據(jù)的質(zhì)量也應(yīng)得到重視。
測試結(jié)果還表明,所有模型在few-shot模式下都有不同程度的性能下降。例如,與 zero-shot 準(zhǔn)確率相比,GPT-3.5-turbo 在語文、化學(xué)、政治子任務(wù)上的few-shot 準(zhǔn)確率都有下降(見表2和表3)。
表2 所有模型在教育子任務(wù)上的few-shot準(zhǔn)確率
表3 所有模型在教育子任務(wù)上的zero-shot準(zhǔn)確率
結(jié)論
大模型訓(xùn)練通常采用海量互聯(lián)網(wǎng)公開數(shù)據(jù),因此數(shù)據(jù)高效篩選以及垂直領(lǐng)域高質(zhì)量數(shù)據(jù)的標(biāo)注也非常重要。通過測試發(fā)現(xiàn),在四大領(lǐng)域中,所有模型的平均zero-shot的準(zhǔn)確率均未超過0.5,這就證明了目前所有模型的中文訓(xùn)練數(shù)據(jù)還存在明顯不足。
測試的結(jié)果表明,更大的模型參數(shù)量不一定帶來更好的性能,而訓(xùn)練方式和所用數(shù)據(jù)質(zhì)量也是至關(guān)重要的,需要得到更多的重視。研究者們應(yīng)該考慮如何設(shè)計(jì)更好的建模方式以便更好地學(xué)習(xí)文本數(shù)據(jù)中蘊(yùn)含的知識,并且思考如何準(zhǔn)備或者標(biāo)注優(yōu)質(zhì)的數(shù)據(jù)集,去使中文大模型獲得更準(zhǔn)確的理解能力和文本生成能力。
寫在最后
綜上,就目前而言,用于評測大模型的高質(zhì)量中文數(shù)據(jù)集仍是稀缺資源,但行業(yè)內(nèi)卻亟需一種公開、科學(xué)的方式來測試大模型的能力。甲骨易AI研究院率先提出要制作出一套高質(zhì)量的中文數(shù)據(jù)集,并迅速搜集整合數(shù)據(jù)資源完成了“超越”數(shù)據(jù)集,成為國內(nèi)首家制作中文專門領(lǐng)域多任務(wù)數(shù)據(jù)集的研究單位。
甲骨易AI研究院致力于推動計(jì)算機(jī)信息科技與自然語言處理領(lǐng)域的發(fā)展,希望擴(kuò)大中文語言在大模型中的應(yīng)用,促進(jìn)中文大語言模型的理解力與生成力?!俺健睌?shù)據(jù)集(MMCU)正是為了幫助每一位正在LLMs和NLP方向研究的學(xué)者、專家以及工程師,攜手促進(jìn)中文大語言模型向著更準(zhǔn)確、更智能、更優(yōu)質(zhì)的方向發(fā)展。后續(xù),甲骨易AI研究院也依舊會根據(jù)反饋持續(xù)優(yōu)化“超越”數(shù)據(jù)集。
甲骨易AI研究院預(yù)計(jì)于2023年5月20日14點(diǎn)甲骨易第三空間舉辦“超越”數(shù)據(jù)集發(fā)布會,我們誠摯地邀請您蒞臨。
如果您對本次發(fā)布會和“超越”測試集感興趣,可通過郵箱:oder@besteasy.com聯(lián)系我們。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 預(yù)登記火熱進(jìn)行中!NEPCON ASIA 2024亞洲電子展匯聚“新”光,11月6-8日與您共同點(diǎn)亮電子制造新未來!
- 近千億市場開卷!AutoDisplay Week 2024車載顯示產(chǎn)業(yè)周開放注冊!
- 20+后視鏡熱門議題來襲,AutoCMS 2024中國汽車電子后視鏡CMS大會火熱報(bào)名中 ~~
- 2024中國軟件技術(shù)大會
- 開展在即!熱門展區(qū)、創(chuàng)新論壇、高效采配、創(chuàng)客碰撞,10月邀您共聚慕尼黑華南電子展!
- 1000+參會名單揭曉!2024 SMM(第十三屆)金屬產(chǎn)業(yè)年會報(bào)名倒計(jì)時(shí)!
- 綠色、高效、智能:京東云算力基礎(chǔ)設(shè)施的可持續(xù)發(fā)展之道
- 聚焦行業(yè)趨勢,拓展商業(yè)視野 2025江蘇國際泵閥管道展覽會
- 2025中國(鄭州)國際太陽能照明產(chǎn)業(yè)博覽會
- 2025中國(鄭州)國際連接器及線纜、線束產(chǎn)業(yè)博覽會
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。