近日,山海大模型完成新一輪迭代升級,并在最新的OpenCompass大模型評測中取得綜合性中英文雙語客觀評測得分53.6、綜合性中文主觀評測得分42.2的優(yōu)異成績,在參與測評的全球大模型廠商中排名第六。評測結果顯示,其在中英文雙語客觀評測中的語言、知識、推理能力,在綜合性中文主觀評測中的創(chuàng)作能力已超越GPT-4。
綜合性中英文雙語客觀評測排名
綜合性中文主觀評測排名
作為上海人工智能實驗室開源的大模型評測體系,OpenCompass致力于探索最先進的語言與視覺模型,為工業(yè)界和研究社區(qū)提供全面、客觀、中立的評測參考,從而根據不同能力維度的評測分數(shù)指導大模型的優(yōu)化與進步。
OpenCompass 月度榜單從基礎能力和綜合能力的設計出發(fā),構造了一套高質量的中英文雙語評測基準,涵蓋語言與理解、常識與邏輯推理、數(shù)學計算與應用、多編程語言代碼能力、智能體、創(chuàng)作與對話六個方面二十余項細分任務,力圖對近期的主流開源模型和商業(yè) API 模型進行全面評測分析。
此次榜單囊括了國內外 40 個大語言模型,評測數(shù)據集采用中英文閉源數(shù)據集,包括綜合性中文主觀評測和綜合性中英文雙語客觀評測。云知聲山海大模型綜合性中英文雙語客觀評測得分53.6,綜合性中文主觀評測得分42.2,排名國產大模型廠商第四、全球大模型廠商第六。從各項數(shù)據看,其在語言、知識、推理、創(chuàng)作等方面表現(xiàn)優(yōu)異,顯現(xiàn)出強勁的綜合實力。
綜合性中英文雙語客觀評測得分
綜合性中文主觀評測得分
而山海大模型之所以能夠在眾多大模型中脫穎而出,得益于其在技術上的一系列創(chuàng)新和優(yōu)化——在本次大模型升級中,云知聲引入了自我演進偏好學習技術,使得大模型能夠通過自我對弈微調(SPIN)實現(xiàn)自我提升。在高質量數(shù)據生成方面,云知聲結合RLHF和RLAIF方法,生成大量偏好數(shù)據,并采用k-Center Greedy算法確保數(shù)據的多樣性和覆蓋度。此外,云知聲還建立了一個全面的自動化評測體系,以此實現(xiàn)對模型效果的快速評測,進而支持大模型的迭代和優(yōu)化。
自2023年5月發(fā)布以來,山海大模型始終保持高速迭代,其在C-Eval全球大模型綜合性評測、CCKS 2023醫(yī)療大模型評測等權威賽事上屢獲佳績,展現(xiàn)出全面的通用能力和卓越的專業(yè)能力,成功躋身大模型第一梯隊。此次評測,是山海大模型出色實力的又一次印證,也將鞭策其繼續(xù)加速迭代,持續(xù)引領大模型研發(fā)與落地。
作為中國AGI技術產業(yè)化的先行者,云知聲于2016年開始打造Atlas人工智能基礎設施,并以此為基礎,構建云知大腦(UniBrain)技術中臺——以山海(UniGPT)通用認知大模型為核心,結合多模態(tài)感知與生成、知識圖譜、物聯(lián)平臺等智能組件,為云知聲智慧物聯(lián)、智慧醫(yī)療、智慧交通等業(yè)務提供高效的產品化支撐,持續(xù)推動“U(云知大腦)+X(應用場景)”戰(zhàn)略布局。
云知聲全棧AGI技術與產業(yè)化布局
山海大模型作為云知大腦的核心,其能力體系涵蓋語言生成、語言理解、知識問答、 邏輯推理、代碼能力、數(shù)學能力等。此外,為提高大模型在具體場景的應用落地水平,山海大模型在通用能力基礎上,增強物聯(lián)、醫(yī)療、交通等行業(yè)能力,致力為客戶提供更智能、更靈活的解決方案,加速千行百業(yè)的智慧化升級。
目前,云知聲正依托山海大模型技術能力的加速迭代,逐步深入到智慧醫(yī)療、智慧座艙、智慧軌交、智慧政務等具體場景,不斷釋放AGI的更多可能。
在智慧醫(yī)療領域,云知聲基于山海大模型打造的門診病歷生成系統(tǒng)已落地北京友誼醫(yī)院,有效提升了病歷撰寫效率與質量;在智慧政務領域,云知聲率先開發(fā)出深圳首個政務大模型“龍知政”,全場景賦能提升政府治理水平;在智慧座艙領域,云知聲通過山海大模型賦能吉利睿藍汽車打造情感型虛擬助手,為用戶帶來全車全場景的情感化智能交互體驗;在智慧軌交場景,云知聲山海大模型“入駐”南寧火車東站,打造更具人性化的智能客服,助力實現(xiàn)換乘節(jié)點無縫高效換乘,為乘客帶來更快捷、更便利的出行體驗,相關案例也于近期被央視《焦點訪談》欄目報道。
隨著大模型技術的不斷進步和創(chuàng)新,我們有理由相信,世界將變得更加智能和互聯(lián)。我們期待,山海大模型能夠實現(xiàn)更多新的突破,開辟更廣更深的技術邊界,拓展更多尚未觸及的應用場景。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )