99精品伊人久久久大香线蕉,亚洲区少妇熟女一区二区,久久精品日韩一区国产二区

百川智能發(fā)布Baichuan 2，文理兼?zhèn)淙骖I(lǐng)先LLaMA 2

人閱讀

2023-09-06 17:36:04

來源：TechWeb.com.cn
相關(guān)關(guān)鍵詞

9月6日消息，在北京市科學(xué)技術(shù)委員會、中關(guān)村科技園區(qū)管理委員會、北京市海淀區(qū)政府的指導(dǎo)下，百川智能召開主題為“百川匯海，開源共贏”的大模型發(fā)布會，中科院院士張鈸親臨現(xiàn)場并發(fā)表致辭。會上，百川智能宣布正式開源微調(diào)后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat與其4bit量化版本，并且均為免費(fèi)可商用。

百川智能此次還開源了模型訓(xùn)練的Check Point，并宣布將發(fā)布 Baichuan 2 技術(shù)報告，詳細(xì)介紹Baichuan 2 的訓(xùn)練細(xì)節(jié)，幫助大模型學(xué)術(shù)機(jī)構(gòu)、開發(fā)者和企業(yè)用戶更深入的了解其訓(xùn)練過程，更好地推動大模型學(xué)術(shù)研究和社區(qū)的技術(shù)發(fā)展。

Baichuan 2下載地址：https://github.com/baichuan-inc/Baichuan2

文理兼?zhèn)湫阅軆?yōu)異，全面領(lǐng)先 LlaMA2

Baichuan 2-7B-Base 和 Baichuan 2-13B-Base，均基于 2.6萬億高質(zhì)量多語言數(shù)據(jù)進(jìn)行訓(xùn)練，在保留了上一代開源模型良好的生成與創(chuàng)作能力，流暢的多輪對話能力以及部署門檻較低等眾多特性的基礎(chǔ)上，兩個模型在數(shù)學(xué)、代碼、安全、邏輯推理、語義理解等能力有顯著提升。其中Baichuan 2-13B-Base相比上一代13B模型，數(shù)學(xué)能力提升49%，代碼能力提升46%，安全能力提升37%，邏輯推理能力提升25%，語義理解能力提升15%。

本次開源的兩個模型在各大評測榜單上的表現(xiàn)優(yōu)秀，在MMLU、CMMLU、GSM8K等幾大權(quán)威評估基準(zhǔn)中，以絕對優(yōu)勢領(lǐng)先LLaMA2，相比其他同等參數(shù)量大模型，表現(xiàn)也十分亮眼，性能大幅度優(yōu)于LLaMA2等同尺寸模型競品。

更值得一提的是，根據(jù)MMLU等多個權(quán)威英文評估基準(zhǔn)評分 Baichuan2-7B以70億的參數(shù)在英文主流任務(wù)上與130億參數(shù)量的LLaMA2持平。

7B參數(shù)模型的Benchmark成績

13B參數(shù)模型的Benchmark成績

Baichuan2-7B和Baichuan2-13B不僅對學(xué)術(shù)研究完全開放，開發(fā)者也僅需郵件申請獲得官方商用許可后，即可以免費(fèi)商用。

國內(nèi)首創(chuàng)全程開源模型訓(xùn)練Check Point，助力學(xué)術(shù)研究

大模型訓(xùn)練包含海量高質(zhì)量數(shù)據(jù)獲取、大規(guī)模訓(xùn)練集群穩(wěn)定訓(xùn)練、模型算法調(diào)優(yōu)等多個環(huán)節(jié)。每個環(huán)節(jié)都需要大量人才、算力等資源的投入，從零到一完整訓(xùn)練一個模型的高昂成本，阻礙了學(xué)術(shù)界對大模型訓(xùn)練的深入研究。

本著協(xié)作和持續(xù)改進(jìn)的精神，百川智能本次開源了模型訓(xùn)練從220B到2640B全過程的 Check Ponit。這對于科研機(jī)構(gòu)研究大模型訓(xùn)練過程、模型繼續(xù)訓(xùn)練和模型的價值觀對齊等極具價值，將極大推動國內(nèi)大模型的科研進(jìn)展，開源訓(xùn)練模型過程對國內(nèi)開源生態(tài)尚屬首次。

技術(shù)報告揭示訓(xùn)練細(xì)節(jié)，繁榮開源生態(tài)

當(dāng)前大部分開源模型在開源過程中只是對外公開自身的模型權(quán)重，很少提及訓(xùn)練細(xì)節(jié)，企業(yè)、研究機(jī)構(gòu)、開發(fā)者們只能在開源模型的基礎(chǔ)上做有限的微調(diào)，很難進(jìn)行深入研究。

秉持更開放、更透明的理念，為幫助從業(yè)者深入了解Baichuan 2的訓(xùn)練過程和相關(guān)經(jīng)驗，更好地推動大模型社區(qū)的技術(shù)發(fā)展。百川智能在發(fā)布會上宣布，公開Baichuan 2的技術(shù)報告。技術(shù)報告將詳細(xì)介紹Baichuan 2 訓(xùn)練的全過程，包括數(shù)據(jù)處理、模型結(jié)構(gòu)優(yōu)化、Scaling law、過程指標(biāo)等。報告鏈接：
https://baichuan-paper.oss-cn-beijing.aliyuncs.com/Baichuan2-technical-report.pdf

百川智能自成立之初，就將通過開源方式助力中國大模型生態(tài)繁榮作為公司的重要發(fā)展方向。成立不到四個月，便相繼發(fā)布了Baichuan-7B、Baichuan-13B兩款開源免費(fèi)可商用的中文大模型，以及一款搜索增強(qiáng)大模型Baichuan-53B，兩款開源大模型在多個權(quán)威評測榜單均名列前茅，目前下載量超過500萬次。

不僅如此，在今年創(chuàng)立的大模型公司中，百川智能是唯一一家通過《生成式人工智能服務(wù)管理暫行辦法》備案，可以正式面向公眾提供服務(wù)的企業(yè)。憑借行業(yè)領(lǐng)先的基礎(chǔ)大模型研發(fā)和創(chuàng)新能力，此次開源的兩款Baichuan 2大模型，得到了上下游企業(yè)的積極響應(yīng)，騰訊云、阿里云、火山方舟、華為、聯(lián)發(fā)科等眾多知名企業(yè)均參加了本次發(fā)布會并與百川智能達(dá)成了合作。

未來，百川智能將在開源大模型領(lǐng)域持續(xù)深耕，將更多的技術(shù)能力、前沿創(chuàng)新開放出來，與更多的合作伙伴們共同助力中國大模型生態(tài)蓬勃發(fā)展。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）