阿里云通義千問(wèn)開(kāi)源72B、1.8B兩款大語(yǔ)言模型 并首度開(kāi)源音頻大模型

12月1日消息,阿里云宣布開(kāi)源通義千問(wèn)720億參數(shù)模型Qwen-72B。Qwen-72B在10個(gè)權(quán)威基準(zhǔn)測(cè)評(píng)創(chuàng)下開(kāi)源模型最優(yōu)成績(jī),成為業(yè)界最強(qiáng)開(kāi)源大模型,性能超越開(kāi)源標(biāo)桿Llama 2-70B和大部分商用閉源模型。未來(lái),企業(yè)級(jí)、科研級(jí)的高性能應(yīng)用,也有了開(kāi)源大模型這一選項(xiàng)。

通義千問(wèn)還開(kāi)源了18億參數(shù)模型Qwen-1.8B和音頻大模型Qwen-Audio。至此,通義千問(wèn)共開(kāi)源18億、70億、140億、720億參數(shù)的4款大語(yǔ)言模型,以及視覺(jué)理解、音頻理解兩款多模態(tài)大模型,實(shí)現(xiàn)“全尺寸、全模態(tài)”開(kāi)源。

業(yè)界最強(qiáng)開(kāi)源模型,填補(bǔ)中國(guó)LLM開(kāi)源領(lǐng)域空白

Qwen-72B基于3T tokens高質(zhì)量數(shù)據(jù)訓(xùn)練,延續(xù)通義千問(wèn)預(yù)訓(xùn)練模型一貫以來(lái)的強(qiáng)勢(shì)表現(xiàn),在10個(gè)權(quán)威基準(zhǔn)測(cè)評(píng)中奪得開(kāi)源模型最優(yōu)成績(jī),在部分測(cè)評(píng)中超越閉源的GPT-3.5和GPT-4。
英語(yǔ)任務(wù)上,Qwen-72B在MMLU基準(zhǔn)測(cè)試取得開(kāi)源模型最高分;中文任務(wù)上,Qwen-72B霸榜C-Eval、CMMLU、GaokaoBench等基準(zhǔn),得分超越GPT-4;數(shù)學(xué)推理方面,Qwen-72B在GSM8K、MATH測(cè)評(píng)中斷層式領(lǐng)先其他開(kāi)源模型;代碼理解方面,Qwen-72B在HumanEval、MBPP等測(cè)評(píng)中的表現(xiàn)大幅提升,代碼能力有了質(zhì)的飛躍。

在10大權(quán)威測(cè)評(píng)中,通義千問(wèn)720億參數(shù)模型獲得開(kāi)源模型最優(yōu)成績(jī)

通義千問(wèn)720億開(kāi)源模型部分成績(jī)超越閉源的GPT-3.5和GPT-4

Qwen-72B可以處理最多32k的長(zhǎng)文本輸入,在長(zhǎng)文本理解測(cè)試集LEval上取得了超越ChatGPT-3.5-16k的效果。研發(fā)團(tuán)隊(duì)優(yōu)化了Qwen-72B的指令遵循、工具使用等技能,使之能更好地被下游應(yīng)用集成。比如,Qwen-72B搭載了強(qiáng)大的系統(tǒng)指令(System Prompt)能力,用戶只用一句提示詞就可定制AI助手,要求大模型扮演某個(gè)角色或者執(zhí)行特定的回復(fù)任務(wù)。

用戶僅用一句提示詞就可創(chuàng)建自己的AI助手

此前,中國(guó)大模型市場(chǎng)還沒(méi)出現(xiàn)足以對(duì)標(biāo)Llama 2-70B的優(yōu)質(zhì)開(kāi)源模型。Qwen-72B填補(bǔ)了國(guó)內(nèi)空白,以高性能、高可控、高性價(jià)比的優(yōu)勢(shì),提供不亞于商業(yè)閉源大模型的選擇?;赒wen-72B,大中型企業(yè)可開(kāi)發(fā)商業(yè)應(yīng)用,高校、科研院所可開(kāi)展AI for Science等科研工作。

發(fā)布會(huì)上的另一開(kāi)源模型Qwen-1.8B是目前尺寸最小的中國(guó)開(kāi)源大模型,推理2K長(zhǎng)度文本內(nèi)容僅需3G顯存,可在消費(fèi)級(jí)終端部署。

從18億、70億、140億到720億參數(shù)規(guī)模,通義千問(wèn)成為業(yè)界首個(gè)“全尺寸開(kāi)源”的大模型。用戶可在魔搭社區(qū)直接體驗(yàn)Qwen系列模型效果,也可通過(guò)阿里云靈積平臺(tái)調(diào)用模型API,或基于阿里云百煉平臺(tái)定制大模型應(yīng)用。阿里云人工智能平臺(tái)PAI針對(duì)通義千問(wèn)全系列模型進(jìn)行深度適配,推出了輕量級(jí)微調(diào)、全參數(shù)微調(diào)、分布式訓(xùn)練、離線推理驗(yàn)證、在線服務(wù)部署等服務(wù)。

此外,阿里云還首次開(kāi)源音頻理解大模型Qwen-Audio。Qwen-Audio能夠感知和理解人聲、自然聲、動(dòng)物聲、音樂(lè)聲等各類語(yǔ)音信號(hào)。用戶可以輸入一段音頻,要求模型給出對(duì)音頻的理解,甚至基于音頻進(jìn)行文學(xué)創(chuàng)作、邏輯推理、故事續(xù)寫等等。音頻理解能夠賦予大模型接近人類的聽(tīng)覺(jué)能力。

據(jù)介紹,阿里云是國(guó)內(nèi)最早開(kāi)源自研大模型的科技企業(yè),8月以來(lái)開(kāi)源了Qwen-7B、Qwen-14B和視覺(jué)理解模型Qwen-VL。幾款模型先后沖上HuggingFace、Github大模型榜單,得到中小企業(yè)和個(gè)人開(kāi)發(fā)者的青睞,累計(jì)下載量超過(guò)150萬(wàn),催生出150多款新模型、新應(yīng)用。發(fā)布會(huì)現(xiàn)場(chǎng),多位開(kāi)發(fā)者伙伴現(xiàn)身說(shuō)法,分享了他們用Qwen開(kāi)發(fā)專屬模型和特定應(yīng)用的實(shí)踐。

阿里云CTO周靖人表示,開(kāi)源生態(tài)對(duì)促進(jìn)中國(guó)大模型的技術(shù)進(jìn)步與應(yīng)用落地至關(guān)重要,通義千問(wèn)將持續(xù)投入開(kāi)源,希望成為“AI時(shí)代最開(kāi)放的大模型”,與伙伴們共同促進(jìn)大模型生態(tài)建設(shè)。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2023-12-01
阿里云通義千問(wèn)開(kāi)源72B、1.8B兩款大語(yǔ)言模型 并首度開(kāi)源音頻大模型
12月1日消息,阿里云宣布開(kāi)源通義千問(wèn)720億參數(shù)模型Qwen-72B。

長(zhǎng)按掃碼 閱讀全文