Llama 2發(fā)布全球合作伙伴,一家低調(diào)的中國公司上榜

隨著大模型的走進(jìn)公眾視野,為AI領(lǐng)域帶來了前所未有的機(jī)遇,大家期待著通過生成式AI能夠解決更為復(fù)雜的問題,實(shí)現(xiàn)更高層次的智能。近期,Llama 2 發(fā)布的消息更是在AI圈引起了巨大轟動(dòng)。

1690773521454796.jpeg

據(jù)公開資料顯示,Llama 2在數(shù)據(jù)層面,相比上一代不僅使用了更多的訓(xùn)練數(shù)據(jù),而且context length翻倍,達(dá)到4096。值得一提的是,Llama 2在公開測(cè)試基準(zhǔn)上的結(jié)果顯示,其在代碼、常識(shí)推理、世界知識(shí)、閱讀理解、數(shù)學(xué)等評(píng)測(cè)維度的能力均獲得大幅提升。7B版本在很多測(cè)試集上接近甚至有超越30B的MPT模型的表現(xiàn)。

1690773479352420.jpeg

1690773576391620.jpeg

在 Llama 2 官網(wǎng)公布的50余家合作伙伴中,作為唯一的中國企業(yè),海天瑞聲榜上有名,成為 Llama 2 全球合作伙伴。同時(shí),海天瑞聲COO李科及CTO黃宇凱作為 Supporter,支持 Meta AI 的這種開源行為??梢宰屆總€(gè)人都能從這個(gè)技術(shù)中受益良多,并為技術(shù)帶來足夠的透明度、審慎性和可信性。

1690773307438586.jpg

當(dāng)前在中文對(duì)話領(lǐng)域,公開的數(shù)據(jù)集往往量少、分布有偏、價(jià)格昂貴甚至不能商用。導(dǎo)致一些大模型在中文對(duì)話方面的能力,相比英文對(duì)話略遜一籌。尤其是在一些需要比較深的中文語言理解能力的對(duì)話場(chǎng)景,無論開源的還是閉源的大模型,都往往表現(xiàn)不佳。

海天瑞聲正式推出「中文千萬輪對(duì)話語料庫DOTS-NLP-216」。真實(shí)場(chǎng)景采集,符合中文表達(dá)習(xí)慣的自然對(duì)話數(shù)據(jù),將為中文大語言模型(LLM)帶來新動(dòng)能。我們致力于在安全合規(guī)的基礎(chǔ)上,為大模型提供更好的性能和魯棒性,幫助企業(yè)更輕松的構(gòu)建高質(zhì)量生成式AI應(yīng)用。

1690783703313767.jpg

數(shù)據(jù)集優(yōu)勢(shì):

·中文多輪對(duì)話:符合中文表達(dá)習(xí)慣,真實(shí)場(chǎng)景采集的自然對(duì)話

·超大規(guī)模:上億級(jí) token

·立等可?。撼善窋?shù)據(jù)集

·自有版權(quán):安全合規(guī),可授權(quán)商用

數(shù)據(jù)集詳情:

這是一個(gè)符合中國人表達(dá)習(xí)慣的自然對(duì)話數(shù)據(jù)集,共計(jì)約1,0000,000輪,上億級(jí)token,包含正式&非正式風(fēng)格對(duì)話,使用偏口語化自然表達(dá)。覆蓋工作、生活、校園等場(chǎng)景,及金融、教育、娛樂、體育、汽車、科技等領(lǐng)域。

在數(shù)據(jù)集構(gòu)成上,DOTS-NLP-216包含了對(duì)真實(shí)場(chǎng)景的對(duì)話采集,及高度還原真實(shí)場(chǎng)景的模擬對(duì)話這兩種方式,兼顧分布的代表性、多樣性和樣本規(guī)模。

樣例:

1690771935728031.png

據(jù)悉,海天瑞聲近期還發(fā)布了再融資預(yù)案,將建設(shè)不少于10大類型的大模型數(shù)據(jù)集系列產(chǎn)品,用于大語言模型、多模態(tài)大模型的訓(xùn)練和大模型評(píng)測(cè)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )