千億參數(shù)大模型再突破,數(shù)據(jù)質(zhì)量為何是關(guān)鍵?

“模型誠(chéng)可貴,算力價(jià)格高?!?-百模大戰(zhàn)的硝煙尚未散去,算力緊缺的呼聲似猶在耳。

如今,哪怕強(qiáng)如OpenAI也會(huì)處于算力緊缺的狀態(tài)。這也衍生出產(chǎn)業(yè)界共同的挑戰(zhàn):即當(dāng)算力資源愈發(fā)寶貴時(shí),如何在同等算力當(dāng)量的情況下,更高效地訓(xùn)練模型,進(jìn)而獲得更好的模型精度和更好的智能涌現(xiàn)效果。

目前看,在“預(yù)訓(xùn)練+微調(diào)”成為大模型發(fā)展新范式的趨勢(shì)下,數(shù)據(jù)層面的創(chuàng)新正變得愈發(fā)關(guān)鍵。事實(shí)上,OpenAI CEO Sam Altman去年就強(qiáng)調(diào),增加大模型的參數(shù)量不再是提升大模型能力的最有效手段,大規(guī)模、高質(zhì)量數(shù)據(jù)和數(shù)據(jù)高效處理工程化才是關(guān)鍵。

無(wú)獨(dú)有偶,國(guó)內(nèi)以源2.0為代表的大模型亦走在數(shù)據(jù)創(chuàng)新的最前沿,通過(guò)數(shù)據(jù)質(zhì)量的提升,讓算力、算法、數(shù)據(jù)三位一體產(chǎn)生更好的化學(xué)反應(yīng),從而驅(qū)動(dòng)基礎(chǔ)大模型的創(chuàng)新普惠。

數(shù)據(jù)質(zhì)量:大模型的短板

數(shù)據(jù)質(zhì)量正成為千億參數(shù)大模型的巨大短板。

OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型遵循“伸縮法則”(scaling law),即獨(dú)立增加訓(xùn)練數(shù)據(jù)量、模型參數(shù)規(guī)?;蛘哐娱L(zhǎng)模型訓(xùn)練時(shí)間,預(yù)訓(xùn)練模型的效果會(huì)越來(lái)越好。

但從GPT4起,情況開(kāi)始發(fā)生變化。OpenAI GPT3.5 從基于預(yù)訓(xùn)練的范式下開(kāi)展轉(zhuǎn)向“預(yù)訓(xùn)練+微調(diào)”的范式,微調(diào)的重要性愈發(fā)突出,在這種新的情況下,是否依舊還是我們投入的算力規(guī)模越大,模型的效果就越好?我們投入的數(shù)據(jù)規(guī)模越大,模型效果就越好?

答案顯然是否定且值得需重新思考的。高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)集對(duì)于提高模型精度、可解釋性和減少訓(xùn)練時(shí)長(zhǎng)大有裨益。正如著名人工智能專家吳恩達(dá)所言,AI發(fā)展正在從“以模型為中心”加速轉(zhuǎn)向“以數(shù)據(jù)為中心”,高質(zhì)量的訓(xùn)練數(shù)據(jù)集決定著模型的精度與表現(xiàn)。

因此,數(shù)據(jù)層面需要適應(yīng)“預(yù)訓(xùn)練+微調(diào)”范式下不同階段的需求,追求數(shù)據(jù)質(zhì)量將會(huì)成為所有大模型接下來(lái)的重點(diǎn)。

但數(shù)據(jù)質(zhì)量的提升絕非易事,尤其是高質(zhì)量數(shù)據(jù)的匱乏可能成為一種常態(tài)。以GPT3為例,其開(kāi)發(fā)文檔顯示,45TB純文本數(shù)據(jù)經(jīng)過(guò)質(zhì)量過(guò)濾之后獲得570GB文本,有效數(shù)據(jù)僅僅只有1.27%;同樣,浪潮信息在源2.0的訓(xùn)練中,清洗了12PB規(guī)模的原始網(wǎng)頁(yè)數(shù)據(jù),最后提取跟數(shù)學(xué)相關(guān)的數(shù)據(jù)僅僅只有10GB不到。

眾所周知,高質(zhì)量數(shù)據(jù)可以帶來(lái)更好的模型性能,包括推理能力,但高質(zhì)量數(shù)據(jù)也將在未來(lái)一段時(shí)間消耗殆盡。根據(jù)《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》預(yù)測(cè),語(yǔ)言數(shù)據(jù)將于 2030~2040 年耗盡,其中能訓(xùn)練出更好性能的高質(zhì)量語(yǔ)言數(shù)據(jù)將于 2026 年耗盡。此外,視覺(jué)數(shù)據(jù)將于 2030~2060 年耗盡。

如何在數(shù)據(jù)層面彌補(bǔ)大模型發(fā)展的短板?此時(shí)此刻,增加數(shù)據(jù)來(lái)源,采用數(shù)據(jù)增強(qiáng)以及合成數(shù)據(jù)的新技術(shù)方法,逐漸成為牽引數(shù)據(jù)質(zhì)量提升的關(guān)鍵所在。

提升數(shù)據(jù)質(zhì)量:突破的鑰匙

高質(zhì)量數(shù)據(jù)是大模型能力躍遷的關(guān)鍵鑰匙。

要想獲得高質(zhì)量數(shù)據(jù),首先需要讓多樣性數(shù)據(jù)比例更加合理。過(guò)去,大模型的訓(xùn)練往往過(guò)于依賴互聯(lián)網(wǎng)數(shù)據(jù),書(shū)籍、科學(xué)論文等專業(yè)語(yǔ)言數(shù)據(jù)占比較少。但互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量往往低于書(shū)籍、科學(xué)論文等更專業(yè)的語(yǔ)言數(shù)據(jù),增加專業(yè)數(shù)據(jù)占比就成為提升數(shù)據(jù)質(zhì)量的一大關(guān)鍵路徑。

事實(shí)上,國(guó)家也意識(shí)到增加專業(yè)數(shù)據(jù)集對(duì)于發(fā)展大模型的重要價(jià)值。最新的《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024—2026年)》就明確指出以科學(xué)數(shù)據(jù)支持大模型開(kāi)發(fā),深入挖掘各類科學(xué)數(shù)據(jù)和科技文獻(xiàn),建設(shè)高質(zhì)量語(yǔ)料庫(kù)和基礎(chǔ)科學(xué)數(shù)據(jù)集,支持開(kāi)展人工智能大模型開(kāi)發(fā)和訓(xùn)練。

對(duì)于大模型廠商而言,增加百科、書(shū)籍、期刊等高質(zhì)量數(shù)據(jù)的比重已是大勢(shì)所趨。浪潮信息也是最早有意識(shí)增加高質(zhì)量數(shù)據(jù)來(lái)源的廠商之一,其源 2.0大模型有意識(shí)地減少互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)集,增加百科、書(shū)籍、期刊等高質(zhì)量數(shù)據(jù),同時(shí)引入代碼和數(shù)學(xué)數(shù)據(jù),甚至針對(duì)120PB海量規(guī)模的社群數(shù)據(jù)也進(jìn)行有針對(duì)性的清洗和提純,從而達(dá)到廣泛增加高質(zhì)量數(shù)據(jù)的目的。

另外,考慮到中國(guó)人工智能領(lǐng)域數(shù)據(jù)供給產(chǎn)業(yè)生態(tài)不完善、獲取成本高等真實(shí)情況,利用人工方式來(lái)獲得高質(zhì)量數(shù)據(jù)的的方式就像“刀耕火種”,成本高昂且效率低下,對(duì)于很多大模型猶如杯水車薪。因此,采用技術(shù)手段自動(dòng)合成數(shù)據(jù)的方法成為彌補(bǔ)高質(zhì)量數(shù)據(jù)不足的重要手段。

所謂生成數(shù)據(jù),即通過(guò)大模型生成新的數(shù)據(jù),補(bǔ)充模型訓(xùn)練中真實(shí)數(shù)據(jù)的不足。Gartner就預(yù)測(cè),2024 年用于訓(xùn)練大模型的數(shù)據(jù)中有60%將是合成數(shù)據(jù),到2030年大模型使用的絕大部分?jǐn)?shù)據(jù)將由人工智能合成。

OpenAI GPT-4就非??粗睾铣蓴?shù)據(jù),其技術(shù)文檔中重點(diǎn)提到生成數(shù)據(jù)在訓(xùn)練中關(guān)鍵作用。目前,合成數(shù)據(jù)在自動(dòng)駕駛、金融欺詐、醫(yī)療等場(chǎng)景有著巨大需求。

在國(guó)內(nèi),目前真正使用合成數(shù)據(jù)的大模型相對(duì)較少。其中,源2.0大模型是注重合成數(shù)據(jù)的代表,已通過(guò)豐富實(shí)踐形成了一套數(shù)據(jù)構(gòu)建的方法論,實(shí)現(xiàn)利用大模型的數(shù)據(jù)生產(chǎn)及過(guò)濾方法,在保證數(shù)據(jù)多樣性的同時(shí),在每一個(gè)類別上提升數(shù)據(jù)質(zhì)量,從而獲取高質(zhì)量的訓(xùn)練數(shù)據(jù)。

綜合來(lái)看,AGI絕不僅僅局限在語(yǔ)言與文字,發(fā)展多模態(tài)大模型已經(jīng)成為大勢(shì)所趨,無(wú)疑會(huì)進(jìn)一步加大構(gòu)建高質(zhì)量數(shù)據(jù)集的難度,通過(guò)擴(kuò)大真實(shí)數(shù)據(jù)來(lái)源、構(gòu)建高質(zhì)量的合成數(shù)據(jù)集在未來(lái)會(huì)越來(lái)越重要。

開(kāi)源+共訓(xùn):大模型高質(zhì)量發(fā)展的關(guān)鍵

經(jīng)歷了2023年的百模大戰(zhàn),高質(zhì)量發(fā)展已成為大模型產(chǎn)業(yè)界的共識(shí)。

事實(shí)上,在算力資源、高質(zhì)量數(shù)據(jù)資源日趨寶貴的今天,我們?cè)僖膊荒芟萑胫貜?fù)造輪子的商業(yè)陷阱了,大模型走向開(kāi)源+共訓(xùn)符合未來(lái)的高質(zhì)量發(fā)展需求。

以數(shù)據(jù)層面為例,IDC預(yù)測(cè),到2025年中國(guó)有望成為全球最大的數(shù)據(jù)圈。但國(guó)內(nèi)開(kāi)源意識(shí)不足,數(shù)據(jù)開(kāi)放程度依然較低,雖然已有不少企業(yè)與科研機(jī)構(gòu)構(gòu)建了開(kāi)源數(shù)據(jù)集,但與我國(guó)整體數(shù)據(jù)龐大體量相比顯得極為渺小。而通過(guò)開(kāi)源開(kāi)放的生態(tài),有利于帶動(dòng)高質(zhì)量數(shù)據(jù)集的利用效率,提升模型泛化應(yīng)用能力。

當(dāng)下,浪潮信息的源2.0是“開(kāi)源+共訓(xùn)路線”的堅(jiān)定實(shí)踐者。去年11月,浪潮信息正式發(fā)布源2.0基礎(chǔ)大模型,包括1026億、518億、21億等三種參數(shù)規(guī)模的模型,在編程、推理、邏輯等方面展示出了先進(jìn)的能力,并且宣布全面開(kāi)源。據(jù)相關(guān)數(shù)據(jù)統(tǒng)計(jì),源大模型的開(kāi)放數(shù)據(jù)集目前已經(jīng)被國(guó)內(nèi)50家大模型所采用。

據(jù)悉,浪潮信息在“源2.0”的研發(fā)過(guò)程中,針對(duì)算法、數(shù)據(jù)和計(jì)算方面進(jìn)行了創(chuàng)新,包括新型的注意力算法結(jié)構(gòu)、數(shù)據(jù)合成方法、非均勻流水并行策略等,并采取開(kāi)源+共訓(xùn)模式,將產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)有效串聯(lián)起來(lái),實(shí)現(xiàn)整個(gè)產(chǎn)業(yè)的快速協(xié)同發(fā)展,為國(guó)內(nèi)大模型高質(zhì)量發(fā)展開(kāi)辟了一條有效路徑。

例如,浪潮信息接下來(lái)會(huì)圍繞開(kāi)源社區(qū),廣泛收集開(kāi)發(fā)者需求推動(dòng)大模型能力與實(shí)際應(yīng)用場(chǎng)景的適配,加速大模型在不同行業(yè)、場(chǎng)景中的商業(yè)化落地。

總體來(lái)看,AGI時(shí)代的奇點(diǎn)已經(jīng)由大模型開(kāi)啟,但大模型“大力出奇跡”的時(shí)代已經(jīng)結(jié)束。正如一句與數(shù)據(jù)相關(guān)的名言:Garbage in,Garbage out,數(shù)據(jù)質(zhì)量的高低也是大模型高質(zhì)量發(fā)展的關(guān)鍵所在。面向未來(lái),開(kāi)源+共訓(xùn)有利于大模型匯聚包括算法、數(shù)據(jù)等在內(nèi)的技術(shù)創(chuàng)新力量,形成創(chuàng)新與成長(zhǎng)的土壤,真正激發(fā)大模型無(wú)窮的能力。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-01-15
千億參數(shù)大模型再突破,數(shù)據(jù)質(zhì)量為何是關(guān)鍵?
千億參數(shù)大模型再突破,數(shù)據(jù)質(zhì)量為何是關(guān)鍵?

長(zhǎng)按掃碼 閱讀全文