色欲色香天天天综合网WWW,2015xxx小明永久免费

“模型誠(chéng)可貴，算力價(jià)格高?！?-百模大戰(zhàn)的硝煙尚未散去，算力緊缺的呼聲似猶在耳。

如今，哪怕強(qiáng)如OpenAI也會(huì)處于算力緊缺的狀態(tài)。這也衍生出產(chǎn)業(yè)界共同的挑戰(zhàn)：即當(dāng)算力資源愈發(fā)寶貴時(shí)，如何在同等算力當(dāng)量的情況下，更高效地訓(xùn)練模型，進(jìn)而獲得更好的模型精度和更好的智能涌現(xiàn)效果。

目前看，在“預(yù)訓(xùn)練+微調(diào)”成為大模型發(fā)展新范式的趨勢(shì)下，數(shù)據(jù)層面的創(chuàng)新正變得愈發(fā)關(guān)鍵。事實(shí)上，OpenAI CEO Sam Altman去年就強(qiáng)調(diào)，增加大模型的參數(shù)量不再是提升大模型能力的最有效手段，大規(guī)模、高質(zhì)量數(shù)據(jù)和數(shù)據(jù)高效處理工程化才是關(guān)鍵。

無(wú)獨(dú)有偶，國(guó)內(nèi)以源2.0為代表的大模型亦走在數(shù)據(jù)創(chuàng)新的最前沿，通過(guò)數(shù)據(jù)質(zhì)量的提升，讓算力、算法、數(shù)據(jù)三位一體產(chǎn)生更好的化學(xué)反應(yīng)，從而驅(qū)動(dòng)基礎(chǔ)大模型的創(chuàng)新普惠。

數(shù)據(jù)質(zhì)量：大模型的短板

數(shù)據(jù)質(zhì)量正成為千億參數(shù)大模型的巨大短板。

OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型遵循“伸縮法則”（scaling law），即獨(dú)立增加訓(xùn)練數(shù)據(jù)量、模型參數(shù)規(guī)?；蛘哐娱L(zhǎng)模型訓(xùn)練時(shí)間，預(yù)訓(xùn)練模型的效果會(huì)越來(lái)越好。

但從GPT4起，情況開(kāi)始發(fā)生變化。OpenAI GPT3.5 從基于預(yù)訓(xùn)練的范式下開(kāi)展轉(zhuǎn)向“預(yù)訓(xùn)練+微調(diào)”的范式，微調(diào)的重要性愈發(fā)突出，在這種新的情況下，是否依舊還是我們投入的算力規(guī)模越大，模型的效果就越好？我們投入的數(shù)據(jù)規(guī)模越大，模型效果就越好？

答案顯然是否定且值得需重新思考的。高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)集對(duì)于提高模型精度、可解釋性和減少訓(xùn)練時(shí)長(zhǎng)大有裨益。正如著名人工智能專家吳恩達(dá)所言，AI發(fā)展正在從“以模型為中心”加速轉(zhuǎn)向“以數(shù)據(jù)為中心”，高質(zhì)量的訓(xùn)練數(shù)據(jù)集決定著模型的精度與表現(xiàn)。

因此，數(shù)據(jù)層面需要適應(yīng)“預(yù)訓(xùn)練+微調(diào)”范式下不同階段的需求，追求數(shù)據(jù)質(zhì)量將會(huì)成為所有大模型接下來(lái)的重點(diǎn)。

但數(shù)據(jù)質(zhì)量的提升絕非易事，尤其是高質(zhì)量數(shù)據(jù)的匱乏可能成為一種常態(tài)。以GPT3為例，其開(kāi)發(fā)文檔顯示，45TB純文本數(shù)據(jù)經(jīng)過(guò)質(zhì)量過(guò)濾之后獲得570GB文本，有效數(shù)據(jù)僅僅只有1.27%；同樣，浪潮信息在源2.0的訓(xùn)練中，清洗了12PB規(guī)模的原始網(wǎng)頁(yè)數(shù)據(jù)，最后提取跟數(shù)學(xué)相關(guān)的數(shù)據(jù)僅僅只有10GB不到。

眾所周知，高質(zhì)量數(shù)據(jù)可以帶來(lái)更好的模型性能，包括推理能力，但高質(zhì)量數(shù)據(jù)也將在未來(lái)一段時(shí)間消耗殆盡。根據(jù)《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》預(yù)測(cè)，語(yǔ)言數(shù)據(jù)將于 2030~2040 年耗盡，其中能訓(xùn)練出更好性能的高質(zhì)量語(yǔ)言數(shù)據(jù)將于 2026 年耗盡。此外，視覺(jué)數(shù)據(jù)將于 2030~2060 年耗盡。

如何在數(shù)據(jù)層面彌補(bǔ)大模型發(fā)展的短板？此時(shí)此刻，增加數(shù)據(jù)來(lái)源，采用數(shù)據(jù)增強(qiáng)以及合成數(shù)據(jù)的新技術(shù)方法，逐漸成為牽引數(shù)據(jù)質(zhì)量提升的關(guān)鍵所在。

提升數(shù)據(jù)質(zhì)量：突破的鑰匙

高質(zhì)量數(shù)據(jù)是大模型能力躍遷的關(guān)鍵鑰匙。

要想獲得高質(zhì)量數(shù)據(jù)，首先需要讓多樣性數(shù)據(jù)比例更加合理。過(guò)去，大模型的訓(xùn)練往往過(guò)于依賴互聯(lián)網(wǎng)數(shù)據(jù)，書(shū)籍、科學(xué)論文等專業(yè)語(yǔ)言數(shù)據(jù)占比較少。但互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量往往低于書(shū)籍、科學(xué)論文等更專業(yè)的語(yǔ)言數(shù)據(jù)，增加專業(yè)數(shù)據(jù)占比就成為提升數(shù)據(jù)質(zhì)量的一大關(guān)鍵路徑。

事實(shí)上，國(guó)家也意識(shí)到增加專業(yè)數(shù)據(jù)集對(duì)于發(fā)展大模型的重要價(jià)值。最新的《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃（2024—2026年）》就明確指出以科學(xué)數(shù)據(jù)支持大模型開(kāi)發(fā)，深入挖掘各類科學(xué)數(shù)據(jù)和科技文獻(xiàn)，建設(shè)高質(zhì)量語(yǔ)料庫(kù)和基礎(chǔ)科學(xué)數(shù)據(jù)集，支持開(kāi)展人工智能大模型開(kāi)發(fā)和訓(xùn)練。

對(duì)于大模型廠商而言，增加百科、書(shū)籍、期刊等高質(zhì)量數(shù)據(jù)的比重已是大勢(shì)所趨。浪潮信息也是最早有意識(shí)增加高質(zhì)量數(shù)據(jù)來(lái)源的廠商之一，其源 2.0大模型有意識(shí)地減少互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)集，增加百科、書(shū)籍、期刊等高質(zhì)量數(shù)據(jù)，同時(shí)引入代碼和數(shù)學(xué)數(shù)據(jù)，甚至針對(duì)120PB海量規(guī)模的社群數(shù)據(jù)也進(jìn)行有針對(duì)性的清洗和提純，從而達(dá)到廣泛增加高質(zhì)量數(shù)據(jù)的目的。

另外，考慮到中國(guó)人工智能領(lǐng)域數(shù)據(jù)供給產(chǎn)業(yè)生態(tài)不完善、獲取成本高等真實(shí)情況，利用人工方式來(lái)獲得高質(zhì)量數(shù)據(jù)的的方式就像“刀耕火種”，成本高昂且效率低下，對(duì)于很多大模型猶如杯水車薪。因此，采用技術(shù)手段自動(dòng)合成數(shù)據(jù)的方法成為彌補(bǔ)高質(zhì)量數(shù)據(jù)不足的重要手段。

所謂生成數(shù)據(jù)，即通過(guò)大模型生成新的數(shù)據(jù)，補(bǔ)充模型訓(xùn)練中真實(shí)數(shù)據(jù)的不足。Gartner就預(yù)測(cè)，2024 年用于訓(xùn)練大模型的數(shù)據(jù)中有60%將是合成數(shù)據(jù)，到2030年大模型使用的絕大部分?jǐn)?shù)據(jù)將由人工智能合成。

OpenAI GPT-4就非?？粗睾铣蓴?shù)據(jù)，其技術(shù)文檔中重點(diǎn)提到生成數(shù)據(jù)在訓(xùn)練中關(guān)鍵作用。目前，合成數(shù)據(jù)在自動(dòng)駕駛、金融欺詐、醫(yī)療等場(chǎng)景有著巨大需求。

在國(guó)內(nèi)，目前真正使用合成數(shù)據(jù)的大模型相對(duì)較少。其中，源2.0大模型是注重合成數(shù)據(jù)的代表，已通過(guò)豐富實(shí)踐形成了一套數(shù)據(jù)構(gòu)建的方法論，實(shí)現(xiàn)利用大模型的數(shù)據(jù)生產(chǎn)及過(guò)濾方法，在保證數(shù)據(jù)多樣性的同時(shí)，在每一個(gè)類別上提升數(shù)據(jù)質(zhì)量，從而獲取高質(zhì)量的訓(xùn)練數(shù)據(jù)。

綜合來(lái)看，AGI絕不僅僅局限在語(yǔ)言與文字，發(fā)展多模態(tài)大模型已經(jīng)成為大勢(shì)所趨，無(wú)疑會(huì)進(jìn)一步加大構(gòu)建高質(zhì)量數(shù)據(jù)集的難度，通過(guò)擴(kuò)大真實(shí)數(shù)據(jù)來(lái)源、構(gòu)建高質(zhì)量的合成數(shù)據(jù)集在未來(lái)會(huì)越來(lái)越重要。

開(kāi)源+共訓(xùn)：大模型高質(zhì)量發(fā)展的關(guān)鍵

經(jīng)歷了2023年的百模大戰(zhàn)，高質(zhì)量發(fā)展已成為大模型產(chǎn)業(yè)界的共識(shí)。

事實(shí)上，在算力資源、高質(zhì)量數(shù)據(jù)資源日趨寶貴的今天，我們?cè)僖膊荒芟萑胫貜?fù)造輪子的商業(yè)陷阱了，大模型走向開(kāi)源+共訓(xùn)符合未來(lái)的高質(zhì)量發(fā)展需求。

以數(shù)據(jù)層面為例，IDC預(yù)測(cè)，到2025年中國(guó)有望成為全球最大的數(shù)據(jù)圈。但國(guó)內(nèi)開(kāi)源意識(shí)不足，數(shù)據(jù)開(kāi)放程度依然較低，雖然已有不少企業(yè)與科研機(jī)構(gòu)構(gòu)建了開(kāi)源數(shù)據(jù)集，但與我國(guó)整體數(shù)據(jù)龐大體量相比顯得極為渺小。而通過(guò)開(kāi)源開(kāi)放的生態(tài)，有利于帶動(dòng)高質(zhì)量數(shù)據(jù)集的利用效率，提升模型泛化應(yīng)用能力。

當(dāng)下，浪潮信息的源2.0是“開(kāi)源+共訓(xùn)路線”的堅(jiān)定實(shí)踐者。去年11月，浪潮信息正式發(fā)布源2.0基礎(chǔ)大模型，包括1026億、518億、21億等三種參數(shù)規(guī)模的模型，在編程、推理、邏輯等方面展示出了先進(jìn)的能力，并且宣布全面開(kāi)源。據(jù)相關(guān)數(shù)據(jù)統(tǒng)計(jì)，源大模型的開(kāi)放數(shù)據(jù)集目前已經(jīng)被國(guó)內(nèi)50家大模型所采用。

據(jù)悉，浪潮信息在“源2.0”的研發(fā)過(guò)程中，針對(duì)算法、數(shù)據(jù)和計(jì)算方面進(jìn)行了創(chuàng)新，包括新型的注意力算法結(jié)構(gòu)、數(shù)據(jù)合成方法、非均勻流水并行策略等，并采取開(kāi)源+共訓(xùn)模式，將產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)有效串聯(lián)起來(lái)，實(shí)現(xiàn)整個(gè)產(chǎn)業(yè)的快速協(xié)同發(fā)展，為國(guó)內(nèi)大模型高質(zhì)量發(fā)展開(kāi)辟了一條有效路徑。

例如，浪潮信息接下來(lái)會(huì)圍繞開(kāi)源社區(qū)，廣泛收集開(kāi)發(fā)者需求推動(dòng)大模型能力與實(shí)際應(yīng)用場(chǎng)景的適配，加速大模型在不同行業(yè)、場(chǎng)景中的商業(yè)化落地。

總體來(lái)看，AGI時(shí)代的奇點(diǎn)已經(jīng)由大模型開(kāi)啟，但大模型“大力出奇跡”的時(shí)代已經(jīng)結(jié)束。正如一句與數(shù)據(jù)相關(guān)的名言：Garbage in，Garbage out，數(shù)據(jù)質(zhì)量的高低也是大模型高質(zhì)量發(fā)展的關(guān)鍵所在。面向未來(lái)，開(kāi)源+共訓(xùn)有利于大模型匯聚包括算法、數(shù)據(jù)等在內(nèi)的技術(shù)創(chuàng)新力量，形成創(chuàng)新與成長(zhǎng)的土壤，真正激發(fā)大模型無(wú)窮的能力。

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個(gè)人觀點(diǎn)，與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

千億參數(shù)大模型再突破，數(shù)據(jù)質(zhì)量為何是關(guān)鍵？

下一篇

千億參數(shù)大模型再突破，數(shù)據(jù)質(zhì)量為何是關(guān)鍵？

下一篇

千億參數(shù)大模型再突破，數(shù)據(jù)質(zhì)量為何是關(guān)鍵？