AI大模型終于走到了數(shù)據(jù)爭奪戰(zhàn)

科技云報道原創(chuàng)。

當前,大模型正處在產(chǎn)業(yè)落地前期,高質(zhì)量的數(shù)據(jù),是大模型實現(xiàn)產(chǎn)業(yè)化的關(guān)鍵要素。

最近,一項來自Epoch AI Research團隊的研究拋出了一個殘酷的事實:模型還要繼續(xù)做大,數(shù)據(jù)卻不夠用了。

研究人員預測了2022年至2100年間可用的圖像和語言數(shù)據(jù)總量,并據(jù)此估計了未來大模型訓練數(shù)據(jù)集規(guī)模的增長趨勢。

結(jié)果表明:高質(zhì)量的語言數(shù)據(jù)存量將在2026年耗盡,低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量將分別在2030年至2050年、2030年至2060年枯竭。

這意味著,如果數(shù)據(jù)效率沒有顯著提高或有新的數(shù)據(jù)源可用,那么到2040年,模型的規(guī)模增長將放緩。

對數(shù)據(jù)端的建設(shè)該重視起來了。

高質(zhì)量數(shù)據(jù)成“搶手貨”

隨著全球新一輪AI熱潮來臨,大量訓練數(shù)據(jù)已成為AI算法模型發(fā)展和演進的“燃料”。

從GPT的實驗發(fā)現(xiàn),隨著模型參數(shù)量的增加,模型性能均得到不同程度的提高。

但值得注意的是,通過來自人類反饋的強化學習(RLHF)生成的InstructGPT模型,比100倍參數(shù)規(guī)模無監(jiān)督的GPT-3模型效果更好,也說明了有監(jiān)督的標注數(shù)據(jù)是大模型應用成功的關(guān)鍵之一。

如果以上預測是正確的,那么毫無疑問數(shù)據(jù)將成為做模型繼續(xù)做大的主要制約因素,AI的進展也會隨著數(shù)據(jù)量的耗盡而放緩。

阿里巴巴達摩院基礎(chǔ)視覺團隊負責人趙德麗博士曾在采訪中表示,數(shù)據(jù)側(cè)的建設(shè)將會成為每一個做大模型工作的機構(gòu)必須要考慮的問題,大模型有多少能力,往往取決于有什么樣的數(shù)據(jù)。

據(jù)趙德麗博士介紹,與文生圖大模型相比,做文生視頻大模型要難得多,原因就在于視頻數(shù)據(jù)的數(shù)量遠比不上文本和圖像,更不要談數(shù)據(jù)的質(zhì)量了。相應地,目前已有的文生視頻模型的效果都不盡如人意。

結(jié)合上述研究結(jié)果,如果當下的趨勢繼續(xù)下去,人類現(xiàn)有的數(shù)據(jù)庫存一定會耗盡,而且高質(zhì)量的數(shù)據(jù)會更少。

正因如此,一場數(shù)據(jù)爭奪戰(zhàn)正在拉開序幕。

目前,Adobe利用其數(shù)以億計的庫存照片數(shù)據(jù)庫構(gòu)建了自己的人工智能工具套件,名為Firefly。自3月份發(fā)布以來,F(xiàn)irefly已被用于創(chuàng)建超過10億張圖像,而Adobe股價已因此上漲了36%。

一些初創(chuàng)公司也正在蜂擁至這個新領(lǐng)域。今年4月,專注于人工智能的數(shù)據(jù)庫公司W(wǎng)eaviate融資5000萬美元,估值達到2億美元。

僅僅一周后,其競爭對手PineCone就以7.5億美元的估值籌集了1億美元資金。

本月早些時候,另一家數(shù)據(jù)庫初創(chuàng)公司Neon也獲得了4600萬美元的融資。

在國內(nèi),百度智能云近期也升級了大模型數(shù)據(jù)服務能力,建設(shè)了國內(nèi)首個專業(yè)大模型數(shù)據(jù)標注基地。百度智能云方面表示,目前已經(jīng)在全國與各地政府合作,共建了10多個數(shù)據(jù)標注基地。

顯然,對數(shù)據(jù)的爭奪才剛剛開始。

數(shù)據(jù)標注再次迎來爆發(fā)

AI大模型帶來了大量需求,與之相伴的是中國數(shù)據(jù)標注行業(yè)的迅速發(fā)展。

招商證券認為,一方面,進入大數(shù)據(jù)時代后,人們各種行為的電子化、網(wǎng)絡(luò)化帶來海量數(shù)據(jù),但產(chǎn)生的數(shù)據(jù)只有1%能被收集和保存,并且收集的數(shù)據(jù)中90%是非結(jié)構(gòu)化的數(shù)據(jù);另一方面,人工智能的興起帶來模型訓練所用結(jié)構(gòu)化數(shù)據(jù)的巨大需求,數(shù)據(jù)標注的重要性逐漸突顯。

有業(yè)內(nèi)人士認為,預計今年10月國內(nèi)會迎來一波大的類chatGPT大模型的數(shù)據(jù)需求,而且這是一個海量的需求,以目前國內(nèi)幾家頭部數(shù)據(jù)標注公司來看,目前產(chǎn)能還不足以滿足需求。

艾瑞咨詢數(shù)據(jù)顯示,包括數(shù)據(jù)采集、數(shù)據(jù)處理(標注)、數(shù)據(jù)存儲、數(shù)據(jù)挖掘等模塊在內(nèi)的AI基礎(chǔ)數(shù)據(jù)服務市場,將在未來數(shù)年內(nèi)持續(xù)增長。

到2025年,國內(nèi)AI基礎(chǔ)數(shù)據(jù)服務市場的整體規(guī)模預計將達到101.1億元,整體市場增速將達到31.8%(2024-2025年)。

據(jù)iResearch數(shù)據(jù),2019年我國數(shù)據(jù)標注市場規(guī)模為30.9億元,預計2025年市場規(guī)模突破100億元,年復合增長率達到14.6%。

隨著數(shù)據(jù)量的不斷增長和數(shù)據(jù)結(jié)構(gòu)的不斷變化,數(shù)據(jù)標注行業(yè)涉及的領(lǐng)域也越來越廣泛,特別是在自動駕駛、AIGC等領(lǐng)域內(nèi),數(shù)據(jù)標注需求量極大。

作為AI大語言模型高質(zhì)量回答的基礎(chǔ),數(shù)據(jù)標注的生產(chǎn)過程主要包括四個環(huán)節(jié):設(shè)計(訓練數(shù)據(jù)集結(jié)構(gòu)設(shè)計)、采集(獲取原料數(shù)據(jù))、加工(數(shù)據(jù)標注)及質(zhì)檢(各環(huán)節(jié)數(shù)據(jù)質(zhì)量、加工質(zhì)量檢測)。

其中,數(shù)據(jù)標注需要識別圖像、文本、視頻等原始數(shù)據(jù),并添加一個或多個標簽為機器學習模型指定上下文,幫助其做出準確的預測。

當前,大部分數(shù)據(jù)標注任務仍然需要人工完成,而且各種數(shù)據(jù)類型和應用領(lǐng)域都需要相應領(lǐng)域的專業(yè)標注員來完成標注任務。

隨著技術(shù)的發(fā)展,數(shù)據(jù)標準行業(yè)正在成為半人工智能、半人工化的行業(yè)。

面對大語言模型動輒上百億參數(shù)的數(shù)據(jù)質(zhì)量控制,需要通過標注平臺將一個個復雜RLHF需求拆成很多個簡單的工作流,讓機器去做預處理,人去做深層的基于理解的反饋,以減少人在簡單問題上的精力消耗,專注在專業(yè)問題上的標注。

業(yè)內(nèi)一般采用主動質(zhì)檢加被動質(zhì)檢的方式,前者靠人為去做質(zhì)檢,后者是靠算法去做一些預識別。

但目前數(shù)據(jù)標注工具的準確率部分僅百分之幾,部分準確率則可以達到80%、90%。機器標注的識別率越高,人工需求就會越少,成本、利潤、速度、質(zhì)量都能更加可控。

隨著技術(shù)不斷發(fā)展,未來數(shù)據(jù)標注行業(yè)可能會實現(xiàn)更高的自動化程度,不過應用領(lǐng)域不同,仍然需要一定數(shù)量的標注人員來進行標注任務。

傳統(tǒng)數(shù)據(jù)標注亟待升級

值得注意的是,在如今火爆的大模型訓練浪潮中,傳統(tǒng)的數(shù)據(jù)標注需求,很可能是下降的。

ChatGPT更具有“人味”的關(guān)鍵——強人工反饋RLHF,帶來的是另一種更高要求的數(shù)據(jù)標注需求。

相關(guān)分析顯示,在RLHF環(huán)節(jié),模型首先在大數(shù)據(jù)集上進行預訓練,再與專業(yè)的人工智能訓練師進行交互,專業(yè)的標注人員會對ChatGPT生成的回答進行標注、評估和反饋,給出一個針對回答的分數(shù)或者標簽。

這些標注數(shù)據(jù)可以作為強化學習過程中的“獎勵函數(shù)”來指導ChatGPT的參數(shù)調(diào)整,最終幫助模型進行強化學習和不斷優(yōu)化。

也就是說,讓ChatGPT“更具人味兒”的精妙之處很可能就在于——它可以利用人工標注的反饋結(jié)果不斷優(yōu)化自身模型,實現(xiàn)更合乎人類思維邏輯的表達。

但傳統(tǒng)數(shù)據(jù)標注模式很難滿足RLHF的需求。

在過去,數(shù)據(jù)標注公司的主流商業(yè)模式以銷售工具系統(tǒng)和標注服務為主。一方面,缺少自有數(shù)據(jù)很少有出售精準數(shù)據(jù)集的服務。另一方面,人才升級作為一個系統(tǒng)工程,對數(shù)據(jù)標注公司的考驗更高。

在完成這一步后,RLHF訓練還涉及到不少事實判斷和價值判斷。其中,價值判斷涉及到公認的"公序良俗",理論上是更容易拉齊AI認知的部分,事實判斷則涉及各行業(yè)Know-How。

這往往需要行業(yè)專業(yè)人士出手,不是傳統(tǒng)數(shù)據(jù)標注員,簡單針對詞性、圖片細節(jié)進行標注就能實現(xiàn)的。

也就是說,要跟上新一代AI浪潮,數(shù)據(jù)標注公司不僅需要在數(shù)據(jù)層面進行升級,人才的更新?lián)Q代同樣重要。

目前的確已有標注公司開始在內(nèi)部撰寫《人員提升教程》,他們將在接下來重點培訓標注人員對“升級后”的標注需求理解,以及回答方式的合規(guī)性等。

但是,在專業(yè)壁壘非常高的醫(yī)療等領(lǐng)域,數(shù)據(jù)標注仍面臨著人才困境。

某數(shù)據(jù)標注公司運營負責人曾表示,“特別是醫(yī)療,有些是普通人經(jīng)過培訓可以標的,有的必須要醫(yī)療從業(yè)者,這背后的人才招聘難度可想而知?!?/p>

但即便困難重重,也不意味著數(shù)據(jù)標注公司會立馬進行一波洗牌——至少,在大模型訓練的幾個階段內(nèi),初始階段的半監(jiān)督學習同樣對傳統(tǒng)數(shù)據(jù)標注存在需求。

面對大模型和RLHF的機遇,重現(xiàn)大規(guī)模投入似乎在所難免。

有業(yè)內(nèi)人士認為,如果數(shù)據(jù)標注公司期望在垂直領(lǐng)域做更高層級的數(shù)據(jù)服務,可能要成立一個全新的產(chǎn)品線。甚至,具備AI研發(fā)背景的創(chuàng)始人會是更合適的數(shù)據(jù)標注創(chuàng)業(yè)者。

面對新一代AI浪潮,沒有人可以躺著掙錢——這是每一次技術(shù)迭代沖擊背后,暗中標注好的“價格”。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-09-04
AI大模型終于走到了數(shù)據(jù)爭奪戰(zhàn)
AI大模型終于走到了數(shù)據(jù)爭奪戰(zhàn)

長按掃碼 閱讀全文