數(shù)據(jù)決定AIGC的高度,什么又決定著數(shù)據(jù)的深度?

有人曾言,數(shù)據(jù)決定人工智能發(fā)展的天花板。深以為然。

隨著ChatGPT等AIGC應用所展現(xiàn)出的強大能力,人們意識到通用人工智能的奇點正在來臨,越來越多的企業(yè)開始涌入這條賽道。在AIGC浪潮席卷全球之際,數(shù)據(jù)的重要性也愈發(fā)被業(yè)界所認同。

之所以會如此,有兩個關鍵原因:其一,高質量數(shù)據(jù)是AIGC 應用的核心,決定著算法的性能、泛化能力和應用效果;其二,與數(shù)據(jù)相關的“存、管、用、傳”逐漸成為AIGC發(fā)展的瓶頸,亟待高水平的基礎設施來協(xié)助突破。

可以說,深度學習在過去十年的高速發(fā)展,讓異構算力的作用與價值得到高度認可;未來十年,數(shù)據(jù)存儲的變革將決定著高質量數(shù)據(jù)發(fā)展的深度。

AIGC市場發(fā)展趨勢是什么

大模型所展現(xiàn)出的強大能力和較強的泛用性,已經(jīng)讓AIGC應用在辦公、會議、對話、搜索、廣告等內(nèi)容生成領域初露鋒芒。當前,AIGC和大模型的賽道熱鬧非凡,僅僅中國市場就有上百個大模型涌現(xiàn),“百模大戰(zhàn)”的盛況讓市場熱度持續(xù)升溫。那么,未來的大模型和AIGC市場的發(fā)展趨勢是什么?

毫無疑問,接下來,出于對交互體驗升級和降本增效的巨大需求,AIGC和大模型廣泛進入垂直行業(yè)已是不可阻擋的趨勢。Gartner預測,到2032年,生成式人工智能市場規(guī)模將達到2000億美元,在金融、教育、醫(yī)療、工業(yè)等領域有著廣闊的應用前景。

中金公司研究部判斷,未來的大模型市場類似云計算市場,就像一個冰激凌蛋筒,上面的冰激凌球代表金融、醫(yī)療、教育等多個關鍵行業(yè)的垂直大模型,與私有云的現(xiàn)狀與曲同工;下面的筒身則代表著通用大模型,覆蓋廣泛的長尾市場,類似公有云市場那樣的覆蓋。

顯然,越來越多行業(yè)用戶看到了垂直行業(yè)大模型的巨大潛力。這些重點行業(yè)場景足夠豐富、業(yè)務數(shù)據(jù)量巨大、降本增效需求強烈,加上這些行業(yè)的用戶本身即是私有云的重度用戶,看重數(shù)據(jù)的安全性和本地化部署,對于垂直大模型的需求極為強烈。

“當前,大模型和AIGC市場依然處于早期。但AIGC對于整個行業(yè)應用是變革性的,所有行業(yè)都必須去適應AIGC帶來的變化。這無疑在未來五到十年將產(chǎn)生持續(xù)且巨大的數(shù)據(jù)存儲需求?!崩顺毙畔⑹紫軜嫀熑~毓睿判斷道。

AIGC數(shù)據(jù)存儲挑戰(zhàn)到底有哪些

今年4月,OpenAI CEO Sam Altman認為,增加大模型的參數(shù)數(shù)量不再是提升大模型能力的最有效手段,大規(guī)模、高質量數(shù)據(jù)和數(shù)據(jù)高效處理工程化才是關鍵。事實上,從OpenAI GPT-5開始,多模態(tài)被視為是大模型下一階段的重要演進方向。

多模態(tài)大模型意味著除了文本數(shù)據(jù)之外,音視頻數(shù)據(jù)也將加入其中,這會讓AIGC的數(shù)據(jù)特征呈現(xiàn)出數(shù)據(jù)海量化、多元數(shù)據(jù)類型復雜、服務協(xié)議多樣、性能要求苛刻和要求服務持續(xù)在線,進而帶來一系列極為復雜的數(shù)據(jù)存儲挑戰(zhàn)。

浪潮分布式存儲總經(jīng)理姜樂果認為,當下AIGC應用背后需要對行業(yè)上下游對數(shù)據(jù)進行采集、標注、訓練、推理、歸檔,帶來了異構數(shù)據(jù)的融合、持續(xù)的低延遲與高帶寬和EB級大容量存儲需求等三大重要挑戰(zhàn)。

首先是異構數(shù)據(jù)的融合。大模型訓練數(shù)據(jù)呈現(xiàn)來源多、格式多的多源異構現(xiàn)狀,對于面向單一數(shù)據(jù)類型設計的傳統(tǒng)存儲是極大挑戰(zhàn)。這種傳統(tǒng)模式的缺陷就是很難在一個數(shù)據(jù)平臺上滿足不同數(shù)據(jù)類型對于性能的不同需求,在大模型從采集、標注到訓練、推理整個數(shù)據(jù)存儲管道中,需要來回進行數(shù)據(jù)拷貝,數(shù)據(jù)處理效率低且無法滿足AIGC應用的處理需求。

“傳統(tǒng)存儲需要以搬移數(shù)據(jù)的方式實現(xiàn)多協(xié)議訪問,這是AIGC應用平臺一大關鍵瓶頸。支持異構數(shù)據(jù)的多協(xié)議融合將是解決挑戰(zhàn)的關鍵。”姜樂果直言道。

第二是持續(xù)的低延遲與高帶寬。在大模型的訓練過程中,需要頻繁從數(shù)據(jù)集取Token。但是每個Token通常只有4個字節(jié),這就造成了實時高并發(fā)的海量小IO,需要極低的延遲來保障性能;此外,大模型在存儲模型Checkpoint時,需要高帶寬來支撐數(shù)據(jù)的快速寫入。

“大模型訓練時候通常要調用上千塊GPU塊,某一塊卡出現(xiàn)故障或者問題的情況比較正常。如果出現(xiàn)故障,模型需要重新拉起,利用備用節(jié)點來替代,備用節(jié)點CheckPoint需要存儲的高帶寬來實現(xiàn)數(shù)據(jù)快速寫入,否則就很容易造成GPU算力資源的浪費。”浪潮信息AI架構師楊鑫介紹道。

第三是EB級大容量存儲需求。大模型的越多數(shù)據(jù)投喂結果越精準的工作原理,決定著大模型訓練存在深度學習網(wǎng)絡層數(shù)多、連接多、參數(shù)和數(shù)據(jù)集種類復雜、數(shù)據(jù)量大的特征,隨著模型參數(shù)和數(shù)據(jù)量的快速增長,對于存儲的大容量和擴展需求也迫在眉睫。

“比如,浪潮信息自身的源1.0大模型,加入音視頻數(shù)據(jù)之后,經(jīng)過不斷訓練已經(jīng)達到上百PB的數(shù)據(jù)規(guī)模?!苯獦饭榻B道,“隨著訓練的不斷深入,對于數(shù)據(jù)存儲容量、性能的需求也會持續(xù)增長,需要存儲具備極致容量和極致性能的能力?!?/p>

葉毓睿則表示,AIGC涉及包括采集、標注、訓練、推理、歸檔等數(shù)據(jù)處理的過程較長,且不同階段對于性能、延時、數(shù)據(jù)安全等要求不同。從產(chǎn)業(yè)變革的角度看,AIGC正在推動數(shù)據(jù)存儲產(chǎn)業(yè)進行全方位的技術升級,未來專業(yè)的AIGC存儲產(chǎn)品與解決方案需求將大幅增加。

浪潮存儲,讓AIGC有數(shù)

如果說數(shù)據(jù)存儲是AIGC應用的地基,那么這個地基的深度與優(yōu)劣將決定著AIGC應用的通用性和效率。一旦AIGC應用的效率持續(xù)提升和拓展,也意味著垂直行業(yè)的生產(chǎn)力有望迎來質的變化。

當前,市場中專門針對AIGC的存儲解決方案并不多,尤其是經(jīng)過驗證過的存儲解決方案很少。浪潮信息是市場中率先推出相應解決方案的廠商,利用一套AS13000融合存儲支撐生成式AI的全階段應用,一套存儲提供端到端的數(shù)據(jù)流支持流程,滿足面向文本、音頻、圖像、視頻、代碼以及多模態(tài)和全模態(tài)的大模型需求。

據(jù)悉,浪潮信息AS13000提供全閃、混閃、帶庫、光盤四種介質,支持文件、對象、大數(shù)據(jù)、視頻、塊協(xié)議,可滿足大容量、多協(xié)議共享,百萬以上IOPS,100GB以上帶寬,冷數(shù)據(jù)的長期保存和歸檔?!袄顺毙畔⒌腁IGC存儲解決方案已經(jīng)支撐過浪潮信息源1.0大模型以及其他AI公司的大模型訓練。”姜樂果如是說。

從浪潮信息透露的信息來看,AS13000有效避免了傳統(tǒng)存儲方案臺設備并存帶來的各種復雜性、數(shù)據(jù)處理低效率以及數(shù)據(jù)孤島,對于AIGC突破海量數(shù)據(jù)瓶頸和加速釋放數(shù)據(jù)價值有著極大幫助。

姜樂果介紹,浪潮信息生成式AI存儲解決方案擁有極致融合、極致性能、極致節(jié)能,和熱溫冷冰四級全生命周期存儲管理四大特點。

第一是極致融合。一個集群內(nèi)支持多個存儲池,一個存儲池內(nèi)支持文本、圖片、音頻、視頻等多種類型數(shù)據(jù)存儲,一份數(shù)據(jù)又可以被前端不同業(yè)務場景以文件、對象、大數(shù)據(jù)以及視頻的存儲方式并行訪問。完美契合了多模態(tài)大模型場景的數(shù)據(jù)存儲需求,并且實現(xiàn)應用間數(shù)據(jù)實時共享以及存儲空間的最優(yōu)化。

第二則是極致性能。AIGC帶來的是性能指數(shù)級的增長,大帶寬、高IOPS在未來會成為業(yè)務需求的標配。對此,浪潮信息的解決思路是通過架構、硬件、關鍵技術、IO路徑優(yōu)化等多種手段實現(xiàn)存儲性能的充分釋放。

“比如,數(shù)控分離架構可以減少東西向數(shù)據(jù)量的轉發(fā);GDS、RMDA技術則可以縮短I/O路徑,SPDK、緩存零拷貝技術則可以有效減少I/O路徑上的數(shù)據(jù)拷貝;基于自研NVMe SSD開發(fā)的盤控協(xié)同技術,則減少I/O訪問SSD盤的次數(shù),進一步提升性能?!苯獦饭a充道,“像全閃單節(jié)點帶寬超過50GB/s,IOPS超過50萬,雙控全閃節(jié)點,帶寬超過100GB/s,IOPS超過100萬?!?/p>

以源1.0大模型為例,在AS13000并行存儲支撐下,2128個GPU集群上跑了16天完成訓練,算力效率達到45%,遠超MT-NLG與GPT-3等國際知名模型。

第三則是極致節(jié)能。相關數(shù)據(jù)預測,到2025年,我國AI算力總量將超過1800EFlops,AI算力占總算力比重超過85%,這意味著與AI相關的數(shù)據(jù)存儲也將大幅增加,隨之而來不容忽視的挑戰(zhàn)就是節(jié)能減排。為此,浪潮信息最新的G7硬件平臺中,存儲專用的液冷服務器涵蓋性能型和容量型,且均采用模塊化冷板組件設計模式,并且浪潮信息具有風液式,全液式等完善的端到端解決方案。

最后則是端到端的全生命周期管理。浪潮信息生成式AI存儲解決方案采用閃存、磁盤、磁帶、光盤四種介質提供熱溫冷冰四種存儲資源,且實現(xiàn)了資源的互通和數(shù)據(jù)全生命周期的管理。此外,四種介質、四類存儲節(jié)點提供熱溫冷冰自動流轉,滿足各類應用的靈活配置需求,用戶們可以根據(jù)性能型、均衡型、容量型、高密容量型四種機型的按需靈活配置,進一步降低整體投入。

“目前市場上能夠構建起完整端到端支撐平臺的用戶還是少數(shù)。大部分用戶希望是有一攬子解決方案,來支撐起他們迅速構建起平臺。浪潮信息自身擁有大模型的經(jīng)驗,可以通過生成式AI存儲解決方案將好的經(jīng)驗和實踐快速輸出到市場中,更好地推動AIGC產(chǎn)業(yè)發(fā)展?!苯獦饭偨Y道。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2023-07-27
數(shù)據(jù)決定AIGC的高度,什么又決定著數(shù)據(jù)的深度?
數(shù)據(jù)決定AIGC的高度,什么又決定著數(shù)據(jù)的深度?

長按掃碼 閱讀全文