外灘大會(huì)談AI時(shí)代數(shù)據(jù)新變化:從成本和效率中心向價(jià)值中心轉(zhuǎn)變

9月5日,在2024 Inclusion·外灘大會(huì)上,由螞蟻集團(tuán)、上海交通大學(xué)、復(fù)旦大學(xué)聯(lián)合主辦的“從DATA for AIAI for DATA”見(jiàn)解論壇召開(kāi),產(chǎn)學(xué)研代表深入探討了在AI時(shí)代數(shù)據(jù)價(jià)值的轉(zhuǎn)變,中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授鄭緯民,昆侖萬(wàn)維 & 天工智能首席科學(xué)家、新加坡工程院院士顏水成參會(huì),分享了數(shù)據(jù)技術(shù)的變化趨勢(shì)及與AI技術(shù)的融合。

(圖說(shuō):9月5日,2024 Inclusion·外灘大會(huì)“從DATA for AI到AI for DATA”見(jiàn)解論壇召開(kāi)。)

大模型拉動(dòng)數(shù)據(jù)與AI全面對(duì)齊

數(shù)據(jù)一定程度上決定了智能的上限,這使得大模型的技術(shù)越要突破,數(shù)據(jù)技術(shù)越要與其“對(duì)齊”,大模型對(duì)數(shù)據(jù)利用的“貪婪程度”,也影響了數(shù)據(jù)的存儲(chǔ)、生產(chǎn)、加工、流通、消費(fèi)各個(gè)環(huán)節(jié)的技術(shù)走向。

在存儲(chǔ)環(huán)節(jié),中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授鄭緯民表示,大模型生命周期的每一環(huán)節(jié)都與存儲(chǔ)系統(tǒng)有關(guān),在數(shù)據(jù)獲取階段,需要處理海量多模態(tài)小文件,在數(shù)據(jù)預(yù)處理時(shí),則要頻繁、隨機(jī)小樣本讀取,訓(xùn)練時(shí),檢查點(diǎn)文件讀寫(xiě)對(duì)存儲(chǔ)系統(tǒng)提出新的需求,推理時(shí),加載模型參數(shù)以及保存中間結(jié)果尤為關(guān)鍵,這些挑戰(zhàn)也催生了新的技術(shù)方案誕生。

大數(shù)據(jù)時(shí)代,數(shù)據(jù)的價(jià)值還沒(méi)來(lái)得及充分挖掘,AI時(shí)代一到,數(shù)據(jù)卻面臨著消耗過(guò)快的挑戰(zhàn),這使得合成數(shù)據(jù)技術(shù)成了熱門(mén)領(lǐng)域。據(jù)研究機(jī)構(gòu)Epoch AI在6月發(fā)布的報(bào)告顯示,從2026年起,人類(lèi)產(chǎn)生的新數(shù)據(jù)量將比模型學(xué)習(xí)的新數(shù)據(jù)量要少,預(yù)估到2028年大語(yǔ)言模型將耗盡人類(lèi)數(shù)據(jù)。

昆侖萬(wàn)維 & 天工智能首席科學(xué)家、新加坡工程院院士顏水成認(rèn)為,模型結(jié)構(gòu)還會(huì)繼續(xù)升級(jí),大模型目前推理能力不夠等眾多的遺留問(wèn)題,最好的解決途徑可能是用合成數(shù)據(jù),但做法不同,不應(yīng)是根據(jù)原來(lái)的數(shù)據(jù)合成新的數(shù)據(jù),而是通過(guò)大模型之間相互的對(duì)話(huà)、討論、評(píng)價(jià),最后產(chǎn)生出更好、更高質(zhì)量的數(shù)據(jù),這些數(shù)據(jù)將會(huì)大大去提升大模型的效能。

基礎(chǔ)數(shù)據(jù)庫(kù)也在加強(qiáng)與AI的融合。國(guó)產(chǎn)分布式數(shù)據(jù)庫(kù)OceanBase CTO楊傳輝介紹了如何通過(guò)一套系統(tǒng)同時(shí)支持SQL+AI,支持向量數(shù)據(jù)庫(kù),并通過(guò)AI技術(shù)優(yōu)化數(shù)據(jù)庫(kù)開(kāi)發(fā)和管理工具。

螞蟻技術(shù)研究院院長(zhǎng)陳文光提出,向AI“對(duì)齊”需要從底層系統(tǒng)角度出發(fā),包括硬件的結(jié)構(gòu)和對(duì)應(yīng)的編程語(yǔ)言、編譯系統(tǒng)等。他介紹了在人工智能、科學(xué)計(jì)算與大數(shù)據(jù)處理(FABS:Fused AI, Big Data and Science)融合的計(jì)算模式思考。

探索AI時(shí)代的數(shù)據(jù)戰(zhàn)略與實(shí)踐

(圖說(shuō):螞蟻集團(tuán)平臺(tái)技術(shù)事業(yè)群副總裁駱驥展望新一代智能數(shù)據(jù)體系,他認(rèn)為數(shù)據(jù)正在向價(jià)值中心轉(zhuǎn)變。)

從大數(shù)據(jù)時(shí)代到AI時(shí)代,數(shù)據(jù)體系正在從成本和效率中心向價(jià)值中心轉(zhuǎn)變,螞蟻集團(tuán)平臺(tái)技術(shù)事業(yè)群副總裁駱驥認(rèn)為,在AI時(shí)代,數(shù)據(jù)資產(chǎn)本身的規(guī)模、多樣性、品質(zhì)等是決定智能化效果的關(guān)鍵因素。數(shù)據(jù)更加直接地影響到智能化應(yīng)用的效果,這就意味著,從數(shù)據(jù)資產(chǎn)的生產(chǎn)、加工與服務(wù)、消費(fèi)與應(yīng)用等各個(gè)環(huán)節(jié)都需要圍繞數(shù)據(jù)的價(jià)值化這一全新的視角去構(gòu)建相應(yīng)的體系與技術(shù)能力。

駱驥分享了基于螞蟻集團(tuán)業(yè)務(wù)場(chǎng)景下,AI時(shí)代的螞蟻智能數(shù)據(jù)體系探索與實(shí)踐。

他表示,在過(guò)去的兩年里,螞蟻集團(tuán)一直在構(gòu)建一個(gè)圍繞融合數(shù)據(jù)湖、能提供各種數(shù)據(jù)驅(qū)動(dòng)的智能化應(yīng)用服務(wù)與能力的數(shù)據(jù)體系,其底層基于全模態(tài)存儲(chǔ)與計(jì)算引擎,上層能支持豐富的智能化業(yè)務(wù)應(yīng)用場(chǎng)景。

在底層,螞蟻構(gòu)建了行列混存,以及面向新搜索、新交互的向量數(shù)據(jù)庫(kù)能力,并且為大模型訓(xùn)練打造了極致的全模態(tài)緩存加速的新型存儲(chǔ)技術(shù)產(chǎn)品。

在核心的融合數(shù)據(jù)湖里,螞蟻致力于將結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)充分融合。除了傳統(tǒng)的數(shù)據(jù)管理與治理、端云/跨云的數(shù)據(jù)融合和隱私保護(hù)之外,還重點(diǎn)關(guān)注統(tǒng)一元數(shù)據(jù)、支持三線(xiàn)一致和Single Source of Truth,以及特別針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的安全可信與品質(zhì)保障能力等幾大關(guān)鍵要素。

在上層的數(shù)據(jù)應(yīng)用中,包含了高價(jià)值數(shù)據(jù)的生產(chǎn)(包括數(shù)據(jù)引入、數(shù)據(jù)感知、數(shù)據(jù)標(biāo)注、數(shù)據(jù)合成)、全模態(tài)的數(shù)據(jù)研發(fā)和面向機(jī)器與智能體的新特征服務(wù),以及圍繞數(shù)據(jù)的分析與科學(xué)實(shí)驗(yàn)工程體系等。

“數(shù)據(jù)技術(shù)領(lǐng)域也正在飛奔進(jìn)入一個(gè)全新的歷史階段。”駱驥說(shuō)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )