數(shù)據(jù)湖的演變:分裂架構(gòu)推動(dòng)人工智能分析新時(shí)代的到來

曾經(jīng)簡(jiǎn)單的數(shù)據(jù)湖不斷發(fā)展,推動(dòng)企業(yè)分析。隨著人工智能敲開企業(yè)大門,這一點(diǎn)在今天變得更加重要。當(dāng)這個(gè)想法在2010年代初出現(xiàn)時(shí),有些人認(rèn)為數(shù)據(jù)湖是恰逢其時(shí)的正確架構(gòu)。數(shù)據(jù)湖是一個(gè)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)庫(kù),利用新的低成本云對(duì)象存儲(chǔ)格式(如亞馬遜的S3)。它可以容納當(dāng)時(shí)從網(wǎng)絡(luò)上傳出的大量數(shù)據(jù)。

然而,對(duì)其他人來說,數(shù)據(jù)湖是一種容易被嘲笑的“市場(chǎng)結(jié)構(gòu)”。這一陣營(yíng)的人稱之為“數(shù)據(jù)沼澤”。這個(gè)陣營(yíng)中的許多人青睞歷史悠久但并不便宜的關(guān)系數(shù)據(jù)倉(cāng)庫(kù)。

盡管存在質(zhì)疑,數(shù)據(jù)湖已經(jīng)發(fā)展并成熟,成為當(dāng)今人工智能和分析領(lǐng)域的關(guān)鍵組成部分。

隨著生成式人工智能重新關(guān)注數(shù)據(jù)架構(gòu),我們將仔細(xì)研究數(shù)據(jù)湖如何轉(zhuǎn)變以及它們?cè)谕苿?dòng)高級(jí)人工智能分析方面所發(fā)揮的作用。

數(shù)據(jù)湖的需求

對(duì)于追求電子商務(wù)和相關(guān)領(lǐng)域數(shù)據(jù)驅(qū)動(dòng)洞察的年輕企業(yè)來說,實(shí)施數(shù)據(jù)湖的好處是多方面的。

亞馬遜、谷歌、雅虎、Netflix、Facebook等企業(yè)都開發(fā)了自己的數(shù)據(jù)工具。這些工具通?;贏pacheHadoop和基于Spark的分布式引擎。新系統(tǒng)處理的數(shù)據(jù)類型比當(dāng)時(shí)分析數(shù)據(jù)倉(cāng)庫(kù)中現(xiàn)有的關(guān)系數(shù)據(jù)類型結(jié)構(gòu)性更低。

對(duì)于那個(gè)時(shí)代的系統(tǒng)工程師來說,這種架構(gòu)顯示出了一些好處?!罢訚伞被颉昂础?,它將成為搜索、異常檢測(cè)、價(jià)格優(yōu)化、客戶分析、推薦引擎等先鋒應(yīng)用的基礎(chǔ)。

數(shù)據(jù)湖擁有巨大的未開發(fā)潛力,今天存儲(chǔ)的海量數(shù)據(jù)將推動(dòng)明天的洞察和人工智能進(jìn)步。

這種更靈活的數(shù)據(jù)處理方式是成長(zhǎng)中的網(wǎng)絡(luò)巨頭的迫切需求。文本、圖像、音頻、視頻和其他數(shù)據(jù)“海嘯”根本不適合關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)處理。另一個(gè)缺點(diǎn)是:隨著每一批數(shù)據(jù)的加載,數(shù)據(jù)倉(cāng)庫(kù)成本也隨之上升。

無論人們喜歡與否,數(shù)據(jù)湖如今仍充斥著數(shù)據(jù)。在數(shù)據(jù)處理中,數(shù)據(jù)工程師可以“立即存儲(chǔ)”數(shù)據(jù),然后決定以后如何處理數(shù)據(jù)。但基本數(shù)據(jù)湖架構(gòu)已擴(kuò)展為更高級(jí)的數(shù)據(jù)發(fā)現(xiàn)和管理功能。

這一變革由自主開發(fā)的解決方案以及Databricks和Snowflake等一流初創(chuàng)企業(yè)的解決方案引領(lǐng),但還有更多企業(yè)參與其中。隨著數(shù)據(jù)中心規(guī)劃人員著眼于新的AI領(lǐng)域,它們的各種架構(gòu)如今受到了密切關(guān)注。

數(shù)據(jù)湖的演變:從Lake到Lakehouse

數(shù)據(jù)湖競(jìng)賽的參與者包括Amazon Lake Formation、Cloudera Open Data Lakehouse、Dell Data Lakehouse、Dremio Lakehouse Platform、Google BigLake、IBM watsonx.data、Microsoft Azure DataLakeStorage、Oracle CloudInfrastructure、Scality Ring和Starburst Galaxy等。

正如上述內(nèi)容所示,趨勢(shì)是將產(chǎn)品稱為“數(shù)據(jù)湖屋”,而不是數(shù)據(jù)湖。這個(gè)名字更類似于用于處理結(jié)構(gòu)化數(shù)據(jù)的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)。是的,這代表了另一個(gè)牽強(qiáng)的類比,就像之前的數(shù)據(jù)湖一樣,受到了一些審查。

在數(shù)據(jù)市場(chǎng)中,命名是一門藝術(shù)。如今,解決數(shù)據(jù)湖初始缺陷的系統(tǒng)被指定為集成數(shù)據(jù)平臺(tái)、混合數(shù)據(jù)管理解決方案等。但奇怪的命名慣例不應(yīng)掩蓋功能方面的重要進(jìn)步。

在當(dāng)今更新的分析平臺(tái)中,不同的數(shù)據(jù)處理組件以流水線方式連接。新數(shù)據(jù)工廠的進(jìn)步可能集中在以下方面:

新的表格式:例如,DeltaLake和Iceberg建立在云對(duì)象存儲(chǔ)之上,為ApacheSpark、Hadoop和其他數(shù)據(jù)處理系統(tǒng)提供ACID事務(wù)支持。經(jīng)常關(guān)聯(lián)的Parquet格式可以幫助優(yōu)化數(shù)據(jù)壓縮。

元數(shù)據(jù)目錄:SnowflakeDataCatalog和DatabricksUnifyCatalog等設(shè)施只是執(zhí)行數(shù)據(jù)發(fā)現(xiàn)和跟蹤數(shù)據(jù)沿襲的一些工具。后者特性對(duì)于確保分析數(shù)據(jù)質(zhì)量至關(guān)重要。

查詢引擎:這些引擎為高性能查詢存儲(chǔ)在各種類型和位置的數(shù)據(jù)提供了通用的SQL接口。PrestoDB、Trinio和ApacheSpark就是其中的例子。

這些改進(jìn)共同描述了當(dāng)今為使數(shù)據(jù)分析更有條理、更高效、更易于控制所做的努力。

它們伴隨著明顯的“先提取后轉(zhuǎn)換”方法的使用。這與數(shù)據(jù)倉(cāng)庫(kù)熟悉的提取轉(zhuǎn)換加載(ETL)數(shù)據(jù)暫存順序不同。現(xiàn)在,方法可能改為提取加載轉(zhuǎn)換(ELT)。

不管叫什么名字,這都是高級(jí)數(shù)據(jù)架構(gòu)的決定性時(shí)刻。它們恰逢新一輪閃亮的生成式人工智能時(shí)代。但它們從雜物柜到定義更明確的容器的演變發(fā)展緩慢。

數(shù)據(jù)湖安全和治理問題

數(shù)據(jù)湖導(dǎo)致了大數(shù)據(jù)的徹底失敗。所以我們需要保護(hù)數(shù)據(jù)免受未經(jīng)授權(quán)的訪問,并遵守GDPR等治理標(biāo)準(zhǔn)。這意味著應(yīng)用元數(shù)據(jù)技術(shù)來識(shí)別數(shù)據(jù)。

主要需求是安全性。這需要精密度的訪問控制,而不僅僅是將文件扔進(jìn)數(shù)據(jù)湖,更好的數(shù)據(jù)湖方法現(xiàn)在可以解決這個(gè)問題?,F(xiàn)在,組織中的不同角色反映在不同的權(quán)限設(shè)置中。

這種控制類型并不是早期數(shù)據(jù)湖的標(biāo)準(zhǔn),早期數(shù)據(jù)湖主要是難以更新的“僅追加”系統(tǒng)。

新的表格格式改變了這一現(xiàn)狀。近年來,DeltaLake、Iceberg和Hudi等表格格式相繼出現(xiàn),為數(shù)據(jù)更新支持帶來了顯著的改進(jìn)。

Iceberg等工具的標(biāo)準(zhǔn)化和廣泛可用性為終端用戶在選擇系統(tǒng)時(shí)提供了更多優(yōu)勢(shì)。這可以節(jié)省成本并提高技術(shù)控制能力。

推動(dòng)未來:數(shù)據(jù)湖通過處理大量非結(jié)構(gòu)化數(shù)據(jù)來為先進(jìn)的人工智能分析提供動(dòng)力。

生成式人工智能的數(shù)據(jù)湖

如今,生成式人工智能已成為許多企業(yè)待辦事項(xiàng)清單中的首要任務(wù),而數(shù)據(jù)湖和數(shù)據(jù)湖庫(kù)與這一現(xiàn)象密切相關(guān)。生成式人工智能模型熱衷于在大量數(shù)據(jù)上運(yùn)行。與此同時(shí),計(jì)算成本可能會(huì)飆升。

人工智能與數(shù)據(jù)管理之間日益緊密的聯(lián)系揭示了未來的關(guān)鍵機(jī)遇和障礙:

人工智能將改變數(shù)據(jù)管理

數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖和數(shù)據(jù)湖屋將有助于改進(jìn)GenAI,但這也是一條雙向的道路。生成式人工智能正在推動(dòng)進(jìn)步,這將極大地增強(qiáng)數(shù)據(jù)處理過程本身,這包括數(shù)據(jù)準(zhǔn)備、構(gòu)建BI儀表板和創(chuàng)建ETL管道。

生成式人工智能為解決數(shù)據(jù)管理中的模糊問題提供了獨(dú)特的機(jī)會(huì),比如數(shù)據(jù)清理。這一直是人類的活動(dòng),而自動(dòng)化則是一項(xiàng)挑戰(zhàn)。現(xiàn)在我們可以應(yīng)用[生成式人工智能]技術(shù)來獲得相當(dāng)高的準(zhǔn)確性。實(shí)際上可以使用基于自然語(yǔ)言的交互來完成部分工作,從而大大提高工作效率。

企業(yè)將不斷努力將工作連接到多個(gè)數(shù)據(jù)湖,并專注于更加自動(dòng)化的操作,以增強(qiáng)數(shù)據(jù)的可發(fā)現(xiàn)性。

人工智能數(shù)據(jù)湖將帶來更具彈性的數(shù)據(jù)中心

人工智能正在挑戰(zhàn)現(xiàn)有的游戲規(guī)則。這意味著數(shù)據(jù)湖工具既可以縮小規(guī)模,也可以擴(kuò)大規(guī)模。這意味著支持?jǐn)?shù)據(jù)中心和云端的靈活計(jì)算。

在某些月份的某些日子,數(shù)據(jù)團(tuán)隊(duì)希望將數(shù)據(jù)移至本地。其他時(shí)候,他們希望將數(shù)據(jù)移回云端。但是,當(dāng)你來回移動(dòng)所有這些數(shù)據(jù)工作負(fù)載時(shí),就會(huì)產(chǎn)生負(fù)擔(dān)。

當(dāng)首席財(cái)務(wù)官們開始關(guān)注人工智能的“稅收”,即其對(duì)支出的影響時(shí),數(shù)據(jù)中心將成為試驗(yàn)場(chǎng)。IT領(lǐng)導(dǎo)者將專注于通過真正彈性的可擴(kuò)展性將計(jì)算帶入數(shù)據(jù)。

人工智能基礎(chǔ)模型輸出的定制是關(guān)鍵

這就是你如何賦予它你的業(yè)務(wù)語(yǔ)言,比如可以使用數(shù)據(jù)定制AI。它將從用例和質(zhì)量角度以您想要的方式有效地代表您的企業(yè)。

定制工作應(yīng)與新AI時(shí)代的數(shù)據(jù)治理相輔相成。治理提供生命周期管理和監(jiān)控護(hù)欄,以確保遵守您自己的企業(yè)政策以及任何監(jiān)管政策。

更多本地處理即將到來

精心策劃的數(shù)據(jù)湖對(duì)于支持AI工作負(fù)載(包括與生成AI相關(guān)的工作負(fù)載)至關(guān)重要。我們將看到人們對(duì)混合數(shù)據(jù)架構(gòu)的興趣激增,部分原因是AI和機(jī)器學(xué)習(xí)的興起。

人工智能的這種勢(shì)頭將把更多的數(shù)據(jù)帶回本地世界或混合世界。企業(yè)不會(huì)想把所有的數(shù)據(jù)和人工智能模型都發(fā)送到云端,因?yàn)榘堰@些數(shù)據(jù)放到云端的成本太高了。

使用本質(zhì)上與存儲(chǔ)分離的查詢和計(jì)算引擎是一種主流趨勢(shì),這種趨勢(shì)將在人們已經(jīng)擁有的多樣化數(shù)據(jù)基礎(chǔ)設(shè)施中以及跨多個(gè)數(shù)據(jù)湖發(fā)揮作用。這通常被稱為“將計(jì)算轉(zhuǎn)移到數(shù)據(jù)”。

數(shù)據(jù)越多就越好嗎?

基于未分類、不足或無效數(shù)據(jù)的AI工作負(fù)載是一個(gè)日益嚴(yán)重的問題。但正如數(shù)據(jù)湖的發(fā)展所表明的那樣,這是一個(gè)可以通過數(shù)據(jù)管理解決的已知問題。

顯然,如果無法理解,那么獲取大量數(shù)據(jù)也是無益的。如果能利用數(shù)據(jù),數(shù)據(jù)越多越好。但如果不能利用,數(shù)據(jù)就沒有任何用處。

數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)及其數(shù)據(jù)湖屋分支使企業(yè)能夠使用更多類型和更多數(shù)據(jù)。這對(duì)生成式人工智能模型很有幫助,這些模型在對(duì)大型、多樣化的數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)會(huì)得到改進(jìn)。如今,數(shù)據(jù)湖以各種形式存在。

CIBIS峰會(huì)

由千家網(wǎng)主辦的2024年第25屆CIBIS建筑智能化峰會(huì)即將開啟,本屆峰會(huì)主題為:“匯智提質(zhì):開啟未來新篇章”。屆時(shí),我們將攜手全球知名智能化品牌及業(yè)內(nèi)專家,共同探討物聯(lián)網(wǎng)、AI、云計(jì)算、大數(shù)據(jù)、智慧建筑、智能家居、智慧安防等熱點(diǎn)話題與最新技術(shù)應(yīng)用,分享如何利用更智慧、更高效、更安全、更低碳的智慧技術(shù),共同開啟未來美好智慧生活。

歡迎建筑智能化行業(yè)小伙伴報(bào)名參會(huì),共同分享交流!

報(bào)名方式

長(zhǎng)沙站(10月24日):https://hdxu.cn/MrRqa

成都站(11月05日):https://hdxu.cn/7FoIq

西安站(11月07日):https://hdxu.cn/ToURP

北京站(11月19日):https://hdxu.cn/aeV0J

上海站(11月21日):https://hdxu.cn/xCWWb

廣州站(12月05日):https://hdxu.cn/QaqDj

更多2024年峰會(huì)信息,詳見峰會(huì)官網(wǎng):http://summit.qianjia.com

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-09-18
數(shù)據(jù)湖的演變:分裂架構(gòu)推動(dòng)人工智能分析新時(shí)代的到來
隨著生成式人工智能重新關(guān)注數(shù)據(jù)架構(gòu),我們將仔細(xì)研究數(shù)據(jù)湖如何轉(zhuǎn)變以及它們?cè)谕苿?dòng)高級(jí)人工智能分析方面所發(fā)揮的作用。

長(zhǎng)按掃碼 閱讀全文