數(shù)據(jù)如水海納百川,數(shù)據(jù)湖如何成為數(shù)據(jù)治理的新范式?

科技云報道原創(chuàng)。

10年前,Pentaho公司創(chuàng)始人兼CTO詹姆斯·迪克遜(James Dixon)在他的博客中第一次提出“數(shù)據(jù)湖”(Data Lake)的概念;10年后的今天,在業(yè)界“數(shù)據(jù)中臺”大火的時代背景下,再來討論“數(shù)據(jù)湖”,別有一番風(fēng)味。

歷史的演變:從“數(shù)據(jù)倉庫”到“數(shù)據(jù)湖”

在萬物互聯(lián)的時代,各行各業(yè)、各類設(shè)備和應(yīng)用都在24小時不間斷產(chǎn)生大量數(shù)據(jù)。IDC統(tǒng)計顯示,全球近90%的數(shù)據(jù)將在這幾年內(nèi)產(chǎn)生,預(yù)計到2025年,全球數(shù)據(jù)量將比2016年的16.1ZB增加十倍,達到163ZB。數(shù)據(jù)的海量與多元化決定了從數(shù)據(jù)中獲取有用的價值變得越來越困難,如果無法從數(shù)據(jù)中獲得益處,那么數(shù)據(jù)價值就無從談起。

這時候,數(shù)據(jù)需要更深度的價值挖掘。目前,數(shù)據(jù)的價值呈現(xiàn)兩極化特征,一是及時發(fā)現(xiàn),實時分析快速促進業(yè)務(wù)發(fā)展;二是長期存放,數(shù)據(jù)累積起來,探索數(shù)據(jù)后隱藏的規(guī)律,統(tǒng)一分析其價值,為業(yè)務(wù)發(fā)展提供參考。

新的數(shù)據(jù)價值給企業(yè)帶來更多智能創(chuàng)新應(yīng)用,比如增長黑客、推薦系統(tǒng),用戶行為分析,AIoT帶來的更多模型,這也意味著IT基礎(chǔ)設(shè)施的變革。

以往的計算和存儲耦合的架構(gòu)就會呈現(xiàn)資源利用率非常低的狀況,數(shù)據(jù)是不斷累積、不斷增長,但計算的算力要求可能是峰谷,為了存儲更多的數(shù)據(jù)購買更多的計算,擴容的時候必須一起擴容,最終導(dǎo)致穩(wěn)定性不是最優(yōu),兩種資源無法獨立擴展,使用成本也不是最優(yōu)。

在傳統(tǒng)架構(gòu)中,原始數(shù)據(jù)統(tǒng)一存放在Hadoop分布式文件系統(tǒng)(HDFS)系統(tǒng)上,引擎以Hadoop和Spark 為主,受到開源軟件本身能力的限制,傳統(tǒng)技術(shù)無法滿足企業(yè)用戶在數(shù)據(jù)規(guī)模、存儲成本、查詢性能以及彈性計算架構(gòu)升級等方面的需求。

如果這些多元的數(shù)據(jù)無法被其它應(yīng)用所使用,那么這一過程不可避免地會形成數(shù)據(jù)孤島,以至于無法滿足數(shù)據(jù)量迅速增長的需求。

傳統(tǒng)數(shù)據(jù)處理方式,就像“一條小河”,里面有ERP、CRM等各種業(yè)務(wù)系統(tǒng),用戶可以設(shè)計“一個河道”,數(shù)據(jù)庫在最底層。數(shù)據(jù)經(jīng)過整理后形成中間層的數(shù)據(jù)倉庫,然后通過商務(wù)智能工具(BI)來及進行展示。

簡單理解,在傳統(tǒng)數(shù)據(jù)處理過程中,用戶大概知道能有多少“水”,還可以通過“閘門”管控水量。

但是,在互聯(lián)網(wǎng)時代,各種各樣的視頻、移動終端信息如“洪水猛獸”,形成大規(guī)模的海量數(shù)據(jù),用戶來不及整理和使用。這時,一個新的設(shè)想打開了人們的視野,假設(shè)有那么一片洼地,沒有河道,所有數(shù)據(jù)先蓄積到里面,然后通過有效的工具進行查詢和處理,這便是數(shù)據(jù)湖。

國際研究機構(gòu)MarketsandMarkets最新研究報告顯示,到2024年,全球數(shù)據(jù)湖市場將突破200億美元,增至201億美元,復(fù)合年增長率將高達20.6%??梢哉f,隨著數(shù)據(jù)治理與應(yīng)用需求激增,數(shù)據(jù)湖成為數(shù)據(jù)管理的重要方式已成為不爭的事實。

對于數(shù)據(jù)湖而言,有幾個重要特點。第一,存儲的原始自然數(shù)據(jù),既可以是結(jié)構(gòu)化數(shù)據(jù),也可以是非結(jié)構(gòu)化數(shù)據(jù);第二,因為使用了云計算,用戶可以快速縮放海量數(shù)據(jù);第三,在數(shù)據(jù)查詢過程中,除了能進行建目錄、數(shù)據(jù)遷移和抽取等動作,還能進一步歸類、進行數(shù)據(jù)分析等等。另外,數(shù)據(jù)湖不僅是高可用、高持久、海量數(shù)據(jù)處理的選擇,同時還能滿足安全、合規(guī)和審計等要求。

而對于用戶來說,借助最新的數(shù)據(jù)湖解決方案,不僅能解決過去的數(shù)據(jù)孤島問題,同時還能兼容傳統(tǒng)的數(shù)據(jù)倉庫和數(shù)據(jù)分析方法。最重要的是,更適合現(xiàn)代應(yīng)用部署,比如和機器學(xué)習(xí)結(jié)合,進行預(yù)測性的分析。

數(shù)據(jù)湖與數(shù)據(jù)倉庫并不是替代關(guān)系 湖倉一體化成為新趨勢

隨著數(shù)據(jù)湖概念的興起,業(yè)界對于數(shù)據(jù)倉庫和數(shù)據(jù)湖的對比甚至爭論就一直不斷。有人說數(shù)據(jù)湖是下一代大數(shù)據(jù)平臺,各大云廠商也在紛紛的提出自己的數(shù)據(jù)湖解決方案,一些云數(shù)倉產(chǎn)品也增加了和數(shù)據(jù)湖聯(lián)動的特性。不過在我們看來,數(shù)據(jù)湖與數(shù)據(jù)倉庫并不是替代關(guān)系,而是互為補充、相輔相成。

無論是數(shù)據(jù)倉庫,還是數(shù)據(jù)湖,其所要解決的問題離不開數(shù)據(jù)的存儲、調(diào)用、處理、分析、應(yīng)用等。而隨著需求側(cè)的發(fā)展變化,數(shù)據(jù)湖與數(shù)據(jù)倉庫被寄予了更高的期待:如何完成內(nèi)部的統(tǒng)一,從而滿足數(shù)據(jù)訪問使用的靈活性與高性能并舉。

早期業(yè)界認為數(shù)據(jù)湖可能將會是未來的主流趨勢,甚至有數(shù)據(jù)湖代替數(shù)據(jù)倉庫之勢,但隨著新技術(shù)發(fā)展的熱度下降,市場對數(shù)據(jù)湖的認知愈發(fā)理性。畢竟,數(shù)據(jù)倉庫在決策支持和商業(yè)智能應(yīng)用方面有著悠久的歷史。

也因此,湖倉一體化(Lakehouse)正在成為近些年來的熱點。湖倉一體采用開放式架構(gòu),既構(gòu)建于數(shù)據(jù)湖低成本的數(shù)據(jù)存儲架構(gòu)上,同時具備數(shù)據(jù)倉庫的數(shù)據(jù)處理和管理功能,助力商業(yè)決策。因此,從某種程度上來講,數(shù)據(jù)湖產(chǎn)品的不斷迭代升級也是在向湖倉一體化趨勢靠近。隨著企業(yè)及組織不斷上云、數(shù)據(jù)分析需求的激增,湖倉一體化分析方案正在成為下一代數(shù)據(jù)分析系統(tǒng)的核心。

如今,越來越多的企業(yè)開始融合數(shù)據(jù)湖和數(shù)據(jù)倉庫的平臺,不僅可以實現(xiàn)數(shù)據(jù)倉庫的功能,還實現(xiàn)了各種不同類型數(shù)據(jù)的處理功能、數(shù)據(jù)科學(xué)、用于發(fā)現(xiàn)新模型的高級功能。

相比單獨的數(shù)據(jù)倉庫和數(shù)據(jù)湖,湖倉一體提供完善的數(shù)據(jù)管理能力。數(shù)據(jù)湖中會存在兩類數(shù)據(jù):原始數(shù)據(jù)和處理后的數(shù)據(jù)。數(shù)據(jù)湖中的數(shù)據(jù)會不斷的積累、演化,包含數(shù)據(jù)源、數(shù)據(jù)連接、數(shù)據(jù)格式、數(shù)據(jù)schema,對于數(shù)據(jù)具有一定的權(quán)限管理能力。

其次,湖倉一體為企業(yè)提供全量數(shù)據(jù)的存儲場所,可以對數(shù)據(jù)的全生命周期進行管理,包括數(shù)據(jù)的定義、接入、存儲、處理、分析、應(yīng)用的全過程。一個強大的數(shù)據(jù)湖,需要能做到對其間的任意一條數(shù)據(jù)的接入、存儲、處理、消費過程是可追溯的,能夠清楚的重現(xiàn)數(shù)據(jù)完整的產(chǎn)生過程和流動過程。

一般情況下,數(shù)據(jù)的加載、轉(zhuǎn)換、處理會使用批處理計算引擎;需要實時計算的部分,會使用流式計算引擎;對于一些探索式的分析場景,可能又需要引入交互式分析引擎。對此,湖倉一體擁有豐富的計算引擎,提供從批處理、流式計算、交互式分析到機器學(xué)習(xí)等各類計算引擎。

湖倉一體本身還內(nèi)置多模態(tài)的存儲引擎,以滿足不同的應(yīng)用對于數(shù)據(jù)訪問需求。但是,在實際的使用過程中,為了達到可接受的性價比,湖倉一體解決方案提供可插拔式存儲框架,支持的類型有HDFS/S3等, 并且在必要時還可以與外置存儲引擎協(xié)同工作,滿足多樣化的應(yīng)用需求。

作為全球云計算巨頭,亞馬遜云科技在數(shù)據(jù)倉庫方面已經(jīng)擁有多款產(chǎn)品,比如:Amazon Redshift,是一個基于云的重要的數(shù)據(jù)倉庫產(chǎn)品,不僅具有強大的縮放能力,成本也是傳統(tǒng)的數(shù)據(jù)庫的十分之一。還有圖形數(shù)據(jù)庫Amazon Neptune,也在中國成功落地。

近期,亞馬遜云科技又針對數(shù)據(jù)及數(shù)據(jù)分析等服務(wù)持續(xù)發(fā)力,推出“智能湖倉”架構(gòu)。據(jù)了解,“智能湖倉”架構(gòu)將亞馬遜云科技的數(shù)據(jù)服務(wù)無縫集成,打通數(shù)據(jù)湖和數(shù)據(jù)倉庫之間數(shù)據(jù)移動和訪問,并且進一步實現(xiàn)數(shù)據(jù)在數(shù)據(jù)湖、數(shù)據(jù)倉庫,以及在數(shù)據(jù)查詢、數(shù)據(jù)分析、機器學(xué)習(xí)等各類專門構(gòu)建的服務(wù)之間按需移動,從而形成統(tǒng)一且連續(xù)的整體,滿足客戶各種實際業(yè)務(wù)場景下的不同需求。

“智能湖倉”架構(gòu)以Amazon Simple Storage Service(Amazon S3)為基礎(chǔ)構(gòu)建數(shù)據(jù)湖,作為中央存儲庫,圍繞數(shù)據(jù)湖集成專門的“數(shù)據(jù)服務(wù)環(huán)”,包括數(shù)據(jù)倉庫、機器學(xué)習(xí)、大數(shù)據(jù)處理、日志分析等數(shù)據(jù)服務(wù),然后再利用Amazon Lake Formation、Amazon Glue、Amazon Athena、Amazon Redshift Spectrum等工具,實現(xiàn)數(shù)據(jù)湖的構(gòu)建、數(shù)據(jù)的移動和管理等。

從Linux基金會開啟開源Lakehouse項目、Databricks新添Delta Engine來增強Lakehouse服務(wù)能力,到Apache Iceberg的火熱、AWS Lake Formation等,不難看到,湖倉一體化正在成為主流服務(wù)商們探索的方向。同時,隨著國內(nèi)外廠商們紛紛加入開源生態(tài),推動生態(tài)不斷成熟,數(shù)據(jù)湖與數(shù)據(jù)倉的關(guān)聯(lián)正在變得愈發(fā)密切。

不管是大數(shù)據(jù)開發(fā)者,還是企業(yè)大數(shù)據(jù)技術(shù)決策者,都應(yīng)該重新審視數(shù)據(jù)湖和數(shù)據(jù)倉庫的融合應(yīng)用,通過構(gòu)建更強大的業(yè)務(wù)平臺為企業(yè)減輕運營壓力,提高工作效率,讓企業(yè)IT為業(yè)務(wù)創(chuàng)造更多新的可能。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-06-30
數(shù)據(jù)如水海納百川,數(shù)據(jù)湖如何成為數(shù)據(jù)治理的新范式?
數(shù)據(jù)如水海納百川,數(shù)據(jù)湖如何成為數(shù)據(jù)治理的新范式?

長按掃碼 閱讀全文