2017年的數(shù)據(jù)工程生態(tài)系統(tǒng)

大數(shù)據(jù)

自從我們?cè)?014年推出Insight Data Engineering Fellows計(jì)劃以來(lái),我們與數(shù)據(jù)行業(yè)的75多個(gè)團(tuán)隊(duì)建立了聯(lián)系,討論了頂級(jí)團(tuán)隊(duì)(如Facebook,Airbnb,Slack,紐約時(shí)報(bào),LinkedIn,亞馬遜和Tesla)工程師面臨的最新挑戰(zhàn)。此外,我們不斷增長(zhǎng)的校友網(wǎng)絡(luò)現(xiàn)在有著150多名工程師和750多名數(shù)據(jù)科學(xué)家 ,經(jīng)常在Insight社區(qū)分享他們的經(jīng)驗(yàn)。感謝這個(gè)強(qiáng)大的社區(qū),我們有一個(gè)探索數(shù)據(jù)領(lǐng)域技術(shù)新興模式的獨(dú)一無(wú)二的基地。

我們不斷探索將這些知識(shí)傳遞給下一代數(shù)據(jù)工程師和擴(kuò)散的更多數(shù)據(jù)社區(qū)的方法,開(kāi)發(fā)了更為互動(dòng)的數(shù)據(jù)工程生態(tài)系統(tǒng)圖,該迭代提供了數(shù)據(jù)管道核心組件的簡(jiǎn)化視圖,同時(shí)更深入地探索了分布式系統(tǒng)技術(shù)的復(fù)雜世界。

大數(shù)據(jù)

數(shù)據(jù)工程趨勢(shì)

通過(guò)更新此地圖,我們已經(jīng)反映了當(dāng)前數(shù)據(jù)團(tuán)隊(duì)可用的工具和服務(wù)的最新變化。強(qiáng)調(diào)了一些值得注意的趨勢(shì)。

科技融合:Kafka 和 Spark

盡管有著數(shù)量巨大的工具被引入數(shù)據(jù)工程領(lǐng)域,似乎有兩個(gè)顯著的趨同點(diǎn)。

在眾多可用的排隊(duì)技術(shù)中,Kafka 是最廣泛采用的。

自從LinkedIn于2011年將其基于日志的解決方案發(fā)布給開(kāi)源社區(qū)以來(lái),Kafka的流行程度一直在穩(wěn)步上升,現(xiàn)在已成為流媒體數(shù)據(jù)的默認(rèn)攝取工具。

除了流媒體數(shù)據(jù)之外,Kafka越來(lái)越多地被用作許多公司的微服務(wù)的集中式消息總線 。除了讓人印象深刻的高吞吐量、高可靠性和與許多其他流行技術(shù)的集成之外,其廣為流行的原因就是易于使用。

大數(shù)據(jù)

其他廣為傳播的技術(shù)有Apache Spark,通用的分布式處理框架。

自從Hadoop早期壟斷“大數(shù)據(jù)”以來(lái),出現(xiàn)了許多有能力的框架,Spark已經(jīng)鞏固了其處理大規(guī)模數(shù)據(jù)的“默認(rèn)”工具的地位。

Spark已經(jīng)被證明是一個(gè)功能全面的工具,從傳統(tǒng)批處理到在線機(jī)器學(xué)習(xí)模型的一切工作都能勝任。 Spark高水平的開(kāi)發(fā),像DataFrames和SQL一樣結(jié)構(gòu)化的APIs,以及流和圖形庫(kù)使得它可以使用代碼庫(kù)解決許多實(shí)際問(wèn)題。和Kafka一樣,它有著很棒的社區(qū)支持,而且很多新的和現(xiàn)有的項(xiàng)目正在與Spark集成。

雖然Kafka和Spark是受歡迎的選擇,但肯定不適合每一種用例。調(diào)查每個(gè)工具的優(yōu)點(diǎn),缺點(diǎn)和替代方案很重要。我們經(jīng)常在Insight強(qiáng)調(diào),請(qǐng)務(wù)必選擇正確的工具!

架構(gòu)趨勢(shì):與Kappa統(tǒng)一

除了特定技術(shù)的趨勢(shì),我們注意到許多團(tuán)隊(duì)朝著理想化的Kappa架構(gòu)前進(jìn)。與Lambda方法相反,許多技術(shù)現(xiàn)在采用的批處理問(wèn)題只是流處理問(wèn)題的一個(gè)子集。

雖然還不是最前沿的,但像Flink , Apex和Gearpump這樣的技術(shù)正在推動(dòng)向統(tǒng)一批處理和流處理框架的愿景前進(jìn)。即使是Spark,隨著結(jié)構(gòu)化流的發(fā)布,現(xiàn)在提供了一個(gè)單一的界面來(lái)操作批量和流數(shù)據(jù)。

大數(shù)據(jù)

從某種意義上說(shuō), Apache Beam項(xiàng)目是這些努力的結(jié)果?;贕oogle的數(shù)據(jù)流模型,Beam旨在創(chuàng)建一個(gè)統(tǒng)一的API,允許開(kāi)發(fā)人員編寫與其下的處理引擎無(wú)關(guān)的應(yīng)用。

隨著Apache Beam等統(tǒng)一處理框架和項(xiàng)目的出現(xiàn),Kappa架構(gòu)可能會(huì)快速被采用。不管架構(gòu)如何,隨著處理框架的不斷改進(jìn)和發(fā)展,我們期待看到批處理和流處理之間的界線仍然模糊。

托管服務(wù)增加

雖然稍有爭(zhēng)議,“無(wú)服務(wù)器”的產(chǎn)品也是一個(gè)發(fā)展趨勢(shì)。“紐約時(shí)報(bào)”等數(shù)據(jù)團(tuán)隊(duì)越來(lái)越希望直接架構(gòu)數(shù)據(jù)管道,而不用去管理云基礎(chǔ)設(shè)施。雖然這些服務(wù)的生產(chǎn)用例相對(duì)有限,但它們提供的功能正在不斷改進(jìn)。通過(guò)像AWS S3,Redshift,Athena,EMR,Kinesis和Lambda以及GCP的BigQuery,Pub / Sub和DataProc這樣的服務(wù),主要的云提供商正在為這些全方位服務(wù)的解決方案提供投資。

類似于從“內(nèi)部”服務(wù)器到云基礎(chǔ)設(shè)施的過(guò)渡,數(shù)據(jù)團(tuán)隊(duì)可能會(huì)越來(lái)越多地利用數(shù)據(jù)服務(wù)。同時(shí),部分自助服務(wù)和部分托管的混合架構(gòu)將變得越來(lái)越普遍。

云提供商的趨勢(shì):AWS與GCP

過(guò)去幾年的另一個(gè)顯著變化是亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)面臨的競(jìng)爭(zhēng)增多。雖然像Microsoft Azure,IBM,DigitalOcean和Rackspace這樣的平臺(tái)已經(jīng)存在了一段時(shí)間,但似乎沒(méi)有人可以挑戰(zhàn)AWS在2006年發(fā)布的先行優(yōu)勢(shì)。

然而,Google一直為內(nèi)部用戶開(kāi)發(fā)自己的復(fù)雜基礎(chǔ)架構(gòu)。事實(shí)上,Google一直以內(nèi)部開(kāi)拓分布式系統(tǒng)而聞名,但選擇發(fā)布白皮書(shū)而不是開(kāi)源。隨著對(duì)谷歌云平臺(tái)(GCP)的大量投入,他們已推出Google Infrastructure For Everyone Else (GIFEE) 的托管服務(wù)。

在過(guò)去幾年中,GCP取得了長(zhǎng)足的進(jìn)步,迅速成為一個(gè)有利的競(jìng)爭(zhēng)者。雖然GCP與AWS相比并不能提供全面的服務(wù),但越來(lái)越多的頂級(jí)團(tuán)隊(duì)(如Spotify)正在進(jìn)行轉(zhuǎn)換 。也許云提供商的領(lǐng)域最終會(huì)減少,但是在不久的將來(lái)我們會(huì)看到健康的競(jìng)爭(zhēng)。

前景

雖然沒(méi)有人知道數(shù)據(jù)領(lǐng)域的未來(lái)如何,但有一點(diǎn)很清楚——新技術(shù)將使我們能夠進(jìn)一步利用我們的數(shù)據(jù)。無(wú)論是新技術(shù)和服務(wù)的出現(xiàn),還是現(xiàn)有的功能的增加,開(kāi)發(fā)人員都將擁有更豐富的工具來(lái)構(gòu)建數(shù)據(jù)管道和平臺(tái)。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2017-10-30
2017年的數(shù)據(jù)工程生態(tài)系統(tǒng)
自從我們?cè)?014年推出Insight Data Engineering Fellows計(jì)劃以來(lái),我們與數(shù)據(jù)行業(yè)的75多個(gè)團(tuán)隊(duì)建立了聯(lián)系,討論了頂級(jí)團(tuán)隊(duì)(如Fa

長(zhǎng)按掃碼 閱讀全文