未來,對熟練的大數(shù)據(jù)工程師的需求將急速增長?,F(xiàn)實的情況是這樣的,無論公司屬于哪個行業(yè),要想在當今競爭激烈的市場環(huán)境中取得成功,需要一個強大的軟件架構用來存儲和訪問公司數(shù)據(jù),最好從公司創(chuàng)立一開始就要搭建它。
在如今有時候有數(shù)據(jù)的地方就叫大數(shù)據(jù),這未免有些夸張,在本文中統(tǒng)稱為數(shù)據(jù)工程師和數(shù)據(jù)科學家。
先了解一下,數(shù)據(jù)工程師究竟做什么事?一個人怎么樣成為數(shù)據(jù)工程師?我們將討論這個有趣的領域以及如何成為數(shù)據(jù)工程師。
數(shù)據(jù)工程師都做什么?
數(shù)據(jù)工程師負責創(chuàng)建和維護分析基礎架構,該基礎架構幾乎可以支持數(shù)據(jù)世界中的所有其他功能。他們負責大數(shù)據(jù)架構的開發(fā)、構建、維護和測試,例如數(shù)據(jù)庫和大數(shù)據(jù)處理系統(tǒng)。大數(shù)據(jù)工程師還負責創(chuàng)建用于建模,挖掘,獲取和驗證數(shù)據(jù)集合等流程。
因此,數(shù)據(jù)工程師需要掌握通用腳本語言和工具,利用和改進數(shù)據(jù)分析系統(tǒng),不斷提高數(shù)據(jù)數(shù)量和質量。
數(shù)據(jù)工程師與數(shù)據(jù)科學家有何區(qū)別
雖然在技能和角色方面存在一定程度的重疊,但這兩個職位正日益分化為不同的角色。
數(shù)據(jù)科學家更關注與數(shù)據(jù)基礎設施的互動,而不是去創(chuàng)建和維護數(shù)據(jù)基礎設施。通常負責進行市場和業(yè)務運營研究,以確定趨勢和關系,數(shù)據(jù)科學家用各種復雜的機器和方法與數(shù)據(jù)進行交互并對其采取行動。
數(shù)據(jù)科學家通常精通機器學習和高級數(shù)據(jù)建模,因為他們希望借助高級數(shù)學模型和算法將原始數(shù)據(jù)轉化為可操作的,可理解的內容。這些信息通常用作分析來源,以告訴決策者“更大的圖景”。
那么是什么讓數(shù)據(jù)科學家與數(shù)據(jù)工程師不同呢?兩者主要區(qū)別在目標焦點。數(shù)據(jù)工程師更專注于構建用于數(shù)據(jù)生成和數(shù)據(jù)基礎架構; 數(shù)據(jù)科學家專注于對生成的數(shù)據(jù)進行數(shù)學和統(tǒng)計分析。
數(shù)據(jù)工程師的關鍵技能
下面介紹數(shù)據(jù)工程師所需的幾項關鍵技能。
1.大數(shù)據(jù)架構的工具與組件
數(shù)據(jù)工程師更關注分析基礎架構,因此所需的大部分技能都是以架構為中心的。
2.深入了解SQL和其它數(shù)據(jù)庫解決方案
數(shù)據(jù)工程師需要熟悉數(shù)據(jù)庫管理系統(tǒng),深入了解SQL至關重要。同樣其它數(shù)據(jù)庫解決方案,例如Cassandra或BigTable也須熟悉,因為不是每個數(shù)據(jù)庫都是由可識別的標準來構建。
3.數(shù)據(jù)倉庫和ETL工具
數(shù)據(jù)倉庫和ETL經(jīng)驗對于數(shù)據(jù)工程師至關重要。像Redshift或Panoply這樣的數(shù)據(jù)倉庫解決方案,以及ETL工具,比如StitchData或Segment都非常有用。此外,數(shù)據(jù)存儲和數(shù)據(jù)檢索經(jīng)驗同樣重要,因為處理的數(shù)據(jù)量是個天文數(shù)字。
4.基于Hadoop的分析(HBase,Hive,MapReduce等)
對基于Apache Hadoop的分析有深刻理解是這個領域的一個非常必要的需求,一般情況下HBase,Hive和MapReduce的知識存儲是必需的。
5.編碼
說到解決方案,編碼與開發(fā)能力是一個重要的優(yōu)點(這也是許多職位的要求),你要熟悉Python,C/C++,Java,Perl,Golang或其它語言,這會非常有價值。
6.機器學習
雖然數(shù)據(jù)工程師主要關注的是數(shù)據(jù)科學,但對數(shù)據(jù)處理技術的理解會加分,比如一些統(tǒng)計分析知識和基礎數(shù)據(jù)建模。
機器學習已經(jīng)成為標準數(shù)據(jù)科學,該領域的知識可以幫我們構建同類產(chǎn)品的解決方案。這種知識還有一個好處,就是讓你在這個領域極具市場價值,因為在這種情況下能夠“戴上兩頂帽子”會讓你成為一個更強大的工具。
7.多種操作系統(tǒng)
最后,需要我們對Unix,Linux和Solaris系統(tǒng)有深入了解,許多數(shù)學工具基于這些操作系統(tǒng),因為它們有Windows和Mac系統(tǒng)功能沒有的訪問權限和特殊硬件需求。
如何成為數(shù)據(jù)工程師?
與其他職業(yè)相比,數(shù)據(jù)工程師需要用更復雜的學習方法。數(shù)據(jù)工程師通常有計算機科學技術相關學位會更好,然后再進一步學習供應商特定的認證計劃和培訓課程。
計算機相關學位雖然重要,但只是故事的一部分,獲得適合的認證可能非常有價值,市場上也有一些大數(shù)據(jù)工程師專門認證,如下:
Google認證專家 – 數(shù)據(jù)工程。該認證表明學生熟悉數(shù)據(jù)工程原理,可以作為該領域的助理或專業(yè)人員。
IBM認證數(shù)據(jù)工程師? – 大數(shù)據(jù)。此認證更側重于數(shù)據(jù)工程技能集的大數(shù)據(jù)特定應用,而不是一般技能,這被許多人視為黃金標準。
Cloudera的CCP數(shù)據(jù)工程師:該認證針對Cloudera解決方案,體現(xiàn)學生在ETL工具和分析方面的經(jīng)驗。
二級技能認證,例如MCSE(微軟認證解決方案專家),涵蓋更廣泛的主題,但具有特定的子認證,如MCSE:數(shù)據(jù)管理與分析。
當然,在線教育平臺提供該領域的重要培訓,Udemy提供了數(shù)據(jù)工程眾多的課程和數(shù)據(jù)科學,其他如EDX和Memrise也提供了類似課程,DataCamp專注于數(shù)據(jù)科學和工程,Galvanize的品類則更為廣泛。
小結
雖然這些數(shù)據(jù)解決方案可以幫助您踏進大數(shù)據(jù)工程領域,雖然它們有分發(fā)或授予認證,但只是提供證書或文憑。雖然一般學習夠了,但它們不能被認視為實際認證或實踐的替代品。
希望本文能夠給大家闡明數(shù)據(jù)工程師所需的特定知識,技能和要求。這個領域正在迅速發(fā)展,但它也充滿了挑戰(zhàn)與險阻。在工作中通過適當?shù)恼J證填補技能組合的空白,實現(xiàn)最好學習的關鍵一步。
編譯:勇哥
來源:https://dzone.com/articles/how-to-become-a-data-engineer
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 2025年超融合基礎設施的4大趨勢
- 2025年將影響數(shù)據(jù)中心的5個云計算趨勢
- 80萬輛大眾汽車因AWS云配置錯誤導致數(shù)據(jù)泄露,包含“高精度”位置記錄
- 名創(chuàng)優(yōu)品超4000家門店接入“碰一下”支付,引爆年輕消費熱潮
- 免稅店也能用“碰一下”支付了!中免海南免稅店:碰一下就優(yōu)惠
- 報告:人工智能推動數(shù)據(jù)中心系統(tǒng)支出激增25%
- 密態(tài)計算技術助力農(nóng)村普惠金融 螞蟻密算、網(wǎng)商銀行項目入選大數(shù)據(jù)“星河”案例
- 專利糾紛升級!Netflix就虛擬機專利侵權起訴博通及VMware
- 兩大難題發(fā)布!華為啟動2024奧林帕斯獎全球征集
- 2025年工業(yè)軟件市場格局:7個關鍵統(tǒng)計數(shù)據(jù)與分析
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。