怎樣成為一個(gè)數(shù)據(jù)科學(xué)家:針對(duì)大學(xué)畢業(yè)生的指導(dǎo)(譯)

剛畢業(yè)的大學(xué)生們,恭喜你們!歡迎成為勞動(dòng)者的一員。在你所有可能申請(qǐng)的工作中,“數(shù)據(jù)科學(xué)家”這個(gè)風(fēng)騷無比的職位也許最難得到的一個(gè),同時(shí)也許是最具有潛在豐厚回報(bào)的一個(gè)。但是別害怕:Datanami在這里以一個(gè)實(shí)際數(shù)據(jù)科學(xué)家從業(yè)者的身份給你一些建議,告訴你怎樣成為他們中的一員。

開始成為數(shù)據(jù)科學(xué)家的第一條建議是別被這個(gè)職位的要求所挫敗。沒有一個(gè)剛畢業(yè)的大學(xué)生能滿足即是數(shù)學(xué)\統(tǒng)計(jì)天才,又精通市場(chǎng)、產(chǎn)品、網(wǎng)絡(luò)安全,還是專業(yè)的Python、Java、R程序員。(提示:這就是為什么數(shù)據(jù)科學(xué)家被稱為獨(dú)角獸——因?yàn)樗麄儾淮嬖冢?br /> “在數(shù)據(jù)科學(xué)的屏蔽傘下隱藏著許多的技能,我們不能期望一個(gè)人能精通里面的所有東西?!盉ooz Allen Hamilton的數(shù)據(jù)科學(xué)家Kirk Borne說,“數(shù)據(jù)科學(xué)家人才短缺的最好解決方案是組成一個(gè)數(shù)據(jù)科學(xué)家團(tuán)隊(duì)。所以我建議有應(yīng)該精通兩個(gè)多個(gè)領(lǐng)域的同時(shí)對(duì)其他領(lǐng)域也能有一個(gè)基本的了解”

根據(jù)Kirk Borne所說的,你需要抓緊好好溫習(xí)數(shù)據(jù)科學(xué)的核心技能,例如,機(jī)器學(xué)習(xí)、信息管理、統(tǒng)計(jì)學(xué)以及數(shù)據(jù)信息可視化。同時(shí)你也需要懂得數(shù)據(jù)庫的周邊知識(shí)和數(shù)據(jù)結(jié)構(gòu),最少掌握幾門像Python、R、SAS、Spark這樣的編程語言。熟悉圖分析、自然語言處理、最優(yōu)化也能使你的數(shù)據(jù)科學(xué)簡(jiǎn)歷更好看一些。還需要進(jìn)行數(shù)據(jù)建模和一些模擬練習(xí)。

“對(duì)學(xué)習(xí)物理學(xué)、生物學(xué)、天文學(xué)、化學(xué)或其它科學(xué)的學(xué)生來說,一個(gè)好消息是他們可以很容易地將它們的科學(xué)技能轉(zhuǎn)換到數(shù)據(jù)科學(xué)這一領(lǐng)域”他說。

你應(yīng)該返回學(xué)校繼續(xù)修煉嗎?

盡管最近數(shù)量可觀的博士級(jí)別的數(shù)據(jù)科學(xué)編程者的出現(xiàn)一定程度上解決著這個(gè)“獨(dú)角獸”短缺的問題,可是你不想再在學(xué)校待太長(zhǎng)時(shí)間。一個(gè)碩士學(xué)位就已經(jīng)足夠了。Borne如是認(rèn)為。

“最近越來越多的機(jī)構(gòu)愿意雇傭既有一定課堂知識(shí),又有一定實(shí)際經(jīng)驗(yàn)的中等學(xué)位的數(shù)據(jù)科學(xué)家?!彼麑?duì)Datanami.說“學(xué)位最終對(duì)職業(yè)提升是十分重要的(對(duì)于一個(gè)包含商業(yè)分析的MBA來說也許是最重要的),所以要重視獲得你的學(xué)位——它只是在你剛開始從事數(shù)據(jù)科學(xué)家職業(yè)之前不是必須的?!?/p>

Hadoop服務(wù)提供商Qubole的CEO也針對(duì)評(píng)估做出了回應(yīng)。雖然具有所需的如數(shù)學(xué)、數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、概率論、SQL等堅(jiān)實(shí)背景,數(shù)據(jù)科學(xué)家還是有很多路要走,最終要從象牙塔進(jìn)入產(chǎn)業(yè)界來獲得最重要的元素:有趣的數(shù)據(jù)。

“在產(chǎn)業(yè)界去獲得這些技能是十分重要的”Apache Hive聯(lián)合創(chuàng)造者Thusoo說“你有堅(jiān)實(shí)的知識(shí)基礎(chǔ),但是為I了運(yùn)用這些技能你需要獲得數(shù)據(jù)。很多有趣的數(shù)據(jù)集是和現(xiàn)實(shí)產(chǎn)業(yè)緊緊綁在一起的。現(xiàn)在不再像20或30年前那樣——絕大多數(shù)的數(shù)據(jù)都在研究機(jī)構(gòu)”。

現(xiàn)在頂級(jí)的數(shù)據(jù)科學(xué)家去學(xué)校不再是研究成為一個(gè)數(shù)據(jù)科學(xué)家,而是為了學(xué)習(xí)成為一個(gè)計(jì)算機(jī)科學(xué)家、天體物理學(xué)家(就像Borne)、化學(xué)工程師、或者理論物理學(xué)家。隨著世界的前進(jìn),這些艱澀的科學(xué)和數(shù)學(xué)技能被證明對(duì)于處理日益增長(zhǎng)的數(shù)據(jù)是無價(jià)的、彌足珍貴的。

“圍繞數(shù)據(jù)進(jìn)行思考是第一要義”Thusoo說“現(xiàn)成的工具和編程語言之類的你能很容易學(xué)會(huì)使用。無論是Python實(shí)現(xiàn)的、Scale實(shí)現(xiàn)的、Java實(shí)現(xiàn)的還是其他語言實(shí)現(xiàn)的,隨機(jī)森林算法就是隨機(jī)森林算法。你需要理解的是在哪里使用適合的技術(shù),而不是怎樣用代碼實(shí)現(xiàn)這些技術(shù)?!?/p>

南方衛(wèi)理公會(huì)大學(xué)統(tǒng)計(jì)科學(xué)的副教授、數(shù)據(jù)科學(xué)碩士項(xiàng)目主任Dr. Monnie McGee說在大數(shù)據(jù)領(lǐng)域統(tǒng)計(jì)學(xué)也扮演著很重要的角色。

“統(tǒng)計(jì)和計(jì)算機(jī)科學(xué)都是很重要多的技能”她說“然而作為一個(gè)統(tǒng)計(jì)學(xué)領(lǐng)域的個(gè)體,我偏向地認(rèn)為在數(shù)據(jù)科學(xué)領(lǐng)域統(tǒng)計(jì)訓(xùn)練對(duì)于一個(gè)個(gè)體來說是相當(dāng)重要的”。

有統(tǒng)計(jì)方面的訓(xùn)練并不僅僅是能使用正確的統(tǒng)計(jì)方法或運(yùn)行相關(guān)的軟件,她說,“我的意思是有U能力做出能被測(cè)試的假設(shè),適當(dāng)?shù)牟杉瘮?shù)據(jù),設(shè)計(jì)方案評(píng)估數(shù)據(jù)中的噪點(diǎn)和信息,在問題的上下文環(huán)境層面解釋結(jié)果。”她說。

耐心,年輕人

不要期望在你22歲時(shí)就能解決世界上的數(shù)據(jù)科學(xué)問題。實(shí)際上要成為一個(gè)數(shù)據(jù)科學(xué)家需要多年的訓(xùn)練和經(jīng)驗(yàn),為數(shù)眾多的失敗,不被打到的毅力。

伊利諾斯理工學(xué)院計(jì)算機(jī)科學(xué)與數(shù)據(jù)科學(xué)碩士項(xiàng)目主任Shlomo Engelson Argamon說,要想在數(shù)據(jù)科學(xué)領(lǐng)域做出成績(jī)需要很多不同領(lǐng)域的經(jīng)驗(yàn)。“需要數(shù)目繁多條目繁雜的工具和技能”Argamon繼續(xù)說道“真正深入研究它們需要消耗多年多的時(shí)間和經(jīng)驗(yàn),對(duì)于一個(gè)剛剛踏入數(shù)據(jù)科學(xué)領(lǐng)域的人,關(guān)鍵是抓住其中每一個(gè)領(lǐng)域的基礎(chǔ)原理,有能力使用一兩種方法和工具。倘若一個(gè)人基礎(chǔ)知識(shí)掌握的比較好的話,其它工具和叫技術(shù)會(huì)很容易地學(xué)會(huì)?!?/p>

有人預(yù)言,軟件的發(fā)展將最終取代對(duì)數(shù)據(jù)科學(xué)家的需求。這種言論甚囂塵上,從業(yè)的數(shù)據(jù)科學(xué)家群體也混淆了這個(gè)。

根據(jù)Borme的說法,數(shù)據(jù)庫科學(xué)家具有堅(jiān)實(shí)的經(jīng)驗(yàn)基礎(chǔ),統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)處理方面的知識(shí)的事實(shí)使得他們區(qū)分于現(xiàn)成的軟件包有有很大的優(yōu)勢(shì)?!皫е@些天賦和能力,靈活的數(shù)據(jù)科學(xué)家能夠?qū)W習(xí)和運(yùn)用新的軟件包,新的編程技術(shù),許多組織中天才人物新創(chuàng)造的方法”,他說。

“因此,”Borme繼續(xù)說到“分析軟件包的發(fā)展不會(huì)像人們預(yù)測(cè)的那樣取代數(shù)據(jù)科學(xué)家的需求。但是它的發(fā)展肯定會(huì)取代一些數(shù)據(jù)科學(xué)家的技能需求(如Java和Hadoop),雖然不是全部取代:我認(rèn)為我們都需要通曉一種編程語言(Pyython、R、SAS),可預(yù)見的將來SQL也是需要的。”

軟技能問題

你也許是能夠在一個(gè)單一范圍內(nèi)跳躍數(shù)十億行數(shù)據(jù)的核心數(shù)量分析專家。但那不會(huì)自動(dòng)的成功轉(zhuǎn)換到數(shù)據(jù)科學(xué)圈。除了基礎(chǔ)數(shù)學(xué)、技術(shù)技能,還要有軟技能”如謙虛、好奇、果斷。SMU的McGee如是說。

“謙虛是必須的,因?yàn)榻?jīng)常數(shù)據(jù)沒有告訴我們想要知道的”她說“我們不得不足夠謙遜去接受和解釋數(shù)據(jù)真正告訴我們的。因?yàn)楹闷嫘膶?duì)于持續(xù)質(zhì)詢問關(guān)于們周圍的世界的問題和找到這些問題的答案是非常重要的。又因?yàn)檫@些答案不是直接可用的甚至有時(shí)不能解決這些問題,所以我們需要果斷的選擇”數(shù)據(jù)科學(xué)家要不斷的告訴自己“我知道存在解決的方法”,直到描繪出解決方法前腦子一直是堵塞的。數(shù)據(jù)科學(xué)家是錯(cuò)誤的?是否存在一個(gè)解決方法?查看一下其中之一的特征就行了(See trait one)。”

IIT的Argamon鼓勵(lì)剛要從事數(shù)據(jù)科學(xué)的人preserver through這份工作最艱難的部分?!皵?shù)據(jù)分析中的大多數(shù)工作是’數(shù)據(jù)苦差事’——轉(zhuǎn)化雜亂的數(shù)據(jù)集,相處怎樣結(jié)合不同數(shù)據(jù)格式問題的解決方案,處理錯(cuò)誤和缺失的數(shù)據(jù)項(xiàng),探索數(shù)據(jù)的整體形狀,測(cè)試和丟棄不同的模型等等?!彼f“如果你想有尋找數(shù)據(jù)隱藏的東西的洞察力,你必須精力充沛,有堅(jiān)強(qiáng)的毅力,這是在任何教育項(xiàng)目中不會(huì)傳授的品質(zhì),盡管他們能夠通過建庫的訓(xùn)練逐步獲得”

“我的第一個(gè)建議永遠(yuǎn)是興趣第一”最近離開喬治梅森大學(xué)去Booz Allen Hamilton的私人部門研究數(shù)據(jù)科學(xué)的borme說“你需要知道你擅長(zhǎng)什么,你關(guān)心什么,你追求什么”。

走一條什么樣的路是每個(gè)萌生從事數(shù)據(jù)科學(xué)的人都需要處理的一個(gè)挑戰(zhàn)。你也許天生擅長(zhǎng)數(shù)學(xué)、處理問題、交際或后天再大學(xué)或其它教育機(jī)構(gòu)獲得了編程和數(shù)據(jù)處理技能。很幸運(yùn),你可以將很多產(chǎn)業(yè)中使用這些技能,從科學(xué)研究和網(wǎng)絡(luò)安全到市場(chǎng)和金融?!皩?duì)學(xué)習(xí)物理學(xué)、生物學(xué)、天文學(xué)、化學(xué)或其它科學(xué)的學(xué)生來說,一個(gè)好消息是他們可以很容易地將它們的科學(xué)技能轉(zhuǎn)換到數(shù)據(jù)科學(xué)這一領(lǐng)域”他說。

成為一名數(shù)據(jù)科學(xué)家

對(duì)于很多人來說成為一個(gè)數(shù)據(jù)科學(xué)家是一個(gè)理想的工作(也許就是你)。Borme說你可以優(yōu)先記住“作為一個(gè)成功的數(shù)據(jù)科學(xué)家,你的每一天都在計(jì)算你的幸?!阃ㄟ^使用數(shù)據(jù)解決現(xiàn)實(shí)世界的問題正生活在你的夢(mèng)想之中?!彼f。

Borme想起了一個(gè)關(guān)于Jeffrey Hammerbacher的Fastcompany故事,他是一個(gè)天才數(shù)據(jù)科學(xué)家,從Facebook離職去幫助建立Cloudera.“如果你認(rèn)為你稀缺的技能(數(shù)據(jù)科學(xué))在其他地方可以得到更好的使用,大膽的離開就行了。”

Via:好酷網(wǎng)

End.

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2015-06-15
怎樣成為一個(gè)數(shù)據(jù)科學(xué)家:針對(duì)大學(xué)畢業(yè)生的指導(dǎo)(譯)
開始成為數(shù)據(jù)科學(xué)家的第一條建議是別被這個(gè)職位的要求所挫敗。沒有一個(gè)剛畢業(yè)的大學(xué)生能滿足即是數(shù)學(xué) 統(tǒng)計(jì)天才,又精通市場(chǎng)、產(chǎn)品、網(wǎng)絡(luò)安全,還是專業(yè)的Python、Java、R程序員。(提示:這就是為什么數(shù)

長(zhǎng)按掃碼 閱讀全文