如何成為一名數(shù)據(jù)科學(xué)家

大數(shù)據(jù)

在回答這個(gè)問(wèn)題之前,希望你先想想另外一個(gè)問(wèn)題:為什么要成為數(shù)據(jù)科學(xué)家?當(dāng)然,如果你是為了10萬(wàn)美元的年薪也無(wú)可厚非,但是我衷心希望你能將這個(gè)職業(yè)和自己的價(jià)值感掛鉤。因?yàn)槌蔀閿?shù)據(jù)科學(xué)家的路途會(huì)很辛苦,但如果你將其看成是實(shí)現(xiàn)個(gè)人價(jià)值的一種方式,那么追尋目標(biāo)才能帶來(lái)長(zhǎng)久的成就感,在這個(gè)過(guò)程中會(huì)感到快樂(lè)并且動(dòng)力十足。

數(shù)據(jù)科學(xué)家技能包

要回答“如何成為……”這樣的問(wèn)題,首先當(dāng)然需要知道想要成為的對(duì)象是個(gè)什么樣子。圖1是一個(gè)數(shù)據(jù)科學(xué)家的技能表。

大數(shù)據(jù)
圖1 數(shù)據(jù)科學(xué)家的技能

首先編程能力是數(shù)據(jù)科學(xué)家需要的基本技能。數(shù)據(jù)讀取、整合、建模分析和可視化的整個(gè)環(huán)節(jié)都需要用到這些工具。在業(yè)界環(huán)境中,整個(gè)數(shù)據(jù)鏈大概分為5塊:

云端數(shù)據(jù)存儲(chǔ)系統(tǒng)。比如亞馬遜的云服務(wù)AWS,大數(shù)據(jù)可以用分布式存儲(chǔ)在S3中。AWS更像是一個(gè)生態(tài)系統(tǒng),里面有數(shù)據(jù)庫(kù),也可以在上面運(yùn)行一些代碼,比如實(shí)時(shí)從社交網(wǎng)站上爬取數(shù)據(jù)儲(chǔ)存在云端數(shù)據(jù)庫(kù)中。最近亞馬遜還在云端提供了一個(gè)類似于SQL客戶端的工具,叫做Athena,方便你直接在AWS內(nèi)寫(xiě)SQL代碼從S3中讀取數(shù)據(jù)。安全門(mén)。讀寫(xiě)數(shù)據(jù)都需要經(jīng)過(guò)這道安全門(mén),這個(gè)部分主要是由公司的IT部門(mén)建立。安全門(mén)有3種限制訪問(wèn)權(quán)限的方式:IP地址:只接受從特定IP地址的訪問(wèn)職能:比如只有頭銜是數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的人有權(quán)限用戶名密碼

公司常常會(huì)同時(shí)使用上面3種方法,也就是有特定職能,從特定IP地址,通過(guò)用戶名和密碼訪問(wèn)。數(shù)據(jù)工程師會(huì)訓(xùn)練數(shù)據(jù)科學(xué)家穿越這重重安全門(mén)。這里對(duì)數(shù)據(jù)科學(xué)家的計(jì)算機(jī)要求并不高,只需要知道一些基本的Linux就可以,苦活累活都讓工程師們包攬了。

SQL客戶端。數(shù)據(jù)科學(xué)家需要通過(guò)SQL從數(shù)據(jù)庫(kù)中讀取相應(yīng)數(shù)據(jù)。根據(jù)數(shù)據(jù)庫(kù)的不同,使用SQL的類型和語(yǔ)法也略有不同,但大體上非常相似。掌握基本的數(shù)據(jù)庫(kù)讀取操作是非常必要的。數(shù)據(jù)分析?,F(xiàn)在使用最廣的數(shù)據(jù)分析語(yǔ)言是R和Python,熟練使用至少其中一門(mén)語(yǔ)言幾乎成為數(shù)據(jù)科學(xué)家的標(biāo)配。只會(huì)SAS行不?不行。當(dāng)然,這些都只是工具,工具是解決問(wèn)題的手段,而非目的。你必須要有一個(gè)能用來(lái)進(jìn)行數(shù)據(jù)分析的工具,偏好因人而異,但選擇工具的時(shí)候最好考慮工具的靈活和可擴(kuò)展性。比如說(shuō),新的方法是不是能夠用該工具實(shí)現(xiàn)?該工具是不是能夠和其他工具結(jié)合實(shí)現(xiàn)新功能(可重復(fù)報(bào)告、交互可視化,將結(jié)果轉(zhuǎn)化成數(shù)據(jù)科學(xué)產(chǎn)品App等)?該工具是不是容易整合到應(yīng)用系統(tǒng)中大規(guī)模的使用(比如電商的推薦算法、搜索的廣告優(yōu)化、精準(zhǔn)農(nóng)業(yè)中的化肥量推薦等)?結(jié)果報(bào)告。這里會(huì)用到基于D3.js的交互可視化,Rmarkdown自動(dòng)化報(bào)告以及Shiny應(yīng)用。

圖2是數(shù)據(jù)流程構(gòu)架圖。

大數(shù)據(jù)
圖2 數(shù)據(jù)流程構(gòu)架

另外一個(gè)重要的技能是分析建模。這個(gè)模塊可以進(jìn)一步細(xì)分成下面幾個(gè):

數(shù)據(jù)科學(xué)家應(yīng)該具備基本的概率統(tǒng)計(jì)知識(shí),能夠熟練進(jìn)行t檢驗(yàn),開(kāi)方檢驗(yàn),擬合優(yōu)度檢驗(yàn),方差分析。能夠清楚地解釋Spearman秩相關(guān)和Pearson相關(guān)之間的區(qū)別。熟悉抽樣、概率分布、實(shí)驗(yàn)設(shè)計(jì)相關(guān)概念。了解貝葉斯統(tǒng)計(jì)(很快就能在白板上寫(xiě)下貝葉斯定理)。不是所有的應(yīng)用數(shù)據(jù)科學(xué)領(lǐng)域都需要用到貝葉斯,即使你所處的行業(yè)用得很少,了解貝葉斯的基本概念也是很有必要的。使用“貝葉斯”這個(gè)詞的方式有很多。但其主要代表了一種解釋概率的特別方式。用流行的術(shù)語(yǔ)表達(dá),貝葉斯推斷不外乎計(jì)算在某假設(shè)下事情可能發(fā)生的方式的數(shù)目。事情發(fā)生方式多的假設(shè)成立的可能性更高。一旦我們定義了假設(shè),貝葉斯推斷強(qiáng)制施行一種通過(guò)已經(jīng)觀測(cè)到的信息進(jìn)行純邏輯的推理過(guò)程。頻率法要求所有概率的定義都需要和可計(jì)數(shù)的事件以及它們?cè)诖髽颖局谐霈F(xiàn)的頻率聯(lián)系起來(lái)。這使得頻率學(xué)的不確定性依賴于想象的數(shù)據(jù)抽樣的前提之上——如果我們多次重復(fù)測(cè)量,將會(huì)收集到一系列呈現(xiàn)某種模式的取值。這也意味著參數(shù)和模型不可能有概率分布,只有測(cè)量才有概率分布。這些測(cè)量的分布稱為抽樣分布。這些所謂的抽樣只是假設(shè),在很多情況下,這個(gè)假設(shè)很不合理。而貝葉斯方法將“隨機(jī)性”視為信息的特質(zhì),這更符合我們感知的世界運(yùn)轉(zhuǎn)模式。所以,在很多應(yīng)用場(chǎng)景中,貝葉斯也更加合適。機(jī)器學(xué)習(xí)相關(guān)技能。知道什么是有監(jiān)督學(xué)習(xí),什么是無(wú)監(jiān)督學(xué)習(xí)。知道重要的聚類、判別和回歸方法。知道基于罰函數(shù)的模型,關(guān)聯(lián)法則分析。常用的黑箱模型:隨機(jī)森林、自適性助推、神經(jīng)網(wǎng)絡(luò)模型。如果從事心理相關(guān)的應(yīng)用的話(如消費(fèi)者認(rèn)知調(diào)查),還需要知道基本的潛變量模型,如探索性因子分析、驗(yàn)證性因子分析、結(jié)構(gòu)方程模型。在應(yīng)用過(guò)程中還需要加強(qiáng)對(duì)模型中誤差的來(lái)源分類的理解,知道相應(yīng)誤差的應(yīng)對(duì)方法。當(dāng)前存在的機(jī)器模型太多,理解模型誤差可以幫助你有效地通過(guò)嘗試少量模型找到足夠好的那個(gè)。

除了技術(shù)能力以外,還需要其他一些非技術(shù)的能力。這些包括將實(shí)際問(wèn)題轉(zhuǎn)化成數(shù)據(jù)問(wèn)題的能力,這一過(guò)程需要交流,也就要求良好的交流溝通能力。關(guān)注細(xì)節(jié),分析是一個(gè)需要細(xì)心和耐心的職業(yè)。還有就是展示結(jié)果的能力,如何讓沒(méi)有分析背景的客戶理解模型的結(jié)果,并且最終在實(shí)踐中應(yīng)用模型的結(jié)論。

這個(gè)單子還可以一直列下去??雌饋?lái)是不是不只一點(diǎn)嚇人?其實(shí)這個(gè)技能單是動(dòng)態(tài)的,你一開(kāi)始不必具有上面列出的所有技能,但在工作過(guò)程中,需要不斷的學(xué)習(xí)成長(zhǎng)。一個(gè)優(yōu)秀的數(shù)據(jù)科學(xué)家不是通過(guò)數(shù)據(jù)找到標(biāo)準(zhǔn)答案的人,而是那個(gè)接受和適應(yīng)這個(gè)充滿不確定性的世界,給出有用方案的人。一個(gè)成熟的數(shù)據(jù)科學(xué)家面對(duì)分析項(xiàng)目時(shí)會(huì)看到多種可能性和多種分析方法,給出結(jié)果后依舊時(shí)刻關(guān)注這個(gè)結(jié)果,不停地保持小幅度頻繁更新。再次強(qiáng)調(diào)自學(xué)能力和成為一個(gè)終生學(xué)習(xí)者是優(yōu)秀的數(shù)據(jù)科學(xué)家的必要條件。

如何獲取相關(guān)技能

現(xiàn)在你對(duì)數(shù)據(jù)科學(xué)家需要具備的技能應(yīng)該有個(gè)大致的概念了。接下來(lái)的問(wèn)題是如何獲取這些技能。這個(gè)問(wèn)題的答案部分取決于你的專業(yè)背景。當(dāng)前數(shù)據(jù)科學(xué)家的背景其實(shí)很雜,這里主要著眼于數(shù)學(xué)、統(tǒng)計(jì)、計(jì)算機(jī)或其它定量分析學(xué)科(電子工程、運(yùn)籌學(xué)等)本科以上學(xué)歷的情況。數(shù)學(xué)統(tǒng)計(jì)背景的學(xué)生,需要加強(qiáng)計(jì)算機(jī)方面能力的培養(yǎng)。而計(jì)算機(jī)背景的學(xué)生需要更多的了解統(tǒng)計(jì)理論。如果是其他定量分析學(xué)科,可能需要同時(shí)加強(qiáng)這兩者。

其他專業(yè)的學(xué)生成為數(shù)據(jù)科學(xué)家有兩種情況:

從事和自己專業(yè)相關(guān)行業(yè)公司的數(shù)據(jù)分析。比如在一些精準(zhǔn)農(nóng)業(yè)應(yīng)用的公司,會(huì)常常看到數(shù)據(jù)科學(xué)家是生態(tài)學(xué)博士,或者土壤學(xué)博士。其實(shí)這些人不能算是廣義上的數(shù)據(jù)科學(xué)家。因?yàn)樗麄兲幚淼膯?wèn)題局限于非常特定的領(lǐng)域,對(duì)生態(tài)和土壤的了解的要求高于對(duì)數(shù)據(jù)分析的要求。雖然是其他專業(yè),但是本身有著很強(qiáng)的計(jì)算機(jī)技能,比如物理學(xué)專業(yè)的學(xué)生會(huì)成為數(shù)據(jù)科學(xué)家或者量化交易員,這因?yàn)樗麄兺ǔ>哂泻芎玫木幊棠芰Α?p>關(guān)于數(shù)據(jù)科學(xué)家的學(xué)位背景,根據(jù)2017年的統(tǒng)計(jì)數(shù)據(jù),美國(guó)的數(shù)據(jù)科學(xué)家41%有博士學(xué)位,49%有碩士學(xué)位,只有10%是本科。研究生博士期間的課題最好偏向機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘或預(yù)測(cè)模型。其次需要的是數(shù)據(jù)庫(kù)操作技能。在工作中通常需要用SQL從數(shù)據(jù)庫(kù)讀取數(shù)據(jù)。對(duì)于統(tǒng)計(jì)或者數(shù)學(xué)專業(yè)的學(xué)生,在校期間可能不需要使用SQL,因此不太熟悉。這沒(méi)有關(guān)系,我也是工作以后才開(kāi)始使用SQL的。但你要確保自己至少精通一種程序語(yǔ)言,之后遇到需要用到的新語(yǔ)言可以迅速學(xué)習(xí)?,F(xiàn)在有大量的MOOC課程,以及一些在線的數(shù)據(jù)科學(xué)視頻,都是提升自己的很好方法。

有的人問(wèn)我怎么選擇學(xué)習(xí)課程。通常情況下我會(huì)看講課的老師,如果是想要徹底清晰地了解某種技術(shù),那就去搜下寫(xiě)這個(gè)領(lǐng)域相關(guān)書(shū)籍的人,如果他們有開(kāi)課,可以選這些課;或者那些在數(shù)據(jù)科學(xué)行業(yè)名字如雷貫耳的,比如吳恩達(dá)這樣的。選這樣的人講的課,才能聽(tīng)得明白,因?yàn)檫@些人對(duì)相關(guān)的專業(yè)知識(shí)足夠了解。

常見(jiàn)誤區(qū)

在數(shù)據(jù)科學(xué)的應(yīng)用中有哪些常見(jiàn)誤區(qū)?

會(huì)用函數(shù)跑模型就可以了。

會(huì)開(kāi)車的只是司機(jī),要當(dāng)汽車工程師,僅靠會(huì)開(kāi)車是不行的。這點(diǎn)放在數(shù)據(jù)科學(xué)領(lǐng)域也是一樣。不需要你背下模型背后的所有數(shù)學(xué)公式,但是至少需要學(xué)過(guò)一遍,讓你可以翻著書(shū)解釋模型機(jī)理。

模型精確度越高越好。

在實(shí)際應(yīng)用中需要同時(shí)考慮收益和成本。如果模型精確度是90%,但是提高到95%需要復(fù)雜得多的模型,因此需要大量的計(jì)算設(shè)備投入,同時(shí)帶來(lái)的邊際收益很小的話,滿足于精確度小的模型就好了。模型選擇和評(píng)估可能是數(shù)據(jù)分析流程中最難的環(huán)節(jié)。

技術(shù)過(guò)硬就是尚方寶劍。

接受這個(gè)現(xiàn)實(shí),人常常是不理性的,我們的行為和對(duì)周遭的態(tài)度受感情的影響。你永遠(yuǎn)看不到一只單純的狗,你看到的是一只可愛(ài)或者不可愛(ài)的狗,我們總是會(huì)對(duì)所有的事情加上自己的主觀判斷。當(dāng)然,你公司的同事,領(lǐng)導(dǎo)看待你的方式也受到主觀的影響。很遺憾,這個(gè)主觀的感受通常更多的來(lái)自于你作為人的部分,而不是機(jī)器的部分。你覺(jué)得自己技術(shù)好是一件事情,領(lǐng)導(dǎo)覺(jué)得你技術(shù)好是另一件事情,領(lǐng)導(dǎo)覺(jué)得你的技術(shù)是有用的那又是新的一件事情了。這點(diǎn),美國(guó)中國(guó)貌似沒(méi)差。所以“做技術(shù)”不等于“情商低點(diǎn)沒(méi)關(guān)系”。

技術(shù)不斷更新,讓人難以招架。不明覺(jué)厲,被泡沫裹挾著失去方向。

我理解,這種感覺(jué)很不好受。有的時(shí)候我感覺(jué)自己永遠(yuǎn)都是菜鳥(niǎo),但現(xiàn)在我才明白,這才是當(dāng)前世界的真實(shí)狀況。不斷升級(jí)將會(huì)是一種常態(tài),這不僅僅是數(shù)據(jù)科學(xué),你必須這么做,因?yàn)樗械臇|西都在升級(jí),就像軍備競(jìng)賽一樣,升級(jí)已經(jīng)成為事物本身的存在方式。無(wú)論你使用一樣工具的時(shí)間有多長(zhǎng),升級(jí)后你又會(huì)變成一個(gè)菜鳥(niǎo)。所以做菜鳥(niǎo)是可以的,但是不明覺(jué)厲,隨意跟風(fēng)是不允許的。面對(duì)不懂的技術(shù),要么就說(shuō)不懂,要么就去學(xué)。其實(shí)你真正鼓起勇氣,開(kāi)始認(rèn)真去學(xué)習(xí)這么技術(shù)的時(shí)候,會(huì)發(fā)現(xiàn)其實(shí)沒(méi)有那么神秘。當(dāng)然,馬上又會(huì)有新的神秘的東西出現(xiàn),這個(gè)過(guò)程又會(huì)重復(fù)。但你就是在這樣循環(huán)反復(fù)中成長(zhǎng)的,產(chǎn)品是這樣,人也是這樣。

數(shù)據(jù)科學(xué)領(lǐng)域現(xiàn)狀

我們從數(shù)據(jù)上看看數(shù)據(jù)科學(xué)的現(xiàn)狀吧。從最大的職業(yè)社交網(wǎng)站領(lǐng)英(LinkedIn)的數(shù)據(jù)看來(lái),數(shù)據(jù)科學(xué)家職位的年薪在7.5萬(wàn)~ 17萬(wàn)美元之間,中位數(shù)是11.3萬(wàn)美元。

其中雇傭數(shù)據(jù)科學(xué)家的公司主要集中在微軟、IBM、Fackbook、亞馬遜、Google這些計(jì)算機(jī)互聯(lián)網(wǎng)公司,圖3為前10名雇傭數(shù)據(jù)科學(xué)家最多的公司。

大數(shù)據(jù)
圖3 前10名雇傭數(shù)據(jù)科學(xué)家最多的公司

數(shù)據(jù)科學(xué)家所處的行業(yè)也集中在科技或者研究性組織,圖4是排名前10的行業(yè)。

大數(shù)據(jù)
圖4 前10名數(shù)據(jù)科學(xué)家集中的行業(yè)

不同公司的數(shù)據(jù)科學(xué)團(tuán)隊(duì)架構(gòu)不一樣。主要有如下2種:

獨(dú)立式。獨(dú)立的數(shù)據(jù)科學(xué)部門(mén),會(huì)有一個(gè)數(shù)據(jù)科學(xué)總監(jiān)這樣的領(lǐng)導(dǎo)角色領(lǐng)導(dǎo)。這通常在研究所或者公司科研型的部門(mén)。對(duì)于數(shù)據(jù)科學(xué)家而言,在這樣部門(mén)的優(yōu)點(diǎn)是能夠和很多其他數(shù)據(jù)科學(xué)家有技術(shù)上的交流,也有明確的職業(yè)軌道。缺點(diǎn)是,很難脫穎而出,需要和很多其他科學(xué)家競(jìng)爭(zhēng)一些資源(比如培訓(xùn)會(huì)議的機(jī)會(huì))。嵌入式。數(shù)據(jù)科學(xué)家各自嵌入到不同的職能部門(mén)中。常見(jiàn)的是市場(chǎng)部的數(shù)據(jù)科學(xué)家。領(lǐng)導(dǎo)者就是傳統(tǒng)的市場(chǎng)總監(jiān)。在這樣的團(tuán)隊(duì)優(yōu)勢(shì)在于直接和公司高層接觸,影響商業(yè)決策。因?yàn)楠?dú)特很容易脫穎而出獲取很多行業(yè)內(nèi)培訓(xùn)和會(huì)議的機(jī)會(huì),而且市場(chǎng)部是核心部門(mén),如果你想在這個(gè)公司發(fā)展,這是很好的地方。缺點(diǎn)就是,無(wú)法和其他數(shù)據(jù)科學(xué)家交流,很多東西需要自己決策,周圍人只能選擇相信或者不相信你,但不能給出特別的幫助。久了會(huì)有在專業(yè)上落后的危險(xiǎn),所以需要充分利用在市場(chǎng)部的培訓(xùn)會(huì)議資源,積極參與數(shù)據(jù)科學(xué)家社區(qū)。最大的缺點(diǎn)是沒(méi)有清晰的職業(yè)軌跡,因?yàn)樵谑袌?chǎng)內(nèi)部的分析團(tuán)隊(duì)不會(huì)太大。如果你的職業(yè)目標(biāo)是最后管理一個(gè)大團(tuán)隊(duì)或者職能的話,這可能不能滿足你的目標(biāo)。但其職位本身從初級(jí)到高級(jí)的跨度可以很大。

數(shù)據(jù)科學(xué)家這個(gè)職位還比較新,所以從團(tuán)隊(duì)建設(shè)和職業(yè)軌跡上都還在發(fā)展,具有很好的前景。希望你能成為一個(gè)不斷思考,終生學(xué)習(xí)的數(shù)據(jù)科學(xué)家!

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2017-11-21
如何成為一名數(shù)據(jù)科學(xué)家
在回答這個(gè)問(wèn)題之前,希望你先想想另外一個(gè)問(wèn)題:為什么要成為數(shù)據(jù)科學(xué)家?當(dāng)然,如果你是為了10萬(wàn)美元的年薪也無(wú)可厚非,但是我衷心希望你能將這個(gè)職業(yè)和自己的價(jià)值感掛

長(zhǎng)按掃碼 閱讀全文