大數(shù)據(jù)分析福布斯富豪榜 揭開全球億萬富豪們的財(cái)富密碼

哪個(gè)國家的億萬富豪最多?男女比例如何?哪個(gè)國家的富豪擁有的財(cái)富比例最高?他們的錢都是哪來的?誰是最年輕和最老的億萬富翁?目前他們的身價(jià)有何變化?每個(gè)國家的首富分別是誰?近日,紐約數(shù)據(jù)科學(xué)學(xué)院的Nilesh Patel采用爬蟲對福布斯富豪榜進(jìn)行大數(shù)據(jù)分析,揭開了全球億萬富豪們的財(cái)富密碼。

世界財(cái)富的分布是一個(gè)倒金字塔形狀的,來自71個(gè)國家的2212人共同擁有9.1萬億美元的財(cái)富。他們中的大多數(shù)人是白手起家,在科技、金融、時(shí)尚和體育行業(yè)建立起了自己的“帝國”。有一些人事業(yè)剛起步時(shí)就處在領(lǐng)先位置上,因?yàn)樗麄儚淖约旱募易迤髽I(yè)繼承了一大筆財(cái)產(chǎn)。這個(gè)項(xiàng)目就是要通過數(shù)據(jù)可視化,分析這些富豪們。

▍項(xiàng)目介紹

在數(shù)據(jù)源方面我選擇了福布斯富豪榜(福布斯雜志于1917年發(fā)起的富豪排名的榜單)的數(shù)據(jù),我用Selenium工具進(jìn)行了數(shù)據(jù)爬取。

至于為什么是福布斯?因?yàn)樗且患揖劢股虡I(yè)、投資、科技、企業(yè)家、領(lǐng)導(dǎo)藝術(shù)以及生活方式的超過百年歷史的媒體。他現(xiàn)在有超過3800萬的社交網(wǎng)絡(luò)粉絲。重要的是它維護(hù)著一個(gè)富豪數(shù)據(jù)庫,并且一直進(jìn)行著及時(shí)更新。

▍項(xiàng)目目標(biāo)

我的項(xiàng)目是為了回答下面的所有問題:

● 哪個(gè)國家的億萬富豪最多?

● 男女比例如何?

● 哪個(gè)國家的富豪擁有的財(cái)富比例最高?

● 他們的錢都是哪來的?

● 誰是最年輕和最老的億萬富翁?

● 目前他們的身價(jià)有何變化?

● 每個(gè)國家的首富分別是誰?

▍數(shù)據(jù)爬取

爬取數(shù)據(jù)的過程如下:

● 進(jìn)入福布斯億萬富翁專題首頁

● 找到頁面的URL地址

● 爬取每個(gè)人的細(xì)節(jié)信息(排名、姓名、身價(jià)、年齡、收入來源、國籍、性別)

● 在過程中尋找X path時(shí)遇到一些麻煩,因?yàn)橛袝r(shí)候掃描全網(wǎng)頁會(huì)發(fā)現(xiàn)并沒有什么獨(dú)特的X path

● 對于性別和最新身價(jià)的信息,我單獨(dú)進(jìn)行了爬取,因?yàn)樗鼈兒推渌畔⒉辉谕豁撁?/p>

▍數(shù)據(jù)清洗

在得到初步的數(shù)據(jù)后,新的挑戰(zhàn)是如何清洗數(shù)據(jù)并不丟失重要信息。我使用了Python Numpy、Pandas、正則表達(dá)式以及其他方法。我利用我擁有的另一組數(shù)據(jù)框架,給我的數(shù)據(jù)增加了兩列。之后我增加了一列數(shù)據(jù),它顯示的是年初的身價(jià)和最新身價(jià)相比的變化。

 

清洗后的數(shù)據(jù)長這樣:

▍數(shù)據(jù)清洗

在制作數(shù)據(jù)可視化圖表時(shí),我使用了Matplotlib和Seaborn文庫包。

● 哪個(gè)國家億萬富翁數(shù)最多?

從下圖可以看到,美國最多,有585名億萬富翁,其次是中國,有373名。之后是德國、印度和俄羅斯。

● 男女比例

男性1972人,占比89.2%,女性240人,占比10.8%。我自己是覺得有點(diǎn)吃驚,我本來以為女性占比會(huì)更多一些。

● 哪個(gè)國家億萬富翁們的財(cái)富占整體的比例最高?

如我們所期待的那樣,美國排名第一,而且由于數(shù)據(jù)和其他國家情況差別很大,所以沒有在圖中展示。第二是中國。第三到第五比較有意思,分別是巴西、加拿大和澳大利亞。

● 最主要的收入來源?

下圖可以看出人們的收入來源都很相似,地產(chǎn)收入是所有人的重要收入來源,投資排在第二。藥物、零售、對沖基金、銀行等也是很重要的收入來源。

● 最年輕和最老的富翁

在分析年齡方面我做了一個(gè)直方圖,我發(fā)現(xiàn)大多數(shù)人的年齡在50到75歲之間,平均年齡是63歲,中位數(shù)是64歲。

最年輕的億萬富翁是安德烈森,她是丹麥人,年齡22歲,身價(jià)達(dá)到14億美元。最老的是新加坡航運(yùn)公司的創(chuàng)始人Chang Yun Chung,今年已經(jīng)100歲了,身價(jià)為19億美元。

● 身價(jià)最新變化

下圖是前11位富豪在2018年1月和10月的身價(jià)變化。

● 各國首富

下圖是各國首富的身價(jià)以及具體的信息。美國首富貝索斯,身價(jià)在1470億美元左右。

▍結(jié)論

這個(gè)項(xiàng)目只是一個(gè)開始,并沒有結(jié)束。未來,我希望對過去5年的情況進(jìn)行分析,這樣可以更好地看到這些變量帶來的影響。此外我還希望解答下列問題:

● 哪些人加入或者離開了這個(gè)富豪榜?

● 富豪個(gè)人的排名等變化如何影響了他們的國家?

● 他們每年的財(cái)產(chǎn)增減幅度是怎樣的?

關(guān)于作者:

Nilesh Patel 擁有通信工程學(xué)位,最初曾擔(dān)任程序員,之后在商業(yè)方面積累了許多工作經(jīng)驗(yàn)。他是紐約數(shù)據(jù)科學(xué)院的數(shù)據(jù)科學(xué)家,他喜歡團(tuán)隊(duì)合作,并且工作努力,熱衷于發(fā)現(xiàn)新的方式來解決各種問題。

關(guān)于紐約數(shù)據(jù)科學(xué)學(xué)院

紐約數(shù)據(jù)科學(xué)學(xué)院 (NYC Data Science Academy) 成立于2013年,是美國行業(yè)領(lǐng)先的數(shù)據(jù)科學(xué)教學(xué)機(jī)構(gòu)。學(xué)院提供最高質(zhì)量的數(shù)據(jù)科學(xué)和數(shù)據(jù)工程培訓(xùn),致力于推進(jìn)全球數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用進(jìn)程、以及向企業(yè)界輸送數(shù)據(jù)分析人才。欲了解更多歡迎掃描下方二維碼關(guān)注紐約數(shù)據(jù)科學(xué)學(xué)院官方公號。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-01-25
大數(shù)據(jù)分析福布斯富豪榜 揭開全球億萬富豪們的財(cái)富密碼
哪個(gè)國家的億萬富豪最多?男女比例如何?哪個(gè)國家的富豪擁有的財(cái)富比例最高?他們的錢都是哪來的?誰是最年輕和最老的億萬富翁?目前他們的身價(jià)有何變化?每個(gè)國家的首富分別是誰?近日,紐約數(shù)據(jù)科學(xué)學(xué)院的Nilesh Patel采用爬蟲對福布斯富豪榜進(jìn)行大數(shù)據(jù)分析,揭開了全球億萬富豪們的財(cái)富密碼。

長按掃碼 閱讀全文