數(shù)據(jù)可視化之美:經(jīng)典案例與實踐解析

大數(shù)據(jù)

作者:jihong10102006

隨著DT時代的到來,傳統(tǒng)的統(tǒng)計圖表很難對復(fù)雜數(shù)據(jù)進(jìn)行直觀地展示。這幾年數(shù)據(jù)可視化作為一個新研究領(lǐng)域也變得越來越火。成功的可視化,如果做得漂亮,雖表面簡單卻富含深意,可以讓觀測者一眼就能洞察事實并產(chǎn)生新的理解??梢暬?visualization)和可視效果(visual)兩個詞是等價的,表示所有結(jié)構(gòu)化的信息表現(xiàn)方式,包括圖形、圖表、示意圖、地圖、故事情節(jié)圖以及不是很正式的結(jié)構(gòu)化插圖。

基本的可視化展現(xiàn)方式,如條形圖、折線圖、餅圖、雷達(dá)圖可以很容易通過各種軟件(如Excel)容易生成,這些方法是常見可視化問題的良好且強大的解決方案。然而,使用這些方法的最佳方式局限于一些特定的數(shù)據(jù)類型,而且其標(biāo)準(zhǔn)型和普遍性意味著它們基本無法達(dá)到新穎性。如果對地理空間數(shù)據(jù)、社會網(wǎng)絡(luò)關(guān)系、多維數(shù)據(jù)進(jìn)行可視化,直觀地傳遞數(shù)據(jù)期望表達(dá)的信息是需要特定的圖表類型來展示。

讓我們一起來看幾個經(jīng)典的可視化,觀測它們是如何充分利用其源數(shù)據(jù)結(jié)構(gòu)的。

1. “美國大選”數(shù)據(jù)可視化

在美國大選期間,美國媒體做了不少與之相關(guān)的數(shù)據(jù)報道,讓我們來回顧一下,他們是如何將美國大選的數(shù)據(jù)可視化的吧!

下圖為各洲“選舉人票”的占比情況。作者設(shè)計了兩種表現(xiàn)方法,一是以“選舉人票”的分布做為底圖,一是直接以美國地圖作為底圖。除此圖上方雙方選舉人票總體數(shù)量對比外,鼠標(biāo)移至各洲上方還能顯示各洲“選舉人票”數(shù)量及對希拉里與特朗普的支持比例。

大數(shù)據(jù)

關(guān)于第三方選舉人影響的情況(在只有兩種選擇和有四個選舉人的情況下,選民的態(tài)度又是怎樣呢?)

大數(shù)據(jù)

特朗普的粉絲更多的是公立學(xué)校出身,而希拉里的則大都為精英階層。

大數(shù)據(jù)

希拉里的粉絲大都較為“書生氣”,使用與書籍相關(guān)的詞匯,其中有很多被認(rèn)證為教授或博士;而特朗普的粉絲更加喜歡流行文化,他們可能同時是流行歌手的粉絲,也更加關(guān)注球類運動等。

2. 社會關(guān)系可視化

社會網(wǎng)絡(luò)分析(Social Netwrok Analysis,SNA)是在傳統(tǒng)的圖與網(wǎng)絡(luò)的理論之上對社會網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析的方法。隨著人類進(jìn)入了移動互聯(lián)網(wǎng)時代,社會網(wǎng)絡(luò)數(shù)據(jù)成了重要的數(shù)據(jù)資源。SNA的本質(zhì)是利用各樣本間的關(guān)系來分析整體樣本的群落現(xiàn)象,并分析樣本點在群落形成中的作用以及群落間的關(guān)系。

近幾年手機端網(wǎng)游越來越重視游戲用戶社交性設(shè)計。這款游戲的玩法設(shè)計特別強調(diào)強社交性:用戶可以在游戲內(nèi)組建家族,家族成員有不同的職務(wù)等級,用戶也可以在游戲內(nèi)給好友贈送道具。我們從數(shù)據(jù)庫中收集抽取了部分用戶的家族數(shù)據(jù)(Nodes)和好友溝通數(shù)據(jù)(Links)。其中Nodes數(shù)據(jù)集包括Id(用戶ID)、Label(用戶名稱)、Group(所屬家族)、Level(等級)的信息;Links數(shù)據(jù)集包括Source(發(fā)起方)、Target(接收方)和Weight(斗氣數(shù)量)信息。

大數(shù)據(jù)

從網(wǎng)絡(luò)圖可以看出,不同家族的成員基本緊密聯(lián)系在一起,并通過一些關(guān)鍵成員與其他家族成員聯(lián)系。例如我們發(fā)現(xiàn)右下角的那個社群的成員先通過user1用戶、再通過user12用戶跟其他社團(tuán)成員聯(lián)系在一個大網(wǎng)絡(luò)圖中。

我們也可以用Gephi軟件快速繪制社會網(wǎng)絡(luò)圖,并對其進(jìn)行美化。

大數(shù)據(jù)

3. 地理信息可視化

在第一個例子中,我們已經(jīng)見識到了地理信息可視化的魅力。接下來我們簡單了解下如何利用Remap包快速繪制可交互的地圖數(shù)據(jù)可視化。目前托管在github,https://github.com/lchiffon/REmap。

百度遷徙圖是近年來非常流行的一種地理信息可視化,可以通過連線動態(tài)查看人口流向。此處給大家繪制一幅動態(tài)航班圖的地理信息可視化圖,大家點擊鏈接可查看動態(tài)效果。

大數(shù)據(jù)

也可以利用Remap快速實現(xiàn)未來天氣預(yù)報。

大數(shù)據(jù)

還可以把一些各地舉行的會議事件在地圖上進(jìn)行可視化展示,下圖是2015年中國R語言會議在各個城市舉行的可視化展示(動圖鏈接)。

大數(shù)據(jù)

城市熱力圖也是近年來非常流行的一種地理信息可視化方式,通過顏色的深淺表示不同地區(qū)的實際數(shù)值大?。▌訄D鏈接)。

大數(shù)據(jù)

通過以上的幾個小例子,相信大家已經(jīng)驚嘆于上面的可視化效果,給人眼前一亮、耳目一新的感覺。以上可視化并未運用到很高深的技術(shù),如果你也掌握以下一些可視化知識,也能繪制出以上圖表的效果。接下來,就給大家介紹幾個常用的交互數(shù)據(jù)可視化手段:D3、Echarts和R(R是一款數(shù)據(jù)分析挖掘軟件,但是其擁有強大的可視化功能,并能集成D3、Echarts圖庫,實現(xiàn)交互繪圖)。

1.?D3

D3 是最流行的可視化庫之一,它被很多其他的表格插件所使用。它允許綁定任意數(shù)據(jù)到DOM,然后將數(shù)據(jù)驅(qū)動轉(zhuǎn)換應(yīng)用到Document中。你可以使用它用一個數(shù)組創(chuàng)建基本的HTML表格,或是利用它的流體過度和交互,用相似的數(shù)據(jù)創(chuàng)建驚人的SVG條形圖。

大數(shù)據(jù)

比如D3可以非常容易地繪制交互?;鶊D。?;鶊D(Sankey diagram),即?;芰糠至鲌D,也叫?;芰科胶鈭D。它是一種特定類型的流程圖,圖中延伸的分支的寬度對應(yīng)數(shù)據(jù)流量的大小,通常應(yīng)用于能源、材料成分、金融等數(shù)據(jù)的可視化分析。?;鶊D最明顯的特征就是,始末端的分支寬度總和相等,即所有主支寬度的總和應(yīng)與所有分出去的分支寬度的總和相等,保持能量的平衡(動圖鏈接)。

大數(shù)據(jù)

可以通過D3對Sunburst Partition可視化探索。通過解析布點獲得的用戶行為路徑數(shù)據(jù),我們可以用最簡單與直接的方式將每個用戶的事件路徑點擊流數(shù)據(jù)進(jìn)行統(tǒng)計,并用數(shù)據(jù)可視化方法將其直觀地呈現(xiàn)出來。 D3.js是當(dāng)前最流行的數(shù)據(jù)可視化庫之一,我們可以利用其中的Sunburst Partition來刻畫用戶群體的事件路徑點擊狀況。從該圖的圓心出發(fā),層層向外推進(jìn),代表了用戶從開始使用產(chǎn)品到離開的整個行為統(tǒng)計;Sunburst事件路徑圖可以快速定位用戶的主流使用路徑。通過提取特定人群或特定模塊之間的路徑數(shù)據(jù),并使用Sunburst事件路徑圖進(jìn)行分析,可以定位到更深層次的問題。靈活使用Sunburst路徑統(tǒng)計圖,是我們在路徑分析中的一大法寶(動圖鏈接)。

大數(shù)據(jù)

2.ECharts

ECharts,縮寫來自Enterprise Charts,商業(yè)級數(shù)據(jù)圖表,一個純Javascript的圖表庫,可以流暢的運行在PC和移動設(shè)備上,兼容當(dāng)前絕大部分瀏覽器(IE6/7/8/9/10/11,chrome,firefox,Safari等),底層依賴輕量級的Canvas類庫ZRender,提供直觀,生動,可交互,可高度個性化定制的數(shù)據(jù)可視化圖表。創(chuàng)新的拖拽重計算、數(shù)據(jù)視圖、值域漫游等特性大大增強了用戶體驗,賦予了用戶對數(shù)據(jù)進(jìn)行挖掘、整合的能力。

大數(shù)據(jù)

ECharts 3還新增更多圖表類型,更好的滿足不同數(shù)據(jù)的處理需求 更多的搭配方案讓你的數(shù)據(jù)呈現(xiàn)方式更個性和完美。

比如地圖信息可視化:

大數(shù)據(jù)

動圖鏈接

大數(shù)據(jù)

利用ECharts繪制?;鶊D。

大數(shù)據(jù)

3.?R

R語言是一套開源的數(shù)據(jù)分析解決方案,幾乎可以獨立完成數(shù)據(jù)處理、數(shù)據(jù)可視化、數(shù)據(jù)建模及模型評估等工作,而且可以完美配合其他工具進(jìn)行數(shù)據(jù)交互。5) R語言擁有頂尖的制圖功能。不僅有 lattcie包、ggplot2包對復(fù)雜數(shù)據(jù)進(jìn)行可視化,更有rCharts包、recharts包、plotly包實現(xiàn)數(shù)據(jù)交互可視化,甚至可以利用功能強大的shiny包實現(xiàn)R與web整合部署,構(gòu)建網(wǎng)頁應(yīng)用,幫助不懂CSS,HTML的用戶能利用R快速搭建自己的數(shù)據(jù)分析APP應(yīng)用。

比如我們可以繪制動態(tài)交互的氣泡圖,通過下面的時間軸播放動態(tài)查看不同年份的氣泡情況。

大數(shù)據(jù)

也可以利用networkD3包調(diào)用D3.js庫,繪制社會網(wǎng)絡(luò)圖和?;鶊D。

大數(shù)據(jù)

大數(shù)據(jù)

前文我們已經(jīng)了解了幾種常用的數(shù)據(jù)可視化技術(shù)。接下來,讓我們一起來學(xué)習(xí)下創(chuàng)建有效的可視化的步驟。我們通常會按照下述的幾個關(guān)鍵步驟進(jìn)行:

你有什么數(shù)據(jù)?數(shù)據(jù)有哪些分類?關(guān)于數(shù)據(jù)你想了解什么?應(yīng)該使用哪種可視化方式?能夠進(jìn)行可視化的工具有哪些?透過可視化你看見了什么,有什么意義?

最后,復(fù)雜高維數(shù)據(jù)無法用單一的靜態(tài)圖表進(jìn)行直觀地展示,因此需要借助可視化手段讓數(shù)據(jù)動起來,更好地發(fā)現(xiàn)數(shù)據(jù)價值。比如說有不同組別的數(shù)據(jù),我們想查看各組別間的數(shù)據(jù)和總計時,此時就可以通過交互式探索的形式進(jìn)行展示。

大數(shù)據(jù)

還可以結(jié)合自己掌握的數(shù)據(jù)分析和可視化技術(shù),搭建數(shù)據(jù)可視化平臺,從而實現(xiàn)智能BI的可視化功能。比如說,我們不需要具備開發(fā)能力,利用R工具的shiny包可以快速搭建數(shù)據(jù)可視化原型。下面這個例子就是一個通過shiny包結(jié)合可視化技術(shù)實現(xiàn)的一個可視化平臺。

大數(shù)據(jù)

大數(shù)據(jù)

大數(shù)據(jù)

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-10-26
數(shù)據(jù)可視化之美:經(jīng)典案例與實踐解析
作者:jihong10102006 隨著DT時代的到來,傳統(tǒng)的統(tǒng)計圖表很難對復(fù)雜數(shù)據(jù)進(jìn)行直觀地展示。這幾年數(shù)據(jù)可視化作為一個新研究領(lǐng)域也變得越來越火。成功的可

長按掃碼 閱讀全文