大數(shù)據(jù)可視化的途徑

大數(shù)據(jù)

人們預期數(shù)據(jù)可視化過程會繼續(xù)發(fā)展,也許更多的是藝術和科學的混合,而不是數(shù)字計算技術。

顯示結果

數(shù)據(jù)可視化是指以圖形或圖表格式通過人工或以其他方式組織和顯示數(shù)據(jù),以使受眾能夠:

更清楚地查看分析結果簡化正在使用的數(shù)據(jù)中的復雜性了解并掌握正在使用的數(shù)據(jù)制作方法

可視化并不是一個新的概念

這種使用圖片(排版、色彩、對比度和形狀)來傳達或理解數(shù)據(jù)的概念并不是新鮮事物,從17世紀的手工描繪地圖和圖形到十九世紀初發(fā)明的餅圖都是這種形式。

如今,計算機可以用來快速處理大量的數(shù)據(jù),使可視化更具價值。展望未來,人們可以預期數(shù)據(jù)可視化過程將會繼續(xù)發(fā)展,也許更多的是一種藝術和科學的混合,而不是數(shù)字計算技術。

即時滿足

數(shù)據(jù)可視化演進過程的一個令人興奮的例子是,業(yè)界如何將數(shù)據(jù)可視化過程轉移到生成和發(fā)布圖表和圖形的過程中,供觀眾進行審查和仔細考慮,從而設定了交互式可視化的期望。

通過交互式的可視化,人們可以更多地使用數(shù)據(jù)可視化的概念,進一步利用技術讓觀眾與數(shù)據(jù)交互,為用戶提供自助服務能力,以實時(或接近實時)交互式地深入到生成的圖片、圖表、圖形(訪問更多或特定的細節(jié))來改變顯示的數(shù)據(jù)(可能是不同的時間框架或事件)以及如何處理和/或呈現(xiàn)(可能選擇條形圖而不是餅圖)。這使可視化更加有效和個性化。

人們可以通過使用數(shù)據(jù)驅動文檔(D3)的典型網(wǎng)絡瀏覽器在各種示例中介紹顯示大數(shù)據(jù)分析結果的主題。D3允許將預先構建的數(shù)據(jù)可視化應用于數(shù)據(jù)集。

數(shù)據(jù)驅動的文件

數(shù)據(jù)驅動的文檔在開放社區(qū)中被稱為D3。D3是一個采用JavaScript編寫的開源庫。其目標是允許使用標準網(wǎng)頁瀏覽技術(如HTML或CSS)輕松地處理基于數(shù)據(jù)的文檔。它的附加值是為用戶提供全面的功能,而無需自己構建或綁定到某個專用的框架中。

這些庫組件為用戶提供了優(yōu)秀的大數(shù)據(jù)可視化工具和DOM操作的數(shù)據(jù)驅動方法。 D3的功能風格允許用戶重新使用已經(jīng)構建的庫代碼模塊(或者其他已經(jīng)構建的代碼模塊))來添加用戶需要或想要(或不想要)的任何特定功能。這就創(chuàng)建了一種可以變得像用戶想要的那樣強大(或者有時間去做)的手段,為其數(shù)據(jù)可視化提供一個獨特的風格,操縱并使之互動,這正是用戶想要或需要的。

儀表板

正如前面所討論的,事實上人們每天都在收集和積累大量數(shù)據(jù),而組織出于各種原因依賴這些信息。

這些數(shù)據(jù)使用各種報告格式,包括數(shù)據(jù)儀表板。就像所有的事情一樣,人們對于數(shù)據(jù)儀表板的定義有各種各樣的擔心。

例如,A.Chiang寫道:“儀表板是實現(xiàn)一個或多個目標所需的最重要信息的直觀展示。在一個屏幕上合并和排列,以便一目了然地監(jiān)視信息?!?/p>

無論其定義如何,如果設計和建造得當?shù)脑?,任何儀表板都有能力為受眾提供及時而重要的信息,供決策者使用。

儀表盤以相關的、簡明的、深思熟慮的方式(不僅僅是工作簿或電子表格中的可視表示的集合)呈現(xiàn)數(shù)據(jù)是至關重要的。而儀表盤上的數(shù)據(jù)顯示過時和錯誤,那么由此做出決定可能會導致災難。

通過儀表板可以演示解決方案的工作示例,而這樣的示例基于使用Tableau的實時儀表盤格式,基于大數(shù)據(jù)分析有效呈現(xiàn)出結果。

Tableau是一種商業(yè)智能軟件,旨在幫助人們查看和理解數(shù)據(jù)。Tableau不僅僅是一個代碼庫,也被認為是一組或一系列交互式數(shù)據(jù)可視化產(chǎn)品。

Tableau的結構可以使人們能夠將來自多個來源的多個數(shù)據(jù)視圖組合到一個高效的儀表板中,從而為數(shù)據(jù)消費者提供更豐富的見解。Tableau還可以處理各種格式(包括結構化和非結構化)的數(shù)據(jù),并且可以處理大數(shù)據(jù)量(可能是TB字節(jié)或PB字節(jié),或數(shù)百萬或數(shù)十億行代碼),從而將大數(shù)據(jù)轉化為針對目標受眾的有價值的可視化結果。

為了解決當今大數(shù)據(jù)世界的速度問題,人們可以使用Tableau直接連接到本地數(shù)據(jù)中心和云端的數(shù)據(jù)源,或者將數(shù)據(jù)導入快速內(nèi)存性能。

Tableau的另一個目標是自助服務分析,用戶可以通過對話選擇數(shù)據(jù)來提問(實時模式而不是批處理模式)使用簡單的點擊分析直觀地挖掘大數(shù)據(jù),并有效地發(fā)現(xiàn)數(shù)據(jù)集或數(shù)據(jù)集中可能存在的理解和機會。

Tableau提供的一些令人興奮的功能包括:

實時拖放聚類分析交叉數(shù)據(jù)源加入強大的數(shù)據(jù)連接器移動啟用實時的地區(qū)或區(qū)域數(shù)據(jù)探索

異常值

異常點是一個與數(shù)據(jù)中其他觀測數(shù)據(jù)點相距甚遠或極大不同的觀測點。盡管異常值通常只表示大約1%到5%的數(shù)據(jù),但當企業(yè)處理大數(shù)據(jù)時,調(diào)查甚至只是查看數(shù)據(jù)的1%到5%是相當困難的。

調(diào)查和決定

人們可以看到,異常值可以被確定為非影響力的或者對數(shù)據(jù)可視化所要處理的點非常有影響力。

做出這一決定的行為或過程對于企業(yè)的分析非常重要,但處理大數(shù)據(jù)的大容量、多樣性和速度也是非常困難的。例如,幫助做出這個決定的一個基本步驟是測定樣品的大小,這是一個計算異常值與數(shù)據(jù)樣本大小的主要數(shù)學過程,當數(shù)據(jù)量十分龐大時,這不是一個簡單的任務。

人們可以使用Python高效地識別和處理大數(shù)據(jù)異常值(以及其他一些數(shù)據(jù)集異常)。Python是一種腳本語言,它非常容易學習,因為它的編碼語法非常類似于英語。

Python是2016年9種最受歡迎??的編程語言之一,由Bouwkamp公司提供,Python被列在頂級的按需編程語言中。

Python誕生于1989年,由Guido van Rossum創(chuàng)建,實際上Python的使用非常簡單,但業(yè)界也認為其功能非常強大,速度快,可以在任何環(huán)境中運行。

根據(jù)定義描述,“開放源代碼Python是世界各地許多公司和機構的生產(chǎn)力,軟件質量和可維護性成功公式的一部分?!?/p>

業(yè)界對利用Python語言進行數(shù)據(jù)分析和大數(shù)據(jù)分析的興趣日益濃厚,而且它是數(shù)據(jù)科學家日常工作的選擇,因為它提供了一個庫,實際上是一個標準庫(甚至有些專注于大數(shù)據(jù),如Pydoop和SciPy)來完成幾乎所有人需要或想要處理的數(shù)據(jù),包括:

自動化建立網(wǎng)站和網(wǎng)頁訪問和操作數(shù)據(jù)計算統(tǒng)計創(chuàng)建可視化報告建立預測和解釋模型評估額外數(shù)據(jù)的模型將模型整合到生產(chǎn)系統(tǒng)中

最后要說明的是,Python的標準庫非常廣泛,提供了一系列內(nèi)置模塊來提供對系統(tǒng)功能的訪問,以及標準化的解決方案來解決日常編程中出現(xiàn)的許多問題,這是探索處理大數(shù)據(jù)離群值和相關處理的一個明顯選擇。

操作智能

操作智能(OI)是一種分析方法,試圖通過(通常是機器生成的)操作或事件數(shù)據(jù)來提供可視性和洞察力,實時運行針對數(shù)據(jù)流饋送的查詢,產(chǎn)生作為操作指令的分析結果,可以通過人工或自動操作(將數(shù)據(jù)集轉化為價值的明確例子)讓組織立即執(zhí)行。

復雜的操作智能(OI)系統(tǒng)還提供了將元數(shù)據(jù)與數(shù)據(jù)中發(fā)現(xiàn)的某些度量、流程步驟、渠道等相關聯(lián)的能力。有了這個能力,就很容易獲得額外的相關信息,例如,機器生成的操作數(shù)據(jù)通常都具有唯一的標識符和結果或狀態(tài)代碼。這些代碼或標識符對于處理和存儲可能是有效的,但是并不總是易于理解。為了使這些數(shù)據(jù)更具可讀性(因此更有價值),可以將更多用戶友好的附加信息與數(shù)據(jù)結果相關聯(lián) – 可能是以狀態(tài)或事件描述的形式,或者可能是產(chǎn)品名稱或機器名稱。

一旦了解將基本分析和可視化技術應用于操作大數(shù)據(jù)的挑戰(zhàn),數(shù)據(jù)的價值可以更好或更快地實現(xiàn)。人們將運用Splunk智能化操作來展示操作或大數(shù)據(jù)評估解決方案的工作示例。

那么,什么是Splunk?Splunk開始是一種“Google for Log”文件。它還有更多的功能…它存儲所有的日志,并提供非??焖俚乃阉鞴δ?,大致就像Google為互聯(lián)網(wǎng)做的一樣…

Splunk軟件是幫助實現(xiàn)隱藏的價值在機器生成的一個很好的工具,使用Splunk,企業(yè)可以在一個地方收集、索引、搜索、分析,以及可視化所有數(shù)據(jù),從幾乎任何地方提供一種整合方法,可以從大量機器數(shù)據(jù)中組織和提取實時信息。

Splunk將數(shù)據(jù)存儲在文件中,為文件分配索引。 Splunk不需要在后臺運行任何數(shù)據(jù)庫軟件來實現(xiàn)此目的。Splunk調(diào)用這些文件索引器。Splunk可以對任何類型的時間序列數(shù)據(jù)(具有時間戳的數(shù)據(jù))進行索引,使其成為大數(shù)據(jù)操作智能(OI)解決方案的最佳選擇。在數(shù)據(jù)索引期間,Splunk會根據(jù)其標識的時間戳將數(shù)據(jù)分解為事件。

盡管使用簡單的搜索術語(例如機器ID),Splunk也提供了自己的搜索處理語言(SPL)。 Splunk SPL(將其視為SQL類型)是一種非常強大的工具,用于搜索大數(shù)據(jù)并對特定場景中的相關內(nèi)容執(zhí)行統(tǒng)計操作。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2017-11-29
大數(shù)據(jù)可視化的途徑
人們預期數(shù)據(jù)可視化過程會繼續(xù)發(fā)展,也許更多的是藝術和科學的混合,而不是數(shù)字計算技術。 顯示結果 數(shù)據(jù)可視化是指以圖形或圖表格式通過人工或以其他方式組織和顯示

長按掃碼 閱讀全文