野蠻增長時代遠去,增強分析開啟大數(shù)據未來

科技云報道原創(chuàng)。

隨著野蠻增長的時代遠去,精細化和效率將是未來企業(yè)競爭的勝負手。

作為一座隱形的“金礦”,日益增長的數(shù)據規(guī)模為企業(yè)發(fā)展帶來了嶄新機遇。以數(shù)據為驅動的模式正備受企業(yè)重視,并且逐步從基本的可視化分析,向更高的智能化分析階段持續(xù)進化。這個過程中,人工智能將全面落地在數(shù)據分析決策之中。

“增強分析(Augmented Analytics)”被視為數(shù)據分析與人工智能、機器學習結合的產物,這一概念于2017年由Gartner首次提出,并對其進行定義:增強分析是下一代數(shù)據和分析范式,它面向廣泛的業(yè)務用戶、運營人員和數(shù)據科學家,利用機器學習將數(shù)據準備、洞察發(fā)現(xiàn)和洞察共享等過程自動化。

這個概念剛開始比較模糊,后來逐漸清晰。直接到2021年,Gartner在發(fā)布的《Hype Cycle for ICT in China, 2021》中做了最新的定義:增強數(shù)據分析包括機器學習(ML)和人工智能(AI),在統(tǒng)一的平臺上提供數(shù)據管理和分析能力。它通過將ML和AI應用于現(xiàn)有的操作流程中,使數(shù)據管理和分析自動化,從而更有效地進行數(shù)據分析。它使更多的用戶獲得更深入的洞察力,減少了當前依賴IT處理所帶來的效率問題和口徑偏差。

大數(shù)據與機器學習的交匯點

大數(shù)據時代,基礎數(shù)據的維度、數(shù)量、類型(結構化和非結構化)更大、更分散,企業(yè)要分析和探索的數(shù)據越來越復雜。另一方面能兼顧專業(yè)數(shù)據分析和業(yè)務洞察的人才少之又少,增強分析正是解決這一矛盾,讓數(shù)據分析普惠所有業(yè)務用戶的良藥。

簡單地說,增強分析可以理解為借助AI技術進行智能化、自動化的數(shù)據分析,挖掘數(shù)據價值,降低分析門檻,提高分析深度。增強分析的實現(xiàn)過程可以簡單概括為:通過培訓未知數(shù)據和已知問題,最終列出各種可能性和影響因素,幫助用戶加快和進行有效的數(shù)據分析。

“增強分析”并不是說讓用戶會寫AI或者數(shù)據科學背后的一些代碼,而是說如何把它封裝好、讓用戶依舊用非常傻瓜、簡單易用的形式,比如用拖拽、自然語言的方式,去進行更高級的數(shù)據分析。未來,我們將會越來越多地看到增強分析技術,賦能到大數(shù)據產業(yè)之中,能夠讓更多人以更低門檻進行更深度的分析。

增強分析的特點是BI產品開發(fā)中最重要、最顯著的發(fā)展趨勢之一。當云生態(tài)系統(tǒng)也影響人們做出選擇決策時,增強分析能力將成為區(qū)別普通分析平臺和BI平臺之間的關鍵因素。目前,增強分析正成為用戶體驗的一個重要部分,其優(yōu)勢包括以下幾個方面:

數(shù)據準備速度增快。由于增強型數(shù)據準備可以更快地將多個數(shù)據源整合到一起,因此可以快速檢測重復的操作、聯(lián)接,加速獲取見解和提高工作效率,從而生成完全數(shù)據自動化和高質量的建議,幫助提供個性化的用戶體驗。

分析偏差降低。增強型分析支持計算機執(zhí)行通常用于數(shù)據分析工具的分析,通過對更大范圍的數(shù)據執(zhí)行操作并僅專注于統(tǒng)計意義因素,可以降低潛在的偏差。

信任度提高。用戶和數(shù)據進行交互能夠為機器學習算法提供線索,隨著時間的推移,為用戶提供的建議更加相關且準確,這些建議有助于獲取用戶的信任。

增強數(shù)據素養(yǎng)。通過提供對結果的自動化分析,用戶可以用最少的工作量輕松地搜索見解和對見解進行可視化,從而增強數(shù)據素養(yǎng)。

節(jié)省更多時間。業(yè)務人員無需再花費時間收集和分析大量數(shù)據集,以及從分析結果中提取可行項,這樣他們將有更多時間專注于高級業(yè)務策略和特殊項目。

增強分析三大關鍵技術能力

從技術角度看,增強分析相關的技術可以分為了三類:增強數(shù)據準備、增強數(shù)據分析和增強機器學習。

數(shù)據準備是數(shù)據分析的前提,也是最耗時的工作。數(shù)據準備通常包含數(shù)據探查、數(shù)據質量、數(shù)據模型、數(shù)據清洗等工作,涵蓋了數(shù)據管理的各個方面,甚至還包括數(shù)據集成和數(shù)據倉庫的管理。

增強數(shù)據準備主要通過兩個方面來提升效率,一方面是可視化交互,通過拖拉拽的方式實現(xiàn)可視化的數(shù)據配置、數(shù)據源的混合以及數(shù)據清洗工作,讓數(shù)據準備變得更加快捷。另一方面是算法輔助,利用ML和AI技術實現(xiàn)部分流程的自動化。例如自動查找數(shù)據之間的關系,對數(shù)據質量進行評估,推薦用于連接、豐富、清洗數(shù)據的最佳方法,還有自動查找元數(shù)據和血緣關系等功能。

增強數(shù)據分析無需建模和編寫代碼,幫助用戶自動尋找數(shù)據規(guī)律,將相關結果自動轉化為可視化圖表,提高分析效率。增強數(shù)據分析的典型技術包括自動洞察(Automated Insights)和自動可視化(Automated Visualization)。自動洞察是增強分析的核心功能,但同樣也是一個寬泛的概念。如今,大部分主流的BI平臺都有自動洞察的相關功能,且方向各有不同,其目標是代替一部分分析師的工作,從數(shù)據中發(fā)現(xiàn)潛在信息和價值。自動可視化則是根據數(shù)據分析結果自動選擇可視化的方式進行展示,與自然語言查詢(NLQ)、自然語言生成(NLG)等技術配合,大大加快整個分析流程。

增強機器學習更加關注模型,比如特征工程、模型訓練、模型部署、模型解釋以及最后的模型監(jiān)控和管理。與增強數(shù)據分析相比,增強機器學習面向的更多是數(shù)據科學家,通過算法將特征工程、模型選擇與超參數(shù)優(yōu)化,以及深度神經網絡結構搜索等機器學習過程中的關鍵步驟自動化,幫助數(shù)據科學家更高效地得到滿意的模型。

這部分的核心技術就是自動機器學習AutoML。早期的AutoML研究起源于Meta Learning,早在上個世紀八十年代就被提出,數(shù)十年間,機器學習領域的相關研究主要集中在超參數(shù)優(yōu)化。近年來隨著深度學習的廣泛應用,Meta-Leaning領域在學術界又一次升溫。同時,自動化特征工程、自動化模型評價等技術的研究和商業(yè)化也使得AutoML的概念覆蓋到了機器學習的全流程。

如何打好大數(shù)據與機器學習的“組合拳”?

機器學習技術主要依賴三大因素,分別是算力、算法、數(shù)據。大數(shù)據技術所提供的能力是機器學習建模所需要的必然基礎,同時機器學習為大數(shù)據技術提供更高的智能,為商業(yè)業(yè)務產生價值。大數(shù)據技術和機器學習技術本身就是互為因果。

雖然大數(shù)據與機器學習的融合看上去應用前景廣闊,但目前許多企業(yè)客戶還沒有實現(xiàn)兩者的融合。亞馬遜云科技大中華區(qū)產品部總經理陳曉建認為,主要有三方面的原因。一是大數(shù)據和機器學習目前是分而治之的。他們本身技術發(fā)展路線是兩條不同的路線,在很多企業(yè)這兩個功能都是屬于兩個完全不同的團隊來負責的,數(shù)據當然也放在不同的倉庫里。二是數(shù)據處理能力不足,很多機器學習的團隊不具備處理海量數(shù)據規(guī)模的能力。三是數(shù)據分析人員參與度低。

在大數(shù)據與機器學習領域,亞馬遜云科技認為,要想幫助客戶解決深度數(shù)據分析的問題,就要實現(xiàn)大數(shù)據和AI從業(yè)務上以及用戶需求上做深度融合,企業(yè)要在云中要打造統(tǒng)一的數(shù)據基礎底座,實現(xiàn)大數(shù)據和機器學習的“雙劍合璧”,為企業(yè)發(fā)展提供創(chuàng)新引擎。為此,亞馬遜云科技提供廣泛而深入的服務,既能打通兩個領域的數(shù)據治理底層服務,還能實現(xiàn)大數(shù)據與機器學習之間的相互賦能。

近日,亞馬遜云科技宣布推出“云、數(shù)、智三位一體”的大數(shù)據與機器學習融合服務組合,幫助企業(yè)推進大數(shù)據和機器學習的融合,將機器學習由實驗轉為規(guī)?;涞貙嵺`。該服務組合具體涵蓋三個方面,分別是:構建云中統(tǒng)一的數(shù)據治理底座,為機器學習提供生產級別的數(shù)據處理能力,以及賦能給業(yè)務人員更加智能的數(shù)據分析工具。

亞馬遜科技助力機器學習由實驗轉為實踐,為機器學習提供生產級別的數(shù)據處理能力,不僅專門構建大數(shù)據服務,對復雜的數(shù)據進行加工處理,而且針對數(shù)據規(guī)模的動態(tài)變化,及時優(yōu)化數(shù)據質量。Amazon Athena能夠對支持多種開源框架的大數(shù)據平臺,包括Amazon EMR、高性能關系數(shù)據庫Amazon Aurora、NoSQL數(shù)據庫服務Amazon DynamoDB、Amazon Redshift等多種數(shù)據源,對這些數(shù)據源進行聯(lián)邦查詢,快速完成機器學習建模的數(shù)據加工。以Amazon Redshift、Amazon MSK和Amazon EMR為代表的無服務器分析能力,可以讓客戶無需配置、擴展或管理底層基礎設施,即可輕松地處理任何規(guī)模的數(shù)據,為機器學習項目提供兼具性能和成本效益的特征數(shù)據準備。

雖然增強分析一定程度上改變了目前的數(shù)據分析模式,但并不意味著數(shù)據分析師和數(shù)據科學家變得不再重要。相反,這對數(shù)據科學家的專業(yè)能力提出了更高的要求,既要更多地著眼于企業(yè)數(shù)字化轉型過程中數(shù)據價值的重新考量,又要追求極致的“精專主義”,畢竟簡單的題目別人都會做了,留下來肯定都是硬骨頭了。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2022-05-10
野蠻增長時代遠去,增強分析開啟大數(shù)據未來
野蠻增長時代遠去,增強分析開啟大數(shù)據未來

長按掃碼 閱讀全文