2023愛分析 · 數(shù)據(jù)科學與機器學習平臺廠商全景報告 | 愛分析報告

報告編委

黃勇

愛分析合伙人&首席分析師

孟晨靜

愛分析分析師

目錄

1. 研究范圍定義

2. 廠商全景地圖

3. 市場分析與廠商評估

4. 入選廠商列表

1.研究范圍定義

研究范圍

經(jīng)濟新常態(tài)下,如何對海量數(shù)據(jù)進行分析挖掘以支撐敏捷決策、適應市場的快速變化,正成為企業(yè)數(shù)字化轉型的關鍵。機器學習算法能識別數(shù)據(jù)模型,基于規(guī)律完成學習、推理和決策,正廣泛的應用在金融、消費品與零售、制造業(yè)、能源業(yè)、政府與公共服務等行業(yè)的各種業(yè)務場景中,如精準營銷、智能風控、產(chǎn)品研發(fā)、設備監(jiān)管、智能排產(chǎn)、流程優(yōu)化等。企業(yè)傳統(tǒng)的機器學習雖然能有效支撐業(yè)務決策,但由于嚴重依賴數(shù)據(jù)科學家,其技術門檻高、建模周期長的特點正成為企業(yè)實現(xiàn)數(shù)據(jù)驅動的阻礙。

數(shù)據(jù)科學與機器學習平臺是指覆蓋數(shù)據(jù)采集、數(shù)據(jù)探索、數(shù)據(jù)處理、特征工程、模型構建、模型訓練、模型部署與發(fā)布、模型管理與運營等建模全流程的平臺,提供一站式建模服務,能顯著提升建模效率、降低建模門檻。數(shù)據(jù)科學與機器學習平臺能支持并賦能企業(yè)各業(yè)務場景實現(xiàn)智能決策,幫助企業(yè)打造數(shù)據(jù)驅動型組織。

本報告對數(shù)據(jù)科學與機器學習平臺市場進行重點研究,面向金融、消費品與零售、制造與能源、政府與公共服務等行業(yè)企業(yè),以及人工智能軟件與服務提供商的數(shù)據(jù)部門、業(yè)務部門負責人,通過對業(yè)務場景的需求定義和代表廠商的能力評估,為企業(yè)數(shù)據(jù)科學與機器學習平臺的建設規(guī)劃、廠商選型提供參考。

廠商入選標準

本次入選報告的廠商需同時符合以下條件:

廠商的產(chǎn)品服務滿足市場分析的廠商能力要求;

近一年廠商具備一定數(shù)量以上的付費客戶(參考第3章市場分析部分);

近一年廠商在特定市場的收入達到指標要求(參考第3章市場分析部分)。2.廠商全景地圖

愛分析基于對甲方企業(yè)和典型廠商的調研以及桌面研究,遴選出在數(shù)據(jù)科學與機器學習市場中具備成熟解決方案和落地能力的入選廠商。

3.市場分析與廠商評估

愛分析對本次數(shù)據(jù)科學與機器學習平臺項目的市場分析如下。同時,針對參與此次報告的部分代表廠商,愛分析撰寫了廠商能力評估。 數(shù)據(jù)科學與機器學習平臺

市場定義:

數(shù)據(jù)科學與機器學習平臺是指覆蓋數(shù)據(jù)采集、數(shù)據(jù)探索、數(shù)據(jù)處理、特征工程、模型構建、模型訓練、模型部署與發(fā)布、模型管理與運營等建模全流程的平臺,提供一站式建模服務,能顯著提升建模效率、降低建模門檻。

甲方終端用戶:

金融、消費品與零售、制造與能源、政府與公共服務等行業(yè)企業(yè),以及人工智能軟件與服務提供商的數(shù)據(jù)科學家、風控建模人員、營銷建模人員、業(yè)務分析人員、模型應用人員

甲方核心需求:

企業(yè)對機器學習的應用越來越廣泛。一方面,數(shù)據(jù)量的激增、算法的突破以及CPU、GPU、DPU等多種算力技術的發(fā)展,為以機器學習為基礎的數(shù)據(jù)挖掘、計算機視覺、自然語言處理、生物特征識別等技術在企業(yè)的應用奠定了技術基礎;另一方面,市場環(huán)境的快速變化對企業(yè)決策敏捷性要求增強,不僅推動企業(yè)將機器學習模型應用到營銷、廣告、風控、生產(chǎn)等更多業(yè)務場景,也對模型精度、模型開發(fā)敏捷性以及模型應用廣度提出更高要求。然而,機器學習技術門檻高、建模周期長,難以滿足企業(yè)通過基于機器學習模型提升經(jīng)營效率的需求。

數(shù)據(jù)科學與機器學習平臺具備工具豐富集成、建模效率提升以及模型資產(chǎn)復用等特點,能充分滿足企業(yè)對智能應用的需求,正成為企業(yè)智能化基礎設施的必要構成。

不同企業(yè)對數(shù)據(jù)科學與機器學習平臺的需求不同,其差異取決于企業(yè)自身機器學習建模能力和對算法的需求。

1、對于金融、消費品與零售、制造與能源、政府與公共服務等行業(yè)企業(yè)

除大型金融機構外,傳統(tǒng)企業(yè)普遍不具備機器學習建模能力。大型金融機構數(shù)據(jù)科學團隊人才完善,對機器學習算法的探索和應用更前沿,如將機器學習模型應用在精準營銷、智能風控、產(chǎn)品研發(fā)、客戶體驗管理等多個場景中。但更多的傳統(tǒng)企業(yè)面臨IT人才缺失、尚未開始智能化應用或處于局部試驗的初期階段。傳統(tǒng)企業(yè)對數(shù)據(jù)科學與機器學習平臺的需求主要體現(xiàn)在以下四個方面:

1)降低機器學習建模門檻,使非專業(yè)建模人員也能掌握機器學習建模技術,賦能業(yè)務。傳統(tǒng)機器學習建模技術門檻高,需要組建專門的數(shù)據(jù)科學團隊,包括數(shù)據(jù)工程師、數(shù)據(jù)科學家、開發(fā)工程師等,人力成本高昂。傳統(tǒng)企業(yè)希望能降低機器學習建模門檻,如平臺能實現(xiàn)數(shù)據(jù)自動處理、自動特征工程、圖形化建模或自動建模等功能,使非專業(yè)的業(yè)務人員也能快速開展建模工作,廣泛賦能業(yè)務,實現(xiàn)普惠AI

2)提供定制化算法、模型部署和運營服務,快速創(chuàng)造業(yè)務價值。傳統(tǒng)行業(yè)多具備行業(yè)特性,行業(yè)垂直場景下的模型開發(fā)耗時耗力,而且傳統(tǒng)企業(yè)對AI智能應用的探索尚處于初期,更傾向“小步快跑”,因此購買定制化算法能節(jié)約人力、實現(xiàn)快速產(chǎn)出以及驗證AI智能應用效果。企業(yè)需要廠商提供定制化算法服務、模型在硬件平臺和操作系統(tǒng)平臺的部署服務以及模型運營服務。

3)縮短建模周期,提高業(yè)務敏捷響應度。以金融行業(yè)為例,金融企業(yè)的產(chǎn)品、服務、風控模型均需隨著客戶行為改變而持續(xù)迭代更新。但傳統(tǒng)的機器學習建模周期長達數(shù)月,無法敏捷響應業(yè)務需求。企業(yè)需要數(shù)據(jù)科學與機器學習平臺內(nèi)置豐富的行業(yè)算法、模型模板、案例等,供建模人員直接調用,加速模型訓練;或是提供一鍵部署功能,實現(xiàn)模型在生產(chǎn)環(huán)境的快速部署。

4)提供咨詢服務,提升模型質量。對于具備一定機器學習建模能力的金融機構,需要廠商提供建模咨詢支持,協(xié)助企業(yè)完成數(shù)據(jù)準備、模型訓練、模型部署等環(huán)節(jié),提升模型質量。

2、對于人工智能軟件與服務提供商

對于中小企業(yè)或是剛開始試點智能應用的企業(yè),相較于數(shù)據(jù)科學與機器學習平臺需要的組織、人才、流程上的變革與支持,采購適用于特定場景的AI智能應用是性價比更高、更迅捷的解決方案。人工智能軟件與服務商如算法服務商、ISV即面向此類需求,提供模型和智能應用服務。以算法服務商為例,盡管具備專業(yè)的數(shù)據(jù)科學團隊,但中小型企業(yè)的算法需求多樣且個性化,如雖然都是AI視覺算法,智慧城市、智慧工業(yè)下的應用場景如安全帽識別、產(chǎn)品瑕疵識別的模型卻截然不同,需要基于業(yè)務數(shù)據(jù)集、業(yè)務思路分別進行訓練。這使得算法服務商常常面臨嚴格的算法交付周期和算法精度要求。具體而言,人工智能軟件與服務提供商對數(shù)據(jù)科學與機器學習平臺的核心需求主要體現(xiàn)在以下四個方面:

1)提高機器學習建模效率。軟件開發(fā)公司、算法提供商面臨嚴格的交付周期,但在傳統(tǒng)AI應用開發(fā)方式下,數(shù)據(jù)接入、數(shù)據(jù)處理、模型訓練等一系列建模流程都需要人工操作,建模周期長。其中數(shù)據(jù)接入環(huán)節(jié)因開源算法工具對不同類型的數(shù)據(jù)兼容性較差,需人工將原始數(shù)據(jù)轉化為開源算法所支持的數(shù)據(jù)類型;數(shù)據(jù)標注環(huán)節(jié)往往通過人工完成,并且部分領域的標注過程嚴重依賴專業(yè)知識,整體數(shù)據(jù)準備將耗費數(shù)周時間;模型部署中對模型的集成、監(jiān)控和更新需要大量的調研和實施工作,單個模型部署到上線需要3-5個月。企業(yè)需要完善的數(shù)據(jù)科學工具和建模功能,支持實現(xiàn)數(shù)據(jù)采集、數(shù)據(jù)準備、特征工程、模型訓練、模型部署等建模全流程,提高建模效率。

2)滿足數(shù)據(jù)科學家復雜場景建模需求。平臺需支持數(shù)據(jù)科學家在復雜場景下進行靈活建模,如提供豐富的算法,預置主流機器學習框架,支持NoteBook建模方式,以及支持數(shù)據(jù)科學家在模型訓練中手動調參等。

3)對模型開發(fā)資源和計算資源進行統(tǒng)一管理,支持計算資源彈性擴容,加速建模計算性能。傳統(tǒng)開發(fā)模式中重復建設嚴重,如各項目數(shù)據(jù)準備、特征工程、模型訓練等各自研發(fā),造成模型開發(fā)管理資源、計算資源浪費,難以適應大規(guī)模智能應用開發(fā)需求。另外,機器學習模型訓練過程中耗費大量計算資源,而一旦結束訓練,計算資源又處于閑置狀態(tài)。企業(yè)需要實現(xiàn)計算資源彈性擴容,滿足模型開發(fā)不同階段的計算需求。

4)為多角色的數(shù)據(jù)科學團隊提供協(xié)作平臺。機器學習建模過程需要數(shù)據(jù)工程師、數(shù)據(jù)科學家、數(shù)據(jù)分析師等多角色共同協(xié)作完成,存在反復溝通、協(xié)作流程不明確等問題,帶來重復性工作。

廠商能力要求:

為滿足金融、消費品與零售、制造與能源、政府與公共服務等行業(yè)企業(yè),以及人工智能軟件與服務提供商等甲方客戶的核心需求,廠商需具備以下能力:

1、廠商應具備完善的機器學習模型開發(fā)功能,提供包括數(shù)據(jù)采集、數(shù)據(jù)準備、特征工程、模型訓練、模型部署等功能在內(nèi)的一站式端到端數(shù)據(jù)科學與機器學習平臺。

1)數(shù)據(jù)采集方面,平臺應具備整合多源異構數(shù)據(jù)的能力,支持實時接入結構化數(shù)據(jù)和非結構化數(shù)據(jù)(如表格、圖片、時間序列數(shù)據(jù)、語音和文本等),并具備基本的ETL能力、數(shù)據(jù)實時更新和同步能力。

2)數(shù)據(jù)準備方面,平臺應提供豐富的數(shù)據(jù)清洗、數(shù)據(jù)探索工具。其中數(shù)據(jù)清洗環(huán)節(jié),應能支持進行數(shù)據(jù)融合、數(shù)據(jù)缺失處理、數(shù)據(jù)分類、數(shù)據(jù)標注、數(shù)據(jù)異常處理、數(shù)據(jù)平滑以及整合非結構化數(shù)據(jù)和結構化數(shù)據(jù)等數(shù)據(jù)清洗工作,減少人工干預。數(shù)據(jù)探索環(huán)節(jié),廠商需具備單變量和多變量統(tǒng)計、聚類分析、地理定位圖、相似度度量等分析能力。

3)模型訓練環(huán)節(jié),針對非專業(yè)建模人員,平臺應提供簡便易用的建模工具,降低機器學習建模門檻。如平臺可通過建模全流程可視化降低用戶使用門檻,尤其在模型構建環(huán)節(jié),應支持以拖拉拽的方式完成建模。針對專業(yè)建模人員,平臺應具備較高的靈活性和開放性,提供主流開源算法和建模工具。如為專業(yè)的數(shù)據(jù)科學家提供自由靈活的NoteBook建模方式,并預置主流機器學習框架R、TensorFlow、Pytorch、Spark等,以及豐富的機器學習算法。

4)模型部署環(huán)節(jié),平臺應支持模型一鍵部署,使建模人員可快速將模型從開發(fā)環(huán)境部署到生產(chǎn)環(huán)境中,并提供API接口供業(yè)務人員調用。此外,平臺還應提供模型版本管理和模型監(jiān)控功能,實時監(jiān)測模型性能,保證模型質量。

5)資源管理方面,平臺需能對CPU、GPU資源進行管理和整合,以容器化方式對算力虛擬化,實現(xiàn)彈性擴容、性能加速等功能,且不同部門和項目之間可共享集群資源。

6)平臺應具備AutoML能力,包括提供數(shù)據(jù)自動清洗、智能標注、自動特征工程和自動模型訓練等功能,提高建模效率。其中特征工程環(huán)節(jié),數(shù)據(jù)科學與機器學習平臺應能實現(xiàn)自動化特征構建、特征選擇、特征降維和特征編碼;模型訓練環(huán)節(jié),平臺應支持自動化模型選擇、自動化調參、自動化超參數(shù)搜索、模型自動驗證等,減少模型訓練時間成本和人力成本。

7)此外,平臺還應支持多角色的數(shù)據(jù)科學團隊協(xié)作,協(xié)同數(shù)據(jù)工程師、數(shù)據(jù)科學家、業(yè)務人員等不同角色在建模工作流程中的模型注解、討論、答疑、評論等,使建模過程可追溯、模型可復用,減少重復性工作。

2、廠商需具備垂直行業(yè)Know-how能力,為企業(yè)提供咨詢和實施部署服務。廠商的專業(yè)服務能力體現(xiàn)在三個方面:一方面,基于豐富的垂直行業(yè)知識和經(jīng)驗積累,廠商能為用戶提供行業(yè)場景相關的算法、模型模板,或是將行業(yè)經(jīng)驗與模型算法相結合,形成諸如精準營銷、智能推薦、反欺詐、設備預警等智能業(yè)務模型,供用戶直接調用;另一方面,廠商能提供建模咨詢服務,通過數(shù)據(jù)科學專家團隊規(guī)劃有效的模型應用到特定業(yè)務的運營方案,協(xié)助用戶完成數(shù)據(jù)準備、模型訓練、模型部署、模型運營等工作,以及將企業(yè)既有的數(shù)據(jù)集經(jīng)驗、特征工程經(jīng)驗、模型經(jīng)驗等提煉形成數(shù)字資產(chǎn),內(nèi)嵌到平臺中。此外,廠商應具備較強的實施部署能力,包括提供定制化模型算法在硬件平臺和操作系統(tǒng)平臺的部署服務、以及數(shù)據(jù)科學與機器學習平臺的部署服務。

入選標準:

1.符合市場定義中的廠商能力要求;

2.2021Q3至2022Q2該市場付費客戶數(shù)量≥10個;

3.2021Q3至2022Q2該市場合同收入≥1000萬元;

代表廠商評估:

百分點科技

廠商介紹:

北京百分點科技集團股份有限公司(簡稱“百分點科技”)成立于2009年,是領先的數(shù)據(jù)科學基礎平臺及數(shù)據(jù)智能應用提供商,圍繞智慧政務、公共安全、數(shù)字產(chǎn)業(yè)三大業(yè)務板塊,為國內(nèi)外企業(yè)和政府客戶提供端到端數(shù)智化解決方案。

產(chǎn)品服務介紹:

百分點數(shù)據(jù)科學基礎平臺圍繞數(shù)據(jù)價值增值過程,提供數(shù)據(jù)融合治理、數(shù)據(jù)建模與知識生產(chǎn)、知識應用三大工具集,覆蓋從數(shù)據(jù)集成、數(shù)據(jù)治理、數(shù)據(jù)建模、數(shù)據(jù)分析到數(shù)據(jù)服務的完整數(shù)據(jù)價值鏈條。其中數(shù)據(jù)建模環(huán)節(jié),內(nèi)置機器學習平臺,能一站式、可視化地實現(xiàn)數(shù)據(jù)準備、特征工程、模型開發(fā)與訓練、模型部署與發(fā)布、模型管理等機器學習建模全流程,幫助企業(yè)快速構建數(shù)據(jù)分析、語義分析、語音分析以及視覺分析應用。

廠商評估:

百分點機器學習平臺能實現(xiàn)一站式、可視化機器學習建模全流程管理,具備高效的數(shù)據(jù)預處理、豐富的模型服務能力。此外,百分點科技具備完善的數(shù)據(jù)建模上下游數(shù)據(jù)科學工具,能幫助用戶實現(xiàn)“數(shù)據(jù)——知識——應用”閉環(huán),并在智慧公安、應急管理、客戶體驗管理等領域沉淀豐富行業(yè)經(jīng)驗,能為用戶提供端到端解決方案。

具備便捷、高效的數(shù)據(jù)預處理能力。百分點機器學習平臺封裝了大量預處理算法組件支持對數(shù)據(jù)的提取、清洗、轉化、組合、去重等多種處理操作,尤其分布式數(shù)據(jù)處理組件,可大幅提升數(shù)據(jù)預處理速度。此外,百分點機器學習平臺還提供文本標注、語音標注、圖像標注、視頻標注四種標注類型,支持多模態(tài)信息抽取和融合。

建模全流程可視化,顯著降低用戶使用門檻。百分點機器學習平臺提供從數(shù)據(jù)接入、數(shù)據(jù)預處理、特征工程、模型訓練、模型評估、模型管理及發(fā)布的全流程可視化操作。其中在建模環(huán)節(jié),機器學習平臺封裝大量機器學習算法組件并支持可視化參數(shù)配置,用戶可零代碼操作,通過簡單拖拽和連線對算法組件進行組合,進而構建復雜的機器學習框架,以及通過調節(jié)、配置參數(shù)完成模型創(chuàng)建。在模型訓練及評估環(huán)節(jié),平臺支持模型評估指標以圖、表的形式展現(xiàn),用戶可動態(tài)查看評估指標,實時掌控模型優(yōu)度情況。在模型發(fā)布后,支持對發(fā)布上線的任務進行可視化實時監(jiān)控,幫助建模人員輕松完成智能監(jiān)控、定時任務調度。

提供豐富的模型服務,簡化模型工程化事項。在模型發(fā)布方面,提供一鍵部署功能,自動分配集群資源,實現(xiàn)大數(shù)據(jù)環(huán)境下機器學習模型的穩(wěn)定運行。模型管理方面,支持模型詳細信息查看、多版本對比以及模型復用。此外,百分點科技還提供模型的下發(fā)、上報、訂閱及評論功能,支持模型的共享和評價,如在全國公安機關警務督察信息研判系統(tǒng)案例中,系統(tǒng)可以將模型下發(fā)到省級、市級警務督察部門,并且支持基層干警對模型進行修正或評價,以實現(xiàn)模型快速分享和反饋。

具備完善的數(shù)據(jù)建模上下游數(shù)據(jù)科學工具,為用戶實現(xiàn)“數(shù)據(jù)——知識——應用”閉環(huán)。百分點數(shù)據(jù)科學基礎平臺中,數(shù)據(jù)建模的上游工具包括數(shù)據(jù)集成、數(shù)據(jù)治理、數(shù)據(jù)開發(fā)等多種數(shù)據(jù)融合治理工具,能提高用戶數(shù)據(jù)治理能力、沉淀數(shù)據(jù)資產(chǎn)。下游工具包括知識生產(chǎn)工具,如指標體系、標簽體系、知識圖譜構建,基于數(shù)據(jù)建模幫助企業(yè)實現(xiàn)知識生產(chǎn);以及知識應用工具,如商業(yè)智能分析、知識融合分析、領域知識管理等,將知識進一步應用到業(yè)務場景中,提升企業(yè)經(jīng)營效率。

在智慧公安、應急管理、客戶體驗管理領域提供端到端解決方案,賦能業(yè)務場景應用。百分點科技成立于2009年,在智慧公安、應急管理、客戶體驗管理等領域沉淀了大量領域know-how和項目經(jīng)驗,能為政府單位用戶以及工業(yè)、零售快消等行業(yè)企業(yè)用戶提供端到端的解決方案,包括項目咨詢、項目開發(fā)、項目運營、項目服務等。在服務用戶的過程中,百分點科技項目團隊包含數(shù)據(jù)科學家、數(shù)據(jù)工程師、業(yè)務專家等,協(xié)同用戶一起將數(shù)據(jù)、模型和工具融入智慧統(tǒng)計、數(shù)字營商、經(jīng)營分析、營銷洞察等業(yè)務場景中,真正實現(xiàn)業(yè)務價值。此外,百分點科技也將行業(yè)經(jīng)驗與模型算法相結合,形成銷量預測、庫存預警、指揮調度、監(jiān)測預警、風險預測等豐富的智能業(yè)務模型,供用戶直接調用。

典型客戶:

中旅中免、應急管理部、北京市公安局、北京市統(tǒng)計局

入選廠商列表

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )