九章云極方磊:數(shù)據(jù)科學(xué)平臺的機遇與未來

九章云極方磊:數(shù)據(jù)科學(xué)平臺的機遇與未來

  九章云極CEO方磊

“機器學(xué)習(xí)就是下一個數(shù)據(jù)庫”

從數(shù)據(jù)分析角度來看,硬件提供的大部分算力目前都用在了數(shù)據(jù)庫對數(shù)據(jù)的處理上,在整個產(chǎn)業(yè)不斷發(fā)展的過程中新迭代出來的硬件會帶來更多的算力被激發(fā)出來,現(xiàn)在機器學(xué)習(xí)或者說深度學(xué)習(xí)甚至是人工智能的模型也都需要消耗大量的算力,所以未來機器學(xué)習(xí)‘流行’起來的趨勢還是非常明顯的,而且這個賽道一定足夠長,未來的前景也非常廣。

導(dǎo)語

2017年,Gartner首次提出了“數(shù)據(jù)科學(xué)平臺”的概念,同年,Gartner的研究表明全球數(shù)據(jù)科學(xué)平臺的市場增長率已經(jīng)是商業(yè)智能(BI)軟件市場增長率的兩倍,并預(yù)計2019年到2022年數(shù)據(jù)科學(xué)平臺將得到大規(guī)模地應(yīng)用。知名研究機構(gòu)Forrester也在一份研究中表示,從2017年到2021年,數(shù)據(jù)科學(xué)平臺市場的年復(fù)合增長率將達15%。

九章云極聯(lián)合創(chuàng)始人兼CEO方磊博士近期接受了零壹財經(jīng)的專訪。這位前微軟資深工程師2008年曾經(jīng)作為早期骨干成員參與了微軟云計算平臺Azure的孵化與研發(fā);2011年又加入必應(yīng)(Bing)搜索團隊,設(shè)計并開發(fā)了基于下一代大數(shù)據(jù)技術(shù)的索引處理架構(gòu)以及基于機器學(xué)習(xí)的搜索語義理解。作為一個微軟的“老兵”,回國創(chuàng)業(yè)5年的他這一次跟我們聊了聊他眼中的數(shù)據(jù)科學(xué)平臺,以及為什么數(shù)據(jù)科學(xué)平臺在未來能得到大規(guī)模應(yīng)用。

2014年,在美國學(xué)習(xí)工作了10年的方磊決定回國創(chuàng)業(yè),專注做數(shù)據(jù)科學(xué)平臺。談到創(chuàng)立九章云極的初衷,方磊脫口而出的一個英文單詞是“Impact”,他說一直希望做一點“有影響”的事情,這也是創(chuàng)業(yè)5年來一直不變的初心。至于為什么選擇做數(shù)據(jù)科學(xué)平臺,方磊坦率地表示數(shù)據(jù)科學(xué)這個方向上的事才是自己最擅長的。

從開源說起

方磊在解釋為何會選擇數(shù)據(jù)科學(xué)平臺這條賽道做商業(yè)探索時,特別提到了“開源”,“我們這個時代有幾種比較有‘解構(gòu)性’的力量,其中就包括‘開源’”。

以谷歌為例,一直以來谷歌都在極力倡導(dǎo)和推廣開源,并發(fā)布了一系列開源項目。安卓和Chrome瀏覽器最開始只是單個的開源項目,現(xiàn)在基于這兩個產(chǎn)品開發(fā)的插件和應(yīng)用數(shù)量之多,已經(jīng)構(gòu)建起了龐大的生態(tài)圈。2007年以開源形式發(fā)布的安卓操作系統(tǒng)如今已經(jīng)成為份額第一的移動操作系統(tǒng)??梢哉f,沒有開源就沒有谷歌今日的成就。

“雖然開源從一開始的時候就是反商業(yè)直覺的,但現(xiàn)在卻已經(jīng)成了計算機技術(shù)發(fā)展的核心推動力”,方磊認(rèn)為,開源時代的到來讓IT業(yè)發(fā)生了“質(zhì)變”,“開源將導(dǎo)致整個IT交付模式發(fā)生巨大變化,今天的IT公司賺錢要比20年前困難很多,開源似乎讓開發(fā)變得容易了,但IT公司的價值實現(xiàn)也相應(yīng)變得困難了,理解客戶的業(yè)務(wù)場景并證明自己的價值顯得至關(guān)重要”。

在方磊看來,IT公司的價值如何實現(xiàn)要在選擇商業(yè)賽道之時就做充分的考量。九章云極在成立之初“沒有選擇底層的計算組件,而是選擇了與業(yè)務(wù)場景對接的中間層的分析組件”。方磊介紹說,“中間分析這一層稍微有一點萬金油的感覺,本質(zhì)上是把計算能力轉(zhuǎn)化為業(yè)務(wù)需要的成果,所以它是和商業(yè)有一定關(guān)系的,它所構(gòu)建的壁壘不完全是技術(shù)標(biāo)準(zhǔn)的壁壘,而是和業(yè)務(wù)場景相關(guān)的商業(yè)壁壘”。這里的“中間層”在九章云極的產(chǎn)品體系中主要指機器學(xué)習(xí)平臺DataCanvas APS和實時決策中心DataCanvas RT。

九章云極方磊:數(shù)據(jù)科學(xué)平臺的機遇與未來

“機器學(xué)習(xí)就是下一個數(shù)據(jù)庫”,提及對行業(yè)發(fā)展方向的思考,方磊認(rèn)為“從數(shù)據(jù)分析角度來看,硬件提供的大部分算力目前都用在了數(shù)據(jù)庫對數(shù)據(jù)的處理上,在整個產(chǎn)業(yè)不斷發(fā)展的過程中新迭代出來的硬件會帶來更多的算力被激發(fā)出來,現(xiàn)在機器學(xué)習(xí)或者說深度學(xué)習(xí)甚至是人工智能的模型也都需要消耗大量的算力,所以未來機器學(xué)習(xí)‘流行’起來的趨勢還是非常明顯的,而且這個賽道一定足夠長,未來的前景也非常廣”。

如何看待數(shù)據(jù)分析的演進?

2015年曾經(jīng)被經(jīng)緯中國合伙人左凌燁稱為“企業(yè)級服務(wù)投資的元年”,在企業(yè)級服務(wù)中經(jīng)緯投資過很多SaaS相關(guān)的企業(yè)。“當(dāng)時的SaaS都是非常容易理解的,比如用于開票和記賬,就不是偏技術(shù)的SaaS”,方磊回憶說“剛回國的時候很多投資人還不知道機器學(xué)習(xí)是什么,也不知道九章云極是做什么的,那會兒的投資人還不是很看好我們這個方向,但到了2016、2017年,情況開始有了一些變化,因為人工智能興起了,我很堅持從數(shù)據(jù)分析的角度來看人工智能興起這個問題”。

方磊為我們梳理了一下數(shù)據(jù)分析的技術(shù)進展:“80年代開始就有了數(shù)據(jù)分析,當(dāng)時是從數(shù)據(jù)庫開始的,那時候只是把數(shù)據(jù)適配在一起做一些固定的事情,比如編制企業(yè)報表。到了2000年左右數(shù)據(jù)分析進入第二個發(fā)展階段,我們稱為BI可視化分析。這個時候的可視化分析就是用一些拖拽完成簡單的餅圖插圖,也就是我們今天習(xí)以為常的BI分析做的一部分事情。

2015年以后,Gartner提出數(shù)據(jù)分析進入了‘增強分析’階段,就是通過機器學(xué)習(xí)或者人工智能技術(shù)的加持增強數(shù)據(jù)分析能力。這里我們看到有一個從可視化分析進展到模型分析的趨勢,可視化分析是通過視覺呈現(xiàn)產(chǎn)生一些洞察,但模型分析產(chǎn)生的洞察更強大,因為很多情況下的分析無法被有效可視化呈現(xiàn),比如反欺詐分析中的數(shù)以億計的交易”。

“整個數(shù)據(jù)分析我認(rèn)為可以分四塊”,方磊總結(jié)說,“第一塊是數(shù)據(jù)倉庫,就是數(shù)據(jù)的一個集合;第二塊叫數(shù)據(jù)治理,就是要把數(shù)據(jù)的意義弄清楚,我們稱之為‘元數(shù)據(jù)管理’;第三塊是BI可視化,以圖形化呈現(xiàn);最后一塊就是機器學(xué)習(xí)。從堆?;囊暯莵砜?,最下面是數(shù)據(jù),最上面是商業(yè)價值,而中間發(fā)生的所有事情都可以被看作是數(shù)據(jù)分析,所以說這個行業(yè)其實是一個非常大的行業(yè)。九章云極的核心就是把數(shù)據(jù)變成模型,為客戶提供模型能力的技術(shù)工具或服務(wù),以支撐各類商業(yè)場景。”

為什么需要數(shù)據(jù)科學(xué)平臺?

在銀行業(yè)中,客戶流失是銀行在日益激烈的市場競爭中需要面對的一大難題,而獲客成本普遍高于老客維護的成本,因此從海量客戶交易數(shù)據(jù)中挖掘出對客戶流失有影響的信息,建立量化模型,合理預(yù)測客戶流失風(fēng)險是十分必要的。

方磊通過銀行客戶流失預(yù)測模型向我們解釋了應(yīng)用數(shù)據(jù)分析模型的必要性,“我們的分析師或者說數(shù)據(jù)科學(xué)家把這類業(yè)務(wù)問題轉(zhuǎn)換成機器學(xué)習(xí)問題的第一步就是要定義什么是客戶流失。比如一個人在銀行的資產(chǎn)(包括購買的理財產(chǎn)品、貴金屬、外匯等)三個月后下降了60%,我們就定義這個客戶可能會流失。接下來就要解決如何保有這個客戶,最常見的方法就是給他推薦相關(guān)產(chǎn)品,這就又涉及到推薦模型。任何一個具體的商業(yè)場景都是復(fù)雜的,中間還會切分成很多環(huán)節(jié)和很多的模型”。

方磊還舉了保險業(yè)應(yīng)用聲紋識別解決騙保調(diào)查問題和應(yīng)用圖像識別解決車險核查問題,他認(rèn)為“幾乎所有的商業(yè)場景都需要考慮用機器學(xué)習(xí)和深度學(xué)習(xí)來做輔助,商業(yè)價值的實現(xiàn)路徑已經(jīng)開始有了變化,而這種變化背后就需要數(shù)據(jù)科學(xué)平臺的模型能力做支撐。”

三個問題了解九章云極

1、九章云極是開發(fā)模型的算法公司?

方磊:“九章云極不把自己定位為一個模型算法的公司,我們希望客戶能夠自己完成模型的創(chuàng)建,這可能跟我們友商的定位是不一樣的。有些很優(yōu)秀的公司比如麥肯錫,比如埃森哲,他們是有很龐大的團隊在幫銀行做模型。

要做好一個模型,我覺得技術(shù)在其中占30%到40%,剩下的其實是業(yè)務(wù)知識。也就是說,如果不理解好業(yè)務(wù)就很難把模型做好,因為模型里會包含非常多的業(yè)務(wù)常識。比如小微貸款模型就需要考察企業(yè)的隱形負債風(fēng)險,常年做審計的人應(yīng)該知道,要考察的第一項就是借貸是否拆整為零:這家公司如果收到不同賬號打款的總額是整額的話,其實是有負債風(fēng)險的,有可能是去借了錢然后拆分打進來。那么這個事情是需要人的常識性經(jīng)驗來做判斷支持的,需要他把這樣的經(jīng)驗變成機器學(xué)習(xí)里面的一個特征,機器學(xué)習(xí)就可以做出相應(yīng)的風(fēng)險告警。

這種場景下數(shù)據(jù)科學(xué)家的作用就凸顯出來,數(shù)據(jù)科學(xué)家是一個復(fù)合型工種,既要懂業(yè)務(wù),同時又能夠?qū)I(yè)務(wù)問題轉(zhuǎn)化定義為機器學(xué)習(xí)問題,然后他用數(shù)據(jù)分析平臺這樣的工具來解決業(yè)務(wù)問題。我們?nèi)祟惖暮芏喑WR是跟業(yè)務(wù)相關(guān)的,機器學(xué)習(xí)在某些方面可以洞察出微妙的數(shù)據(jù)信息,但有些還是需要依賴人的技能。我們雖然也為客戶提供做模型的解決方案,將很多事情模板化,把難度降下來,這樣就對入門客戶簡單很多,但我們不是一家做模型的公司,而是提供可以支撐很多模型的工具型平臺的公司。”

2、九章云極是人工智能公司?

方磊:“人工智能是一個非常大的話題,在我個人來看,人工智能是一個非常泛化的問題。智能是個很有意思的事情,有人認(rèn)為AlphaGO之后的叫智能,還有人認(rèn)為聽說讀寫叫智能,每個人的想法都不一樣。九章云極的slogan是數(shù)據(jù)科學(xué)賦能企業(yè)AI,企業(yè)需要人工智能這個泛泛的說法就說明企業(yè)需要有一個‘大腦’,如何展現(xiàn)智能的一面其實有很多實現(xiàn)的途徑,我認(rèn)為數(shù)據(jù)科學(xué)是以數(shù)據(jù)為基礎(chǔ)實現(xiàn)智能的一條主流路徑”。

3、九章云極是大數(shù)據(jù)公司?

方磊:“這取決于如何理解大數(shù)據(jù),很多人理解大數(shù)據(jù)公司就是有數(shù)據(jù)的公司,但我們不賣數(shù)據(jù)也不碰數(shù)據(jù),只是在分析層面做文章,為企業(yè)提供工具型平臺。”

方磊的數(shù)據(jù)科學(xué)人才觀

方磊回憶,2000年他從清華畢業(yè)時市面上還有很多Excel學(xué)習(xí)班。“每一個新的技能出現(xiàn)的時候,會顯得好像高大上或者很難,其實到最后它都變成了一個普遍的技能。我認(rèn)為 ‘數(shù)據(jù)科學(xué)家’這個title的出現(xiàn)是BI可視化分析轉(zhuǎn)向AI模型分析時所要求的技術(shù)能力的體現(xiàn)?,F(xiàn)在相關(guān)工種的技能是向上遷移的,大眾學(xué)到新技能的路徑多了,技能的壁壘也就會相應(yīng)降低。

數(shù)據(jù)科學(xué)家需要具備三種知識背景:計算機、統(tǒng)計以及應(yīng)用數(shù)學(xué)的背景。一個好的數(shù)據(jù)科學(xué)家苗子或者想從事這個方向的人應(yīng)該具備比較好的平衡業(yè)務(wù)和技術(shù)的能力。工具雖然在更新迭代,但相對于學(xué)習(xí)工具的難度,把業(yè)務(wù)問題轉(zhuǎn)換為機器學(xué)習(xí)問題的難度更大,這部分角色更像是一個商業(yè)分析師。”

ToB業(yè)務(wù)出海是大勢所趨?

服務(wù)全球客戶,是方磊一貫的目標(biāo)。他判斷中國的ToB業(yè)務(wù)出海在3到5年以后會慢慢成為主流。對此他類比了一下國內(nèi)游戲企業(yè)的ToC業(yè)務(wù)出海:“ToC業(yè)務(wù)出海很大程度上得益于蘋果的AppStore,沒有AppStore以前美國人在感恩節(jié)買中國的游戲是不可能的,而現(xiàn)在就很簡單,直接放在AppStore上全球用戶都可以下載使用了。也就是說業(yè)務(wù)的線上化讓跨境競爭變得相對容易。

ToB業(yè)務(wù)出海在以前是更困難的,但現(xiàn)在ToB業(yè)務(wù)有一個類似AppStore的接入場景,那就是云。亞馬遜的AWS和微軟的Azure在美國的市場份額可達70%,美國的大公司業(yè)務(wù)現(xiàn)在基本都部署在云上。當(dāng)企業(yè)都在云上開展業(yè)務(wù)以后,云就成為一個很大的入口,在云上我們就可以去提供全球服務(wù)和參與競爭了。我能看到ToB業(yè)務(wù)的出海一定會經(jīng)歷這個過程”。

開放銀行模式帶來的機遇與挑戰(zhàn)

“開放銀行從流程自動化轉(zhuǎn)到?jīng)Q策的自動化,這個就是我們最大的機會”,這是方磊認(rèn)為開放銀行模式能給九章云極帶來的機遇。“目前銀行正在從交易型結(jié)構(gòu)轉(zhuǎn)向認(rèn)知型結(jié)構(gòu),開放銀行則會加速這個過程。開放銀行模式是基于場景的,在接觸不同的業(yè)務(wù)場景后需要做的業(yè)務(wù)決策就變多了,所以我們向銀行輸出的核心能力是幫助銀行從流程自動化轉(zhuǎn)向決策自動化。”

“開放銀行在我理解還是把流程自動化的能力開放出來,決策自動化的能力銀行還在慢慢構(gòu)建當(dāng)中。以前銀行業(yè)務(wù)自動化主要做的純粹是流程,比如存、貸、匯業(yè)務(wù)的流程自動化,但現(xiàn)在銀行思考更多的是如何吸引客戶存的更多或者如何降低放貸的風(fēng)險,過去銀行是靠人來做這些決策,慢慢這些都可以通過模型來決策了。到了開放銀行時代,由于場景的豐富性,各種各樣的業(yè)務(wù)都更加需要和依賴決策的自動化,模型的價值、數(shù)據(jù)科學(xué)平臺的價值就凸顯出來,這就是九章云極的機遇所在。”

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-07-11
九章云極方磊:數(shù)據(jù)科學(xué)平臺的機遇與未來
  九章云極CEO方磊“機器學(xué)習(xí)就是下一個數(shù)據(jù)庫”從數(shù)據(jù)分析角度來看,硬件提供的大部分算力目前都用在了數(shù)據(jù)庫對數(shù)據(jù)的處理上,在整個產(chǎn)業(yè)不

長按掃碼 閱讀全文