云智慧劉洪濤:與其說AIOps是產品,不如說這是一種理念和策略

“這些年大家都在談數(shù)字化轉型,但大家關注的核心焦點在建設上。怎么理解這句話?比如一家傳統(tǒng)企業(yè)要數(shù)字化轉型,會引進很多數(shù)字化系統(tǒng)、手段,例如上云,利用大數(shù)據(jù)、IOT驅動業(yè)務轉型升級。

但企業(yè)實現(xiàn)數(shù)字化后,會擁有上百個系統(tǒng),很容易出現(xiàn)緩慢、崩潰現(xiàn)象,面臨很多挑戰(zhàn)。其次,企業(yè)在運維管理方面養(yǎng)了好幾十人的運維團隊,工作量很大,但管理模式過于傳統(tǒng),效率很低。所以,這時候企業(yè)才開始用人工智能的手段來變革運維領域,解決企業(yè)各種系統(tǒng)運行問題。

云智慧劉洪濤:與其說AIOps是產品,不如說這是一種理念和策略

云智慧總裁劉洪濤

不過,目前,大多數(shù)企業(yè)客戶還屬于上云,上系統(tǒng)的階段,還沒考慮到系統(tǒng)維護、運維的階段。這也是為什么企業(yè)IT領域,IT運維發(fā)展滯后的原因。”云智慧總裁劉洪濤說道。

云智慧成立于2009年,是一家全棧智能運維解決方案服務企業(yè)。今年6月,云智慧完成了由華山資本領投,紅杉資本中國基金、水木投資和浙民投/浙江絲路基金跟投的 2500 萬美元 D 輪投資。

數(shù)字化時代,傳統(tǒng)IT運維管理的機遇與挑戰(zhàn)

目前,我國IT服務發(fā)展已經進入到相對穩(wěn)定的增長階段,有著極為可觀的市場前景。據(jù)相關數(shù)據(jù)統(tǒng)計,2017年中國IT服務市場規(guī)模為6077.7億元,同比增長16.2%,預計未來四年將保持13.8%年復合增長率,到2021年整體市場規(guī)模將突破萬億大關。

與此同時,越來越多的高科技企業(yè)加入到數(shù)字化轉型大軍中,而IT服務市場的競爭格局也發(fā)生著變化,優(yōu)質IT服務企業(yè)開始進入大眾視野。

然而,在移動化、大數(shù)據(jù)、云計算、人工智能等新技術的推動下,企業(yè)的 IT技術架構悄然變遷,從傳統(tǒng)“IOE架構”走向“互聯(lián)網架構”?;ヂ?lián)網架構所涉及的網元數(shù)、技術棧、服務數(shù)等元素成倍劇增,使得運維壓力越來越大。

劉洪濤告訴i黑馬&數(shù)字觀察,企業(yè)一方面享受著數(shù)字技術帶來的創(chuàng)新成果,一方面卻又有意無意的忽略了IT自身的潛在風險,不能在IT出現(xiàn)問題的第一時間發(fā)現(xiàn),并作出有效應對。

首先,從C/S架構到B/S架構,再到移動化的APP和小程序,加上云計算、物聯(lián)網、邊緣計算等技術的應用,企業(yè)IT架構越來越龐大,運維工作變得越來越復雜。

“一直以來,IT部門的職責局限于維護系統(tǒng)的穩(wěn)定運行,鮮少與業(yè)務運行指標掛鉤,當業(yè)務出現(xiàn)波動后再從海量日志、監(jiān)控數(shù)據(jù)中排查原因,往往已經造成難以彌補的損失。”

其次,龐大的數(shù)據(jù)量也是運維工作面臨的巨大挑戰(zhàn)。很多大型企業(yè)的服務器數(shù)量就達到上萬臺,每時每刻產生海量的數(shù)據(jù),這些數(shù)據(jù)里還藏著大量關鍵信息,比如某系統(tǒng)的日志數(shù)據(jù)不正常,可能造成未來數(shù)小時整個業(yè)務流程的緩慢,甚至中斷。

第三,過去受限于技術和人力等方面原因,IT系統(tǒng)一旦出現(xiàn)故障,需要手工排查問題,效率非常差。

“科技進步推動IT從標準化、自動化向數(shù)字化、智能化轉變。如此高速發(fā)展、競爭激烈的經濟環(huán)境中,企業(yè)必須重新審視IT與業(yè)務的關系,否則就會被行業(yè)領先者和互聯(lián)網創(chuàng)新企業(yè)所淘汰。

與此同時,IT運維的角色正在發(fā)生根本性轉變,從默默無聞的支撐者變成業(yè)務運行不可或缺的賦能者。而智能運維(AIOps)作為AI、大數(shù)據(jù)技術與IT運維融合的產物,也成為傳統(tǒng)企業(yè)數(shù)字化轉型的必然選擇。”

智能運維是理念和策略,數(shù)據(jù)是基礎

2016年,Gartner首次提出智能運維(以下簡稱AIOps)概念。

在Gartner的《Market Guide for AIOps Platforms》報告中對AIOps做出了定義:AIOps平臺是結合大數(shù)據(jù)、人工智能(AI)或機器學習功能的軟件系統(tǒng),用以增強和部分取代廣泛應用的現(xiàn)有IT運維流程和事務,包括可用性和性能監(jiān)控、事件關聯(lián)和分析,IT服務管理以及運維自動化。

總的來說,與傳統(tǒng)IT運維相比,智能運維具有無可比擬的優(yōu)勢。過去受限于技術和人力等方面原因,IT系統(tǒng)一旦出現(xiàn)故障,便需要大量資源手工排查問題,效率非常差。

智能運維不但有效減少告警的誤報率和錯報率,通過交易鏈自動追蹤和故障根因分析,幫助運維第一時間發(fā)現(xiàn)問題根源,并把故障的排查和修復時間縮短到數(shù)個小時。

舉個例子,一家大型企業(yè)可能有數(shù)百套IT系統(tǒng),過去,出現(xiàn)故障后,如果依靠人力逐一排查,大概需要一周的時間。而使用智能運維平臺,不但有效減少告警的誤報率和錯報率,通過交易鏈自動追蹤和故障根因分析,能夠把故障的排查和修復時間縮短到數(shù)個小時。

在劉洪濤看來,智能運維并不是一個全新的理念,而是IT運營分析/運維管理(ITOA/ITOM)體系與大數(shù)據(jù)和人工智能技術結合的產物。

AIOps智能運維平臺以ITOM/ITOA系統(tǒng)所采集的運維大數(shù)據(jù)為基礎,利用人工智能和機器學習算法對運維數(shù)據(jù)進行深入分析,涵蓋IT監(jiān)控,應用性能管理、外網監(jiān)控、日志分析,系統(tǒng)安全等方面。

前幾年大家對AIOps爭論非常大,都在講自己對AIOps的定義與理解,以及接下來AIOps發(fā)展方向。當時對其爭論的方向有這幾個:第一類,AIOps是自動化運維,就是我們要把Ops消滅掉,通過自動化運維方式,用機器去取代人。第二類,利用智能化的手段,替代高重復性的工作,全程自動化、智能化操作。

第三類是我們理解的AIOps,AIOps的核心在于企業(yè)解決的不是運維的問題,而是如何提高運維效率,解決如何支持業(yè)務的問題。

“對于AIOps,我們的觀點是,第一,與其說AIOps是產品,不如說這是一種理念和策略。通過以數(shù)據(jù)為基礎,場景為導向,算法為支撐的AIOps平臺,為企業(yè)現(xiàn)有運維管理工具和管理體系賦予統(tǒng)一數(shù)據(jù)管控能力和智能化數(shù)據(jù)分析能力,全面提升運維管理效率。

第二,現(xiàn)階段AIOps的目標不是NoOps,而是BetterOps,通過更高效的運維幫助企業(yè)快速洞察人力難以企及的故障和問題,準確預測風險,化被動運維為主動運維。

可以這么理解,企業(yè)IT運維服務商,要幫助企業(yè)客戶把運維問題消滅在內部,讓使用者還沒有發(fā)現(xiàn)問題之前,運維系統(tǒng)已經把問題解決掉了,感受不到運維的存在,做到無感知的運維。就像我們在使用微信一樣,我們不會感覺微信背后有一個運維團隊存在,雖然它偶爾會出故障,但極少,他們的運維的工作做得非常多,才能實現(xiàn)這點。

第三,AIOps的基礎是什么?我們認為是數(shù)據(jù)。“因為AIOps需要收集企業(yè)內部系統(tǒng)、外部系統(tǒng)、第三方的各種數(shù)據(jù),匯集到一起,通過AI的方式進行分析和處理,幫助企業(yè)運維人員用正確的運維動作和管理方式,提升整體的運維效率。”

總的來說,把日常的IT管理工作移交給擁有機器學習和自動化運維能力的智能運維平臺,大大降低企業(yè)管理的時間成本和人力、資金投入。

而運維管理人員也可以從篩查海量告警信息、執(zhí)行重復性巡檢任務、人工判斷故障、手動解決問題的低效工作中釋放出來,專注于構建更加高效、高擴展的IT系統(tǒng),支持企業(yè)的數(shù)字化業(yè)務發(fā)展,這也就是業(yè)界所倡導的“IT從運維到運營”之路。

AIOps智能運維平臺還能有效預測潛在的IT故障,并在無需人為干預的情況下提前解決掉這些問題,而應用系統(tǒng)故障率的降低,將有效提高云計算資源的使用效率。這得益于機器學習和深度學習算法在IT監(jiān)控和應用性能管理系統(tǒng)中的持續(xù)積累,不斷記錄IT運維人員在不同場景下使用故障排除或修復基本問題的自動化工具的操作。

劉洪濤認為,企業(yè)采用AIOps的能力不僅取決于IT監(jiān)控系統(tǒng)的數(shù)據(jù)規(guī)模和自動化系統(tǒng)的可用性,還取決于人員和流程的一致性。

服務商可以在很短時間內把AIOps智能運維平臺部署到企業(yè),但是任何管理轉型都不是安裝一套系統(tǒng)那么簡單,需要根據(jù)業(yè)務特點對人員和流程進行調整,而這往往需要更多的時間。

那么,一個完整的AIOps智能運維平臺具備哪些要素呢?

劉洪濤指出,首先,這個平臺要具備完整的數(shù)據(jù)采集和數(shù)據(jù)處理能力,可以收集企業(yè)的多維度數(shù)據(jù),并且聚合到一起,這是基礎。

其次,在具有海量數(shù)據(jù)基礎之上,平臺要具備AI能力,這個能力不是隨便一個算法就能解決的,是針對運維領域的算法能力。

第三,就是對客戶的業(yè)務要有充分和深度的理解。“我們知道,不同的行業(yè),不同的公司,業(yè)務屬性都不同,服務商需要依據(jù)客戶的具體業(yè)務和應用場景,提供最佳實踐的解決方案,而不是一個標準化的產品。

基于此,我們要了解不同行業(yè)的特性,不同企業(yè)客戶的業(yè)務,對其業(yè)務要有深度的理解,進而針對他們的需求,提供個性化解決方案。

總的來說,我們的目標就是,一方面,要追求解決方案的標準化,要把很多需求做到模塊化,方便客戶調用。另一方面,對客戶的業(yè)務要有深刻的理解,針對不同的客戶,提供不同的模塊產品組合,滿足其業(yè)務需求。”

基于對客戶的理解,從單一產品到解決方案延展

i黑馬&數(shù)字觀察了解到,2009年的時候,很多中小互聯(lián)網企業(yè)的監(jiān)控能力有限,Zabbix、Nagios等絕大部分監(jiān)控工具提供的都是內網監(jiān)控,只能監(jiān)測內部服務器的運行狀態(tài),當外網出現(xiàn)問題或監(jiān)測服務器宕機了,就無法收到任何告警信息,往往要等憤怒的用戶打來投訴電話,運維工程師才知道網站或服務又不可用了。

云智慧看準時機,面向中小型互聯(lián)網用戶推出主動式撥測的網站監(jiān)控SaaS服務——監(jiān)控寶,這是一個簡單、易用,基于外網監(jiān)控的工具,它不需要有過多的投入,就能迅速發(fā)現(xiàn)問題。監(jiān)控寶恰好滿足了當時網站互聯(lián)互通的需求痛點,用戶增長相當快,2014年用戶已達18萬。

雖然監(jiān)控寶做得非常成功,但是,大部分客戶都是小微企業(yè),付費意愿不強,無法滿足云智慧進一步發(fā)展的需求。再加上,2014年移動互聯(lián)網的爆炸式發(fā)展,行業(yè)對APM的需求日趨火爆,云智慧順勢推出了APM應用性能管理平臺透視寶。

“當時我們發(fā)現(xiàn),基礎監(jiān)控是客戶最底層、最基礎的運維需求,再往深入的看,就進入代碼層面,叫應用監(jiān)控,這就是后來我們所說的APM。”

據(jù)悉,APM和監(jiān)控寶很大的不同在于它能夠服務大中型企業(yè),解決的是復雜的IT系統(tǒng)性能問題。當時有三家公司同時進入這個對技術門檻要求很高的領域。

也就是說這個方向比原來的更有價值,客單價也從原來的一年幾千塊變成了幾十萬。因為APM滿足了大客戶的需求,而且大客戶都是有預算的。

隨后,云智慧又根據(jù)互聯(lián)網規(guī)?;l(fā)展的需求推出了另外兩塊業(yè)務,壓測寶和天機數(shù)據(jù)。其中天機數(shù)據(jù)聚焦政企大數(shù)據(jù)方面的應用,通過搭建大數(shù)據(jù)平臺,進行即時數(shù)據(jù)分析,提供業(yè)務發(fā)展和商業(yè)決策依據(jù)。

但是,i黑馬&數(shù)字觀察發(fā)現(xiàn),當時市面上的幾家APM廠商過得都不太好,要么宣布轉型,拓展新業(yè)務,要么就是創(chuàng)始團隊退出,公司名存實亡,一時間APM被唱衰的論調此起彼伏。

“我們這幾家廠商從APM角度切入市場的戰(zhàn)略是沒有錯的。隨著企業(yè)系統(tǒng)復雜度越來越高,而IT對業(yè)務的支持或者業(yè)務對IT的依賴度也越來越高,這樣客戶對故障率、穩(wěn)定性的需求愈加明顯,而APM就是能夠解決這些問題。

像BAT這類大型互聯(lián)網公司,自己做APM這件事很久了,沒有靠外面的一個產品或體系來做。因為一個互聯(lián)網公司從底層架構開始搭建到整個代碼開發(fā)完全都是自己的,所以對他們來說,自己去做APM是一個很自然的事情。”劉洪濤說道。

為什么后來大家都轉型了?

劉洪濤進一步解釋道,一年IT預算幾千萬甚至是上億的大企業(yè),需要的是完整的解決方案,而不是一個工具化的產品,而APM并不是大型企業(yè)的剛需。而且做一個大客戶整個的銷售過程是很漫長的,從挖掘客戶需求到達成合作、簽訂合同、實施,半年時間過去了,同時還要有豐富經驗的客戶服務團隊才能做這種事。

幾十萬,很顯然,投入產出比不合理。這和中國APM市場的滲透程度有關:大客戶不愿意買工具類產品,用什么產品他們不關心,他們關心的是解決問題??偠灾?,客戶對于故障分析這類問題的痛點是存在的,但客戶并不想去買一個工具性的產品。

“當時我們賽道的幾家都是看到市場有需求,才進來的,但后來我們也都發(fā)現(xiàn)了客戶不想要單一的APM的工具這個問題,這一點和美國那邊做單一APM產商活的很好的狀況不同。美國客戶是習慣購買單一工具類產品,因為他們的IT成熟度高,IT架構也比較清楚,客戶技術水平也高,而中國的客戶并不希望是買標準化工具。

就是因為我們這幾家都看到這個問題了,所以各自選擇了自己的下一步該怎么解決客戶問題的方向,發(fā)展到今天,大家的道路不同,結果也是不同的。”

經過思考,云智慧開始轉型,從單一的工具開始向一體化解決方案升級,目標客戶定位開始向中大型企業(yè)延展,云智慧認為,只有這部分客戶愿意為業(yè)務運維一體化解決方案買單。在此基礎上,云智慧針對傳統(tǒng)行業(yè)客戶和互聯(lián)網客戶,提供了差異化的產品和解決方案。

互聯(lián)網客戶的技術能力較強,對業(yè)務運維服務需求不大,更偏向于工具性服務,因此主打工具類產品即監(jiān)控寶和透視寶。傳統(tǒng)行業(yè)客戶需要綜合性問題的解決方法,對這類客戶,云智慧直接提供業(yè)務運維解決方案。

談到云智慧的每次轉型升級背后的思考邏輯時候,劉洪濤指出,云智慧的基因來自對客戶業(yè)務和需求的理解,也是我們一直以來追求的。無論是初創(chuàng)階段做監(jiān)控寶,還是轉型做APM,或者又升級做業(yè)務運維,智能運維,我們始終圍繞的是客戶到底要什么,我們做對客戶的業(yè)務,對客戶需求的深刻的理解。

基于這些理解,我們開始思考,到底做什么樣的東西才能夠滿足客戶需要。同時,云智慧也有自己的技術能力,把想做的東西通過技術做成產品化的東西,再落地。

“一直以來,我們對客戶的現(xiàn)狀和未來有深度的思考和理解,對IT行業(yè)有深度的思考,同時又有技術能力去實現(xiàn)我們這些想法,幫助客戶解決問題。”

圍繞上述思考,云智慧提出了智能運維實施的三階段戰(zhàn)略,第一,數(shù)據(jù)為先,在這個階段實現(xiàn)企業(yè)IT數(shù)據(jù)的完整采集;第二,初步智能化,幫客戶發(fā)現(xiàn)業(yè)務與IT的關聯(lián)關系,實現(xiàn)業(yè)務全鏈路追蹤和根因分析;第三,高級智能化,用AI幫助客戶解決更有前瞻性的問題,包括故障預測、容量規(guī)劃等。

概括來講就是,云智慧通過智能業(yè)務運維DOCP平臺,利用大數(shù)據(jù)和人工智能技術,以實時大數(shù)據(jù)處理、AIOps技術體系為基礎,由輕量級、低入侵、松耦合的一體化監(jiān)控、業(yè)務運維和智能運維解決方案,以及IT性能監(jiān)控、應用性能管理、業(yè)務效能分析等應用模塊為支撐構成一體化的數(shù)字化運維中心平臺。

這樣一來,企業(yè)客戶可以通過業(yè)務運維可視化大屏,找到亟需解決的IT問題,持續(xù)提升業(yè)務運營和IT管理效率。

DOCP是一個運維監(jiān)控管理和大數(shù)據(jù)智能分析平臺,通過構建起支持數(shù)字化業(yè)務指標體系,可以全量采集不同數(shù)據(jù)源的IT性能數(shù)據(jù)、告警信息、業(yè)務指標數(shù)據(jù),利用大數(shù)據(jù)技術對海量數(shù)據(jù)進行梳理、規(guī)范和關聯(lián),利用機器學習、深度學習等AIOps方法體系實現(xiàn)根因分析和故障溯源,準確評估系統(tǒng)異常對業(yè)務造成的實際影響,實現(xiàn)監(jiān)控、分析、發(fā)現(xiàn)、告警等數(shù)字化運維環(huán)節(jié)的高效管控和業(yè)務與IT數(shù)據(jù)的雙向驅動。

自從2016年云智慧推出智能業(yè)務運維DOCP以來,已經陸續(xù)在銀行、保險、證券、零售、制造、航空等多個行業(yè)的不同應用場景落地,并獲得了用戶的一致認可。

以金融行業(yè)為例,F(xiàn)intech的發(fā)展推動傳統(tǒng)金融機構加速數(shù)字化轉型,利用AI、大數(shù)據(jù)、區(qū)塊鏈、物聯(lián)網、生物識別創(chuàng)新技術,重塑自身業(yè)務模式、內部流程和決策管理能力,滿足業(yè)務增長的需求。

而互聯(lián)網金融業(yè)務的持續(xù)增長,傳統(tǒng)以穩(wěn)定可靠為先的IT管理模式和運維服務流程難以滿足個人消費者互聯(lián)網級的用戶體驗需求,因此需要更加精益、敏捷的新一代運維管理解決方案。

針對金融行業(yè)的需求特點,云智慧推出全棧智能運維解決方案,以數(shù)據(jù)為基礎,場景為導向,算法為支撐,面向雙態(tài)IT系統(tǒng)構建全棧統(tǒng)一監(jiān)控平臺,實現(xiàn)豎井系統(tǒng)的數(shù)據(jù)連通;基于機器學習的跨系統(tǒng)調用鏈監(jiān)控與追蹤,準確分析業(yè)務波動根本原因;依托PB級大數(shù)據(jù)能力,實時處理網絡、APM、日志數(shù)據(jù),實現(xiàn)面向事件的異常檢測、根因分析、故障預測和智能告警,有效降低MTTR;圍繞業(yè)務目標,實現(xiàn)業(yè)務與IT的統(tǒng)一健康態(tài)勢可視化,支撐決策。

在最后,劉洪濤坦言,云智慧從網絡監(jiān)控工具到一體化智能運維解決方案的過程中遇到很多困難與挑戰(zhàn),“首先,從團隊自身的迭代就是很大的挑戰(zhàn)。我們原來的產品經理是做簡單產品的,現(xiàn)在他要提供復雜的解決方案;前端的售前,原來是產品銷售型變成解決方案型的售前;整個公司的客戶服務流程或者業(yè)務流程也會發(fā)生很大的變化。

其次,單一的Saas產品銷售是很容易的,客戶需要簽了合同,開帳號用就好了,但現(xiàn)在變成解決方案了,交付流程就變得很復雜,需要和客戶討論實際情況是什么樣,我們需要根據(jù)客戶的實際情況,提供相應的解決方案,而且還要讓這個方案落地。

而且當解決方案在在客戶那里上線以后,使用的過程中還會遇到各種問題,需要幫助客戶迭代升級維護。所以對于公司整體運營來說,挑戰(zhàn)非常大的。”

極客網企業(yè)會員

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2019-08-07
云智慧劉洪濤:與其說AIOps是產品,不如說這是一種理念和策略
“這些年大家都在談數(shù)字化轉型,但大家關注的核心焦點在建設上。

長按掃碼 閱讀全文