智能運維AIOps:數(shù)據(jù)與場景的突破

阿克琉斯之踵,金融企業(yè)的數(shù)字化之痛

《新金融世界》記者見到云智慧(北京)科技有限公司副總裁李誠的時候,他剛剛從客戶現(xiàn)場回到公司。據(jù)介紹,這是一家數(shù)字化步伐比較快的大型金融機構,在國內擁有3個數(shù)據(jù)中心,600個業(yè)務應用系統(tǒng),上萬臺物理設備,系統(tǒng)彼此之間調用關系復雜,并且部分核心業(yè)務之間具有強依賴關系。

這些應用系統(tǒng)每天產(chǎn)生海量日志數(shù)據(jù)和告警信息,對日志報文數(shù)據(jù)的處理分析需要3-4個小時,時效性差,效率低。“隨著新業(yè)務的不斷上線,運維團隊每天會接收上萬條的故障告警通知消息,漏報、錯報情況頻發(fā)。故障發(fā)生時,需要各部門協(xié)調才能定位解決問題,平均故障解決時間在6個小時以上,整體運維效率已經(jīng)成為制約企業(yè)數(shù)字化發(fā)展的障礙。”李誠告訴記者。

2016年,隨著AIOps從概念到落地,讓這家金融機構的CIO看到了希望——利用智能運維消除傳統(tǒng)IT支撐系統(tǒng)與數(shù)字化業(yè)務之間的數(shù)據(jù)斷層,簡化運維操作復雜度,有效提供運維效率,持續(xù)改善業(yè)務運行狀態(tài)。經(jīng)過兩個多月與云智慧的溝通和深入調研,李誠針對客戶的運維痛點開出了一劑良方——云智慧智能業(yè)務運維DOCP平臺。

基于多數(shù)據(jù)源,貫穿四大場景

云智慧是從2016年開始涉足智能運維,在過去兩年里,李誠和他所帶領的云智慧技術支持團隊已經(jīng)為近百家大型企業(yè)實施了智能運維解決方案,并獲得了成功。以此為基礎,云智慧推出了面向業(yè)務和IT全生命周期的數(shù)字化運維和運營管理解決方案——智能業(yè)務運維DOCP(Digital Operation Central Platform),以實時大數(shù)據(jù)處理、AIOps技術體系為基礎,通過漸進式的大數(shù)據(jù)運維、業(yè)務運維和智能運維解決方案,搭建起一體化的數(shù)字化、智能化運維管控中心平臺,通過平臺賦予企業(yè)強大的大數(shù)據(jù)處理能力、算法能力和分析能力。

從技術角度來看,實現(xiàn)智能運維AIOps還是具有相當?shù)拈T檻的。

首先企業(yè)必須擁有大數(shù)據(jù)分析處理能力。在運維領域,整體的數(shù)據(jù)量很大,數(shù)據(jù)來源包含基礎監(jiān)控、網(wǎng)絡質量、APM數(shù)據(jù),還有日志數(shù)據(jù)等等,數(shù)據(jù)類型包含了機器數(shù)據(jù)、文本數(shù)據(jù)、流式數(shù)據(jù)等。而且更重要的一點是,作為運維系統(tǒng),這些數(shù)據(jù)是實時產(chǎn)生并持續(xù)增加的。因此,智能運維對系統(tǒng)的實時數(shù)據(jù)采集、存儲和分析能力都有很高的要求。

智能運維AIOps:數(shù)據(jù)與場景的突破

而在此基礎之上,智能運維的核心價值在于場景化。“智能運維必須是基于客戶實際應用場景,解決實際業(yè)務問題,才能有效提升IT運維效率。云智慧梳理了智能運維主要的四大類應用場景:檢測、分析、發(fā)現(xiàn)(告警)、處置,大數(shù)據(jù)和人工智能技術始終貫穿于這四大類場景之中,通過數(shù)據(jù)的持續(xù)分析、積累和業(yè)務建模的不斷優(yōu)化,最終帶來真正意義上的智能運維。” 李誠表示。

總而言之,智能運維的價值體現(xiàn)在三個方面,首先是發(fā)現(xiàn)問題的時間縮短了,其次是解決問題的時間也變短了,更高級的是能夠通過故障預警,提前發(fā)現(xiàn)問題,將隱患消解于無形。

逐步深入,金融行業(yè)智能運維落地的三個階段

眾所周知,金融企業(yè)的IT系統(tǒng)具有業(yè)務價值高、系統(tǒng)規(guī)模大、復雜程度高等特點。因此,金融企業(yè)智能運維的落地也不是一蹴而就的,可以分為三步解決方案。

第一階段是大數(shù)據(jù)運維,構建統(tǒng)一監(jiān)控平臺,實現(xiàn)IT資源的統(tǒng)一管控。利用大數(shù)據(jù)的手段,采集、分析基礎設施、網(wǎng)絡、日志等IT監(jiān)控數(shù)據(jù),通過海量IT數(shù)據(jù)的實時處理分析,消除數(shù)據(jù)孤島,實現(xiàn)統(tǒng)一的告警,提升運維管理效率。

第二階段是業(yè)務運維,全面提升用戶體驗和業(yè)務系統(tǒng)健康,實現(xiàn)業(yè)務和IT的雙向驅動。用戶體驗和業(yè)務效能是數(shù)字化業(yè)務的兩大核心指標,通過IT和業(yè)務雙向驅動的業(yè)務運維,能夠幫助企業(yè)發(fā)現(xiàn)IT故障對業(yè)務造成的影響有多大、IT如何更好的支撐金融業(yè)務轉型、如何最大程度的降低業(yè)務損失。

智能運維AIOps:數(shù)據(jù)與場景的突破

第三階段是智能運維,構建智能化的IT運營管控體系,持續(xù)提升業(yè)務價值。通過智能告警、異常監(jiān)測、根因分析、自動處置、故障預測,極大提升IT運維效率, 保障業(yè)務連續(xù),減少業(yè)務損失。

以前文提到的金融行業(yè)客戶為例,通過云智慧智能業(yè)務運維DOCP,無論是整體運維工作效率,還是核心 KPI 都有大幅度的提升,同時IT運營也初步實現(xiàn)了數(shù)字化和智能化。“由于金融行業(yè)的IT成熟度普遍較高,所以目前70%~80%的金融企業(yè)都具備了第一階段的基礎,而50%的客戶開始部署第二階段的業(yè)務運維,也有一些金融客戶從今年開始嘗試采用AIOps解決方案。”李誠表示“通過DOCP平臺,我們連接起前端業(yè)務和后端應用系統(tǒng),實現(xiàn)了多種數(shù)據(jù)源和算法模型的融合,持續(xù)提升業(yè)務運營和IT管理效率,從而最終實現(xiàn)智能運維。”

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2018-08-22
智能運維AIOps:數(shù)據(jù)與場景的突破
阿克琉斯之踵,金融企業(yè)的數(shù)字化之痛《新金融世界》記者見到云智慧(北京)科技有限公司副總裁李誠的時候,他剛剛從客戶現(xiàn)場回到公司。

長按掃碼 閱讀全文