智能運維場景解析:基于AIOps的智能根因分析實踐

企業(yè)上云、區(qū)塊鏈、物聯(lián)網(wǎng)、5G,隨著一個個數(shù)字化場景的應(yīng)用和業(yè)務(wù)模式的多樣化發(fā)展,支撐這一切的企業(yè)IT系統(tǒng)的規(guī)模和復(fù)雜性正在大幅提高,IT 運維團隊面臨的壓力和挑戰(zhàn)與日俱增,任何一次服務(wù)中斷事件都有可能對公司業(yè)務(wù)造成極大影響。因此,當(dāng)故障發(fā)生時候,必須快速、準確、有效的定位到故障根源,通過快速修復(fù)保障數(shù)字業(yè)務(wù)穩(wěn)定可靠運行,是CIO所領(lǐng)導(dǎo)的IT部門職責(zé)的重中之重。

然而,依賴運維經(jīng)驗和手工操作的傳統(tǒng)故障排查方式效率低下,無法應(yīng)對如今大規(guī)模、分布式、異構(gòu)IT系統(tǒng)的運維挑戰(zhàn),必須利用基于大數(shù)據(jù)和機器學(xué)習(xí)等智能運維技術(shù)的根因分析(Root Cause Analysis,RCA),才能在最短時間內(nèi)定位故障根因,全面提升MTTR(平均故障修復(fù)時間)這兩個數(shù)字化運維的關(guān)鍵指標(biāo)。

在海量離散數(shù)據(jù)中追蹤故障根因的難點

應(yīng)用系統(tǒng)架構(gòu)復(fù)雜,技術(shù)體系多樣,數(shù)據(jù)孤島在企業(yè)中大量存在。目前,IT部門普遍采用多種離散監(jiān)控系統(tǒng)來實現(xiàn)不同的技術(shù)棧監(jiān)控,如基礎(chǔ)設(shè)施與服務(wù)監(jiān)控采用Zabbix或監(jiān)控寶、網(wǎng)絡(luò)監(jiān)控使用Solarwinds軟件、應(yīng)用性能管理采用透視寶等APM產(chǎn)品,還有一些業(yè)務(wù)和性能采用日志分析手段進行監(jiān)控。

智能運維場景解析:基于AIOps的智能根因分析實踐

 當(dāng)問題出現(xiàn)時,技術(shù)人員往往需要從用戶使用的終端應(yīng)用和設(shè)備開始,對各個IT環(huán)節(jié)的運行狀態(tài)和性能進行端到端分析,從全棧全維度的角度深入對故障進行定位。然而,傳統(tǒng)的統(tǒng)計型和Trace型根因分析方法各有缺點,導(dǎo)致無法快速準確定位根源故障,需要大量的人工排障時間。

基于AIOps的根因分析方法

根因分析方法廣泛應(yīng)用于IT和醫(yī)學(xué)等領(lǐng)域。著名IT研究機構(gòu)Gartner為根因分析給出的定義,是一種旨在將當(dāng)前條件與過去采集到的結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)模式進行匹配的復(fù)雜分析方法,根因分析的目標(biāo)是嘗試定位一個系統(tǒng)錯誤的問題根源。

因此,根因分析需要將異常檢測和事件相關(guān)性從另一個維度結(jié)合起來進行分析,該分析將一般性的意外情況轉(zhuǎn)化為具有特定解決方案的特定問題。因此,根因分析需要與異常檢測和事件關(guān)聯(lián)分析相同類型的數(shù)據(jù),即用于檢測異常的黑盒數(shù)據(jù)和將整個系統(tǒng)中異常關(guān)聯(lián)的白盒數(shù)據(jù)。

事件的質(zhì)量和跨系統(tǒng)/數(shù)據(jù)的異常關(guān)聯(lián)的質(zhì)量都將對根因分析結(jié)果產(chǎn)生巨大影響。所以,不僅要了解關(guān)聯(lián)機制,還要了解確保相關(guān)性持續(xù)存在且正確的操作條件或配置。根因分析需要利用以下技術(shù)發(fā)現(xiàn)和自動維護系統(tǒng)拓撲,避免手動指定拓撲造成的誤差:

·從現(xiàn)有的IT運維數(shù)據(jù)庫(如CMDB)中提取關(guān)聯(lián)關(guān)系

·基于agent發(fā)現(xiàn)系統(tǒng)的相關(guān)性,通過觀察系統(tǒng)之間的連接來構(gòu)建拓撲

·通過日志文件從共享數(shù)據(jù)的實體(例如主機名或IP地址)之間推斷拓撲關(guān)系

異常檢測旨在表明某些不正?,F(xiàn)象,而根因分析則試圖闡明“是什么問題”、“為什么發(fā)生問題”、“問題的最佳解決方案是什么”,這一系列目標(biāo)需要準確性和精確性,總的來說,這是一個極其復(fù)雜的數(shù)據(jù)科學(xué)問題。

根因分析的優(yōu)點:

·實施效果良好的根因分析會大幅縮短系統(tǒng)中斷后的平均故障恢復(fù)時間(MTTR);

·根因分析可以減少對經(jīng)驗的依賴,并可以通過定向響應(yīng)進行更多的機械補救;

·如果精度和準確度足以滿足用例的要求,根因分析將為智能自動化開啟大門;

根因分析的難點:

·根因分析解決方案通常依靠關(guān)聯(lián)和抽象技術(shù)來獲得準確性、精度和影響范圍,當(dāng)這些假設(shè)不可靠時,根因分析結(jié)果也會受到影響;

·創(chuàng)建問題指紋庫的工作量和復(fù)雜性很大,這使得根因分析對于大多數(shù)手動方法來說都是遙不可及的。

基于多源數(shù)據(jù)的云智慧智能故障根因分析

現(xiàn)在的根因診斷算法(格蘭杰因果關(guān)系等)多是從數(shù)據(jù)關(guān)聯(lián)出發(fā),給出數(shù)據(jù)的相關(guān)性概率,但不能有效給出系統(tǒng)根因。云智慧DOEM數(shù)字化運維事件管理產(chǎn)品提供了多個算法相互結(jié)合驗證的根因診斷系統(tǒng),智能滿足特定數(shù)據(jù)的驗證,利用Open Tracing、APM(應(yīng)用性監(jiān)控)等技術(shù)對業(yè)務(wù)和系統(tǒng)的調(diào)用關(guān)系進行有效構(gòu)建,同時利用CMDB等部署關(guān)系建立統(tǒng)一的調(diào)用拓撲圖和物理拓撲圖,構(gòu)建基于圖算法和數(shù)據(jù)關(guān)聯(lián)相結(jié)合的算法。

智能運維場景解析:基于AIOps的智能根因分析實踐

當(dāng)數(shù)據(jù)之間存在邏輯關(guān)系時,可以根據(jù)數(shù)據(jù)邏輯給出根源;當(dāng)數(shù)據(jù)存在結(jié)構(gòu)性的時候,會根據(jù)圖算法模型對根因進行分析,然后進一步將不同的算法模型對場景和不同的元數(shù)據(jù)進行適配,對異常進行有效的根因定位。在眾多可能引起故障的因素中,追溯到導(dǎo)致故障發(fā)生的癥結(jié)所在,并找出根本性的解決方案。利用機器學(xué)習(xí)或者深度學(xué)習(xí)的方法,找出不同因素的之間的強相關(guān)關(guān)系,并利用這些關(guān)系推斷出哪些因素是根本原因。

智能運維場景解析:基于AIOps的智能根因分析實踐

當(dāng)故障發(fā)生時,DOEM的根因分析功能基于智能算法給出當(dāng)前問題事件的故障根因推薦,并將問題事件的相關(guān)故障信息匯集到一個頁面,根因分析結(jié)果可以幫助運維工程師快速確定故障的根因,并迅速對故障進行修復(fù),降低損失。

上面的示例中,明確指出引起業(yè)務(wù)量波動最可能的原因(87%概率)是某臺主機的CPU使用率過高,可以進一步查看詳情,如下圖所示:

智能運維場景解析:基于AIOps的智能根因分析實踐

展示該主機的關(guān)鍵指標(biāo)信息:此時CPU使用率達到了100%。在拓撲圖中可以分析該主機的問題所引起的其它組件與應(yīng)用的故障與性能不佳情況。同時,本頁面集中展現(xiàn)該了主機的實時數(shù)據(jù)、告警事件信息,幫助分析問題。

智能運維場景解析:基于AIOps的智能根因分析實踐

DOEM基于問題事件的特征,自動匹配知識庫中的相似問題,把問題的處置建議與經(jīng)驗推送給用戶,實現(xiàn)“知識找人、知識找問題”?;谀_本封裝式的知識,運維人員可進一步執(zhí)行處置程序,實現(xiàn)問題的自動化處置。

云智慧DOEM(Digital Operation Event Management的縮寫)數(shù)字化運維事件管理產(chǎn)品面向技術(shù)和管理,以事件為核心,實現(xiàn)問題事件全生命周期的全局管控。DOEM基于大數(shù)據(jù)技術(shù)和機器學(xué)習(xí)算法,對來自于各種監(jiān)控系統(tǒng)的告警消息與數(shù)據(jù)指標(biāo)進行統(tǒng)一的接入與處理,支持告警事件的過濾、通知、響應(yīng)、處置、定級、跟蹤以及多維分析。DOEM運用動態(tài)基線等算法,實現(xiàn)事件的告警收斂、異常檢測、根因分析、智能預(yù)測,幫助企業(yè)打通數(shù)據(jù)孤島,統(tǒng)一運維的標(biāo)準與管理規(guī)范,減少對運維的事務(wù)性干擾,提升運維的整體管理水平。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-12-06
智能運維場景解析:基于AIOps的智能根因分析實踐
企業(yè)上云、區(qū)塊鏈、物聯(lián)網(wǎng)、5G,隨著一個個數(shù)字化場景的應(yīng)用和業(yè)務(wù)模式的多樣化發(fā)展,支撐這一切的企業(yè)IT系統(tǒng)的規(guī)模和復(fù)雜性正在大幅提高,IT 運維團隊面臨的壓力和

長按掃碼 閱讀全文