智能運維場景解析:如何通過異常檢測發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)狀態(tài)異常

通常情況下,業(yè)務(wù)系統(tǒng)出現(xiàn)異常,最直接、最直觀反映就是關(guān)鍵業(yè)務(wù)指標(biāo)出現(xiàn)異常波動。以保險行業(yè)為例,當(dāng)業(yè)務(wù)系統(tǒng)出現(xiàn)異常時,系統(tǒng)處理保單的能力會顯著下降,對應(yīng)到業(yè)務(wù)指標(biāo)描述,即:業(yè)務(wù)系統(tǒng)出現(xiàn)問題時,“保單量”會出現(xiàn)下降。

智能運維場景解析:如何通過異常檢測發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)狀態(tài)異常

如何正確判斷“保單量”出現(xiàn)下降呢?傳統(tǒng)的方式就是設(shè)置一個固定的閾值,例如:定義在正常情況下,系統(tǒng)每分鐘可以處理的保單量應(yīng)該在200~600之間。當(dāng)實時監(jiān)控到的保單量超出上述閾值時,即認(rèn)為保單量出現(xiàn)異常。傳統(tǒng)監(jiān)控系統(tǒng)的固定閾值告警,就是通過設(shè)置固定的告警閾值與真實數(shù)據(jù)進行對比產(chǎn)生告警信息。

這個邏輯表面看上去沒有問題,但是仔細想一下,每天凌晨的時候,會有多少新的保單提交到系統(tǒng)中呢(假設(shè)保險公司只受理國內(nèi)的業(yè)務(wù))?顯然,每天上午10點到12點之間新提交到系統(tǒng)中的保單量要遠遠多于每天凌晨提交到系統(tǒng)中的保單量。

以此類推,業(yè)務(wù)系統(tǒng)在節(jié)假日和工作日處理的保單量也存在顯著的差別。如果據(jù)此邏輯進行深入分析,會發(fā)現(xiàn),企業(yè)很難用預(yù)先設(shè)定的規(guī)則(閾值)來判斷業(yè)務(wù)系統(tǒng)保單量指標(biāo)的是否出現(xiàn)異常。

智能運維場景解析:如何通過異常檢測發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)狀態(tài)異常

為了解決上述問題,云智慧DOCP平臺的DOEM數(shù)字化運維事件管理產(chǎn)品采用多算法集成學(xué)習(xí)模式,并引入3種針對時序型監(jiān)控指標(biāo)進行異常檢測的方法:動態(tài)基線、同比/環(huán)比和指標(biāo)異常檢測。

動態(tài)基線基于歷史數(shù)據(jù),利用智能算法進行深度學(xué)習(xí)后,對未來一段時間內(nèi)的每個時間點的數(shù)值進行精準(zhǔn)預(yù)測,以預(yù)測值作為基線,并通過比較實際值與基線的偏離度(百分比差異)來監(jiān)控和告警。

動態(tài)基線適用于已知某數(shù)據(jù)指標(biāo)呈周期性變化且沒辦法給出每個周期的準(zhǔn)確值或者周期內(nèi)的數(shù)據(jù)變化過多的場景。以保險行業(yè)業(yè)務(wù)場景為例,我們根據(jù)歷史保單量的學(xué)習(xí),識別出歷史數(shù)據(jù)的趨勢性和周期性的變化,預(yù)測未來一段時間保單量的變化。同時根據(jù)歷史數(shù)據(jù)的分布情況,給出未來一段時間的上下限的變化情況。當(dāng)待檢測指標(biāo)高于基線高于上限/低于下限時,即判斷為出現(xiàn)異常。監(jiān)測發(fā)現(xiàn)預(yù)測實際值數(shù)據(jù)頻繁小于預(yù)測數(shù)據(jù),我們有效的檢測到這種異常,并追蹤到事件的根源。

智能運維場景解析:如何通過異常檢測發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)狀態(tài)異常

同/環(huán)比異常檢測用于發(fā)現(xiàn)某個待監(jiān)測指標(biāo)的變化趨勢是持續(xù)變好還是持續(xù)變壞。將目標(biāo)監(jiān)控值與歷史同期數(shù)據(jù)的分布和同環(huán)比的變化情況進行對比,根據(jù)數(shù)值或百分比差異情況判斷新進數(shù)據(jù)是否異常,并作出判斷是否進行告警。

智能運維場景解析:如何通過異常檢測發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)狀態(tài)異常

為了應(yīng)對不對業(yè)務(wù)模式的差異化數(shù)據(jù)特點,DOEM采用無監(jiān)督集成學(xué)習(xí)算法進行單/多指標(biāo)異常檢測,無需人工設(shè)置固定閾值和定義基線偏離度,系統(tǒng)根據(jù)不同的數(shù)據(jù)特點,選擇不同算法去做針對性的檢測,并對異常進行整體的評估,自動識別出不符合期望的數(shù)據(jù)后產(chǎn)生告警消息。

云智慧DOEM(Digital Operation Event Management的縮寫)數(shù)字化運維事件管理產(chǎn)品面向技術(shù)和管理,以事件為核心,實現(xiàn)問題事件全生命周期的全局管控。DOEM基于大數(shù)據(jù)技術(shù)和機器學(xué)習(xí)算法,對來自于各種監(jiān)控系統(tǒng)的告警消息與數(shù)據(jù)指標(biāo)進行統(tǒng)一的接入與處理,支持告警事件的過濾、通知、響應(yīng)、處置、定級、跟蹤以及多維分析。DOEM產(chǎn)品基于動態(tài)基線等多種算法,能夠?qū)崿F(xiàn)事件的告警收斂、異常檢測、根因分析、智能預(yù)測,幫助企業(yè)打通數(shù)據(jù)孤島,統(tǒng)一運維的標(biāo)準(zhǔn)與管理規(guī)范,減少對運維的事務(wù)性干擾,提升運維的整體管理水平。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-09-06
智能運維場景解析:如何通過異常檢測發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)狀態(tài)異常
通常情況下,業(yè)務(wù)系統(tǒng)出現(xiàn)異常,最直接、最直觀反映就是關(guān)鍵業(yè)務(wù)指標(biāo)出現(xiàn)異常波動。

長按掃碼 閱讀全文