從算法到智能,智能運維的實踐之路

隨著企業(yè)數(shù)字化轉型的不斷深入,利用AI技術改善運維和IT服務水平成為當前運維管理的主要關注方向。在此過程中逐漸產(chǎn)生了不同的發(fā)展策略:圍繞著AI的平臺化智能運維發(fā)展模式、場景化智能運維發(fā)展模式以及自建智能運維發(fā)展模式。

不同發(fā)展策略的智能運維發(fā)展方向是一致的,即通過大數(shù)據(jù)和人工智能技術對運維管理進行賦能:

●結合現(xiàn)有監(jiān)控手段,增強數(shù)據(jù)分析,進一步提高監(jiān)控的能力;

●通過資源的有效配置節(jié)省運維成本;

●通過多數(shù)據(jù)源分析增強排查問題的能力,有效縮短故障恢復時間;

●通過預警并結合自動化工具,有效提高運維效率甚至自愈能力。

目前智能運維尚處在弱人工智能階段,人機協(xié)作的方式將促進智能運維的發(fā)展,人教會AI去學習,AI實現(xiàn)對數(shù)據(jù)的智能分析,提高運維人員的運營能力。

建設智能運維的算法挑戰(zhàn)

雖然這幾年人工智能在人臉識別、智能駕駛等領域得到了大量應用,但是AI仍然面臨著計算效能、安全、可解釋性等諸多挑戰(zhàn)。相比于其他AI落地場景,智能運維所亟需解決的問題具有一定的獨特性:

1、心態(tài)的轉變:智能運維是運維發(fā)展的方向,而且是一個長期的過程——從經(jīng)驗主義到數(shù)據(jù)驅動,再回歸到業(yè)務驅動的過程。經(jīng)驗是結合了數(shù)據(jù)、知識、業(yè)務等長時間學習的結果,而AI主要依靠歷史指標或者文本數(shù)據(jù),對歷史數(shù)據(jù)進行預測,從而對未來趨勢做出判斷。對于想達到的目標,需要考慮現(xiàn)有的信息是否充足,還需要結合業(yè)務場景進行具體模型的不斷優(yōu)化。

2、工程化算法的欠缺:由于缺乏標準的運維數(shù)據(jù)集,學術界針對運維的算法還比較少,工程化的算法尤其欠缺。同時算法在不同數(shù)據(jù)集上的泛化能力也決定了算法能否在真實場景應用的關鍵。

3、缺乏有效的標簽體系:以異常定義為例,由于不同業(yè)務部門對數(shù)據(jù)需求存在巨大區(qū)別,同時對異常的容忍程度也有不同定義,因此現(xiàn)有的泛化模型難以滿足用戶的實際需求。

4、數(shù)據(jù)的多樣化和變更頻繁:運維場景存在大量變更行為,因此需要考慮Concept-shift(如:促銷中的變更)前后對算法結果的影響。

5、唯一性:很多異常和故障的特征是唯一的,很難通過歷史數(shù)據(jù)的學習得到,因此需要結合業(yè)務屬性和其它數(shù)據(jù)進行有效學習。

6、算法失效帶來的災難:AI的應用需要明確目標和不確定性。工業(yè)化算法的準確性在85%以上可以用,但是需要考慮不準確情景的影響。算法很多時候需要考慮準確和召回的集合(F-score),而很多場景對算法的準確性有更高要求,因此對算法結果的評估將有助于進一步完善模型。

提升智能運維關鍵能力

面對上述算法落地挑戰(zhàn),需要對運維場景進行剖析,將學術界的算法和業(yè)界的場景有效的融合統(tǒng)一,再通過業(yè)界的工程實現(xiàn)能力進行有效的組合。對于每個場景的實現(xiàn),都不僅僅是一個或多個算法。在智能運維的落地的過程中,一般會構建四個智能分析能力集合:

●智能告警能力

及時有效的告警是運維的基礎。智能運維常常利用異常檢測來實現(xiàn)智能告警,但是異常檢測主要是找出數(shù)據(jù)的異常,而告警是業(yè)務驅動的,因此在設計告警條件時,需要集合異常檢測和業(yè)務的特性進行告警。

●智能診斷能力

當關鍵業(yè)務指標發(fā)生異常時,快速給出問題的根本原因的能力。在運維過程中,根因很可能是唯一的,不能通過歷史學習的方式構建,需要一個系統(tǒng)性設計,構建完善的運維分析庫,通過有效的學習對故障進行快速定位。

●智能預警能力

通過基于歷史數(shù)據(jù)的有效學習,對未來可能的故障進行有效預測是減少損失的重要手段。故障的類型很多,針對不同類型的預測需要不同的算法模型。當故障發(fā)生時,配合資源優(yōu)化算法,自動化的對任務進行編排,從而有效、及時預測故障的發(fā)生。

●智能服務管理能力

智能服務管理能力將利用人工智能技術,與新一代ITSM進行融合。通過知識庫的構建,利用文本相似度,對歷史上發(fā)生的故障工單進行匹配,及時有效的提供故障的解決方案,大大提升了故障的處理效率,結合自動化的工具,快速給出請求回復,減少運維人員的時間浪費。

注重算法的魯棒性、自適應性、可解釋性、泛化能力等,通過構建專業(yè)運維數(shù)據(jù)庫以及智能分析方面的4個關鍵能力,將為企業(yè)智能運維體系化建設提供有力支撐,落地從運維的監(jiān)控預警、告警、診斷分析、事件管理和知識推薦的全鏈路智能系統(tǒng)。

發(fā)展與展望

從算法到智能,智能運維的實踐之路

隨著AIOps應用不斷的深入,智能運維將會在縱向和橫向不斷延伸。橫向上,智能運維應用場景將會從ITOM向ITOA、ITSM和ITBM發(fā)展,覆蓋更多的運維領域??v向上,隨著運維數(shù)據(jù)成熟度以及AI能力的提升,智能運維將從機器學習向深度學習、增強學習甚至向元學習能力延伸。這種縱橫能力的覆蓋,將實現(xiàn)AI對整個運維場景的可見、可控、可分析、可管理。

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )