暢想無人化運維的AIOps,還有多遠的路要走?

科技云報道原創(chuàng)。

在IT行業(yè),運維人常常自我調(diào)侃“賺著5k的月薪,操著5千萬的心,名下掛著5億的資產(chǎn)”。

機房的暖通、網(wǎng)絡、綜合布線,系統(tǒng)的監(jiān)控告警、故障響應等一大堆繁雜瑣碎的工作,充斥著運維人的日常。

與開發(fā)和產(chǎn)品相比,運維更像是一個后勤角色,這一行業(yè)也長期處于公眾視野的暗處。

隨著云計算、大數(shù)據(jù)、人工智能等技術(shù)的興起,運維行業(yè)也迎來了新的技術(shù)變革。

2016年,Gartner提出智能運維AIOps的概念,旨在使用大數(shù)據(jù)、機器學習等方法來提升運維能力,其目的是進一步降低自動化運維中人為干擾,最終實現(xiàn)運維無人化、自動化。Gartner預測,到2020年,AIOps的采用率將會達到50%。

六年過去了,AIOps技術(shù)發(fā)展得如何?

AIOps的實現(xiàn)思路

一種新的工作模式出現(xiàn),必然會對原來穩(wěn)定的工作模式進行改變,改變通常會受到新挑戰(zhàn),所以新工作模式需要能解決當前運維工作中遇到的難題而出現(xiàn)。

以金融行業(yè)的業(yè)務連續(xù)性管理為例,目標是提高公司的風險防范能力、有效地減少非計劃的業(yè)務中斷、防范運維操作風險,對于首次出現(xiàn)的未知異常能夠利用工具量化分析并快速定位,確保在重大災難性事件發(fā)生后能按計劃恢復業(yè)務連續(xù)性。

在面對當前復雜的技術(shù)架構(gòu)、不斷引入的創(chuàng)新技術(shù)之下,傳統(tǒng)運維團隊原來被動救火式、問題驅(qū)動式的經(jīng)驗運維,已經(jīng)很難實現(xiàn)業(yè)務連續(xù)性的保障目標。

金融企業(yè)運行安全穩(wěn)定,需要運維數(shù)據(jù)賦予數(shù)據(jù)洞察、輔助決策、跟蹤執(zhí)行的能力,提升復雜環(huán)境下的運維管理能力。

例如:實時獲得“發(fā)生了什么”?關(guān)聯(lián)分析“為什么會發(fā)生”?智能預測“將會發(fā)生什么”?決策判斷“采取什么措施”?自動執(zhí)行“如何快速執(zhí)行”?實時感知“工作執(zhí)行的效果”?

AIOps就是為了解決上述問題而生,其價值在于通過機器學習來進行運維數(shù)據(jù)的挖掘,幫助人甚至代替人進行更有效和快速的決策,從而提升業(yè)務系統(tǒng)的SLA,減小故障處理的時間等,帶來業(yè)務的價值,并最終實現(xiàn)真正意義上的無人值守運維。

如Gartner定義中提出,AIOps應用需要利用大數(shù)據(jù),現(xiàn)代機器學習技術(shù)和其他高級分析技術(shù),是一種相對較高門檻的工作模式。

為了更好地落地AIOps,運維組織需要深刻地理解AIOps的內(nèi)涵,重點實現(xiàn)思路分為以下幾個方面:

?以數(shù)據(jù)為基礎

數(shù)據(jù)為先,AIOps需要快速生產(chǎn)高質(zhì)量數(shù)據(jù)的能力。

“快速”的思路可以以“中臺”思路進行建設,建立統(tǒng)一的數(shù)據(jù)采控、實時與批量的數(shù)據(jù)處理能力、與運維相匹配的運維算法、存儲方案、主數(shù)據(jù)、指標模型等;

“高質(zhì)量”則從將分散數(shù)據(jù)統(tǒng)一、在線后形成“活數(shù)據(jù)”,以及數(shù)據(jù)質(zhì)量上的治理。

從技術(shù)實現(xiàn)看,具備實時“采、存、算、管、用”的數(shù)據(jù)流動全生命周期管理的能力。

其中,數(shù)據(jù)采集是按需在線采集數(shù)據(jù)的能力;

數(shù)據(jù)存儲是根據(jù)數(shù)據(jù)類型、數(shù)據(jù)應用特點對數(shù)據(jù)進行歸檔、整理、傳輸、共享;

數(shù)據(jù)計算包括數(shù)據(jù)標注、清洗、建模、加工、標準化、質(zhì)量監(jiān)控,以及為了獲得數(shù)據(jù)洞察、決策、執(zhí)行而對數(shù)據(jù)進行分析統(tǒng)計;

數(shù)據(jù)管理重點圍繞數(shù)據(jù)治理,包括運維數(shù)據(jù)標準、主數(shù)據(jù)、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全的管理;

數(shù)據(jù)使用重點圍繞數(shù)據(jù)服務角度涉及的數(shù)據(jù)目錄、服務門戶,以及配套的數(shù)據(jù)服務化能力。

以算法為支撐

算法大腦,適配、引入特定場景下運維算法,構(gòu)建算法模型體系。機器學習尤其是深度學習的大規(guī)模應用,推動了人工智能的快速發(fā)展。

隨著國內(nèi)TO B市場的火爆,AIOps上人工智能研究及應用正處于爆發(fā)期,引入AI技術(shù)的算法有三點優(yōu)勢:

一是工作穩(wěn)定性高,人工智能可不知疲倦地進行工作,在規(guī)律性問題的分析時不受環(huán)境影響。

二是降低操作風險,利用人工智能取代傳統(tǒng)人工經(jīng)驗操作,可更好地避免操作風險和道德風險。

三是有效提高決策效率,人工智能可以快速地對大數(shù)據(jù)進行篩選和分析,幫助人們更高效率地決策。

以場景為導向

場景驅(qū)動,以痛點、價值期望切入點,用智能賦能運維場景,落地智能運維能力。

AIOps從詞來看,應該包括“AI+Ops”,是用AI賦能運維場景的模式。

有了上面提到的數(shù)據(jù)底座與算法大腦,下一步是AIOps運維模式的落地,主要將圍繞場景的落地:一種是利用算法賦能已有的運維場景,另一種是算法實現(xiàn)原來無法實現(xiàn)的運維場景。

前者是一個快速見效的模式,后者是應對變化而做出的變化。

以知識為擴展

運維知識描述了大量運維領域的相關(guān)對象定義、技巧,以及排故/解決經(jīng)驗的信息。

通過構(gòu)建運維知識圖譜,利用自然語義等算法技術(shù),從海量數(shù)據(jù)中自動挖掘各類運維主體,對其特性進行畫像和結(jié)構(gòu)化描述,動態(tài)記錄運維主體之間的關(guān)聯(lián)關(guān)系,可以幫助IT人員實現(xiàn)故障鏈傳播分析、根因定位、智能的變更影響分析、故障預測等多種AIOps場景。

值得注意的是,軟件的一些“算法邏輯”不代表真正的AIOps,判斷是否是真正AIOps的關(guān)鍵點在于:是否能自動從數(shù)據(jù)學習中總結(jié)規(guī)律,并利用規(guī)律對當前的環(huán)境給予決策建議。

? 國內(nèi)AIOps處于起步階段

AIOps的概念非常美好,應用空間也相當廣闊。除了互聯(lián)網(wǎng),在金融、物聯(lián)網(wǎng)、醫(yī)療、通信、工業(yè)等領域,均表現(xiàn)出對智能運維的強烈需求。

數(shù)據(jù)顯示,2020年中國IT智能運維市場規(guī)模為560.8億元,年復合增速為20.1%,預計未來以15.9%復合增速擴張,2025年市場規(guī)模達1093.5億元,表現(xiàn)出較大的市場潛力。

目前,我國政府部門也陸續(xù)出臺《推動企業(yè)上云實施指南(2018-2020年)》《國家新一代人工智能標準體系建設指南》等一系列政策,推動智能運維領域的發(fā)展。

但必須承認的是,我國智能運維還處在起步階段。

盡管國內(nèi)運維行業(yè)在2016年前后迎來了一波融資熱,但目前運維行業(yè)整體還比較落后。

一方面,技術(shù)有限,在線系統(tǒng)本身具有規(guī)模性和復雜性,是需要長期投入的研究領域;另一方面,智能運維需要高質(zhì)量的標注數(shù)據(jù),但運維數(shù)據(jù)積累明顯不足,至少還需積累3-5年。

事實上,產(chǎn)品不落地、善于融資、估值虛高,是一些智能運維公司給業(yè)內(nèi)人留下的印象。

目前國內(nèi)大部分公司在技術(shù)層面的原創(chuàng)力都還不夠強,很多都是利用國外的開源代碼,有的公司甚至將幾個開源產(chǎn)品拼湊在一起,內(nèi)部之間仍是相互獨立、割裂的,沒有彼此打通,以至于最后的方案也不怎么好用,需要大量的人力運維支持。

因此,盡管隨著技術(shù)的發(fā)展,運維行業(yè)已初步進入自動化、智能化初級階段,但現(xiàn)階段運維仍舊是一個“費人”的行業(yè)。

為了規(guī)范國內(nèi)智能運維領域的發(fā)展,中國信息通信研究院發(fā)布了《智能化運維AIOps能力成熟度模型》系列標準。

在此內(nèi)容基礎上,由中國信通院牽頭的國內(nèi)外首個智能運維(AIOps)國際標準在國際電信聯(lián)盟第十三研究組ITU-T SG13也已成功立項。

在《智能化運維AIOps能力成熟度模型》中,面向智能運維整體能力建設,規(guī)定了對IT系統(tǒng)或平臺進行智能化運維的參考框架及分級評估方法,提出了關(guān)于企業(yè)建設智能化運維能力的實施路徑,能夠指導國內(nèi)互聯(lián)網(wǎng)和傳統(tǒng)行業(yè)在智能運維方向的相關(guān)實踐落地。

結(jié)語

“建立一個可供數(shù)百萬人每天使用,但只需一名兼職人員管理和維護的系統(tǒng)。”這是吉姆·格雷(Jim Gray)在1999年獲得圖靈獎時對無故障服務器系統(tǒng)的暢想。如今,隨著AIOps的開發(fā),我們比以往任何時候都更接近這一愿景,并有望超越這一愿景。

盡管AIOps仍處于起步階段,但智能化給運維領域帶來效率上的質(zhì)變已肉眼可見。

這個領域的持續(xù)創(chuàng)新將為更多企業(yè)帶來新的業(yè)務價值。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-12-14
暢想無人化運維的AIOps,還有多遠的路要走?
暢想無人化運維的AIOps,還有多遠的路要走?

長按掃碼 閱讀全文