AI加持,讓智能運維成為數(shù)字世界的必選項

稿件來自至頂網(wǎng)記者 鄒大斌

AI正在深刻地改變我們的工作和生活方式,甚至包括我們的飯碗。2017年底,BBC和劍橋大學的學者一起分析了300多個職業(yè)在未來的被淘汰概率,IT工程師以58.3%的概率高居第15位。這里的IT工程師就包括了在傳統(tǒng)運維部門中占據(jù)大量崗位的系統(tǒng)管理員和網(wǎng)絡工程師。

這并非是危言聳聽,我們可以看到的是,越來越多的系統(tǒng)管理工具和運維監(jiān)控工具開始整合機器學習、深度學習等人工智能技術(shù)。而AI在大幅度提升IT運維能力的同時,也讓IT部門逐步減少對基礎運維崗位的需求,完全依靠人力解決運維問題的時代已經(jīng)漸行漸遠。

AI在IT運維領(lǐng)域的應用被諸多分析機構(gòu)和新一代CIO當作企業(yè)數(shù)字化轉(zhuǎn)型的突破口。Gartner在2016年首次提出智能運維(AIOps)這一個概念之后,迅速得到業(yè)界的廣泛響應。無論是IBM、CA等傳統(tǒng)運維巨擘,還是Splunk、Dynatrace、云智慧等新興運維企業(yè),都把AIOps作為IT運維發(fā)展的未來。

智能運維,數(shù)字化轉(zhuǎn)型的必選項

物競天擇的自然法則同時主導著數(shù)字世界的發(fā)展。

任何一個技術(shù)的流行都不是憑空的,AIOps智能運維也不例外,最根本原因是市場需求在推動。

在信息化時代,IT部門扮演著業(yè)務跟隨者的角色,遵從業(yè)務需求支持ERP、財務、OA系統(tǒng)的運轉(zhuǎn),運維主要承擔封閉IT環(huán)境中硬件設備和軟件系統(tǒng)的日常巡檢、維護、升級工作,由于業(yè)務對IT的依賴程度不高,企業(yè)對運維效率和問題解決能力的要求也不高。

AI加持,讓智能運維成為數(shù)字世界的必選項

云智慧總裁劉洪濤

“隨著產(chǎn)業(yè)互聯(lián)網(wǎng)的發(fā)展和數(shù)字經(jīng)濟的增長,業(yè)務運行越來越依賴IT的高效運轉(zhuǎn),IT部門的角色發(fā)生了巨大的變化,由跟隨者變成了支撐者、甚至業(yè)務創(chuàng)新的引領(lǐng)者。數(shù)字世界里,IT基礎設施陸續(xù)上云,過去需要直面的各類硬件設備、軟件系統(tǒng)隱藏了起來,而展現(xiàn)在我們面前的虛擬機、容器、微服務讓IT架構(gòu)變得更加龐大、復雜,移動化、IoT的大量應用則把IT邊界從內(nèi)部擴展到邊緣。這是近兩三年中國傳統(tǒng)企業(yè)在數(shù)字化轉(zhuǎn)型過程中都會遇到的難題,當IT建設達到相當規(guī)模,傳統(tǒng)運維工具和運維方法無法解決企業(yè)遇到的種種問題,智能運維的需求自然就冒出來了。”云智慧總裁劉洪濤感慨道。

劉洪濤所領(lǐng)導的云智慧公司成立于2009年,是一家為企業(yè)提供全棧智能IT運維產(chǎn)品的解決方案服務商,旗下監(jiān)控寶、透視寶和壓測寶等IT運維產(chǎn)品擁有良好的用戶口碑。10年來,云智慧一直扎根在IT運維市場精耕細作,對于這個市場的每一次變化起伏,劉洪濤都有非常深刻的感受。

以“非常傳統(tǒng)”的房地產(chǎn)行業(yè)為例。一直以來,拿地蓋房售樓都是國內(nèi)房企的最核心業(yè)務,而現(xiàn)在商管、文旅等新業(yè)務逐漸成為頭部房企的拳頭產(chǎn)業(yè)。2018年萬達商管集團收入376億元,文化集團收入692億元,二者累加已經(jīng)達到萬達地產(chǎn)集團540億收入的一倍。而云智慧服務的這家房地產(chǎn)巨頭,隨著業(yè)務轉(zhuǎn)型的加速,IT規(guī)模呈爆發(fā)式增長,目前有超過兩百個系統(tǒng)支撐著新業(yè)務的運轉(zhuǎn),每天的工單、告警數(shù)量堪稱海量。對于一家正在向技術(shù)密集型企業(yè)邁進的“傳統(tǒng)”企業(yè)來說,依靠人力去解決規(guī)?;?、效率低等IT難題顯然與數(shù)字化轉(zhuǎn)型的初衷背道而馳。所以,必須充分利用大數(shù)據(jù)和人工智能技術(shù),建立全新的智能化運維管理體系和智能運維系統(tǒng)。

“換成兩年前,這家房地產(chǎn)公司絕對不會采購智能運維這種新一代IT運維解決方案。然而,隨著數(shù)字化轉(zhuǎn)型的深入,房地產(chǎn)智能化成為潮流,一套套新的應用陸續(xù)上線,大量IoT終端被部署到全國各地,基于CMDB和ITIL體系建立的運維管理流程和相關(guān)工具暴露出嚴重不足。”劉洪濤說。

這家房企的遭遇并非孤例。劉洪濤能明顯感受到近兩年智能運維需求的增長。“房地產(chǎn)這樣一個相對傳統(tǒng)的行業(yè),都在數(shù)字化轉(zhuǎn)型的倒逼下產(chǎn)生了如此強烈的需求。而在金融、電信、航空、能源等IT成熟度更高行業(yè)里,AIOps智能運維的作用更為突出,需求也就更加旺盛。”他欣喜的告訴記者。

AI加持,讓IT發(fā)揮最大價值

人力有盡,算力無窮。

業(yè)務對IT越來越依賴,同時IT架構(gòu)越來越復雜,迫使人們向AI求助。而AIOps智能運維的應用也確實給IT運維帶來了新的變化。

以IT運維中最典型應用場景——故障告警為例。一個規(guī)模較大的數(shù)據(jù)中心,系統(tǒng)故障會導致幾分鐘內(nèi)出現(xiàn)上萬條的告警信息。過去,遇到這種情況,運維人員的常規(guī)處理方式關(guān)掉所有關(guān)聯(lián)設備和系統(tǒng),挨個重啟,逐一排查。這一方法簡單粗暴,不但盲目耗時,還會造成業(yè)務中斷。而AIOps智能運維利用大數(shù)據(jù)和AI技術(shù),可以在幾秒鐘之內(nèi)就能完成對所有告警消息的壓縮、篩選和關(guān)聯(lián)分析,從而找出最關(guān)鍵的告警消息。在某航空公司的一次IT故障中發(fā)生了告警風暴,云智慧在一分鐘內(nèi)將2萬條告警消息壓縮到7條相互關(guān)聯(lián)的關(guān)鍵告警。對于運維人員來說,處理7條告警和在幾萬條告警消息中發(fā)現(xiàn)問題,工作量不可同日而語。

在這背后涉及告警抑制、自動拓撲等多項新一代智能運維技術(shù)的應用。以自動拓撲為例,傳統(tǒng)緊耦合的煙囪式IT系統(tǒng),彼此之間的關(guān)聯(lián)關(guān)系是很難建立起來的。而借助AI,通過算法對采集到的調(diào)用鏈數(shù)據(jù)進行分析,就可以把所有IT系統(tǒng)直接的業(yè)務拓撲關(guān)系和調(diào)用過程描述出來。有了這個拓撲,才能夠追根溯源的找到出問題的“罪魁禍首”。

類似應用場景還有動態(tài)閾值。傳統(tǒng)運維都是通過設置固定告警閾值來觸發(fā)報警,但固定閾值存在著明顯缺點——條件太寬松會出現(xiàn)故障漏報,太嚴格則會有大量誤報。此外,無論是閾值的設定還是故障的判斷,都依賴運維人員的個人經(jīng)驗,很容易出紕漏。

“現(xiàn)在,我們利用機器學習的方法,通過對運維歷史數(shù)據(jù)進行分析,在數(shù)據(jù)特征的基礎上建立算法模型,對模型進行周期性地訓練學習,從而為IT系統(tǒng)設定更為科學的動態(tài)告警閾值。這個閾值會隨著業(yè)務的波動進行動態(tài)調(diào)整,既不放過每次潛在故障事件,又不會因為系統(tǒng)繁忙導致大量誤報。 告警壓縮、根因分析、關(guān)聯(lián)分析等智能運維場景,都大量使用了AI的技術(shù),也只有通過AI賦能,才能讓IT發(fā)揮最大的價值。”劉洪濤表示。

能運維的發(fā)展路徑

數(shù)字化之路千萬條,智能運維第一條。

隨著ABC技術(shù)的應用,系統(tǒng)維護、日常巡檢等傳統(tǒng)運維工作的價值不斷降低,這也就是本文開頭提到某些IT工程師正在被AI取代的原因。不過,這并不意味著運維將被AI取代。

“業(yè)界有一種說法,AIOps智能運維的未來是NoOps無人化運維,目標是要消滅運維這個行業(yè)。但我認為這只能在單一環(huán)境下實現(xiàn),對于雙態(tài)IT占據(jù)主導的傳統(tǒng)企業(yè)來說,AIOps的目標應該是BetterOps,更好、更高效的運維。”劉洪濤說,“AIOps能預判一個事件可能導致異常,但是否存在異常,還是要人來做判定。AI能幫我們第一時間把事件和關(guān)聯(lián)的原因找出來,大幅提升運維效率,但不是消滅運維。”

標準化、規(guī)模化的橫向管理工作,比如說機房里的日常巡檢,未來是可以無人化的。而實現(xiàn)IT縱向管理的業(yè)務運維——讓IT更有效支撐業(yè)務運轉(zhuǎn)的工作——是無法做到無人化的。因為業(yè)務波動受大量外在因素的影響,而IT與業(yè)務融合之后,IT對業(yè)務的影響程度在大多數(shù)情況下需要人來做綜合判斷的。

在筆者看來,業(yè)務運維與業(yè)界所提到“IT運營”有異曲同工之意:同樣都是不讓AIOps局限于IT本身,還希望為業(yè)務提供更好的支撐,比如對業(yè)務系統(tǒng)進行預警和預測。應該說,這才是AIOps的核心價值,畢竟業(yè)務才能產(chǎn)生利潤,這也符合Gartner的觀點。

AI加持,讓智能運維成為數(shù)字世界的必選項

智能運維的演進路徑

不同行業(yè)、不同企業(yè)的IT成熟度不同,數(shù)字化轉(zhuǎn)型的路徑也是千差萬別。針對這種狀況,云智慧提出了智能運維實施的三階段戰(zhàn)略,分別是:第一,數(shù)據(jù)為先,在這個階段實現(xiàn)企業(yè)IT數(shù)據(jù)的完整采集;第二,初步智能化,幫客戶發(fā)現(xiàn)業(yè)務與IT的關(guān)聯(lián)關(guān)系,實現(xiàn)業(yè)務全鏈路追蹤和根因分析;第三,高級智能化,用AI幫助客戶解決更有前瞻性的問題,包括故障預測、容量規(guī)劃等。

“經(jīng)過幾年的市場培育,越來越多的中大型企業(yè)客戶認可了云智慧的智能運維理念,這讓我們更大的信心和決心,利用機器學習、大數(shù)據(jù)等AIOps核心技術(shù),幫助我們的客戶解決更多的業(yè)務問題,進而為客戶創(chuàng)造更多的價值。伴隨客戶成長,分享客戶成功的價值,這才是云智慧能夠連續(xù)幾年保持高速增長的秘訣。”劉洪濤說。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-05-21
AI加持,讓智能運維成為數(shù)字世界的必選項
稿件來自至頂網(wǎng)記者 鄒大斌AI正在深刻地改變我們的工作和生活方式,甚至包括我們的飯碗。

長按掃碼 閱讀全文