拯救運(yùn)維人!智能運(yùn)維如何實(shí)現(xiàn)1+1>2

如果要評選世界上壓力最大的工作,那么運(yùn)維管理估計(jì)會大概率的入圍。

人們形容運(yùn)維人的工作日常:不是在解決問題就是在解決問題的路上。以至于運(yùn)維人自己也感嘆干的工作是操著賣白fen的心、賺著賣白菜的錢……

運(yùn)維工作有多難?來通過一個真實(shí)案例直觀感受一下。

某大型汽車集團(tuán),在全球汽車行業(yè)排名前列,不僅部署了Tivoli、SAP、EP、SDAP等眾多軟件,還應(yīng)用了Zabbix等諸多開源軟件;隨著云計(jì)算的普及,該集團(tuán)還將部分業(yè)務(wù)部署在公有云之中。數(shù)據(jù)量龐大且類型豐富,復(fù)雜的多云環(huán)境,繁多的監(jiān)控運(yùn)維工具,超級多的無效運(yùn)維事件,讓該集團(tuán)運(yùn)維工作挑戰(zhàn)巨大,運(yùn)維人員日常工作中如坐針氈,“惶惶不可終日”。

類似情況在其他企業(yè)比比皆是。同為打工人,運(yùn)維人不該被這樣對待。如何改變這種局面?近年來,智能運(yùn)維異軍突起,成為解救企業(yè)和運(yùn)維人員的及時(shí)雨。

智能運(yùn)維,即通過結(jié)合大數(shù)據(jù)和機(jī)器學(xué)習(xí)等相關(guān)技術(shù),以數(shù)據(jù)采集與分析各種數(shù)據(jù)支持所有主要的IT運(yùn)營功能,將徹底改變過去傳統(tǒng)運(yùn)維的種種詬病,被認(rèn)為既是解放運(yùn)維人員的救星,也可為眾多企業(yè)的數(shù)字化轉(zhuǎn)型保駕護(hù)航。

運(yùn)維為何就這么難

在當(dāng)下,很多企業(yè)經(jīng)過多年數(shù)字化建設(shè),通過整合監(jiān)控與告警、與ITSM集成、自動化運(yùn)維,基本建成了包含“監(jiān)控、管理、控制”三大維度的運(yùn)維體系。但這種典型的傳統(tǒng)運(yùn)維體系卻是大而不強(qiáng)、全而不準(zhǔn)。

究其原因,它是時(shí)間的產(chǎn)物,伴隨著企業(yè)數(shù)字化建設(shè)的進(jìn)程而逐漸搭建起的,缺乏頂層設(shè)計(jì)和全局視角,更像是眾多工具與產(chǎn)品的堆砌。由于底層數(shù)據(jù)并未徹底打通,導(dǎo)致工具與工具、方案與方案彼此之間并不存在強(qiáng)邏輯聯(lián)系,依然是以“各自為政”為主。

以監(jiān)控維度為例,在運(yùn)維界有句老話:監(jiān)控先行。整個集中監(jiān)控體系的構(gòu)建,從最早的網(wǎng)絡(luò)管理,到后續(xù)的數(shù)據(jù)庫/數(shù)據(jù)庫管理、存儲/服務(wù)器管理,再到之后的虛擬化/云管理,才逐漸形成集中監(jiān)控體系,通過不同的監(jiān)控工具來實(shí)現(xiàn)這些平臺的實(shí)時(shí)告警查看和平臺優(yōu)化建議。但現(xiàn)實(shí)中,這種監(jiān)控體系卻無法覆蓋與打通鏈路監(jiān)控(Traces)、指標(biāo)監(jiān)控(Metrics)和日志監(jiān)控(Logs)全部運(yùn)維數(shù)據(jù),不能構(gòu)建起面向業(yè)務(wù)自上而下的監(jiān)控全覆蓋。

監(jiān)控體系自身尚且如此,監(jiān)控與管理、控制之間就更缺乏全鏈路的聯(lián)動。這些情況直接導(dǎo)致了當(dāng)前很多企業(yè)在運(yùn)維上面臨著運(yùn)維數(shù)據(jù)范圍不足、告警泛濫、根因分析定位難、缺少全鏈路聯(lián)動分析等情況。

首先,企業(yè)數(shù)字化轉(zhuǎn)型的進(jìn)程中,面臨著IT環(huán)境日趨復(fù)雜、應(yīng)用大量增加、設(shè)備種類繁多等情況。Gartner就預(yù)測設(shè)備和應(yīng)用程序所產(chǎn)生的數(shù)據(jù)量正以每年2-3倍的速度增長,且數(shù)據(jù)類型多樣。另一方面,業(yè)務(wù)和環(huán)境的復(fù)雜性也讓運(yùn)維對象、數(shù)據(jù)與指標(biāo)覆蓋不足,運(yùn)維數(shù)據(jù)范圍不足造成故障發(fā)生前缺少健康度洞察,難以提前預(yù)測故障事件。

其次,大量設(shè)備與應(yīng)用,各種各樣的監(jiān)控工具,讓監(jiān)控對象條目過多、告警數(shù)量多造成當(dāng)故障事件發(fā)生時(shí),告警泛濫,誤報(bào)、漏報(bào)情況嚴(yán)重,難以實(shí)現(xiàn)精準(zhǔn)告警。更加致命的是,故障事件發(fā)生之后,基于告警的機(jī)制很難有效定位問題,缺少調(diào)用鏈信息,難以定位到服務(wù)和請求類的根本原因。

另外,業(yè)務(wù)依賴關(guān)系復(fù)雜也造成了整個運(yùn)維缺少全局運(yùn)維視圖,跨多系統(tǒng)的運(yùn)維無法聯(lián)動,單業(yè)務(wù)系統(tǒng)內(nèi)部的服務(wù)調(diào)用請求難以分析。

“傳統(tǒng)運(yùn)維是建立在CMDB的基礎(chǔ)之上,CMDB自身的限制性、時(shí)效性、可維護(hù)性、復(fù)雜性等決定了其無法給運(yùn)維人員呈現(xiàn)不同運(yùn)維工具之間的監(jiān)控關(guān)系?!睈蹟?shù)運(yùn)維技術(shù)專家透露道。

因此,智能運(yùn)維開始呼之欲出,也即現(xiàn)在流行的AIOps。Gartner認(rèn)為,AIOps將跨平臺的數(shù)據(jù)鏈進(jìn)行打通與集成,通過機(jī)器學(xué)習(xí)和大數(shù)據(jù)等技術(shù),讓運(yùn)維獲得主動、個性化和動態(tài)的洞察力,從而支撐起所有IT運(yùn)營的功能。Gartner并預(yù)測到2022年,有40%的大型企業(yè)將會進(jìn)行部署AIOps平臺。

智能運(yùn)維雖好,卻也有一個很現(xiàn)實(shí)的問題,即全球沒有一家公司的產(chǎn)品可以覆蓋全部數(shù)據(jù)范圍來幫助用戶構(gòu)建智能運(yùn)維中心。借助生態(tài)的力量,廠商與廠商在產(chǎn)品、技術(shù)以及方案層面的打通與聯(lián)動就成為當(dāng)前智能運(yùn)維最重要的發(fā)展方向。例如,愛數(shù)與聽云在今年的戰(zhàn)略合作就開啟了智能運(yùn)維方案打造的新思路。

如何讓智能運(yùn)維1+1>2

愛數(shù)與聽云在智能運(yùn)維領(lǐng)域開啟了新模式。今年1月份,雙方攜手正式推出了智能運(yùn)維整合方案,旨在幫助客戶全面管理、深度洞察海量、多源、異構(gòu)的機(jī)器數(shù)據(jù)。

具體來看,中國用戶對于這種智能運(yùn)維整合方案需求更加迫切。中國企業(yè)的業(yè)務(wù)規(guī)模性和復(fù)雜性在全球無出其右,帶來了對于日益主動的IT運(yùn)營、更加細(xì)化的成本優(yōu)化目標(biāo)和質(zhì)量期望、更加快速的故障響應(yīng)與處理、更加穩(wěn)定的業(yè)務(wù)持續(xù)性等運(yùn)維需求。

在雙方的整合方案中,愛數(shù)聚焦在智能運(yùn)維領(lǐng)域多年,擁有深厚的技術(shù)積累和豐富的實(shí)踐經(jīng)驗(yàn),其AnyRobot是一款開放、高效、經(jīng)濟(jì)的機(jī)器數(shù)據(jù)分析平臺;而聽云是國內(nèi)唯一一家連續(xù)多年入選Gartner APM魔力象限的廠商,主要聚焦在應(yīng)用性能管理和用戶體驗(yàn)優(yōu)化。

愛數(shù)AnyRobot主要聚焦指標(biāo)監(jiān)控(Metrics)和日志監(jiān)控(Logs)數(shù)據(jù),而聽云智能監(jiān)控產(chǎn)品主要聚焦鏈路監(jiān)控(Traces)、指標(biāo)監(jiān)控(Metrics)數(shù)據(jù),雙方聯(lián)合方案則實(shí)現(xiàn)了全方位接入企業(yè)各維度機(jī)器數(shù)據(jù),可以全方位提高客戶運(yùn)維效率,驅(qū)動組織業(yè)務(wù)運(yùn)營創(chuàng)新。

聽云與愛數(shù)簽署戰(zhàn)略合作

例如,該智能運(yùn)維整體方案可以實(shí)現(xiàn)日志溯源與智能分析,通過運(yùn)維數(shù)據(jù)間開放集成,AnyRobot實(shí)時(shí)采集業(yè)務(wù)應(yīng)用及其底層基礎(chǔ)設(shè)施的日志數(shù)據(jù),與聽云APM應(yīng)用性能監(jiān)控?cái)?shù)據(jù)進(jìn)行開放共享,對用戶業(yè)務(wù)系統(tǒng)的機(jī)器數(shù)據(jù)進(jìn)行統(tǒng)一管理。在運(yùn)維故障分析過程中,可直接追蹤事件發(fā)生過程,一鍵定位故障根源,確保業(yè)務(wù)運(yùn)營高效運(yùn)行,并提供端到端的完整應(yīng)用性能優(yōu)化方案,提升用戶體驗(yàn)。

另外,該智能運(yùn)維整體方案還可以對配置的日志告警數(shù)據(jù)和性能監(jiān)控?cái)?shù)據(jù)進(jìn)行綜合分析,避免重復(fù)告警;并增加智能告警算法,根據(jù)告警歷史數(shù)據(jù)進(jìn)行智能檢測,從而提高告警準(zhǔn)確性,縮短故障發(fā)現(xiàn)時(shí)間、減少誤報(bào)漏報(bào)、提升故障修復(fù)效率。

與此同時(shí),除了監(jiān)控之外,愛數(shù)與聽云產(chǎn)品的開放性,也保證了解決方案可以跟ITSM和自動化運(yùn)維平臺之間進(jìn)行打通與聯(lián)動。

某種程度來看,愛數(shù)與聽云走到一起,就是在幫助用戶打通過去傳統(tǒng)運(yùn)維的種種“壁壘”,讓運(yùn)維數(shù)據(jù)、工具、平臺可以實(shí)現(xiàn)打通與聯(lián)通,讓運(yùn)維真正成為一盤棋。與此同時(shí),雙方合作也揭示運(yùn)維平臺未來的發(fā)展趨勢。

運(yùn)維平臺趨勢:開放、高效、經(jīng)濟(jì)

隨著大部分企業(yè)數(shù)字化轉(zhuǎn)型的不斷深入,業(yè)務(wù)數(shù)字化程度不斷提升,運(yùn)維所面臨的復(fù)雜性、多樣性將會只增不減。由于運(yùn)維所涉及的相關(guān)領(lǐng)域與內(nèi)容實(shí)在是太過于廣泛,未來也不能一家公司就可以徹底搞定,所以在業(yè)務(wù)復(fù)雜性不斷提升的趨勢下,運(yùn)維平臺走向開放、高效與經(jīng)濟(jì)乃是大勢所趨。

以愛數(shù)AnyRobot機(jī)器數(shù)據(jù)分析平臺為例,其產(chǎn)品從設(shè)計(jì)開始就聚焦了開放、高效、經(jīng)濟(jì)三個核心特征。

在開放性方面,愛數(shù)AnyRobot采用了創(chuàng)新Hub架構(gòu),實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)、多機(jī)器數(shù)據(jù)平臺的統(tǒng)一納管,可以讓用戶具備更多機(jī)器數(shù)據(jù)接入的能力,同時(shí)機(jī)器數(shù)據(jù)接入之后,實(shí)現(xiàn)統(tǒng)一的機(jī)器數(shù)據(jù)分析平臺和通用的數(shù)據(jù)消費(fèi)能力。

開放性給運(yùn)維帶來何種好處?舉個例子,金融、電信、能源、互聯(lián)網(wǎng)等行業(yè)的眾多用戶,在底層數(shù)據(jù)分析平臺上采用了開源數(shù)據(jù)分析平臺ELK或商業(yè)數(shù)據(jù)分析平臺Splunk,并且運(yùn)行多年,與各個業(yè)務(wù)捆綁緊密。隨著技術(shù)的發(fā)展,安全審計(jì)等的要求,僅僅依靠ELK或者Splunk已不能完全符合用戶的真實(shí)需求,愛數(shù)AnyRobot的Hub架構(gòu)讓與ELK、Splunk等共同服務(wù)用戶的機(jī)器數(shù)據(jù)的采集、存儲和分析。

此外,在高效層面,愛數(shù)AnyRobot還采用了小程序架構(gòu),讓用戶更好地獲取應(yīng)用分析App的能力;在經(jīng)濟(jì)層面,愛數(shù)AnyRobot采用了存算分離架構(gòu),實(shí)現(xiàn)計(jì)算與存儲分離,同時(shí)計(jì)算可以實(shí)現(xiàn)完全的彈性擴(kuò)展,最大限度的為用戶節(jié)省各種資源。

從長遠(yuǎn)來看,開放、高效、經(jīng)濟(jì)的運(yùn)維平臺也是最符合企業(yè)用戶對于運(yùn)維的要求。未來,隨著企業(yè)數(shù)字化轉(zhuǎn)型的深入,以及像愛數(shù)、聽云這些中國智能運(yùn)維廠商利用生態(tài)不斷完善聯(lián)合解決方案,中國用戶有望得到更加出色的智能運(yùn)維產(chǎn)品與服務(wù)。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-01-21
拯救運(yùn)維人!智能運(yùn)維如何實(shí)現(xiàn)1+1>2
智能運(yùn)維,即通過結(jié)合大數(shù)據(jù)和機(jī)器學(xué)習(xí)等相關(guān)技術(shù),以數(shù)據(jù)采集與分析各種數(shù)據(jù)支持所有主要的IT運(yùn)營功能,將徹底改變過去傳統(tǒng)運(yùn)維的種種詬病,被認(rèn)為既是解放運(yùn)維人員的救星,也可為眾多企業(yè)的數(shù)字化轉(zhuǎn)型保駕護(hù)航。

長按掃碼 閱讀全文