近日,華為云應用運維管理平臺參與了中國信息通信研究院(以下簡稱“中國信通院”)主辦的“穩(wěn)保行動”的可觀測性平臺能力評估。經過中國信通院的檢驗,華為云應用運維管理平臺滿足云上軟件系統(tǒng)穩(wěn)定-可觀測性平臺技術要求,達到了可觀測性平臺技術檢驗的先進級水平。
作為云計算和軟件的權威評估機構,中國信通院在可觀測性平臺和工具的評測中,以通信行業(yè)標準《可觀測性平臺技術要求》為依據(jù),客觀真實地評估了廠商的可觀測能力水平。經中國信通院的細致評估,華為云應用運維管理平臺在數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)應用、平臺運維這4項檢驗中,滿足了可觀測性平臺先進級能力要求,這也意味著華為云在可觀測性領域已經達到業(yè)內領先水平。
圖1 可觀測性平臺能力
華為云應用運維管理平臺是云上應用的一站式立體化運維管理平臺,實時監(jiān)控應用及相關云資源,采集并關聯(lián)資源的各項指標、日志及事件等數(shù)據(jù)共同分析應用健康狀態(tài),提供靈活的告警及豐富的數(shù)據(jù)可視化功能,幫助用戶及時發(fā)現(xiàn)故障,全面掌握應用、資源及業(yè)務的實時運行狀況。
圖2 華為云應用運維管理平臺
一、牢固的基石——應用資源管理和采集管理
應用資源管理
傳統(tǒng)信息技術基礎設施庫(Information Technology Infrastructure Library,簡稱ITIL)流程中面向基礎設施資源的管理方式,易造成各運維服務之間數(shù)據(jù)割裂、信息不一致等問題。華為云應用運維管理平臺的應用資源管理(簡稱CMDB)是基于DevOps理念打造的面向應用全生命周期的資源管理平臺,是現(xiàn)代自動化運維的基石服務,統(tǒng)一集中管理資源對象與應用之間的關系。
應用資源管理CMDB以應用為中心,實現(xiàn)多層級應用、子應用、組件到環(huán)境的模型管理,建立應用與云資源依賴關系。通過應用資源管理,可以找到應用與下級微服務以及部署在不同環(huán)境(開發(fā)環(huán)境、測試環(huán)境或生產環(huán)境等)下的資源實例,包括ECS、RDS、ELB、CCE等云服務實例,為應用監(jiān)控、告警關聯(lián)分析以及自動化運維提供配置數(shù)據(jù)。同時也支持通過開放配置數(shù)據(jù)接口,輔助第三方系統(tǒng)運維場景建設。
圖3 應用資源管理能力示意
采集管理
作為數(shù)據(jù)的來源,采集插件至關重要。華為云應用運維管理平臺提供無侵入式采集插件,用戶無需修改應用代碼,只需要部署探針包,修改相應的應用啟動參數(shù),就能對應用進行全方位的數(shù)據(jù)采集,以便全面掌握應用的運行情況,采集范圍包括但不限于:
1、基礎資源:包含云主機、容器、網絡等;
2、中間件:包含數(shù)據(jù)庫、消息隊列、應用容器、存儲、日志等;
3、IOT設備:包含各種邊緣設備、采集的數(shù)據(jù)范圍包括指標等;
4、前端組件:包含H5、ios、android、小程序等;
5、后端組件:包含java、python、nodejs、c#、go等。
另外華為云應用運維管理平臺還提供插件生命周期管理能力,不同的插件分工采集不同的數(shù)據(jù),用戶可以按需安裝、升級、卸載各類插件。
二、強大的核心——指標監(jiān)控、云日志、應用性能管理
隨著云原生技術逐漸普及,傳統(tǒng)監(jiān)控系統(tǒng)正朝可觀測性系統(tǒng)演進,業(yè)界對可觀測性的共識,是基于可觀測性的三大支柱“metrics、logging、tracing”。
華為云應用運維管理平臺將云監(jiān)控服務(Cloud Eye,簡稱CES)的指標數(shù)據(jù)、云日志服務(Log Tank Service,簡稱LTS)的日志數(shù)據(jù)、應用性能管理服務(Application Performance Management,簡稱APM)的性能分析數(shù)據(jù)進行統(tǒng)一監(jiān)控,從而提供了對云資源、應用和性能的全面監(jiān)控和診斷。
指標——云監(jiān)控服務CES
云監(jiān)控CES是華為云上資源監(jiān)控的服務,提供80多種云服務、上千類資源指標,涵蓋彈性云服務器、帶寬、數(shù)據(jù)庫等服務,滿足用戶各類云上資源監(jiān)控需求。CES可提供多聚合方式、最長六個月的歷史監(jiān)控圖表,方便用戶查看近半年業(yè)務監(jiān)控數(shù)據(jù)。
除了云監(jiān)控提供的云服務指標外,用戶還可以自定義上報業(yè)務指標,通過Open API、SDK方式上報,可更全面、深入地監(jiān)控業(yè)務運行狀況。
日志——云日志服務LTS
在海量數(shù)據(jù)的時代,讓寶貴的原始日志數(shù)據(jù)躺在磁盤里日漸沉寂,無法在云時代“一展宏圖”,完全是埋沒了日志數(shù)據(jù)的價值。而使用華為云日志服務就可以從項目初始便賦予日志數(shù)據(jù)搜索、分析和探索能力,讓日志數(shù)據(jù)活起來、變有用。華為云日志服務提供日志采集、秒級搜索、海量存儲、結構化處理、轉儲和可視化圖表等各項能力,可滿足應用運維、可視化分析、等保合規(guī)等各類應用場景。
場景1日志分析、保障系統(tǒng)安全:實時收集系統(tǒng)產生的日志數(shù)據(jù),對日志數(shù)據(jù)進行分析、歸檔,支持每天百TB級日志的接入,十億級日志秒級搜索
場景2日志審計:通過實時收集日志,避免數(shù)據(jù)被誤刪和被非法入侵者刪除的可能性,同時將日志轉儲長期存儲,滿足合規(guī)要求
場景3 問題診斷:系統(tǒng)出現(xiàn)問題或故障時,通過日志快速查詢、精準定位問題所在
場景4 系統(tǒng)改進:通過阻塞記錄發(fā)現(xiàn)站點性能瓶頸,優(yōu)化緩存策略、數(shù)據(jù)傳輸策略
圖4 日志服務示意圖
性能——應用性能管理服務APM
在華為內部,有上百萬微服務使用著應用性能管理服務APM,在日常性能診斷、故障定位和排查等場景中,通過使用APM實現(xiàn)故障1分鐘感知、5分鐘定界、10分鐘恢復能力的構筑。APM有力地支撐了華為云、終端、車、能源等各類型產品的應用性能管理和日常運維保障。
現(xiàn)在,華為云將內部多年積累的應用性能管理能力沉淀到華為云應用性能管理服務APM上,向云上用戶提供端到端的全鏈路性能管理服務,包含前端監(jiān)控、應用性能監(jiān)控、全面擁抱開源生態(tài),幫助用戶在復雜的業(yè)務環(huán)境下快速發(fā)現(xiàn)應用性能問題,降低MTTR(平均故障恢復時長),全面掌控應用的性能健康狀況。
圖5 應用性能管理拓撲示意
三、豐富的周邊能力——統(tǒng)一監(jiān)控大盤、容器洞察、告警降噪
華為云應用運維管理平臺除了牢固的基石及強大的核心,還提供了豐富的周邊能力。
統(tǒng)一監(jiān)控大盤
集中管理云監(jiān)控、云日志、性能、Prometheus等多維度可觀測性數(shù)據(jù)源,提供統(tǒng)一監(jiān)控與分析,用戶可以將來自不同數(shù)據(jù)源定義在一張監(jiān)控大屏中顯示,統(tǒng)一管理告警等。
圖6 統(tǒng)一監(jiān)控大盤示意
容器洞察
無縫對接華為云云容器引擎CCE,基于原生Kubernetes容器和集群模型,用戶可通過Cluster、Namespace、Deployment、POD和Container進行逐步運維分析,包括Prometheus監(jiān)控、日志和性能管理等;支持將Promethues服務器遠程接入(Remote-Write)到華為云應用運維管理平臺,還可通過PromQL查詢原生指標并配置告警。
圖7 容器洞察示意
告警降噪
華為云應用運維管理平臺的告警降噪功能,提供分組、抑制和屏蔽告警降噪策略,大大減少了運維人員需要關注的告警量,增加了關鍵告警、高優(yōu)先級問題的關注度,突出告警的重點問題,提高告警的可靠性,減少誤判和漏警的情況,節(jié)省了人力和時間成本,提高了工作效率,有效保障系統(tǒng)的穩(wěn)定性和安全性。
圖8 告警降噪示意
如果軟件系統(tǒng)內部情況都不可觀測,更無從談起故障分析和系統(tǒng)改進等穩(wěn)定性保障手段。依托牢固的基石、強大的核心及豐富的周邊能力,華為云應用運維管理平臺助力企業(yè)提高軟件系統(tǒng)的質量和效率,提升用戶體驗和關鍵業(yè)務的穩(wěn)定性,優(yōu)化業(yè)務流程和方向,提高業(yè)務決策的質量。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )