解放運維工程師 你需要服務器智能運維

隨著互聯(lián)網(wǎng)、5G、IoT等技術的飛速發(fā)展,全球大型數(shù)據(jù)中心數(shù)量將以3.6%的復合年增長率增長,數(shù)據(jù)中心規(guī)模不斷擴大,數(shù)據(jù)中心服務器規(guī)模已經達到10萬級,這不僅需要更多的運維工程師,給企業(yè)增加運維成本,同時給運維工程師也帶來了極大的難度和挑戰(zhàn):如何及時發(fā)現(xiàn)異常設備?異常根因是什么?故障是否能自愈?是否能預測故障?性能趨勢是什么?如何決策?

運維發(fā)展歷程:人肉運維、自動化運維和智能運維

解放運維工程師 你需要服務器智能運維

早期的運維工作,大部分是由運維工程師手工完成,這被稱作人肉運維。服務器運行狀態(tài),全靠運維工程師每日肉眼查看,進行問題定位與解決。自動化運維應運而生,大大提升了發(fā)現(xiàn)異常設備的效率,降低了運維成本。但是,面對故障根因、故障預測、性能趨勢和控制決策,自動化運維力不從心。

Gartner在2016時提出了智能運維(Artificial Intelligence for IT Operations)的概念,并預測到2020年,智能運維的采用率將高達50%。從服務器運維的角度來分析服務器智能運維,目標就是通過對帶外信息(配置信息、狀態(tài)信息、性能信息、日志等)和帶內信息(配置參數(shù)、性能信息、日志信息)進行采集,通過機器學習的方式來解決運維問題,提高系統(tǒng)預警能力和穩(wěn)定性,降低運維成本,提高運維效率。

解放運維工程師 你需要服務器智能運維

異常快速檢測,問題準確告警

在服務器運維中,異常檢測是根本,常見的有三大監(jiān)控數(shù)據(jù):狀態(tài)指標、性能指標和日志數(shù)據(jù),狀態(tài)指標一般誤報率較少,而傳統(tǒng)性能指標的設置閾值,常常某一時刻產生噪點數(shù)據(jù)而產生誤報;對于周期性變化的數(shù)據(jù)又無法進行動態(tài)調整,也常常產生誤報,大大降低了告警的準確性。日志一般是半結構化數(shù)據(jù),根據(jù)日志級別產生告警,其準確性極差,并且只能檢測到已知和確定模式的異常。

浪潮服務器智能運維采用無閾值告警,無需人為設置閾值,通過對時序數(shù)據(jù)進行去噪、升維、方差等處理后,經過神經網(wǎng)絡、LSTM、隨機森林等算法進行動態(tài)的學習,達到對監(jiān)控的性能指標,自動、實時、準確的識別出異常數(shù)據(jù)。對于日志的處理,通過對單條日志的語義識別和日志文件的時序識別方式,經過自然語言、專家系統(tǒng)、神經網(wǎng)絡、深度學習等算法進行訓練或者維護,從而不斷完善,達到日志異常的準確檢測。

故障智能處理,輕松運維so easy

智能故障診斷是建立在異常檢測之上,有了準確的異常檢測,通過綜合各個異常指標進行數(shù)據(jù)的融合、過濾、權重等處理,使用神經網(wǎng)絡、SVM、隨機森林等智能算法,尋找問題根因,給出問題解決方案,使得運維工程師能夠分鐘級解決問題。

智能故障預測是對設備某一部件的性能數(shù)據(jù)和狀態(tài)的動態(tài)檢測,對原始數(shù)據(jù)進行數(shù)據(jù)挖掘,尋找特征數(shù)據(jù)建立數(shù)學模型,使用神經網(wǎng)絡、SVM等智能算法進行在線/離線訓練,形成預測模型。在部件發(fā)生故障前,感知故障,從而避免業(yè)務宕機,提高系統(tǒng)穩(wěn)定性。

智能故障自愈是指故障確認后或者預測到故障時,無需人為干預,能夠通過重啟、配置或者一定的流程,使得系統(tǒng)能夠恢復正常。故障自愈,需要維護一定的規(guī)則或者對故障進行標記,經過神經網(wǎng)絡、SVM等算法進行訓練,形成自愈模型,實現(xiàn)系統(tǒng)的故障自愈。

解放運維工程師 你需要服務器智能運維

智能決策,感知未來發(fā)展

浪潮服務器智能運維工具可對服務器的性能數(shù)據(jù)進行預測,經過ARIMA、最小二乘法、指數(shù)平滑、LSTM等智能算法,能夠感知系統(tǒng)在未來幾個小時、幾天或者一年的數(shù)據(jù)的走勢、增長量或者周期性變化等,不僅為人工預測或者智能決策提供基礎數(shù)據(jù),還能夠為業(yè)務系統(tǒng)提供優(yōu)化建議。

浪潮服務器智能決策是建立在異常檢測、故障診斷、故障預測、性能預測等之上,通過建立數(shù)據(jù)模型,經過神經網(wǎng)絡、深度學習、專家系統(tǒng)等智能算法的不斷學習,形成決策模型,無需人為干預,對服務器的配置參數(shù)進行智能調整,版本基線的升級/回退等決策,從而達到系統(tǒng)性能最優(yōu)、異常最少、功耗最低等效果。

例如監(jiān)控服務器運行的性能,在業(yè)務少的時候,可以將服務器功耗降低,在集群方式下,甚至可以進行服務器關機操作,在業(yè)務量大的時候,將服務器性能調整至最優(yōu)等智能決策。在整機柜/機房中,功耗的管理,當服務器都處于滿載時,服務器的功耗是否超越了整個機房或者機柜的最大功耗,超越之后如何進行智能決策等。

智能推薦,發(fā)掘無限價值

解放運維工程師 你需要服務器智能運維

智能推薦是對平臺大量數(shù)據(jù)的統(tǒng)計、計算、分析和挖掘等處理,建立數(shù)據(jù)模型,通過神經網(wǎng)絡、深度學習、最小二乘法、SVM等智能算法,建立推薦模型,實現(xiàn)對整個數(shù)據(jù)中心進行分析和預測,來指導客戶決策服務器下架、備件量、擴容量、縮容量、采購廠商等。例如某一型號服務器的故障率過高,維護費用相應增高,建議下架,又由于業(yè)務的增長,需要采購新的服務器,通過智能算法評估采購量,進行推薦。

目前,浪潮依托自身技術優(yōu)勢,已自主研發(fā)了一系列自動化、智能化服務器管理軟件集,從服務器上架、配置、部署、監(jiān)控、故障分析等實現(xiàn)了全生命周期運維管理。其中ISPIM(浪潮物理基礎設施管理平臺)突破了大規(guī)?;A設施智能管理平臺的分布式網(wǎng)格架構、高性能數(shù)據(jù)采集框架及智能分析系統(tǒng)、無狀態(tài)管理技術,實現(xiàn)大規(guī)模服務器的全生命周期的智能管理。

解放運維工程師 你需要服務器智能運維

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )