史詩級云故障敲響警鐘,應(yīng)用保障不能沒有“連續(xù)鍵”!

近日,知名云服務(wù)商出現(xiàn)一次史詩級的云故障:全球所有區(qū)域/所有服務(wù)同時異常,故障持續(xù)長達3小時之多,云上眾多應(yīng)用受到極大影響。

如今,在一個充滿不確定性和復(fù)雜性的數(shù)字化時代,哪怕是頂級云服務(wù)商亦不能避免各種故障的發(fā)生。這無疑再次為廣大企業(yè)與組織敲響警鐘,即當(dāng)數(shù)字化轉(zhuǎn)型步入深水區(qū),業(yè)務(wù)應(yīng)用全面走向線上化和智能化之際,我們的業(yè)務(wù)連續(xù)性到底應(yīng)該如何保障?

正如AWS CTO Wanner所言:“Everything fails, all the time?!蔽覀冃枰邮苋魏螘r候故障都可能會發(fā)生,既然故障無法避免,那么需要做的就是預(yù)測什么時候出現(xiàn)故障、發(fā)現(xiàn)故障原因,并確保業(yè)務(wù)連續(xù)性受到最小影響,將損失降到最低。

因此,企業(yè)數(shù)字化轉(zhuǎn)型中缺少不了應(yīng)用保障的“連續(xù)鍵”,應(yīng)用級災(zāi)備的建設(shè)已成為企業(yè)數(shù)字化轉(zhuǎn)型中的一道必答題。

應(yīng)用保障不能沒有“連續(xù)鍵”

塔勒布的《反脆弱》認(rèn)為,不確定性的世界充滿不確定性和脆弱性,反脆弱就是在波動和不確定中避免損失,甚至獲利。

顯然,在數(shù)字化時代中,隨著新技術(shù)、新場景、新應(yīng)用的大量涌現(xiàn),企業(yè)的業(yè)務(wù)環(huán)境和市場環(huán)境早已今非昔,充斥著復(fù)雜性與不確定性,而數(shù)字化轉(zhuǎn)型則是企業(yè)應(yīng)對不確定性和脆弱性最為有效的方法。

Gartner《2023年CIO和技術(shù)高管議程中國篇》報告就顯示,36%的中國企業(yè)將數(shù)字化轉(zhuǎn)型作為企業(yè)最優(yōu)先業(yè)務(wù),并且在積極加大投入以響應(yīng)市場競爭的需求。

這其中,業(yè)務(wù)連續(xù)性的保障又是重中之重。企業(yè)與組織數(shù)字化轉(zhuǎn)型的不斷深入,業(yè)務(wù)全面走向數(shù)據(jù)驅(qū)動和智能化的同時,外部攻擊、人為錯誤、運行故障、自然災(zāi)害等對業(yè)務(wù)連續(xù)性的影響日漸突出。業(yè)務(wù)一旦中斷,損失往往是企業(yè)不能承受之重,業(yè)務(wù)應(yīng)用保障已不能沒有“連續(xù)鍵”。

從政策法規(guī)要求層面來看,《網(wǎng)絡(luò)安全法》、《等保2.0》、《商業(yè)銀行業(yè)務(wù)連續(xù)性監(jiān)管指引》等政策法規(guī)陸續(xù)頒發(fā),標(biāo)志著法律法規(guī)對于企業(yè)的數(shù)據(jù)安全與業(yè)務(wù)連續(xù)性監(jiān)管要求日趨嚴(yán)格。

不過,傳統(tǒng)災(zāi)備方案正成為業(yè)務(wù)連續(xù)性的“攔路虎”。在多云架構(gòu)、復(fù)雜業(yè)務(wù)和海量數(shù)據(jù)的趨勢下,企業(yè)自身IT環(huán)境走向復(fù)雜化,傳統(tǒng)災(zāi)備方案應(yīng)用級觀測難、建設(shè)難度大、故障定位難和應(yīng)用級可用性難保障,很難適用現(xiàn)代化復(fù)雜應(yīng)用環(huán)境,

“一個省級政務(wù)云的辦公與公文審批就有將近100個關(guān)聯(lián)應(yīng)用、上萬名用戶,應(yīng)用之間依賴關(guān)系盤根錯節(jié)。業(yè)務(wù)系統(tǒng)的復(fù)雜導(dǎo)致各種運維難題,并且問題定位和根因分析困難?!睈蹟?shù)技術(shù)專家介紹道,“企業(yè)與組織需要升級全新一代的應(yīng)用級災(zāi)備,實現(xiàn)端到端的業(yè)務(wù)連續(xù)性管理。”

應(yīng)用級災(zāi)備,為業(yè)務(wù)按下“連續(xù)鍵”

如何真正構(gòu)建起全新一代應(yīng)用級的災(zāi)備體系?

愛數(shù)認(rèn)為,構(gòu)建新一代的應(yīng)用級災(zāi)備需要將災(zāi)備與可觀性性技術(shù)進行深度融合,然后分為四個步驟:應(yīng)用識別、應(yīng)用級災(zāi)備建模、故障監(jiān)控與定位和應(yīng)用級災(zāi)難恢復(fù)。

既然復(fù)雜性已是一種“新常態(tài)”,愛數(shù)的思路是第一步先打破傳統(tǒng)災(zāi)備的局限,幫助企業(yè)與組織了解和認(rèn)知自身應(yīng)用環(huán)境的復(fù)雜性。正所謂“知己知彼方能百戰(zhàn)不殆”,只有充分識別海量復(fù)雜環(huán)境、應(yīng)用架構(gòu)特點,后續(xù)進行輔助故障設(shè)計和災(zāi)備建模才能有的放矢。

在完成對于海量復(fù)雜環(huán)境的識別之后,就可以進行應(yīng)用災(zāi)備建模,包括應(yīng)用系統(tǒng)可觀測性、災(zāi)備容災(zāi)和災(zāi)難恢復(fù)計劃建模,實現(xiàn)災(zāi)難恢復(fù)計劃工作的前置。之后,故障監(jiān)控與定位就像是一雙“慧眼”,可以幫助企業(yè)與組織進行健康度觀察和故障的快速定位,有效縮短故障半徑,為接下來的災(zāi)難恢復(fù)提供極大便利。第四步則是應(yīng)用級災(zāi)難恢復(fù),實現(xiàn)災(zāi)難恢復(fù)、恢復(fù)驗證、災(zāi)難恢復(fù)演練的快速進行,確保業(yè)務(wù)連續(xù)性,讓故障發(fā)生造成的損失降到最低。

“新一代的應(yīng)用級災(zāi)備覆蓋了架構(gòu)與業(yè)務(wù)發(fā)展、災(zāi)備保護、故障定位、災(zāi)難恢復(fù)、故障回遷的全流程,實現(xiàn)1-5-10模型,即一分鐘發(fā)現(xiàn)問題,五分鐘定位問題,十分鐘拉起業(yè)務(wù),從事前、事中和事后保障業(yè)務(wù)的連續(xù)性?!睈蹟?shù)技術(shù)專家如是說。

事實上,目前市場中相關(guān)災(zāi)備方案并不少,但像愛數(shù)這種將災(zāi)備與可觀測性技術(shù)融合的創(chuàng)新組合式解決方案則非常稀缺。得益于在災(zāi)備、可觀測領(lǐng)域的多年實踐,愛數(shù)敏銳地觀察到災(zāi)備與可觀測性的融合,可以徹底突破傳統(tǒng)備份的局限,真正讓應(yīng)用級災(zāi)備為復(fù)雜應(yīng)用環(huán)境保駕護航。

用理念與技術(shù)變革災(zāi)備

眾所周知,過去的災(zāi)備體系“重中有余而靈巧不足”,企業(yè)一旦投入巨資把災(zāi)備體系建成,后續(xù)幾乎固定不動;但前端應(yīng)用與場景如今卻是瞬息萬變,讓應(yīng)用的保障需求與災(zāi)備體系逐漸形成鴻溝,愈發(fā)匹配不上。

為此,愛數(shù)大膽將災(zāi)備與可觀測性進行深度融合,構(gòu)建起新一代應(yīng)用災(zāi)備解決方案,在理念和技術(shù)層面徹底重塑了災(zāi)備。

在理念層面,愛數(shù)真正將“數(shù)據(jù)驅(qū)動”理念融入到災(zāi)備體系之中。災(zāi)備與可觀測性兩個產(chǎn)品之所以可以做到深度融合,得益于底層數(shù)據(jù)的打通。在統(tǒng)一引擎和技術(shù)棧的幫助下,愛數(shù)采用SuperAgent同一個客戶端來抓取數(shù)據(jù),并打通備份數(shù)據(jù)湖與機器數(shù)據(jù)湖,實現(xiàn)應(yīng)用數(shù)據(jù)與災(zāi)備之間的關(guān)聯(lián)。

在“數(shù)據(jù)驅(qū)動”理念的加持下,愛數(shù)新一代應(yīng)用級災(zāi)備解決方案就能夠?qū)?fù)雜、多變的應(yīng)用環(huán)境進行梳理和識別,并能夠觀測到應(yīng)用的持續(xù)變化,將應(yīng)用的保障需求與災(zāi)備體系形成有效的對接。

在技術(shù)層面,愛數(shù)憑借多年在災(zāi)備領(lǐng)域和可觀測領(lǐng)域的實踐和經(jīng)驗,在應(yīng)用識別、應(yīng)用級災(zāi)備建模、故障監(jiān)控與定位等環(huán)節(jié)中構(gòu)建數(shù)據(jù)智能能力,通過模型的構(gòu)建以及持續(xù)學(xué)習(xí)、智能分析,來實現(xiàn)應(yīng)用級災(zāi)備多個環(huán)節(jié)的“化繁為簡”,真正讓應(yīng)用級災(zāi)備變得可用和好用。

以應(yīng)用系統(tǒng)環(huán)境的識別與分級為例,一些應(yīng)用規(guī)模越大的企業(yè)動輒需要花費數(shù)月時間來完成這個環(huán)節(jié),不僅費時費力費人,效果往往還不理想;而愛數(shù)利用多年在災(zāi)備領(lǐng)域積累形成的數(shù)據(jù)智能能力,實現(xiàn)應(yīng)用系統(tǒng)環(huán)境的快速識別與分析。

“災(zāi)備不應(yīng)該成為企業(yè)的負擔(dān)。愛數(shù)希望通過新一代應(yīng)用級災(zāi)備方案來改變過去僵化的災(zāi)備方式,讓企業(yè)聚焦應(yīng)用與業(yè)務(wù),形成災(zāi)備的管理能力,從容應(yīng)對各種不確定性?!睈蹟?shù)技術(shù)專家最后表示道。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-11-23
史詩級云故障敲響警鐘,應(yīng)用保障不能沒有“連續(xù)鍵”!
史詩級云故障敲響警鐘,應(yīng)用保障不能沒有“連續(xù)鍵”!

長按掃碼 閱讀全文