科技云報(bào)到:有“韌性”才能更“任性”,云韌性構(gòu)筑業(yè)務(wù)最后一道防線

人們的生活里,充滿了很多看似理所當(dāng)然的事情:只要網(wǎng)上下單,過幾天想要的東西就會(huì)出現(xiàn)在樓下快遞柜;飯點(diǎn)一到,按動(dòng)幾下手機(jī)很快會(huì)有熱氣騰騰的飯菜送上門;下班了往沙發(fā)上一躺,與三五好友開黑享受片刻歡愉……假如這一切忽然消失,世界會(huì)變成怎樣?

很多時(shí)候,關(guān)鍵業(yè)務(wù)數(shù)據(jù)意外丟失,或某些內(nèi)部或外部基礎(chǔ)服務(wù)上一個(gè)小小的錯(cuò)誤配置導(dǎo)致半個(gè)地球范圍內(nèi)的服務(wù)中斷……所有這些不確定性,不僅讓業(yè)務(wù)時(shí)刻面臨風(fēng)險(xiǎn),還會(huì)讓企業(yè)聲譽(yù)遭受不小的影響。

有這一句話:破壞穩(wěn)態(tài)的難度越大,我們對(duì)系統(tǒng)行為的信心就越強(qiáng)。如果發(fā)現(xiàn)了一個(gè)弱點(diǎn),那么我們就有了一個(gè)改進(jìn)目標(biāo)。避免在系統(tǒng)規(guī)?;蟊环糯?。

以往在本地部署和運(yùn)行關(guān)鍵應(yīng)用時(shí),包括基礎(chǔ)架構(gòu)、底層硬件在內(nèi)的很多因素可由企業(yè)自行掌控,因此發(fā)現(xiàn)并解決弱點(diǎn)還是好處理的。但當(dāng)企業(yè)開始上云,通過云平臺(tái)運(yùn)行這些關(guān)鍵應(yīng)用時(shí),底層基礎(chǔ)架構(gòu)的管理和維護(hù)由云平臺(tái)承擔(dān),這時(shí)又該如何解決弱點(diǎn),打造更穩(wěn)定、更有韌性的云基礎(chǔ)設(shè)施和應(yīng)用程序?

??

當(dāng)不穩(wěn)定正在成為常態(tài)

今年7月19日,微軟公司旗下多個(gè)應(yīng)用和服務(wù)出現(xiàn)訪問延遲、功能不全甚至無法訪問的問題。從美國到歐洲,再到亞洲多國,大量用戶的電腦突然藍(lán)屏,提示系統(tǒng)遇到問題需要重啟。此次事件波及范圍之廣、影響之大,堪稱近年來少有的全球性技術(shù)故障。

此次微軟服務(wù)中斷事件對(duì)全球多個(gè)行業(yè)造成了嚴(yán)重影響。航空公司方面,美國邊疆航空公司、Allegiant航空、SunCountry航空等多家航空公司因系統(tǒng)問題取消了數(shù)百個(gè)航班,造成旅客滯留和行程延誤。

金融領(lǐng)域,以色列、南非等國的銀行系統(tǒng)受到波及,澳大利亞超市的自動(dòng)收銀機(jī)也出現(xiàn)結(jié)算異常。此外,電信、媒體、醫(yī)療等多個(gè)行業(yè)也不同程度受到影響,倫敦證券交易所的部分服務(wù)也一度中斷。

在國內(nèi),雖然三大航及北京首都機(jī)場(chǎng)和大興機(jī)場(chǎng)的國際航班運(yùn)行正常,但仍有部分外企及酒店等服務(wù)業(yè)受到波及。例如,上??等R德酒店就因系統(tǒng)問題影響了客戶入住和退房流程。

面對(duì)全球范圍內(nèi)的服務(wù)中斷和藍(lán)屏問題,微軟迅速做出回應(yīng),其表示,問題的根本原因在于第三方殺毒軟件CrowdStrike的一次錯(cuò)誤更新。經(jīng)過事故調(diào)查,此次事件的核心技術(shù)原因在于CrowdStrike的安全軟件更新與Windows系統(tǒng)之間的不兼容。

CrowdStrike作為全球知名的網(wǎng)絡(luò)安全公司,其安全軟件廣泛應(yīng)用于企業(yè)環(huán)境。然而,在7月19日的更新中,CrowdStrike推送了一個(gè)與某些Windows系統(tǒng)特性不兼容的更新,觸發(fā)了系統(tǒng)級(jí)的錯(cuò)誤,最終導(dǎo)致藍(lán)屏死機(jī)。

Windows作為全球最廣泛使用的桌面操作系統(tǒng)之一,其穩(wěn)定性直接關(guān)系到數(shù)億用戶的日常工作和生活。然而,隨著技術(shù)的不斷發(fā)展和應(yīng)用的日益復(fù)雜,系統(tǒng)穩(wěn)定性的挑戰(zhàn)也在不斷增加。

此次事件再次提醒我們,即使是像微軟這樣的行業(yè)巨頭,也無法完全避免技術(shù)故障的發(fā)生。因此,對(duì)于操作系統(tǒng)提供商而言,持續(xù)優(yōu)化系統(tǒng)架構(gòu)、提高代碼質(zhì)量、加強(qiáng)兼容性測(cè)試等工作顯得尤為重要。

隨著云計(jì)算技術(shù)的普及,越來越多的企業(yè)和服務(wù)依賴于云服務(wù)提供商。然而,這也帶來了新的挑戰(zhàn)。一旦云服務(wù)提供商出現(xiàn)服務(wù)中斷或故障,將直接影響依賴其服務(wù)的企業(yè)和個(gè)人。此次微軟服務(wù)中斷事件就充分展示了云計(jì)算時(shí)代面臨的這一挑戰(zhàn)。因此,云服務(wù)提供商需要加強(qiáng)自身的技術(shù)實(shí)力和穩(wěn)定性保障能力,確保能夠?yàn)橛脩籼峁┏掷m(xù)、穩(wěn)定的服務(wù)。

為什么云中會(huì)出現(xiàn)臨時(shí)性故障?

任何環(huán)境、任何平臺(tái)或操作系統(tǒng)以及任何類型的應(yīng)用程序都會(huì)發(fā)生臨時(shí)性故障。在本地基礎(chǔ)架構(gòu)上運(yùn)行的解決方案中,應(yīng)用程序及其組件的性能和可用性通常由昂貴且利用率不足的冗余硬件來保證。

雖然此方法使故障的可能性降低,但仍可能導(dǎo)致臨時(shí)性故障,甚至因外部電源、網(wǎng)絡(luò)問題或其他災(zāi)難情況等不可預(yù)測(cè)的事件而中斷。

托管型云服務(wù)雖然可以跨多個(gè)計(jì)算節(jié)點(diǎn)使用共享資源、冗余、自動(dòng)故障轉(zhuǎn)移和動(dòng)態(tài)資源分配,實(shí)現(xiàn)更高的整體可用性,但是這些環(huán)境的性質(zhì)意味著更可能發(fā)生臨時(shí)性故障,導(dǎo)致故障的原因有很多類型。

首先,由于云環(huán)境中的許多資源是共享的,為了有效管理這些資源,云通常會(huì)嚴(yán)格管控對(duì)這些資源的訪問。例如,某些服務(wù)在負(fù)載上升到特定級(jí)別,或到達(dá)吞吐量比率上限時(shí),會(huì)拒絕額外連接以便處理現(xiàn)有請(qǐng)求,并為所有現(xiàn)存用戶維持服務(wù)性能。限制有助于為共享資源的鄰居與其他租戶維持服務(wù)質(zhì)量。

其次,云環(huán)境使用大量商用硬件單元構(gòu)建而成。云環(huán)境將負(fù)載動(dòng)態(tài)分散到多個(gè)計(jì)算單元和基礎(chǔ)架構(gòu)組件上以獲得更多性能,并通過自動(dòng)回收或更換故障單元來提供可靠性。這種動(dòng)態(tài)性意味著可能偶爾會(huì)發(fā)生臨時(shí)性故障或暫時(shí)性連接失敗。

第三,在應(yīng)用程序與資源及其使用的服務(wù)之間,通常有多個(gè)硬件組件,包括網(wǎng)絡(luò)基礎(chǔ)架構(gòu),例如路由器和負(fù)載均衡器。這些附加的組件偶爾會(huì)導(dǎo)致額外的連接延遲或臨時(shí)性連接故障。

第四,客戶端與服務(wù)器之間的網(wǎng)絡(luò)狀況會(huì)不時(shí)改變,尤其是通過互聯(lián)網(wǎng)通信時(shí)。即使在本地位置,高流量負(fù)載也可能減慢通信速度,并造成間歇性的連接故障。

云韌性如何保障業(yè)務(wù)連續(xù)性?

韌性作為衡量應(yīng)用程序抵御及快速恢復(fù)中斷能力的關(guān)鍵指標(biāo),涵蓋應(yīng)對(duì)基礎(chǔ)設(shè)施故障、依賴服務(wù)中斷、錯(cuò)誤配置、網(wǎng)絡(luò)問題乃至負(fù)載激增等多方面的能力。

在數(shù)智化轉(zhuǎn)型的今天,云端韌性不僅是IT系統(tǒng)穩(wěn)定性和可靠性的體現(xiàn),更是企業(yè)業(yè)務(wù)連續(xù)性和市場(chǎng)競(jìng)爭力的關(guān)鍵所在。一旦云服務(wù)出現(xiàn)中斷,可能導(dǎo)致企業(yè)運(yùn)營受阻、客戶體驗(yàn)下降甚至數(shù)據(jù)丟失等嚴(yán)重后果。因此,構(gòu)建云端韌性已成為企業(yè)IT戰(zhàn)略不可或缺的一部分。

面對(duì)自然災(zāi)害、網(wǎng)絡(luò)攻擊、系統(tǒng)故障等不確定性因素,云端韌性顯得尤為重要。作為全球領(lǐng)先的云計(jì)算服務(wù)提供商,亞馬遜云科技以其卓越的技術(shù)實(shí)力和豐富的實(shí)踐經(jīng)驗(yàn),在云端韌性領(lǐng)域樹立了標(biāo)桿。

亞馬遜云科技大中華區(qū)解決方案架構(gòu)總經(jīng)理代聞表示:“亞馬遜云科技去年每天穩(wěn)定啟動(dòng)的Amazon EC2實(shí)例超過1億,每秒API請(qǐng)求數(shù)高達(dá)100萬億。正是因?yàn)樽鰧?duì)了很多事情,才有今天全球數(shù)百萬客戶的選擇和信任?!?/p>

亞馬遜云科技大中華區(qū)解決方案架構(gòu)總經(jīng)理代聞

亞馬遜云科技云端韌性的三大支柱涵蓋:韌性的基礎(chǔ)設(shè)施,通過全球布局與冗余設(shè)計(jì)確保服務(wù)的全球可達(dá)性和高可用性;韌性系統(tǒng)架構(gòu),通過單元架構(gòu)和數(shù)據(jù)面與控制面的分離,減少故障影響范圍,提升系統(tǒng)可用性;卓越的運(yùn)營機(jī)制,通過的DevOps文化與自動(dòng)化工具,促進(jìn)團(tuán)隊(duì)協(xié)作與持續(xù)改進(jìn),提升運(yùn)維效率和響應(yīng)速度。

在全球范圍內(nèi),亞馬遜云科技構(gòu)建了龐大而高效的數(shù)據(jù)中心網(wǎng)絡(luò),設(shè)計(jì)了區(qū)域、可用區(qū)、數(shù)據(jù)中心的層級(jí)設(shè)計(jì),并覆蓋了主要的市場(chǎng)區(qū)域。亞馬遜云科技在全球34個(gè)地理區(qū)域部署108個(gè)可用區(qū),包括在中國大陸的北京和寧夏兩大區(qū)域,每個(gè)區(qū)域均包含三個(gè)或更多獨(dú)立電力、制冷及物理安全設(shè)施的可用區(qū),且這些可用區(qū)之間距離適中,約100公里內(nèi),確保高可用性和低延遲。

這些基礎(chǔ)設(shè)施不僅地理位置分布廣泛,而且通過高速骨干網(wǎng)絡(luò)相互連接,形成了一個(gè)強(qiáng)大的全球云計(jì)算網(wǎng)絡(luò)。這種全球布局不僅降低了延遲、提高了數(shù)據(jù)傳輸效率,還為跨區(qū)域的數(shù)據(jù)備份和容災(zāi)提供了便利。

每個(gè)區(qū)域內(nèi),亞馬遜云科技都設(shè)有多個(gè)可用區(qū)(AZ),每個(gè)可用區(qū)下又有數(shù)個(gè)數(shù)據(jù)中心相連。三個(gè)層級(jí)內(nèi)外部均提供低延遲網(wǎng)絡(luò)互連,并配備了獨(dú)立的電力供應(yīng)、冷卻系統(tǒng)和物理安全設(shè)施。這種多可用區(qū)的設(shè)計(jì)有效降低了單點(diǎn)故障的風(fēng)險(xiǎn),即使某個(gè)可用區(qū)出現(xiàn)故障,其他可用區(qū)仍然能夠正常運(yùn)行,確保服務(wù)的連續(xù)性。此外,亞馬遜云科技還提供了跨區(qū)域的數(shù)據(jù)復(fù)制和故障轉(zhuǎn)移解決方案,如Amazon S3的跨區(qū)域復(fù)制功能,確保用戶數(shù)據(jù)的安全性和可用性。

除了基礎(chǔ)設(shè)施的審慎選址和分散式的布局,云服務(wù)的韌性也與其使用的技術(shù)架構(gòu)有著重要的關(guān)聯(lián)。越是在技術(shù)層面事先做好對(duì)風(fēng)險(xiǎn)的分散,一旦面臨問題,所遭受的損失可能就會(huì)越小。

對(duì)此,亞馬遜云科技提出了“控制平面”和“數(shù)據(jù)平面”分離的原則。從軟件架構(gòu)層面來說,云服務(wù)的控制面往往包含更多組件,因此其在概率上發(fā)生故障的可能性更大。但是對(duì)于絕大多數(shù)的云服務(wù)來說,控制面并非是日常運(yùn)行所必須。

將控制面與數(shù)據(jù)面分離帶來的一個(gè)好處是,假如控制面所在的機(jī)房、或者控制面軟件本身出現(xiàn)故障,那么由于數(shù)據(jù)面依然完好、且能正常運(yùn)作,此時(shí)云服務(wù)頂多只是表現(xiàn)為無法新建任務(wù)或無法進(jìn)入后臺(tái)控制UI,但正在運(yùn)行的云端程序本身則完全可以不受影響。對(duì)于許多企業(yè)用戶來說,這將會(huì)使得故障變得對(duì)用戶而言幾乎“不可察覺”,甚至不會(huì)對(duì)業(yè)務(wù)本身造成顯著的負(fù)面影響。

此外,亞馬遜云科技還提出了“爆炸半徑”的概念,它指的是故障發(fā)生時(shí)、具體的軟硬件影響范圍。為了解決這一問題,亞馬遜云科技采用了“單元架構(gòu)”設(shè)計(jì),將單個(gè)服務(wù)進(jìn)一步切分為多個(gè)部署堆棧,每一個(gè)部署堆棧服務(wù)于一個(gè)或多個(gè)客戶。這樣一來,單一堆棧故障影響的范圍就會(huì)更小,不再累及整個(gè)可用區(qū)或整個(gè)服務(wù)。

在運(yùn)營機(jī)制方面,亞馬遜云科技推行DevOps文化,強(qiáng)調(diào)開發(fā)與運(yùn)維的緊密聯(lián)系。在亞馬遜云科技內(nèi)部,每個(gè)服務(wù)團(tuán)隊(duì)都對(duì)其負(fù)責(zé)的服務(wù)擁有完整的所有權(quán)和運(yùn)維責(zé)任,這種機(jī)制確保了服務(wù)的穩(wěn)定性和可靠性。通過打破傳統(tǒng)開發(fā)與運(yùn)維之間的壁壘,亞馬遜云科技促進(jìn)了團(tuán)隊(duì)協(xié)作和持續(xù)改進(jìn),提高了整體運(yùn)營效率。

亞馬遜云科技提供了豐富的自動(dòng)化工具來支持運(yùn)營機(jī)制的實(shí)施,這些工具涵蓋了資源部署、配置管理、性能監(jiān)控、故障排查等多個(gè)方面。例如,Amazon CloudFormation允許用戶通過模板化的方式來部署和管理亞馬遜云科技資源,大大簡化了資源管理的復(fù)雜性;Amazon OpsWorks則提供了一套自動(dòng)化運(yùn)維解決方案,幫助用戶實(shí)現(xiàn)應(yīng)用的快速部署、配置和擴(kuò)展;Amazon DevOps Guru利用AI和機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)對(duì)系統(tǒng)的實(shí)時(shí)監(jiān)控和故障預(yù)測(cè),進(jìn)一步提升了系統(tǒng)的韌性和穩(wěn)定性。

構(gòu)建云韌性是一個(gè)持續(xù)的過程,而不是一次性的努力,需要在業(yè)務(wù)需求、可靠性、成本和系統(tǒng)復(fù)雜度之間找到平衡點(diǎn)。正如亞馬遜首席信息官Werner Vogels說的那樣,“Everything fails all the time”(故障總在情理之中、意料之外)。

無論是對(duì)于云計(jì)算企業(yè)、還是對(duì)于志在“上云”的企業(yè)而言,故障的概率永遠(yuǎn)都不會(huì)是0%。在這個(gè)基礎(chǔ)上,良好的基礎(chǔ)設(shè)施、成熟的服務(wù)架構(gòu)、有經(jīng)驗(yàn)的運(yùn)營團(tuán)隊(duì),以及一切為客戶著想的業(yè)務(wù)機(jī)制,總能幫助企業(yè)將風(fēng)險(xiǎn)化解于無形。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-09-18
科技云報(bào)到:有“韌性”才能更“任性”,云韌性構(gòu)筑業(yè)務(wù)最后一道防線
人們的生活里,充滿了很多看似理所當(dāng)然的事情:只要網(wǎng)上下單,過幾天想要的東西就會(huì)出現(xiàn)在樓下快遞柜;飯點(diǎn)一到,按動(dòng)幾下手機(jī)很快會(huì)有熱氣...

長按掃碼 閱讀全文