在剛剛過去的“雙十一”購物狂歡季,阿里云經(jīng)歷了一次大規(guī)模故障,導(dǎo)致阿里系產(chǎn)品集體中斷服務(wù)。11 月12 日,淘寶、釘釘、閑魚、阿里云盤等阿里系產(chǎn)品出現(xiàn)無法使用的問題, “阿里全系產(chǎn)品崩了” 的話題迅速引發(fā)眾多關(guān)注。此次故障不僅阿里自家的產(chǎn)品受到影響,據(jù)天眼查數(shù)據(jù),阿里云的企業(yè)用戶超過 300 萬家,這些客戶由于云服務(wù)不可用,業(yè)務(wù)運營受到嚴(yán)重影響。
故障的地域范圍廣泛,覆蓋了包括華北、華東、華南、中國中國香港以及國際地區(qū)在內(nèi)的多個地區(qū)。根據(jù)阿里云官網(wǎng)的官方通告,故障于 11 月 12 日 17:44 開始被阿里云監(jiān)控系統(tǒng)檢測到,直到 21:11,所有受影響的云產(chǎn)品最終恢復(fù)正常,整個事故過程持續(xù)了超過 3 個小時。
故障原因猜測
什么樣的故障能致使阿里云全線服務(wù)不可用,且故障范圍覆蓋全球各個區(qū)域,故障恢復(fù)長達(dá) 3 個小時?
由于故障涉及到多個機房和區(qū)域,不太可能是存儲或網(wǎng)絡(luò)等基礎(chǔ)設(shè)施的問題,因為這些通常采用多可用區(qū)部署。
現(xiàn)象主要表現(xiàn)為:被管控的資源,如云服務(wù)器 ECS 和云數(shù)據(jù)庫 RDS,仍然可以繼續(xù)運行,但用戶無法通過控制臺或API 進(jìn)行管理操作。因此極有可能是 Auth 這樣的一種全球性的基礎(chǔ)服務(wù)。
雖然以上分析僅為推測,并不代表確切的故障原因,但不少業(yè)內(nèi)專業(yè)也給出了類似的推測:
圖片來源:DevOpSec
什么是認(rèn)證服務(wù)?
認(rèn)證服務(wù)(Auth 服務(wù))是一種用于身份認(rèn)證和授權(quán)的基礎(chǔ)服務(wù)。它在許多系統(tǒng)和應(yīng)用程序中起著關(guān)鍵作用,確保只有經(jīng)過授權(quán)的用戶可以訪問受保護(hù)的資源和功能。大家常用的以下功能,都屬于認(rèn)證服務(wù)的范疇:身份驗證、訪問控制、用戶管理、單點登錄(SSO)、安全審計。作為系統(tǒng)的基礎(chǔ)安全服務(wù),它是建立安全、可信賴的系統(tǒng)和保護(hù)敏感資源的關(guān)鍵組成部分。
如何保證 Auth 服務(wù)的 SLA ?
對于如此重要的基礎(chǔ)安全服務(wù),其企業(yè)相關(guān)負(fù)責(zé)人如何提高企業(yè)認(rèn)證服務(wù)的 SLA,避免"全球性故障"?其使用者應(yīng)該如何評估及挑選優(yōu)質(zhì)的認(rèn)證服務(wù)廠商?圍繞 "高 SLA (Service Level Agreement)的認(rèn)證服務(wù)",其核心指導(dǎo)思想為:防治結(jié)合。
防:在故障真的發(fā)生的時候,能及時收到故障通知,采用對應(yīng)的降級策略,防止由于認(rèn)證服務(wù)不可用造成全線服務(wù)不可用的大故障
治:在基礎(chǔ)設(shè)施層面,保持云中立、保證異地多活、提升系統(tǒng)可觀測性,擁抱容器化技術(shù)及微服務(wù)治理,從而全面提升整個系統(tǒng)的 SLA,避免出現(xiàn)“短板效應(yīng)”
下面將以 Authing (Authing 就是身份云) 為例,為大家具體講解“防治結(jié)合”的實施落地方案。
防:事件通知驅(qū)動 + SDK 快速集成 + 啟動降級措施
為幫助認(rèn)證服務(wù)使用方實現(xiàn) “在故障發(fā)生時,能及時收到相關(guān)事件,采用降級策略” 這一防御目標(biāo),其解題思路為:通過 SDK 方式快速接入認(rèn)證服務(wù),減少研發(fā)成本的同時,通過讓 SDK 訂閱 Authing 服務(wù)端的相關(guān)故障事件,及時采取降級措施。
多語言 SDK / API / 認(rèn)證組件
通過豐富且兼容多種開發(fā)語言、多種開發(fā)框架的 SDK / API / 認(rèn)證組件,可讓用戶 5 行代碼快速接入認(rèn)證服務(wù),讓其應(yīng)用服務(wù)具備賬號密碼認(rèn)證、短信驗證碼認(rèn)證、社交賬號登錄、企業(yè)賬號登錄、單點登錄 SSO、多因素認(rèn)證 MFA 等安全能力。
事件驅(qū)動的云原生身份平臺
事件表明狀態(tài)發(fā)生變化,即:某事已經(jīng)發(fā)生。事件用于向相關(guān)方發(fā)出狀態(tài)發(fā)生變化的信號。在本案例中,事件即為“故障事件”;
Authing 3.0 是以事件驅(qū)動(EDA)架構(gòu)重塑的云原生身份平臺,通過事件驅(qū)動架構(gòu)大幅提升了平臺的響應(yīng)速度、可擴展性和開發(fā)者體驗,并能夠?qū)崿F(xiàn)更加及時的安全事件響應(yīng)和更加卓越的客戶體驗。
使用 Authing 的事件相關(guān) SDK,開發(fā)者可以訂閱 Authing 平臺產(chǎn)生的事件,當(dāng)事件發(fā)生時,Authing 服務(wù)會實時把事件的類型及當(dāng)前事件關(guān)聯(lián)的數(shù)據(jù)以 WebSocket 方式以 JSON 的數(shù)據(jù)格式主動推送給開發(fā)者。也可以在 Authing 控制臺添加自定義事件,然后使用事件 SDK 向 Authing 服務(wù)推送自定義事件,用來觸發(fā)特定的工作流程。式將事件內(nèi)容以 JSON 格式進(jìn)行推送。
借助事件驅(qū)動變化的理念,用戶可以訂閱“認(rèn)證服務(wù)故障事件”,Authing SDK 在收到該事件后可根據(jù)用戶的配置和期望方式,實施降級措施,避免全服不可用的故障。
降級措施
降級措施是指在某種情況下,為了保證系統(tǒng)的可用性或確保某項功能的正常運行,采取的臨時替代方案或備用方案。當(dāng)系統(tǒng)或功能遇到問題或無法以預(yù)期的方式運行時,降級措施可以幫助系統(tǒng)繼續(xù)正常運行,但會以降低的性能、功能或安全性為代價。
在本案例中,為了能讓系統(tǒng)正常運行,將會犧牲較小部分的安全性。其中一種實現(xiàn)方式為:在接收到“故障”事件后,通過忽略本地緩存的認(rèn)證 Token 的過期時間,持續(xù)提供認(rèn)證能力;待收到“故障恢復(fù)”的事件后,再恢復(fù)到常規(guī)的更安全的認(rèn)證方式上,即重新申請 Token 并驗證 Token 的過期時間。
在主流的認(rèn)證方式及協(xié)議,如 OAuth 2.0、OpenID Connect、單點登錄等,都會使用 JWT(JSON Web Token)用于在不同實體之間安全地傳輸信息??蛻舳耍鐬g覽器等,會將 JWT 進(jìn)行緩存,以便在后續(xù)的請求中使用。JWT 會有過期時間,用于指定 JWT 的有效期。在驗證 JWT 時,依賴方通過不檢查 JWT 的過期時間,持續(xù)使用本地緩存的 JWT 來提供認(rèn)證服務(wù),從而達(dá)到降級的目的。
治:云中立 + 異地多活 + 可觀測性 + 微服務(wù)治理
盡管“防”的手段,可以通過犧牲部分安全性或功能來換取系統(tǒng)可用性,但其治本之道還是需要從基礎(chǔ)建設(shè)、服務(wù)治理、可觀測性的角度提升整體認(rèn)證服務(wù)和系統(tǒng)的可用性,從而提升整體的 SLA。
云中立
系統(tǒng)做到云中立,才能保證不被某一朵云廠商綁定,擁有了選擇權(quán),促進(jìn)數(shù)據(jù)流動和互操作性。一旦出現(xiàn)某一朵云服務(wù)故障的時候,可以迅速將流量切到其他云上提供服務(wù),縮短不可用時間。
為了讓系統(tǒng)做到云中立,應(yīng)該盡可能使用各個云的通用服務(wù),減少對某一朵云的服務(wù)依賴;在設(shè)計服務(wù)架構(gòu)時,最大程度去兼容用戶私有云、各類公有云的云環(huán)境。通過成熟 Kubernetes 容器化技術(shù),使整套服務(wù)體系同時支持公共云、混合云和私有云部署,并且達(dá)到分鐘級別彈性擴容,最大可支持億級別用戶認(rèn)證訪問場景。
Authing 使用 Kubernetes 作為容器編排和管理平臺,用于在跨多個主機和集群中自動化部署、運行、編排和管理容器化應(yīng)用程序。同時在數(shù)據(jù)存儲層面,選擇通用標(biāo)準(zhǔn)的數(shù)據(jù)庫、緩存、KMS、消息隊列、日志等云服務(wù),并在架構(gòu)設(shè)計時,對各個云服務(wù)進(jìn)行適配,從而達(dá)到靈活配置兼容各種云服務(wù)、多云部署、故障時能及時切換、系統(tǒng)云中立等目標(biāo)。其架構(gòu)如下圖所示:
異地多活
異地多活、多數(shù)據(jù)中心、兩地三中心等,每當(dāng)提到這些主流措施,其本質(zhì)在于:增加冗余副本服務(wù),用于在故障發(fā)生時,迅速使用副本服務(wù)提供系統(tǒng)可用性。地理位置、網(wǎng)絡(luò)連接、副本個數(shù)和復(fù)雜性、數(shù)據(jù)同步復(fù)制、數(shù)據(jù)安全和合規(guī)性、SLA 等級、成本等是在設(shè)計異地災(zāi)備時,要重點考慮和平衡的。
Authing 通過多云部署 + 多 AZ (Available Zone) + 智能 DNS 的方式,實現(xiàn)異地多活、國內(nèi)外多 Region 部署、故障時自動切流的方式,提升系統(tǒng)整體的可用性和對客戶的 SLA。
可觀測性
可觀測性(Observability)是指在復(fù)雜系統(tǒng)中全面了解、理解和監(jiān)測系統(tǒng)的運行狀態(tài)、行為和性能的能力。它是一種系統(tǒng)設(shè)計和運維的理念,旨在提供對系統(tǒng)內(nèi)部和外部的可見性,以便快速識別和解決問題,優(yōu)化性能,并提供對系統(tǒng)行為的深入洞察。
在本案例中上述的“事件通知驅(qū)動”從而實施降級措施的基礎(chǔ)建設(shè)重要部分,即是系統(tǒng)的可觀測性。要做的系統(tǒng)的可觀測性,需要注重考慮:
1.監(jiān)測:通過收集、記錄和分析系統(tǒng)的指標(biāo)、日志和事件,實時監(jiān)測系統(tǒng)的運行狀態(tài)和行為。
2.日志管理:管理和分析系統(tǒng)的日志數(shù)據(jù),以了解系統(tǒng)的運行過程、事件和錯誤。
3.追蹤和分布式跟蹤:通過跟蹤請求在系統(tǒng)中的流經(jīng)路徑,了解分布式系統(tǒng)中不同組件之間的相互作用和性能延遲。
4.事件管理:捕獲和處理系統(tǒng)中的事件,如警報、通知和異常情況。
5.可視化:通過儀表板、圖表和可視化工具,將系統(tǒng)和應(yīng)用程序的指標(biāo)、日志和事件以可視化的方式展示出來。
Authing 基于對上述理念的理解,在公用云部署架構(gòu)、私有化部署架構(gòu)中都進(jìn)行了考慮和設(shè)計,通過 Tracing、Metrics、Logging 的采集,進(jìn)行事件管控,并及時將變更推送到客戶端、服務(wù)端,從而啟動相關(guān)策略的變化。此外,可視化報表大屏可幫助客戶持續(xù)、及時地了解到一線的系統(tǒng)可用性指標(biāo)情況、認(rèn)證鏈路追蹤、系統(tǒng)性能指標(biāo)變化等,從而做到“心知肚明”,“及時響應(yīng)”。
微服務(wù)治理
微服務(wù)治理(Microservices Governance)是指在微服務(wù)架構(gòu)中對微服務(wù)進(jìn)行管理和控制的一系列實踐和策略。由于微服務(wù)架構(gòu)的復(fù)雜性和分布式特性,需要一種有效的方式來確保微服務(wù)系統(tǒng)的可靠性、可擴展性和一致性。重要要考慮以下方面:
1.服務(wù)發(fā)現(xiàn)和注冊:可以幫助服務(wù)在集群中自動注冊和發(fā)現(xiàn)其他服務(wù),并提供負(fù)載均衡和故障轉(zhuǎn)移的能力。
2.服務(wù)通信和協(xié)議:需要定義和管理服務(wù)之間的通信協(xié)議、消息格式和接口規(guī)范,以確保服務(wù)之間的互操作性和一致性。
3.服務(wù)網(wǎng)關(guān):服務(wù)網(wǎng)關(guān)是微服務(wù)架構(gòu)中的入口點,可以提供統(tǒng)一的訪問接口和安全性保護(hù),并隔離客戶端與后端微服務(wù)之間的直接通信。
4.服務(wù)監(jiān)控和可觀測性:通過監(jiān)控指標(biāo)、日志和分布式追蹤等工具,可以實現(xiàn)對微服務(wù)的實時監(jiān)控和故障排查。
5.服務(wù)安全和訪問控制:包括身份驗證、授權(quán)、數(shù)據(jù)加密和審計等安全措施,以保護(hù)服務(wù)免受惡意訪問和攻擊。
6.服務(wù)版本控制和演化:需要管理服務(wù)的版本控制、發(fā)布策略和回退計劃,以確保服務(wù)的無縫演化和兼容性。
7.服務(wù)質(zhì)量和 SLA 管理:包括定義和監(jiān)測服務(wù)的性能、可用性和可靠性等指標(biāo),并確保滿足業(yè)務(wù)需求和用戶期望。
微服務(wù)治理是一個主流且較為成熟服務(wù)治理領(lǐng)域,Authing 也是按照上述的核心點進(jìn)行具體的服務(wù)治理落地;但由于各個業(yè)務(wù)系統(tǒng)對微服務(wù)治理的需求和期望各有不同,這里不再具體闡述。
阿里云全球故障事件帶來的巨大影響,又一次給行業(yè)的從業(yè)者、系統(tǒng)設(shè)計人員、企業(yè)服務(wù)采購者敲了警鐘。雖然官方并未公布其故障背后的原因,但認(rèn)證服務(wù),作為最基礎(chǔ)的門戶安全服務(wù),其 SLA 的高保證能最大程度避免這樣的“全線”、“全球性”故障。本文通過“防治結(jié)合”的理念詳細(xì)闡述了如何在認(rèn)證服務(wù)領(lǐng)域,通過事件驅(qū)動設(shè)計理念、云中立理念、異地多活的措施、可觀測性的提升、微服務(wù)治理的策略等具體方式提高系統(tǒng)的可用性、為用戶承諾最高水平的 SLA。其設(shè)計理念也可以應(yīng)用到其他服務(wù)領(lǐng)域。在具體落地時,還需要考慮具體 SLA 需求和成本的平衡,最終實現(xiàn)業(yè)務(wù)場景驅(qū)動技術(shù)迭代,技術(shù)迭代促進(jìn)和保障業(yè)務(wù)場景。
作者:
潘娟,Apache Member & Incubator Mentor,Apache ShardingSphere PMC,AWS Data Hero,中國木蘭開源社區(qū)導(dǎo)師,騰訊云 TVP。曾負(fù)責(zé)京東數(shù)科數(shù)據(jù)庫智能平臺的設(shè)計與研發(fā),現(xiàn)專注于分布式數(shù)據(jù)庫 & 中間件生態(tài)及開源領(lǐng)域。被評為《2020 中國開源先鋒人物》,2021 OSCAR 尖峰開源人物。CSDN 2021 年度 IT 領(lǐng)軍人物,2022 年在 ICDE 發(fā)表論文 “Apache ShardingSphere:A Holistic and Pluggable Platform for Data Sharding”。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )