宕機時間少七倍,揭秘AWS基礎設施的運維之道

從2006年8月份正式開通云服務,到2020年第三季度收入達到116億美元,同比增長29%,年化收入達到460億美元。AWS營收規(guī)模在一個IT產業(yè)史上堪稱神話,這背后數據中心等基礎設施功不可沒。如果沒有強大的數據中心作為支撐,為全球數以萬計用戶提供各種各樣云服務,AWS不可能連續(xù)多年保持如此驚人的增長速度。

一直以來,AWS的數據中心無論是數量、規(guī)模、設計、運營都充滿神秘感,外界對其是知之甚少,也是業(yè)界眾多伙伴十分感興趣的。在今年的AWS re:Invent大會上,AWS 全球基礎架構和客戶支持資深副總裁 Peter DeSantis甩出諸多干貨,詳細介紹了AWS的數據中心在面向全球服務眾多用戶是如何做到穩(wěn)定、定制和環(huán)保的。

任何設備都會壞

數據中心等基礎設施是云服務商的核心命脈,由于大部分云服務商隨著業(yè)務的增長,其數據中心的規(guī)模和設備數量也會隨之膨脹,帶來的就是數據中心故障和宕機風險的增長。AWS作為全球云計算巨頭,其數據中心規(guī)模無出其右,它又是如何看待風險以及解決風險的。

“不要去回避各種故障,因為任何設備都會壞,你需要做的就是預測什么時候壞,并且做好準備。”--這就是AWS在數據中心基礎設施運營和維護的核心原則。也正是在這個原則的指導下,AWS一年的平均宕機時間比2018年規(guī)模次大的云端供應商少七倍之多。

面對規(guī)模如此之大、復雜性如此高的數據中心基礎設施,AWS的首先思路就是降低各種設備的復雜性,比如發(fā)電機組的配電系統(tǒng)和UPS,這些都是傳統(tǒng)廠商生產的通用型產品,往往擁有豐富的功能和極高的復雜性,“部件越復雜的東西意味著壞的概率就越大。配電系統(tǒng)的控制系統(tǒng)是嵌入式系統(tǒng),非常復雜,很多功能其實并不是AWS所需要的?!?AWS大中華區(qū)產品部計算與存儲總監(jiān)周舸介紹道。

為此,AWS的思路就是降低產品的復雜性,既符合自身業(yè)務需求,又提升了運維的簡易性。比如,AWS針對自身情況做了一套控制器系統(tǒng),一旦有問題發(fā)生,可以馬上進行修改,做到盡量不影響到用戶業(yè)務;又如,AWS將數據中心UPS電池做小,通過自己的軟件來控制UPS,當每個單元設備出現問題時,其所帶來的麻煩也下降很多。

除了數據中心部件級的運維之外,AWS對于整個地理區(qū)域的可用區(qū)都有著全面的保護機制。據悉,AWS 細分地理區(qū)域和可用區(qū)(AZ),這與其他云提供商有很大不同:首先,遠距離的可用區(qū)設置,可以降低自然災難(火災,水災…)帶來的業(yè)務中斷風險;其次,用戶選擇最近站點接入以低延遲訪問AWS云資源;第三, AWS分別管理每個區(qū)域中的運維,將故障分割;

“從最小的零件,到整個可用區(qū)的架構,AWS是一層層思考如果發(fā)生了故障或者宕機會給用戶帶來哪種影響,并且盡量不影響到用戶的業(yè)務?!敝荇囱a充道。

定制芯片,讓數據中心發(fā)揮極致

在數據中心等基礎設施中,芯片擔當著計算的重任,對于整個數據中心的能耗、效率、性能、運維等都有著重要影響。同樣,AWS在針對不同應用和需求定制芯片上也在持續(xù)發(fā)力,持續(xù)打造數據中心的極致能。

在AWS Nitro方面,已經成為數據中心物理資源的一個抽象層,AWS 云平臺通過 AWS Nitro 控制器向 Amazon EC2 添加網絡,存儲和安全資源。今年,Nitro已經成功發(fā)展到第四代。

在剛剛推出的Amazon EC2 Mac計算實例中,就是AWS通過在在 Mac Mini 上安裝了 Nitro Controller,沒有 Hypervisor 的Nitro Controller可以安全快速地連接到 Mac Mini。那些為iPhone、iPad、Mac、Apple Watch、Apple TV和Safari開發(fā)應用的開發(fā)人員,可以通過使用EC2 Mac實例,在幾秒鐘內配置和訪問macOS環(huán)境,根據需求動態(tài)擴展容量。

AWS Graviton 是基于 ARM 的芯片組,今年推出了AWS Graviton 2作為通用處理器;高性價比的 AWS Graviton 2 不僅可以很好地處理前端工作負載,對于 IO 密集型工作負載也很友好。

事實上,當前芯片處理器已經發(fā)展到一個十字路口,最近幾年以來,芯片處理器能力的提升一直不太明顯,芯片頻率提升在減慢,取而代之的是芯片核心數在不斷提升,處理器走向并行處理的趨勢明顯。

“有三個條件在影響多核處理器的發(fā)展。首先是多核操作系統(tǒng);其次是多核應用程序;另外一個就是微服務。2015年之后,容器、無服務等微服務化發(fā)展迅速,微服務將工作負載切分的很細,這就對計算資源要求很細,特別是和多核架構?!敝荇赐嘎丁?/p>

現在傳統(tǒng)處理器因為需要兼容傳統(tǒng)工作負載,所以芯片越做越大、越來越復雜,增加了很多功能,比如SMT多線程控制組件,SMT雖然可以多個線程共享和共用計算資源,但也會帶來工作負載不平衡、性能容易受影響以及安全隱患等問題。“Graviton 2這樣的多核處理器就能很好地解決這些問題。”周舸表示。

可再生能源,讓數據中心走向環(huán)保

有人統(tǒng)計,目前全球數據中心的電力消耗總量已經占據了全球電力使用量的百分之三,到2025年,全球數據中心使用的電力總量按現在的電力價格來估算的話,將會超過百億美元,年均復合增長率將達到6%。隨著全球數字化腳步的提速,未來對于超大型數據中心的需求也上升。AWS作為超大型數據中心的運營者,其對于數據中心走向環(huán)保的步伐正在持續(xù)加速。

環(huán)保,也是今年 Peter DeSantis在re:Invent大會上演講的一個核心議題。

據悉,AWS 致力于以盡可能環(huán)保的方式運營業(yè)務,并實現全球基礎設施 100% 使用可再生能源。AWS 正朝著到 2025 年 100 % 利用可再生能源的道路前進,比其最初的 2030 年目標提前了五年。

為此,AWS 用多項舉措來提高用水的效率,減少用于冷卻數據中心的飲用水的使用。AWS 通過評估每個 AWS 區(qū)域的氣候模式、當地水資源管理和可用性以及保護飲用水水源的機會來制定用水戰(zhàn)略。

此外,亞馬遜宣布了五個新的公用事業(yè)規(guī)模的太陽能項目,為中國、澳大利亞和美國的全球業(yè)務提供電力,一共增加 615 MW 再生能源發(fā)電能力,預計每年發(fā)電 120 萬 MW。

2020 年亞馬遜對可再生能源的總投資項目已達到 35 個,裝機容量超過 4 GW,這也是目前世界上單一企業(yè)在1年內對可再生能源的最大的一筆投資。這些新項目將使亞馬遜所擁有的可再生能源的的總裝機容量在 2020 年達到 6.5 GW,并成為有史以來最大的企業(yè)可再生能源采購商。

事實上,AWS對于數據中心環(huán)保的投入,不僅僅是對于自身成本的一直控制,更是踐行環(huán)保理念的責任體現。面向未來,AWS在數據中心基礎設施領域的建設理念必然會影響到全球更多用戶和同行,為基礎設施發(fā)展帶來全新的思考。

免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。

極客網企業(yè)會員

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2020-12-17
宕機時間少七倍,揭秘AWS基礎設施的運維之道
AWS針對自身情況做了一套控制器系統(tǒng),一旦有問題發(fā)生,可以馬上進行修改,做到盡量不影響到用戶業(yè)務;又如,AWS將數據中心UPS電池做小,通過自己的軟件來控制UPS,當每個單元設備出現問題時,其所帶來的

長按掃碼 閱讀全文