熱浪和人工智能挑戰(zhàn)會給數(shù)據(jù)中心帶來壓力嗎?

最佳溫度范圍是影響數(shù)據(jù)中心高效運行的關鍵因素。然而,隨著許多國家進入極端高溫時期,出現(xiàn)嚴重且日益嚴重的停電風險。

熱浪可能導致數(shù)據(jù)中心組件過熱和故障,導致運營商關閉服務器以防止損壞,從而導致停機和潛在的中斷。

例如,2022年7月,倫敦創(chuàng)紀錄的高溫達到104華氏度(40攝氏度),導致冷卻系統(tǒng)故障,導致谷歌和甲骨文數(shù)據(jù)中心下線。兩個月后,酷熱天氣導致推特位于薩克拉門托地區(qū)的數(shù)據(jù)中心癱瘓。

敏感電子設備和硬件(例如服務器、存儲設備和網(wǎng)絡設備)中的各個組件都有特定的工作溫度才能實現(xiàn)最佳運行。數(shù)據(jù)中心的建議溫度范圍可能低至65華氏度或高至95華氏度,在防止過熱和設備潛在損壞方面起著關鍵作用。該范圍由特定硬件目標的工作溫度范圍和該硬件可以運行的條件決定。

隨著熱浪越來越頻繁,這將是一個反復出現(xiàn)且日益嚴重的問題,熱浪加上停電,數(shù)據(jù)中心就離線了。溫度波動始終是數(shù)據(jù)中心運營需要考慮的問題,而天氣的預期范圍并不是主要問題。

極端溫度,尤其是高溫,會給電網(wǎng)帶來巨大壓力,并可能增加當?shù)厣钣盟氖褂昧浚@些用水量取決于冷卻系統(tǒng)。當熱浪來襲時,電力和水的使用量將根據(jù)系統(tǒng)和冷卻技術類型而增加,從而給當?shù)厥袌鰩眍~外的壓力。

確保熱浪期間的連續(xù)性

如今全球都出現(xiàn)了極端高溫,許多人都致力于確保數(shù)據(jù)中心能夠繼續(xù)運行。確保熱浪期間連續(xù)性的關鍵利益相關者是現(xiàn)場設施經(jīng)理,以及更廣泛的設施團隊,包括電工、機械工程師以及暖通空調專業(yè)人員。

此外,數(shù)據(jù)中心冷卻擁有龐大的控制系統(tǒng)網(wǎng)絡,需要穩(wěn)定的電流來操作系統(tǒng)的各個組件,以確保調節(jié)后的空氣以最佳方式流入數(shù)據(jù)中心空間。

數(shù)據(jù)中心運營商和支持這些設施的機械團隊已經(jīng)為一系列自然災害和資源限制做好了計劃。數(shù)據(jù)中心運營商隨后與客戶密切合作,以滿足已發(fā)布或商定的服務水平協(xié)議(SLA)。

如果資源或自然災害需要關閉或限制某些服務,可能還會與客戶制定應急計劃。過去幾年最大的關注點是效率,盡可能有效地利用電力、冷卻和水資源,并減少整個設施的浪費。這是通過提高數(shù)據(jù)中心溫度、改進監(jiān)控解決方案和智能樓宇管理系統(tǒng)以及改進配電和調節(jié)來實現(xiàn)的。

數(shù)據(jù)中心運營商越來越多地采用液體冷卻技術,以進一步提高其設施的效率,同時在許多情況下在設施或IT設備層面轉向閉環(huán)、“無水”冷卻設計。所有這些都有助于數(shù)據(jù)中心更加高效地在日益嚴峻的條件下運行。

節(jié)能基礎設施和更有效的冷卻設計(例如液體冷卻)是目前正在考慮的兩種技術。高效數(shù)據(jù)中心電源管理的另一種有效但較少被探索的策略是減少主動管理的數(shù)據(jù)量?!?/p>

由于數(shù)據(jù)消耗了數(shù)據(jù)中心30%或更多的資源,并且80%的數(shù)據(jù)都是冷數(shù)據(jù),因此高效的數(shù)據(jù)管理可以幫助減少數(shù)據(jù)中心三分之一的負擔,甚至不需要對基礎設施進行任何改造。

隨著熱浪頻率的上升,再加上更高密度的人工智能處理器的熱量輸出更大,問題在兩個方面變得更加復雜。

● 人工智能增加了數(shù)據(jù)中心的熱量和電力消耗,使冷卻挑戰(zhàn)更加復雜。

● 人工智能使挑戰(zhàn)復雜化,并提供解決方案。

人工智能的持續(xù)崛起將加劇這些挑戰(zhàn),但許多挑戰(zhàn)也有助于解決保持數(shù)據(jù)中心在可接受的工作溫度下運行的問題。

人工智能耗電量巨大,更多的人工智能處理會增加數(shù)據(jù)中心的熱量輸出和功耗,從而加劇這一問題。

一方面,在更密集的硬件配置下,模型訓練和推理的AI工作負載需要大量的計算能力和能源。為AI模型和應用提供動力的服務器會產(chǎn)生大量熱量,必須進行散熱和冷卻。

訓練這些模型時會發(fā)生復雜的計算,需要更多資源密集型的硬件,從而提高模型的最佳運行整體功率。資源利用率和發(fā)電量的增加意味著數(shù)據(jù)中心內(nèi)會產(chǎn)生更多的熱量,從而給冷卻系統(tǒng)帶來壓力。此外,人工智能算法和模型的動態(tài)特性可能會導致電力需求和熱量產(chǎn)生的激增,而傳統(tǒng)的冷卻系統(tǒng)可能難以跟上。

考慮到過去一年來為了滿足對LLM的巨大需求而對集中式數(shù)據(jù)中心建設的巨額投資,我預計電網(wǎng)的壓力將會增加。

雖然人工智能工作負載的增加,為保持數(shù)據(jù)中心的最佳運行溫度帶來了更多挑戰(zhàn),但它也可以成為解決問題的良方。

這可以包括優(yōu)化熱性能管理的人工智能,包括液體冷卻或氣流的需求流和冷卻系統(tǒng)的預測性維護。

隨著熱浪的增加,人工智能還可以用于為實時天氣和長期環(huán)境模式的系統(tǒng)提供動力,從而根據(jù)外部因素自動調整能源消耗和冷卻系統(tǒng)。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2024-07-25
熱浪和人工智能挑戰(zhàn)會給數(shù)據(jù)中心帶來壓力嗎?
熱浪可能導致數(shù)據(jù)中心組件過熱和故障,導致運營商關閉服務器以防止損壞,從而導致停機和潛在的中斷。

長按掃碼 閱讀全文