久久99精品久久久久久秒播,先锋影音在线资源

【編者按】大模型競(jìng)爭(zhēng)的背后也是基礎(chǔ)設(shè)施的競(jìng)爭(zhēng)。隨著大模型規(guī)模越來(lái)越大，單體數(shù)據(jù)中心所能承受的訓(xùn)練量逐步達(dá)到臨界值，未來(lái)多數(shù)據(jù)中心訓(xùn)練成為趨勢(shì)。大模型三巨頭OpenAI、Google和Anthropic均在布局多數(shù)據(jù)中心訓(xùn)練，Semianalysis對(duì)三巨頭多數(shù)據(jù)中心訓(xùn)練的情況進(jìn)行了分析，以下是具體內(nèi)容。

由于Scaling Laws不斷改進(jìn)，當(dāng)前的人工智能基礎(chǔ)設(shè)施愈發(fā)難以滿足需求。像OpenAI、Google Gemini等領(lǐng)先的前沿人工智能模型訓(xùn)練集群今年已擴(kuò)展到10 萬(wàn)個(gè) GPU ，并計(jì)劃到 2025 年將超過(guò) 30 萬(wàn)個(gè) GPU 集群?？紤]到建設(shè)時(shí)間、許可、法規(guī)和電力可用性等物理限制，傳統(tǒng)的同步訓(xùn)練方法單個(gè)數(shù)據(jù)中心站點(diǎn)的大型模型已達(dá)到臨界點(diǎn)。

Google、OpenAI 和 Anthropic 已經(jīng)在執(zhí)行相關(guān)計(jì)劃，將其大型模型訓(xùn)練從一個(gè)站點(diǎn)擴(kuò)展到多個(gè)數(shù)據(jù)中心園區(qū)。谷歌擁有當(dāng)今世界上最先進(jìn)的計(jì)算系統(tǒng)，并率先大規(guī)模使用了許多關(guān)鍵技術(shù)，這些技術(shù)直到現(xiàn)在才被其他公司采用，例如機(jī)架級(jí)液冷架構(gòu)和多數(shù)據(jù)中心訓(xùn)練。

Gemini 1 Ultra 在多個(gè)數(shù)據(jù)中心進(jìn)行了培訓(xùn)。盡管他們擁有更多的 FLOPS，但他們現(xiàn)有的模型仍落后于 OpenAI 和 Anthropic，因?yàn)樗麄冊(cè)诤铣蓴?shù)據(jù)、強(qiáng)化學(xué)習(xí)和模型架構(gòu)方面仍在追趕，但即將發(fā)布的 Gemini 2 將改變這一現(xiàn)狀。此外，到 2025 年，谷歌將有能力在多個(gè)園區(qū)進(jìn)行千兆瓦級(jí)的訓(xùn)練，但令人驚訝的是，谷歌的長(zhǎng)期計(jì)劃并不像 OpenAI 和微軟那么積極。

大多數(shù)公司才剛剛引入采用 Nvidia GB200 架構(gòu)的高密度液冷 AI 芯片，預(yù)計(jì)明年產(chǎn)量將達(dá)到數(shù)百萬(wàn)顆。另一方面，谷歌已經(jīng)部署了數(shù)百萬(wàn)個(gè)液冷 TPU，占液冷 AI 芯片容量超過(guò) 1 GW。谷歌的基礎(chǔ)設(shè)施與其競(jìng)爭(zhēng)對(duì)手之間的差異肉眼可見。

上圖所示的人工智能培訓(xùn)園區(qū)已擁有接近 300MW 的電力容量，明年將增至 500MW。除了規(guī)模龐大之外，這些設(shè)施還非常節(jié)能。我們可以在下面看到大型冷卻塔和集中設(shè)施供水系統(tǒng)，水管連接三座建筑物，能夠排出近 200 兆瓦的熱量。根據(jù)最新的環(huán)境報(bào)告，該系統(tǒng)允許 Google 全年大部分時(shí)間無(wú)需使用冷卻器即可運(yùn)行，從而在 2023 年實(shí)現(xiàn) 1.1 PUE（電力使用效率）。

雖然上圖僅顯示了設(shè)施供水系統(tǒng)，但水也通過(guò)直接到芯片系統(tǒng)輸送到機(jī)架，液-液熱交換器將熱量從機(jī)架傳輸?shù)街醒朐O(shè)施供水系統(tǒng)。這種非常節(jié)能的系統(tǒng)類似于 Nvidia GB200 的 L2L 部署 - 在我們的GB200 深入研究中詳細(xì)描述。

另一方面，微軟當(dāng)今最大的培訓(xùn)集群（如下所示）不支持液體冷卻，并且每棟建筑的 IT 容量降低了約 35%，盡管建筑 GFA（總建筑面積）大致相似。已發(fā)布的數(shù)據(jù)顯示 PUE 為 1.223，但 PUE 計(jì)算對(duì)風(fēng)冷系統(tǒng)有利，因?yàn)榉?wù)器內(nèi)部的風(fēng)扇功率沒(méi)有得到正確考慮 - 對(duì)于風(fēng)冷 H100 服務(wù)器來(lái)說(shuō)，這是服務(wù)器功率的 15%+，而對(duì)于風(fēng)冷 H100 服務(wù)器來(lái)說(shuō)，PUE 計(jì)算為 <5%液體 DLC 冷卻服務(wù)器。因此，對(duì)于提供給芯片的每瓦特，微軟需要額外約 45% 以上的功率用于服務(wù)器風(fēng)扇功率、設(shè)施冷卻和其他非 IT 負(fù)載，而谷歌則接近每瓦特 IT 功率約 15% 的額外負(fù)載。疊加 TPU 的更高效率，情況就變得模糊了。

此外，為了在沙漠（亞利桑那州）實(shí)現(xiàn)良好的能源效率，微軟需要大量的水 - 用水效率 (L/kWh) 為 2.24，遠(yuǎn)高于集團(tuán)平均值 0.49，谷歌的平均值略高于 1。用水量增加引起了媒體的負(fù)面關(guān)注，他們被要求為該園區(qū)即將建設(shè)的數(shù)據(jù)中心改用風(fēng)冷式冷水機(jī)，這將減少每棟建筑的用水量，但會(huì)進(jìn)一步增加 PUE，從而擴(kuò)大與 Google 的能效差距。在未來(lái)的報(bào)告中，我們將更詳細(xì)地探討數(shù)據(jù)中心的工作方式和典型的超大規(guī)模設(shè)計(jì)。

因此，基于現(xiàn)有的數(shù)據(jù)中心參考設(shè)計(jì)，Google 擁有更高效的基礎(chǔ)設(shè)施，并且可以更快地建造兆瓦，因?yàn)槊織澖ㄖ娜萘刻岣吡?>50%，并且每個(gè) IT 負(fù)載需要承包的公用電力更少。

谷歌的AI訓(xùn)練基礎(chǔ)設(shè)施

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個(gè)人觀點(diǎn)，與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

多數(shù)據(jù)中心訓(xùn)練：OpenAI、Google、Anthropic三家野心勃勃

下一篇

多數(shù)據(jù)中心訓(xùn)練：OpenAI、Google、Anthropic三家野心勃勃

下一篇

多數(shù)據(jù)中心訓(xùn)練：OpenAI、Google、Anthropic三家野心勃勃