在陽泉,探密百度AI“心臟”

美劇《紙牌屋》中曾有這樣一個畫面。男記者Lucas以采訪之名受黑客之托前往FBI的云計算中心,把一枚帶有病毒的U盤插入了服務(wù)器上。意圖借此感染服務(wù)器網(wǎng)絡(luò),盜取其中的數(shù)據(jù)。FBI的探員眼疾手快,Lucas因此被捕。

事實上,這只是美劇常用的夸張表述。這種場景基本不可能實現(xiàn)。但是云計算中心的重要性在這個畫面中被體現(xiàn)得淋漓盡致。

是的,云計算中心是科技企業(yè)、政府組織最為神秘的一個組成部分,是這家絕對的“心臟”。每一個科技公司都一定會有多個云計算中心,它們承載了企業(yè)的所有業(yè)務(wù)。

這一次,我進(jìn)入了百度的“心臟”——百度陽泉計算中心。它既是百度AI技術(shù)的基石,也是百度AI商業(yè)化的基石。

為什么說是心臟?

百度在陽泉、順義、南京等地區(qū)都已部署數(shù)據(jù)中心,而陽泉是百度最大的云計算中心,也是亞洲單體規(guī)模最大的計算中心。

它在2014年投入使用,建成投產(chǎn)12萬平米,服務(wù)器超過15萬臺,擁有超過300萬顆CPU核、6EB級存儲容量,可存儲信息量相當(dāng)30多萬個中國國家圖書館的藏書總量。

陽泉云計算中心據(jù)說是百度的“心臟”毫不為過。

覆蓋全球的互聯(lián)網(wǎng)和無數(shù)機(jī)構(gòu)的業(yè)務(wù)實際上是在成千上萬臺服務(wù)器支持下運(yùn)轉(zhuǎn)的,承載龐大服務(wù)器資源的就是數(shù)據(jù)中心。數(shù)據(jù)中心已經(jīng)成為交通、能源一樣的經(jīng)濟(jì)基礎(chǔ)設(shè)施。

不管你是刷百度、聊微信、搶紅包、看網(wǎng)劇,都離不開數(shù)據(jù)中心在背后做支撐。你在手機(jī)上的每一次操作,都和數(shù)據(jù)中心有關(guān)系。

陽泉云計算中心既是百度AI技術(shù)的心臟,也是百度AI商業(yè)化的心臟。

1、AI技術(shù)的心臟

百度App、百度地圖、百度智能云、智能城市、小度、Apollo等AI業(yè)務(wù)的數(shù)據(jù)都在這里傳輸、存儲、計算。

今年春節(jié)為例,百度APP的全球觀眾互動次數(shù)達(dá)到208億次,春晚數(shù)據(jù)流量為每秒峰值5000萬次,每分鐘峰值10億次。

搶紅包的人春晚之夜輕松愉快,但對數(shù)據(jù)中心來說可不是如此。

我在《BAT春晚暗戰(zhàn)云計算》這篇文章中很早就提到:大家明面上能看到是三家發(fā)了多少紅包、撒了多少現(xiàn)金,背后牽扯到的技術(shù)、資源等配置確是錯綜復(fù)雜——這都要靠數(shù)據(jù)中心做支撐。

在這次探秘陽泉云計算中心的過程中,百度系統(tǒng)部總監(jiān)張炳華用了“數(shù)據(jù)海嘯、驚濤駭浪”這八個字來形容今年百度春晚紅包帶來的數(shù)據(jù)挑戰(zhàn)。

在陽泉的全部百度員工以及十余家供應(yīng)商技術(shù)支持人員在除夕當(dāng)晚守在“數(shù)據(jù)海嘯”面前,最終抵擋住了億級流量??梢哉f,沒有陽泉、順義、南京在內(nèi)的幾個云計算中心,就沒有今年百度春晚紅包的正常運(yùn)轉(zhuǎn)。

2、AI商業(yè)化的心臟

去年12月,百度組織架構(gòu)整合,決定升級“ABC智能云”業(yè)務(wù)戰(zhàn)略、加速推進(jìn)“云上百度”的進(jìn)程。ABC智能云事業(yè)部升級為智能云事業(yè)群組(ACG),同時承載AI To B業(yè)務(wù)和云業(yè)務(wù),越來越多地為互聯(lián)網(wǎng)、娛樂、金融、教育、交通、安防、能源等行業(yè)的客戶提供全棧ABC+IoT產(chǎn)品與解決方案。

以能源工業(yè)等行業(yè)為例,煉鋼廠、發(fā)電廠需要在高溫的生產(chǎn)車間部署攝像頭、傳感器等IoT設(shè)備,這些設(shè)備會對運(yùn)轉(zhuǎn)溫度、壓力等數(shù)據(jù)的實時采集。像寶鋼和百度智能云的合作中,就要通過百度智能云的AI、大數(shù)據(jù)平臺,對各種數(shù)據(jù)進(jìn)行分析和處理。

百度智能云在為這些客戶提供服務(wù)的時候,則是有賴于云計算中心在背后做支撐。

心臟到底有多強(qiáng)?

走進(jìn)百度陽泉云計算中心的機(jī)房之內(nèi),就會發(fā)現(xiàn)一排排機(jī)柜統(tǒng)一排列,機(jī)柜上的服務(wù)器的風(fēng)扇聲嗡嗡作響。機(jī)房的溫度明顯比室外高了一截。

這是百度“心臟”的聲音與溫度。百度的“心臟”到底有多強(qiáng),我們可以從這幾個維度來進(jìn)行解析。

1、性能和效率

“心臟”想要跳的快,一方面需要“心臟”本身有力度,另外一方面則是需要血管供血足。對AI的“心臟”來說則是兩個點,一是算力強(qiáng),另一方面也要數(shù)據(jù)傳輸快。

百度陽泉云計算中心目前已上線服務(wù)器超過15萬臺。包括了天蝎整機(jī)柜服務(wù)器、“冰山”冷存儲服務(wù)器、X-MAN超級AI計算平臺等多種百度自研計算系統(tǒng)。像去年年底百度最新發(fā)布AI計算平臺X-MAN3.0每秒可完成2000萬億次深度神經(jīng)網(wǎng)絡(luò)計算。這種強(qiáng)大的計算能力都是為了適應(yīng)AI時代的運(yùn)算要求。

為這種強(qiáng)大算力“供血”的“血管”則是百度自主研發(fā)高性能交換機(jī)。提供超大規(guī)模的網(wǎng)絡(luò)吞吐,支持10G、25G的通用計算網(wǎng)絡(luò)接入和100G的AI高速無損網(wǎng)絡(luò)互聯(lián)技術(shù)。百度通過大帶寬、低時延、無損網(wǎng)絡(luò),讓數(shù)據(jù)中心數(shù)十萬臺服務(wù)器連接成了一個超級計算機(jī)。

2、容災(zāi)和備災(zāi)

“心臟”作為人最重要的器官當(dāng)然一刻都不能停止,數(shù)據(jù)中心作為心臟當(dāng)然也不能停。云計算中心里設(shè)備價格昂貴,一旦發(fā)生不可預(yù)知的災(zāi)難,對企業(yè)將造成嚴(yán)重?fù)p失。設(shè)備損壞等有形的損失可以彌補(bǔ),而寶貴的數(shù)據(jù)丟失造成的損失則是無法計算的。

在移動互聯(lián)網(wǎng)時代,一個數(shù)據(jù)中心的服務(wù)器一旦出現(xiàn)短時間抖動,就會導(dǎo)致刷不了淘寶、付不了支付寶,在全網(wǎng)產(chǎn)生討論。

AI時代服務(wù)器出問題,可能會導(dǎo)致自動駕駛車輛失控,鋼鐵能源工業(yè)客戶面臨數(shù)以億計的經(jīng)濟(jì)損失。

因此,數(shù)據(jù)中心的容災(zāi)備災(zāi)顯得及其重要。而百度陽泉云計算中心通過AI控制,數(shù)據(jù)中心的運(yùn)維從人工走向智能,可以實現(xiàn)大數(shù)據(jù)分析和診斷,迅速縮短故障維修時間。過去30分鐘的網(wǎng)絡(luò)故障排查直接縮減到了5分鐘。

當(dāng)問到一旦出現(xiàn)自然災(zāi)害、意外火災(zāi)等極端意外情況下百度陽泉云計算中心要如何應(yīng)對時,百度系統(tǒng)部總監(jiān)張炳華提到:

從業(yè)務(wù)部署角度,百度數(shù)據(jù)中心計算資源采用了N+1的冗余設(shè)計,用戶的流量有多個入口,可以繞道其他數(shù)據(jù)中心。在入口層面也有一套智能調(diào)度的系統(tǒng)。

百度內(nèi)部甚至做過這樣一個極端測試——關(guān)掉任何一個數(shù)據(jù)中心,用戶端也不會有任何感知,服務(wù)也不會受到任何影響。

我簡單翻譯一下這段話。大概相當(dāng)于百度有好幾顆“心臟”,即使是一顆“心臟“出現(xiàn)故障,其他心臟也可以在故障的那一瞬間隨時頂上。

事實上,截止4月8日,百度陽泉云計算中心已安全運(yùn)行1744天。目前也還尚未遇到這些極端意外情況。

3、能耗和環(huán)保

某種意義上說,科技企業(yè)也是高能耗企業(yè)。因為龐大的服務(wù)器群組每天處理各種數(shù)據(jù),產(chǎn)生了龐大的能源消耗。

國家層面在今年9月發(fā)布了《關(guān)于加強(qiáng)綠色云計算中心建設(shè)的指導(dǎo)意見》,提出到2022年全國新建大型、超大型云計算中心PUE(云計算中心總設(shè)備能耗/IT設(shè)備能耗,越接近1表明能效越高,是云計算中心領(lǐng)域衡量能源效率的權(quán)威指標(biāo))需達(dá)到1.4以下。

這個指導(dǎo)意見的目的在于逼迫科技企業(yè)提高自身技術(shù),做到節(jié)能環(huán)保。

2018年8月,Uptime Institute發(fā)布的《2018數(shù)據(jù)中心調(diào)查報告》顯示2018年全球數(shù)據(jù)中心PUE為1.58。

阿里所有自研云計算中心平均PUE已經(jīng)低于1.3,即使是谷歌業(yè)務(wù)關(guān)鍵應(yīng)用和廣告系統(tǒng)也都運(yùn)行在PUE 1.2的云計算中心上。

令人意外的是,百度陽泉云計算中心的PUE突破了1.10,達(dá)到1.09,能源效率國內(nèi)第一,每年可節(jié)電量可達(dá)2.5億度,相當(dāng)于13萬戶居民一年的用電量。

為AI+5G+IoT未雨綢繆

百度陽泉云計算中心可以說是目前國內(nèi)云計算中心的頂級水準(zhǔn),而且和百度目前的AI戰(zhàn)略以及面向未來的業(yè)務(wù)布局高度匹配。

我曾在《春晚紅包宕機(jī)史,也是半部中國互聯(lián)網(wǎng)技術(shù)進(jìn)步史》中提到:

春晚的流量規(guī)模,未來可能正是5G和IoT時代的“常規(guī)需求”。提前排兵布陣,百利無一害。

2017年,微軟CEO納德拉在曾經(jīng)提到過一個信息,在1992年互聯(lián)網(wǎng)每天流量總量是100G。今天一個手機(jī)就能存下所有的數(shù)據(jù)。

服務(wù)器和計算中心的算力、存儲進(jìn)化史,其實也是世界互聯(lián)網(wǎng)的技術(shù)進(jìn)步史。互聯(lián)網(wǎng)的發(fā)展,伴隨著IT算力、存儲能力的指數(shù)級提升。

2018年全球有70億臺IoT 設(shè)備,有機(jī)構(gòu)預(yù)測到2020年全球?qū)⒂?00億臺設(shè)備同時連接網(wǎng)絡(luò),2023年則是有790億設(shè)備連接到物聯(lián)網(wǎng)。5G時代流量每小時所產(chǎn)生的數(shù)據(jù)高達(dá)數(shù)百GB,預(yù)計將處理比4G多1000倍的數(shù)據(jù)。

當(dāng)代哲學(xué)家西閃在《國家的計算》中對計算有過這樣一個論述:

在現(xiàn)實世界的“賭局”中,帕斯卡的上帝已經(jīng)隱退,取而代之的,是作為信仰的“未來”。它像一個永恒的獎杯,在時間的盡頭閃閃發(fā)光。而計算則取代了程式化的行為訓(xùn)練,演變成為一種新的思維習(xí)慣。

百度作為一家面向AI的企業(yè),它的業(yè)務(wù)同樣無處不體現(xiàn)著計算的魅力——信息流、智能云、無人車……所有數(shù)據(jù)都要經(jīng)過服務(wù)器存儲、計算、傳輸,最終實現(xiàn)業(yè)務(wù)落地。

百度陽泉云計算中心恰恰是在為AI+5G+IoT時代做準(zhǔn)備。

----------------------------------------------

作者 | 吳俊宇 公眾號 | 深幾度

作者系獨立撰稿人,微信號852405518

關(guān)注科技公司、互聯(lián)網(wǎng)現(xiàn)象的解讀

曾獲鈦媒體2015、2016、2018年度作者

新浪創(chuàng)事記2018年度十大作者

品途網(wǎng)2016年度十大作者

騰訊科技2015年度最具影響力自媒體

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-04-09
在陽泉,探密百度AI“心臟”
美劇《紙牌屋》中曾有這樣一個畫面。男記者Lucas以采訪之名受黑客之托前往FBI的云計算中心,把一枚帶有病毒的U盤插入了服務(wù)器上。

長按掃碼 閱讀全文