AI這門“玄學(xué)”為何要從數(shù)據(jù)平臺(tái)修起?

著名經(jīng)濟(jì)學(xué)家、世界經(jīng)濟(jì)論壇主席Klaus Schwab在《第四次工業(yè)革命轉(zhuǎn)型的力量》一書中認(rèn)為,這一輪工業(yè)革命的核心是智能化與信息化,進(jìn)而形成一個(gè)高度靈活、人性化、數(shù)字化的產(chǎn)品生產(chǎn)與服務(wù)模式。

誠(chéng)然如斯。如今,以AI為代表的數(shù)字化技術(shù)正在推動(dòng)第四次工業(yè)革命,以期實(shí)現(xiàn)生產(chǎn)力的又一次飛躍。但經(jīng)歷多年數(shù)字化轉(zhuǎn)型之后,用戶們發(fā)現(xiàn)AI應(yīng)用上依然面臨著諸多挑戰(zhàn)。越來越多用戶意識(shí)到AI要想真正發(fā)揮威力,不僅僅涉及到機(jī)器學(xué)習(xí)、聯(lián)邦學(xué)習(xí)、模型算法等,更與底部的數(shù)據(jù)平臺(tái)息息相關(guān)。

用好AI還必須先從數(shù)據(jù)平臺(tái)入手?沒錯(cuò)!因?yàn)橐粋€(gè)好的數(shù)據(jù)平臺(tái)猶如為AI應(yīng)用構(gòu)建好大規(guī)模應(yīng)用的基礎(chǔ),真正讓AI通用性變強(qiáng),從而為生產(chǎn)力注入智慧的力量。

為什么基礎(chǔ)架構(gòu)會(huì)遇到瓶頸

不可否認(rèn),AI的興起給基礎(chǔ)架構(gòu)帶來了極大變化。Gartner就預(yù)測(cè),到2025年,由于人工智能市場(chǎng)的成熟,人工智能將成為推動(dòng)基礎(chǔ)架構(gòu)決策的最主要因素之一,這將導(dǎo)致基礎(chǔ)架構(gòu)需求增長(zhǎng)10倍。

具體來看,當(dāng)前所有的AI應(yīng)用都是由數(shù)據(jù)、算法和算力驅(qū)動(dòng),并且呈現(xiàn)出一些非常典型的特征:

首先,模型走向大型化和復(fù)雜化,帶來了極大的數(shù)據(jù)量和數(shù)據(jù)處理需求。以O(shè)penAI的GPT模型為例,2020年的GPT-3模型參數(shù)達(dá)到1750億個(gè),預(yù)訓(xùn)練數(shù)據(jù)量高達(dá)45TB,并且目前市場(chǎng)上諸多模型無論是規(guī)模、數(shù)據(jù)量、訓(xùn)練層數(shù)均是屢創(chuàng)新高,對(duì)于數(shù)據(jù)存儲(chǔ)的需求也是肉眼可見地增加。

其次,AI應(yīng)用實(shí)時(shí)性要求極高,使得像數(shù)據(jù)平臺(tái)等基礎(chǔ)設(shè)施迎來極大壓力。例如,像自動(dòng)駕駛如今成為各大汽車廠商的核心競(jìng)爭(zhēng)力,一輛L4級(jí)的自動(dòng)駕駛車輛每天誕生高達(dá)60TB的數(shù)據(jù),誰能夠更快訓(xùn)練出更高階的自動(dòng)駕駛技術(shù),誰就能夠在市場(chǎng)中處于競(jìng)爭(zhēng)領(lǐng)先位置。

“傳統(tǒng)的基礎(chǔ)架構(gòu)無法適應(yīng)AI數(shù)據(jù)處理,在數(shù)據(jù)到達(dá)GPU之前,消耗了70%的時(shí)間做數(shù)據(jù)準(zhǔn)備?!盚itachi Vantara中國(guó)區(qū)技術(shù)銷售總監(jiān)謝勇介紹道,“GPU、XPU等各種算力在不斷提升,但數(shù)據(jù)存儲(chǔ)處理能力卻跟不上。”

Hitachi Vantara中國(guó)區(qū)技術(shù)銷售總監(jiān)謝勇

第三,越來越多智慧應(yīng)用極度渴望多樣性數(shù)據(jù),AI模型需要多維度數(shù)據(jù)來不斷訓(xùn)練與成長(zhǎng)。比如,在金融領(lǐng)域,過去大部分都是基于服務(wù)流程中產(chǎn)生的過程數(shù)據(jù);現(xiàn)在,很多金融機(jī)構(gòu)為了讓模型更加準(zhǔn)確,往往會(huì)融入像地理信息的遙感數(shù)據(jù)、動(dòng)物數(shù)據(jù)等,數(shù)據(jù)維度和豐富程度遠(yuǎn)勝以往。

“總體來看,AI應(yīng)用在不斷走向成熟,帶來了數(shù)據(jù)指數(shù)級(jí)增長(zhǎng),但用戶預(yù)算卻不斷縮減,很多用戶在數(shù)據(jù)平臺(tái)層遇到瓶頸?!敝x勇如是說。

AI需要什么樣的數(shù)據(jù)平臺(tái)

如果說數(shù)據(jù)平臺(tái)是AI應(yīng)用的地基,那么這個(gè)地基的優(yōu)劣直接決定著AI應(yīng)用的效率和通用性。一旦AI效率和通用性問題得到解決,也即意味著數(shù)據(jù)生產(chǎn)力將產(chǎn)生質(zhì)的變化。

從數(shù)據(jù)類型、數(shù)據(jù)處理流程和效率來看,由傳統(tǒng)存儲(chǔ)架構(gòu)組成的數(shù)據(jù)平臺(tái)的確是有著天然的各種“缺陷”。比如,在很多用戶的實(shí)際環(huán)境中,依然是采用不同接口來接入到不同存儲(chǔ)系統(tǒng)之中,很難在一個(gè)數(shù)據(jù)平臺(tái)上滿足不同數(shù)據(jù)類型對(duì)于性能的不同需求,并且容易形成多個(gè)數(shù)據(jù)孤島;而從數(shù)據(jù)處理管道來看,存在多個(gè)數(shù)據(jù)孤島之間來回拷貝的環(huán)節(jié),不僅數(shù)據(jù)處理效率低下,而且性能無法滿足AI應(yīng)用的處理需求。

因此,為AI而生的數(shù)據(jù)平臺(tái)應(yīng)該是在性能、擴(kuò)展性和易用性方面實(shí)現(xiàn)重塑,以滿足AI應(yīng)用對(duì)于數(shù)據(jù)處理的各種需求。事實(shí)上,以Hitachi Vantara HCSF (Hitachi Content Software for File) 為代表的新一代數(shù)據(jù)平臺(tái)正是在這種趨勢(shì)下脫穎而出,它讓AI數(shù)據(jù)處理避免了分散管理流程,無需拷貝數(shù)據(jù)和復(fù)雜的性能調(diào)優(yōu),使得所有數(shù)據(jù)處理流程均在一個(gè)數(shù)據(jù)平臺(tái)中進(jìn)行,并且進(jìn)行自動(dòng)化的性能調(diào)優(yōu),實(shí)現(xiàn)性能、擴(kuò)展性和易用性等方面質(zhì)的提升。

以性能為例,HCSF采用具備專利的元數(shù)據(jù)和數(shù)據(jù)的全分布式架構(gòu),以及NVMe和高速網(wǎng)絡(luò)設(shè)計(jì),從而實(shí)現(xiàn)同時(shí)高效處理高吞吐/高IOPS/低延遲/高效元數(shù)據(jù)處理,性能比當(dāng)前市場(chǎng)上所有全閃存NAS快十倍之多;在擴(kuò)展性方面,HCSF具備從TB到EB級(jí)的擴(kuò)展能力,還能從本地?cái)U(kuò)展到云端,并且能夠?qū)崿F(xiàn)跨NVMe和OBS的統(tǒng)一命名空間;在易用性方面,實(shí)現(xiàn)了從安裝到數(shù)據(jù)協(xié)議接入、自動(dòng)性能調(diào)優(yōu)的簡(jiǎn)易化,讓用戶能夠很快上手。

“ HCSF作為一個(gè)完整的數(shù)據(jù)平臺(tái),避免了傳統(tǒng)架構(gòu)多臺(tái)設(shè)備并存帶來的復(fù)雜性和數(shù)據(jù)孤島,并且在數(shù)據(jù)接入、空間管理和云端協(xié)同方面均實(shí)現(xiàn)了極為簡(jiǎn)易的操作。AI應(yīng)用的數(shù)據(jù)處理過程中不需要來回流動(dòng)、遷移和復(fù)制?!盚itachi Vantara中國(guó)區(qū)資深解決方案顧問蔡慧陽介紹道,“在傳統(tǒng)架構(gòu)的數(shù)據(jù)平臺(tái)下,管理復(fù)雜性、性能調(diào)優(yōu)都往往需要專家級(jí)的技術(shù)人員,并且在元數(shù)據(jù)等層面存在極大缺陷?!?/p>

據(jù)悉,HCSF在交付方式上也非常靈活,可以提供軟硬一體化或者純軟的方式來滿足不同用戶的需求。此外,Hitachi Vantara也與多家云服務(wù)商達(dá)成合作,將HCSF直接部署在云端,為客戶提供更加靈活的選擇。

深耕AI場(chǎng)景,HCSF經(jīng)受多個(gè)行業(yè)考驗(yàn)

近年來,金融、科研、醫(yī)學(xué)、制造、汽車等行業(yè)均在加速推動(dòng)AI應(yīng)用,像金融領(lǐng)域的智能投顧、智能風(fēng)控,醫(yī)學(xué)領(lǐng)域的精準(zhǔn)醫(yī)學(xué)、看片機(jī)器人,科研領(lǐng)域的基因研究、地理空間研究;汽車領(lǐng)域的自動(dòng)駕駛等等,無不體現(xiàn)出AI和數(shù)據(jù)生產(chǎn)力的價(jià)值。

事實(shí)上,也正是這些行業(yè)用戶率先在數(shù)據(jù)平臺(tái)上意識(shí)到傳統(tǒng)架構(gòu)的不足,并且積極尋求新的數(shù)據(jù)平臺(tái)。謝勇表示:“過去三年,很多行業(yè)用戶均意識(shí)到AI應(yīng)用的最大瓶頸并不是GPU卡,而是數(shù)據(jù)平臺(tái)層?!?/p>

以某量化基金公司為例,擁有幾百個(gè)節(jié)點(diǎn)的計(jì)算集群,采用最先機(jī)的GPU計(jì)算加速卡,以最先進(jìn)的算力來跑量化模型,但三年實(shí)踐下來,無論后端數(shù)據(jù)平臺(tái)層如何優(yōu)化,依然在性能、擴(kuò)展性方面存在巨大不足?!邦愃七@樣的用戶不在少數(shù),他們均是在實(shí)踐AI之后才意識(shí)到數(shù)據(jù)平臺(tái)的重要性,并且均是通過HCSF解決了上述挑戰(zhàn)?!?/p>

又如汽車領(lǐng)域的自動(dòng)駕駛場(chǎng)景,很多車企通常部署了數(shù)百臺(tái)配置先進(jìn)GPU的計(jì)算集群進(jìn)行自動(dòng)駕駛訓(xùn)練,每提升一個(gè)級(jí)別,意味著數(shù)據(jù)量呈指數(shù)級(jí)的增長(zhǎng),L5級(jí)的自動(dòng)駕駛甚至能夠達(dá)到EB級(jí)的數(shù)據(jù)量,對(duì)于數(shù)據(jù)平臺(tái)的性能、容量和擴(kuò)展性極為考驗(yàn)。蔡慧陽介紹:“有車企在采用HCSF之后,一次訓(xùn)練與仿真測(cè)試時(shí)間從過去80個(gè)小時(shí)縮短為4個(gè)小時(shí),EB級(jí)的擴(kuò)展能力也讓車企不再為容量擔(dān)憂?!?/p>

“HCSF是專門為AI而生的數(shù)據(jù)平臺(tái),并且在多個(gè)行業(yè)的AI應(yīng)用中獲得了很好的實(shí)踐。Hitachi Vantara推出HCSF的初衷就是以數(shù)據(jù)為中心,讓更多行業(yè)客戶可以更好地應(yīng)用AI和提升數(shù)據(jù)生產(chǎn)力,從而實(shí)現(xiàn)運(yùn)營(yíng)效率的提升和商業(yè)創(chuàng)新?!敝x勇最后表示道。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-10-22
AI這門“玄學(xué)”為何要從數(shù)據(jù)平臺(tái)修起?
著名經(jīng)濟(jì)學(xué)家、世界經(jīng)濟(jì)論壇主席Klaus Schwab在《第四次工業(yè)革命轉(zhuǎn)型的力量》一書中認(rèn)為,這一輪工業(yè)革命的核心是智能化與信息化,進(jìn)而形...

長(zhǎng)按掃碼 閱讀全文