釋放數(shù)據(jù)潛力,為AI應(yīng)用提速是關(guān)鍵

“五年前,我們很多行業(yè)客戶(hù)的數(shù)據(jù)還是以ERP、CRM等數(shù)據(jù)為主,10TB就屬于很大的數(shù)據(jù)量;今天,這些客戶(hù)積累的數(shù)據(jù)量通常達(dá)到PB級(jí),像行為數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)極為迅速,業(yè)務(wù)形態(tài)也發(fā)生了巨大變化,基于海量數(shù)據(jù)的AI應(yīng)用正在由點(diǎn)到面地鋪開(kāi)”--一位深耕行業(yè)的ISV如是說(shuō)。

的確,從智能推薦、對(duì)話機(jī)器人,到自動(dòng)駕駛、風(fēng)險(xiǎn)控制、產(chǎn)品檢測(cè),如今AI應(yīng)用正深入到各行各業(yè)之中,對(duì)企業(yè)降低成本、改善客戶(hù)體驗(yàn)和洞察市場(chǎng)等方面發(fā)揮著巨大作用。IDC最新《全球人工智能支出指南》顯示,2021年全球人工智能領(lǐng)域支出將高達(dá)853億美元,未來(lái)五年復(fù)合年增長(zhǎng)則高達(dá)24.5%。

不過(guò),隨著AI在行業(yè)各個(gè)場(chǎng)景中多點(diǎn)開(kāi)花,數(shù)據(jù)作為關(guān)鍵生產(chǎn)要素的作用愈發(fā)突出,海量數(shù)據(jù)的采集、存儲(chǔ)、傳輸和應(yīng)用讓存儲(chǔ)層挑戰(zhàn)逐漸放大??梢哉f(shuō),數(shù)據(jù)存儲(chǔ)挑戰(zhàn)已然是AI應(yīng)用之路上最大的攔路虎,如何最大限度地挖掘數(shù)據(jù)價(jià)值和推動(dòng)AI應(yīng)用落地,關(guān)鍵在于解決數(shù)據(jù)存儲(chǔ)的挑戰(zhàn)。

那么,AI應(yīng)用場(chǎng)景的數(shù)據(jù)具有什么樣的特點(diǎn),又會(huì)帶來(lái)哪些典型的存儲(chǔ)問(wèn)題?面對(duì)AI應(yīng)用帶來(lái)的性能、容量和成本挑戰(zhàn),我們又如何對(duì)癥下藥?Hitachi Vantara的Hitachi Content Software for File為何要將對(duì)象存儲(chǔ)與文件存儲(chǔ)整合在一起,這種舉措對(duì)于解決AI帶來(lái)的存儲(chǔ)挑戰(zhàn)有何重要價(jià)值?

下面讓我們一探究竟。

AI應(yīng)用開(kāi)啟新局面

過(guò)去,應(yīng)用和場(chǎng)景通常是圍繞著業(yè)務(wù)流程展開(kāi);如今,幾乎所有的智慧應(yīng)用都是通過(guò)數(shù)據(jù)和算法來(lái)驅(qū)動(dòng)。

隨著數(shù)據(jù)被官方確認(rèn)為生產(chǎn)要素,AI應(yīng)用正加速開(kāi)啟新局面。像《十四五規(guī)劃》全文中,跟“智能”、“智慧”相關(guān)表述就高達(dá)57處,AI正成為中國(guó)數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展的核心驅(qū)動(dòng)力之一,愈發(fā)深度融入產(chǎn)業(yè)數(shù)字化和企業(yè)數(shù)字化轉(zhuǎn)型之中。

以華南地區(qū)的制造業(yè)工廠為例,為了提升產(chǎn)品質(zhì)量和檢測(cè)效率,大量工廠都在產(chǎn)線之中部署了AI檢測(cè)應(yīng)用;如手機(jī)生產(chǎn)流程中每個(gè)環(huán)節(jié)都會(huì)進(jìn)行拍攝,并利用AI算法對(duì)其進(jìn)行不斷的學(xué)習(xí)與訓(xùn)練,實(shí)現(xiàn)大幅降低產(chǎn)品瑕疵率,并提升檢測(cè)效率。

在金融領(lǐng)域,AI也正深刻改變業(yè)務(wù)場(chǎng)景。以保險(xiǎn)行業(yè)為例,RPA機(jī)器人、智能推薦、語(yǔ)音識(shí)別、圖像識(shí)別等大量融入到業(yè)務(wù)場(chǎng)景之中,對(duì)業(yè)務(wù)效率提升、成本下降和用戶(hù)體驗(yàn)改善大有裨益。

在政府、能源、交通等多個(gè)行業(yè),AI也正成為重要的生產(chǎn)力工具。Gartner認(rèn)為,到2024年,將會(huì)有高達(dá)75%的企業(yè)將從試點(diǎn)轉(zhuǎn)型運(yùn)營(yíng)AI。而隨著AI深入到更多業(yè)務(wù)場(chǎng)景之中,整個(gè)市場(chǎng)也呈現(xiàn)出新的趨勢(shì):

企業(yè)需要更多高質(zhì)量的模型和與之相匹配的業(yè)務(wù)場(chǎng)景;

隨著AI/分析型應(yīng)用的豐富,數(shù)據(jù)驅(qū)動(dòng)決策成為可能;

數(shù)據(jù)豐富程度將有利于企業(yè)構(gòu)建完整和正確的視圖,再利用AI技術(shù)來(lái)實(shí)現(xiàn)營(yíng)銷(xiāo)、服務(wù)等的改善,真正實(shí)現(xiàn)以客戶(hù)為中心;

企業(yè)對(duì)于數(shù)據(jù)采集、存儲(chǔ)、管理和安全等合規(guī)性要求會(huì)越來(lái)越高。

因此,越來(lái)越多企業(yè)在AI應(yīng)用中感受到數(shù)據(jù)所帶來(lái)的挑戰(zhàn),而且這種挑戰(zhàn)跟以往很不一樣。

數(shù)據(jù)不該成為AI攔路虎

在了解AI應(yīng)用帶來(lái)的數(shù)據(jù)挑戰(zhàn)之前,我們需要清楚AI應(yīng)用場(chǎng)景會(huì)產(chǎn)生什么樣的數(shù)據(jù)、這些數(shù)據(jù)具有什么特點(diǎn)、AI應(yīng)用對(duì)于數(shù)據(jù)存儲(chǔ)都會(huì)有哪些要求。

事實(shí)上,當(dāng)前大量的AI/分析型場(chǎng)景之中,海量非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為常態(tài),每張圖片/每個(gè)文件通常很小,但數(shù)量級(jí)極高。像在金融行業(yè),金融業(yè)務(wù)不僅有大量原始票據(jù)通過(guò)掃描形成圖片和描述信息文件,還有電子合同、簽名數(shù)據(jù)、人臉識(shí)別數(shù)據(jù)等,金融行業(yè)影像數(shù)據(jù)一般單個(gè)文件大小為幾KB或幾百KB,非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量甚至可以高達(dá)數(shù)十億級(jí)規(guī)模,并且還在逐年增長(zhǎng)。

具體到AI應(yīng)用的環(huán)境,首先數(shù)據(jù)需要進(jìn)行準(zhǔn)備和清洗,將原始數(shù)據(jù)去重、去除格式錯(cuò)誤、去除錯(cuò)誤數(shù)據(jù)和啟發(fā)式回填,將數(shù)據(jù)轉(zhuǎn)換為機(jī)器學(xué)習(xí)模型所需要的格式,這個(gè)處理階段通常具有典型I/O極其密集的特征,需要數(shù)據(jù)緩存基礎(chǔ)設(shè)施實(shí)時(shí)執(zhí)行。

進(jìn)入到AI訓(xùn)練階段,以機(jī)器學(xué)習(xí)經(jīng)常用到的DNN(深度神經(jīng)網(wǎng)絡(luò))為例,像卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等都是模型復(fù)雜的深度神經(jīng)網(wǎng)絡(luò),并且需要利用高度并行的技術(shù)來(lái)實(shí)現(xiàn),這些模型需要大量經(jīng)過(guò)清洗和標(biāo)記的數(shù)據(jù)來(lái)訓(xùn)練,通常數(shù)據(jù)集的大小是PB級(jí),涉及到大量的隨機(jī)、小型(KB)級(jí)讀取操作,對(duì)于存儲(chǔ)的吞吐量、延遲要求極高。

以O(shè)penAI去年發(fā)布的GPT-3模型為例,模型參數(shù)高達(dá)1750億個(gè),預(yù)訓(xùn)練數(shù)據(jù)量高達(dá)45TB,最大層數(shù)高達(dá)96層,無(wú)論是模型規(guī)模、數(shù)據(jù)量、訓(xùn)練層數(shù)都呈現(xiàn)指數(shù)級(jí)的增長(zhǎng)趨勢(shì)。

當(dāng)AI進(jìn)入到推理和模型部署階段,對(duì)于數(shù)據(jù)延遲又非常敏感,所部署的訓(xùn)練好的模型需要近乎實(shí)時(shí)化分析數(shù)據(jù),對(duì)于數(shù)據(jù)存儲(chǔ)性能要求極高。此外,部署模型中所處理的數(shù)據(jù)都需要重新存儲(chǔ),并與訓(xùn)練數(shù)據(jù)重新整合,進(jìn)而讓模型不斷訓(xùn)練、改進(jìn)和優(yōu)化,這個(gè)過(guò)程對(duì)于數(shù)據(jù)存儲(chǔ)系統(tǒng)的性能、容量也是極大考驗(yàn)。

綜合來(lái)看,過(guò)去的存儲(chǔ)系統(tǒng)在存儲(chǔ)架構(gòu)、元數(shù)據(jù)管理、緩存管理等環(huán)節(jié)都是為傳統(tǒng)業(yè)務(wù)場(chǎng)景而設(shè)計(jì)。進(jìn)入到AI時(shí)代,面對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)場(chǎng)景,傳統(tǒng)存儲(chǔ)在性能、容量、擴(kuò)展性、成本等方面都捉襟見(jiàn)肘,很難勝任各種AI應(yīng)用的要求。

HCSF:為AI應(yīng)用提速

事實(shí)上,如果仔細(xì)分析AI應(yīng)用涉及到的數(shù)據(jù)采集、整合、傳輸、存儲(chǔ)、管理和應(yīng)用,會(huì)發(fā)現(xiàn)當(dāng)前很多企業(yè)往往是通過(guò)選擇不同架構(gòu)的數(shù)據(jù)存儲(chǔ)產(chǎn)品來(lái)滿(mǎn)足需求,造成在性能、可擴(kuò)展性和易用性之間妥協(xié)。

例如,為了滿(mǎn)足擴(kuò)展性和容量的需求,很多企業(yè)之前會(huì)嘗試部署橫向擴(kuò)展NAS,但是傳統(tǒng)NAS幾乎都是為大文件場(chǎng)景而設(shè)計(jì),對(duì)于AI應(yīng)用涉及到的海量小文件場(chǎng)景非常容易造成性能瓶頸;而為了速度,通常會(huì)選擇基于塊的全閃陣列,但是規(guī)模和共享方面又會(huì)受到限制。

那么,針對(duì)AI應(yīng)用,在數(shù)據(jù)存儲(chǔ)層面能否通過(guò)一套方案覆蓋AI應(yīng)用所有存儲(chǔ)工作流,并且能夠全面平衡性能、擴(kuò)展性、容量、易用性和成本?如今,Hitachi Vantara的Hitachi Content Software for File(HCSF)為我們打開(kāi)了新思路,提供了一種切實(shí)可行的方案。

首先,作為全新的分布式文件系統(tǒng)和管理解決方案,Hitachi Content Software for File專(zhuān)為AI/分析型應(yīng)用等超高性能和大容量應(yīng)用而設(shè)計(jì),充分發(fā)揮分布式文件系統(tǒng)和對(duì)象存儲(chǔ)的優(yōu)勢(shì),采用共享存儲(chǔ)架構(gòu)來(lái)消除性能瓶頸,可以輕松、獨(dú)立地?cái)U(kuò)展計(jì)算和存儲(chǔ)資源,并且利用緊耦合的單一解決方案,提供與硬件設(shè)備類(lèi)似的高性能體驗(yàn)。

例如,用戶(hù)將NVMe高性能存儲(chǔ)和對(duì)象存儲(chǔ)進(jìn)行完美集成,通過(guò)Weka文件系統(tǒng)可以獨(dú)立擴(kuò)展性能和容量:如果需要更強(qiáng)的性能,通過(guò)擴(kuò)展NVMe存儲(chǔ)即可;而如果需要更多容量,添加更多對(duì)象存儲(chǔ)即可。

其次,Hitachi Content Software for File為整個(gè)數(shù)據(jù)管理提供單一平臺(tái),實(shí)現(xiàn)了基于元數(shù)據(jù)的數(shù)據(jù)管理自動(dòng)化和智能化,實(shí)現(xiàn)跨越邊緣、核心和云的數(shù)據(jù)管理,消除數(shù)據(jù)孤島和多副本情況,單一命名空間也無(wú)需管理各層之間的數(shù)據(jù)移動(dòng),大幅簡(jiǎn)化了AI應(yīng)用帶來(lái)的復(fù)雜數(shù)據(jù)管理工作。

另外,Hitachi Content Software for File還擁有出色的靈活性,具備可以對(duì)接云的擴(kuò)展能力。例如,HCSF的快照功能,可以推送到任何S3對(duì)象存儲(chǔ),將快照數(shù)據(jù)存儲(chǔ)在云中,以方便日后使用,讓基礎(chǔ)設(shè)施根據(jù)應(yīng)用狀況來(lái)隨時(shí)調(diào)整工作負(fù)載資源,變得更加敏捷和靈活,廣泛滿(mǎn)足人工智能、機(jī)器學(xué)習(xí)和分析型程序的需求。

總體來(lái)看,Hitachi Content Software for File切中了當(dāng)前AI應(yīng)用的數(shù)據(jù)存儲(chǔ)痛點(diǎn),實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)在性能、容量、擴(kuò)展性、易用性和成本之間的平衡。面向未來(lái),隨著企業(yè)數(shù)字化轉(zhuǎn)型的逐漸深入,會(huì)有越來(lái)越多AI應(yīng)用成為企業(yè)的核心業(yè)務(wù),數(shù)據(jù)存儲(chǔ)不應(yīng)該成為AI應(yīng)用的攔路虎,而Hitachi Content Software for File解決方案的推出,有望幫助企業(yè)進(jìn)一步釋放數(shù)據(jù)潛力,也必然會(huì)給企業(yè)數(shù)字化轉(zhuǎn)型和AI應(yīng)用全面落地帶來(lái)更多價(jià)值。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2021-09-25
釋放數(shù)據(jù)潛力,為AI應(yīng)用提速是關(guān)鍵
例如,為了滿(mǎn)足擴(kuò)展性和容量的需求,很多企業(yè)之前會(huì)嘗試部署橫向擴(kuò)展NAS,但是傳統(tǒng)NAS幾乎都是為大文件場(chǎng)景而設(shè)計(jì),對(duì)于AI應(yīng)用涉及到的海量小文件場(chǎng)景非常容易造成性能瓶頸;而為了速度,通常會(huì)選擇基于塊

長(zhǎng)按掃碼 閱讀全文