中科院細(xì)胞所存儲進(jìn)化史:從數(shù)據(jù)抽屜發(fā)展到10PB數(shù)據(jù)平臺

“這就是課題組的全部研究成果。”科學(xué)家打開他的抽屜,里面塞滿了移動硬盤,這讓徐姚晨很是驚訝。將數(shù)據(jù)中心藏在抽屜里,顯然存在安全風(fēng)險(xiǎn),至少應(yīng)該進(jìn)行異地備份,而且如此“分散堆放”的存儲介質(zhì),也不利于后續(xù)在線的研究分析。

  從抽屜里的數(shù)據(jù)中心開始

這是15年前的“故事”,徐姚晨現(xiàn)任中科院分子細(xì)胞科學(xué)卓越創(chuàng)新中心信息建設(shè)與運(yùn)維部主管,他所在的研究所更是大有來頭。中科院生化與細(xì)胞所是中國生命科學(xué)領(lǐng)域,最具科研實(shí)力、最具影響力的國立研究機(jī)構(gòu)之一,曾經(jīng)成功破解牛胰島素拆分、合成的科學(xué)難題,這也可能是新中國成立后,最早接近諾獎的一項(xiàng)研究成果。

回到文章開篇所述,“抽屜里的數(shù)據(jù)中心”確實(shí)已經(jīng)稍顯原始。雖然55年前,中國的前輩科學(xué)家僅依靠分液漏斗、三頸反應(yīng)瓶,就可人工合成牛胰島素,但現(xiàn)在“抽屜里的數(shù)據(jù)中心”,顯然在制約后輩科學(xué)家的工作效率。

“2006年,上海生命科學(xué)研究院(2016年,上海生命科學(xué)研究院從中科院生化與細(xì)胞所獨(dú)立)建立了第一套300GB的存儲系統(tǒng),這已經(jīng)是當(dāng)時(shí)生命科學(xué)領(lǐng)域,較先進(jìn)的存儲系統(tǒng)。”徐姚晨回憶當(dāng)時(shí)的起步略有感慨?,F(xiàn)在來看,300GB的存儲容量確實(shí)小了一些,主流筆記本的硬盤配置也不只如此,甚至1TB移動硬盤的價(jià)格,還不到300元,但300GB的存儲就是研究所“平臺思維”的開始。

  一花一世界

“目前,研究所數(shù)據(jù)中心的容量已經(jīng)達(dá)到10PB,而且?guī)缀跞坎捎美顺钡脑O(shè)備。”徐姚晨將話跳至10余年后。而從GB到PB不僅是兩個(gè)數(shù)量級的差異,這更代表了IT技術(shù)與生命科學(xué)的深度融合。

其實(shí),2010年是一個(gè)重要時(shí)間節(jié)點(diǎn),生物科學(xué)的試驗(yàn)手段和試驗(yàn)設(shè)備,在此后均出現(xiàn)大規(guī)模更新?lián)Q代。當(dāng)然,此時(shí)需要采集的研究數(shù)據(jù)也呈現(xiàn)爆發(fā)式增長。而這背后,更隱含著對存儲空間、I/O性能、高并發(fā)性能的更高訴求,以及設(shè)備管理、子系統(tǒng)管理、數(shù)據(jù)管理等諸多問題。

這又是一個(gè)相對專業(yè)的話題。生物科學(xué)被譽(yù)為“21世紀(jì)的科學(xué)”,細(xì)胞生物學(xué)又是生命科學(xué)研究的最前沿領(lǐng)域。通過研究細(xì)胞的生命活動過程、基因調(diào)控,以及細(xì)胞與微環(huán)境的關(guān)系,即可了解細(xì)胞的健康活動和發(fā)育過程。解答人類壽命到底可以延長多久?是什么控制著器官再生?為什么人類基因會如此之多?等一系列問題。

所謂一花一世界,大致就可描述科學(xué)家對細(xì)胞的研究。因?yàn)轱@微成像、基因組學(xué)、蛋白質(zhì)組學(xué)檢測,均會產(chǎn)生海量數(shù)據(jù),而中科院生化與細(xì)胞所正是基于對上述課題的研究,決定進(jìn)行數(shù)據(jù)存儲設(shè)備采購,以數(shù)字化技術(shù)提升為細(xì)胞研究提速。

  數(shù)據(jù)存儲也必須分層

問題也是由此而來。

這里有必要對中科院生化與細(xì)胞所,再進(jìn)行詳細(xì)介紹。研究所下設(shè)數(shù)十個(gè)實(shí)驗(yàn)室,研究方向涵蓋:基因調(diào)控、RNA、表觀遺傳學(xué);蛋白質(zhì)科學(xué);細(xì)胞信號轉(zhuǎn)導(dǎo);細(xì)胞與干細(xì)胞生物學(xué);癌癥和其它重大疾病機(jī)理等五大前沿領(lǐng)域。

也就是說,研究所的存儲平臺峰值時(shí),需同時(shí)支撐超過70個(gè)課題組,近1000多名用戶。而且課題組的研究方向不一樣,試驗(yàn)手段不一樣,產(chǎn)生的數(shù)據(jù)類型也不一樣,調(diào)用和分析數(shù)據(jù)的方法更不一樣。

“科學(xué)家對計(jì)算和存儲一直十分挑剔。”徐姚晨開始解釋他的工作??梢韵胂?,科學(xué)家經(jīng)過幾天不眠不休,將小鼠數(shù)字化,而一旦數(shù)據(jù)丟失,所有的研究成果都將付諸東流。“所以,我們的工作就是讓科學(xué)家安心于科研。”

中科院細(xì)胞所存儲進(jìn)化史:從數(shù)據(jù)抽屜發(fā)展到10PB數(shù)據(jù)平臺

浪潮新存儲之道

經(jīng)過與浪潮解決方案專家的聯(lián)合研究,一套涵蓋計(jì)算、網(wǎng)絡(luò)、存儲、大數(shù)據(jù)、虛擬化、安全、備份等多種IT設(shè)備,可服務(wù)數(shù)據(jù)全生命周期的存儲解決方案,已經(jīng)部署于中科院細(xì)胞所,而且此解決方案已經(jīng)實(shí)現(xiàn)了“分層”,即特定的需求黏性聯(lián)接特定的產(chǎn)品,這樣冷、熱數(shù)據(jù)可以分層存儲使用,系統(tǒng)效率大幅度提升。

具體而言,在核心業(yè)務(wù)方面,浪潮存儲提供了由多套統(tǒng)一存儲構(gòu)建的統(tǒng)一數(shù)據(jù)資源池,用于承載生物細(xì)胞分析和研究的核心業(yè)務(wù)。浪潮存儲基于iTurbo智能引擎技術(shù),可以智能感知前端Lustre高性能計(jì)算業(yè)務(wù)的I/O負(fù)載,實(shí)現(xiàn)數(shù)據(jù)智能調(diào)度和智能管理,讓百萬級IOPS在存儲系統(tǒng)內(nèi)自由流動,大幅提升細(xì)胞研究的數(shù)據(jù)處理效率。

面對海量實(shí)驗(yàn)室數(shù)據(jù),浪潮存儲提供了分布式存儲平臺?;诜植际饺珜ΨQ架構(gòu),不僅能保證所有節(jié)點(diǎn)的數(shù)據(jù)一致性,而且隨著細(xì)胞研究數(shù)據(jù)量的增加,還可以靈活擴(kuò)展存儲節(jié)點(diǎn),最大可擴(kuò)展至EB級,輕松容納海量實(shí)驗(yàn)室數(shù)據(jù)。同時(shí),浪潮分布式存儲還能以一套存儲并發(fā)提供文件、塊、對象,以及大數(shù)據(jù)四種存儲服務(wù),滿足文件共享、云計(jì)算、大數(shù)據(jù)等不同業(yè)務(wù)的訪問需求。

  浪潮對需求的理解會說話

這里再插播一個(gè)小故事。數(shù)年前,浪潮推出分布式存儲系統(tǒng),徐姚晨看到新聞很是激動,彼時(shí)本土科技企業(yè)尚無人推出類似產(chǎn)品,但徐姚晨又暫時(shí)無法說服他的同事,因?yàn)榭茖W(xué)研究可以永遠(yuǎn)鼓勵創(chuàng)新嘗試,但支撐科學(xué)研究又不允許他去嘗試。

現(xiàn)在已經(jīng)時(shí)過境遷。如今的本土存儲系統(tǒng),更像一個(gè)既會賺錢,又愛家庭的男人。因?yàn)樗麄兊漠a(chǎn)品會說話,浪潮已經(jīng)具有從軟件到硬件的全棧自研能力,也因?yàn)樗麄儗τ脩粜枨蟮睦斫飧鼤f話,所有特定需求都會得到滿足。

中科院細(xì)胞所存儲進(jìn)化史:從數(shù)據(jù)抽屜發(fā)展到10PB數(shù)據(jù)平臺

浪潮存儲

其實(shí),浪潮一直與國內(nèi)多家高校和研究所,保持著緊密的合作。這也使其有機(jī)會接觸到更前沿的應(yīng)用需求,研制出更具創(chuàng)新價(jià)值的產(chǎn)品功能。舉例說明,基于與復(fù)旦大學(xué)在腦科學(xué)領(lǐng)域的合作,浪潮形成了“軟拷貝”技術(shù);基于與清華大學(xué)在RUSH腦成像領(lǐng)域的合作,浪潮存儲提供了成熟的“回收站”技術(shù)。此外,浪潮在存儲領(lǐng)域首創(chuàng)的零拷貝、閃搜索等技術(shù),也都源自于科研院所的合作。

而回到中科院生化與細(xì)胞所的應(yīng)用,IT系統(tǒng)正在成為研究所之“膽”。浪潮存儲為細(xì)胞研究配置了,業(yè)界首創(chuàng)的文件系統(tǒng)級別的回收站功能,防止多人操作同一源數(shù)據(jù)時(shí),重要文件誤刪除。同時(shí)通過糾刪碼+副本的方式,進(jìn)一步為數(shù)據(jù)提供保護(hù)。

而在數(shù)據(jù)保護(hù)方面,浪潮存儲為中科院細(xì)胞所提供了備份軟件、浪潮磁帶庫相結(jié)合的數(shù)據(jù)備份方案,采用LAN FREE和LAN備份方式實(shí)現(xiàn)集中、統(tǒng)一、快速、自動的數(shù)據(jù)備份,降低數(shù)據(jù)丟失風(fēng)險(xiǎn)。

也正是基于上述解決方案,正是基于浪潮與研究所的合作,“動物復(fù)雜性狀的進(jìn)化解析與調(diào)控”等一批重點(diǎn)科研項(xiàng)目,得以順利進(jìn)行。“而這些項(xiàng)目,正是科學(xué)家原本在計(jì)算與存儲方面不敢做,也做不動的課題。”徐姚晨最后說。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )