突破數(shù)據(jù)分析瓶頸,尋因生物單細(xì)胞測(cè)序數(shù)據(jù)分析邁入云時(shí)代

  世上沒(méi)有兩片完全相同的樹(shù)葉,人體內(nèi)的每?jī)蓚€(gè)細(xì)胞也是截然不同的。長(zhǎng)久以來(lái),基因檢測(cè)技術(shù)主要是在組織層面對(duì)樣本進(jìn)行解析,獲得的是成千上萬(wàn)個(gè)細(xì)胞的平均值,但這會(huì)讓很多信息是被隱匿,對(duì)疾病的認(rèn)知和理解存在很大的障礙。

  單細(xì)胞檢測(cè)技術(shù)將基因檢測(cè)的水平提升到了單細(xì)胞的精度,可以揭示每一個(gè)細(xì)胞的細(xì)微變化,對(duì)疾病的認(rèn)知、診療方式的改變、藥物研發(fā)的方式提供了更好的方法。而其中,高通量測(cè)序(NGS)技術(shù)因其高度準(zhǔn)確性和特異性成為了單細(xì)胞測(cè)序的理想工具。

  尋因生物,是一家自主研發(fā)單細(xì)胞技術(shù)的精準(zhǔn)醫(yī)療生物醫(yī)藥企業(yè),致力于通過(guò)國(guó)產(chǎn)高通量單細(xì)胞全鏈條產(chǎn)品及服務(wù),將單細(xì)胞技術(shù)普適化,應(yīng)用于臨床及藥物研發(fā),推動(dòng)相關(guān)疾病研究。

  通常,單細(xì)胞測(cè)序工作流程包含單細(xì)胞樣本制備、單細(xì)胞分離和文庫(kù)制備、測(cè)序和初級(jí)分析、數(shù)據(jù)可視化和解讀四個(gè)步驟。作為國(guó)內(nèi)獨(dú)家擁有微孔芯片與油包水雙技術(shù)平臺(tái)的尋因生物來(lái)說(shuō),單細(xì)胞樣本制備、單細(xì)胞分離和文庫(kù)制備是其強(qiáng)項(xiàng)。同時(shí),尋因生物具有完備的數(shù)據(jù)分析和解讀能力,底層分析計(jì)算效率的提升十分必要。

  據(jù)悉,在單細(xì)胞測(cè)序數(shù)據(jù)分析環(huán)節(jié),業(yè)界普遍存在數(shù)據(jù)量大、分析時(shí)間長(zhǎng)的挑戰(zhàn)。僅一個(gè)單細(xì)胞測(cè)序文件的大小可達(dá)100GB以上,而隨著一個(gè)單細(xì)胞項(xiàng)目包含的樣本量越來(lái)越多,可能產(chǎn)生數(shù)百GB甚至TB級(jí)的細(xì)胞數(shù)據(jù);同時(shí),單細(xì)胞數(shù)據(jù)的分析復(fù)雜,需要反復(fù)做數(shù)據(jù)讀取和參數(shù)調(diào)整,所以處理海量細(xì)胞樣本的分析任務(wù)通常需要數(shù)小時(shí)甚至數(shù)天才能完成。因此,超大數(shù)據(jù)量和分析復(fù)雜性所導(dǎo)致的任務(wù)并發(fā)度低和數(shù)據(jù)加載速率慢是未來(lái)單細(xì)胞分析性能的主要瓶頸之一。

  在單細(xì)胞測(cè)序數(shù)據(jù)分析過(guò)程中,每個(gè)細(xì)胞的表達(dá)量數(shù)據(jù)高達(dá)數(shù)十萬(wàn)條讀取 (reads),產(chǎn)生的數(shù)據(jù)更是要大得多,這種海量級(jí)的數(shù)據(jù)分析對(duì)云主機(jī)的內(nèi)存容量提出了更高的要求。而通用的云主機(jī)的內(nèi)存容量與CPU配比有限,單細(xì)胞的分析任務(wù)常會(huì)出現(xiàn)因內(nèi)存不足而導(dǎo)致運(yùn)行失敗;而選用傳統(tǒng)的大內(nèi)存云主機(jī),不僅要付出更加高昂的成本,而且會(huì)造成CPU算力的浪費(fèi)。所以,內(nèi)存容量的限制使尋因生物不得不將樣本參數(shù)調(diào)低來(lái)滿(mǎn)足運(yùn)行任務(wù)。此外,通用的云主機(jī)僅能支持運(yùn)行一個(gè)單細(xì)胞分析任務(wù),在測(cè)序任務(wù)多的情況下,尋因生物只能將多任務(wù)排隊(duì)執(zhí)行,非常耗時(shí);同時(shí),在測(cè)序數(shù)據(jù)分析過(guò)程中,每次臨時(shí)數(shù)據(jù)在磁盤(pán)上的導(dǎo)出和加載(IO)過(guò)程長(zhǎng)達(dá)1000秒,隨著數(shù)據(jù)集的持續(xù)增長(zhǎng),這種處理速度阻礙了預(yù)期的研究發(fā)現(xiàn)時(shí)間。

  當(dāng)前,尋因生物將單細(xì)胞測(cè)序分析任務(wù)部署在了第三代英特爾® 至強(qiáng)® 可擴(kuò)展處理器 (代號(hào): Ice Lake) 和 英特爾® 傲騰™ 持久內(nèi)存的阿里云i4p持久內(nèi)存型實(shí)例上,并在實(shí)例中使用了MemVerge公司開(kāi)發(fā)的 Memory Machine大內(nèi)存軟件,不但完全消除磁盤(pán)讀寫(xiě)帶來(lái)的IO瓶頸,幫助尋因生物成功地運(yùn)行了多細(xì)胞數(shù)、大樣本的測(cè)序數(shù)據(jù)分析任務(wù),并能通過(guò)Memory Machine的ZeroIO內(nèi)存快照功能使數(shù)據(jù)導(dǎo)出和加載從原來(lái)的1000秒降至2.5秒,將數(shù)據(jù)讀取的效率提升了兩個(gè)數(shù)量級(jí)。

  阿里云i4p持久內(nèi)存實(shí)例是阿里云基于英特爾® 傲騰™ 持久內(nèi)存推出的第二代持久內(nèi)存實(shí)例,傲騰® 持久內(nèi)存讓高性?xún)r(jià)比的大容量?jī)?nèi)存與對(duì)數(shù)據(jù)持久性的支持巧妙地結(jié)合在一起,將更多數(shù)據(jù)保存在更靠近CPU的地方,加速了大內(nèi)存計(jì)算, 可以說(shuō)重新定義了傳統(tǒng)的兩級(jí)存儲(chǔ)架構(gòu)。

  除基本vCPU和內(nèi)存外,阿里云i4p實(shí)例還配置了持久內(nèi)存資源,極大地?cái)U(kuò)展了主機(jī)的內(nèi)存容量,讓內(nèi)存中可以存放更多數(shù)據(jù)用于測(cè)序數(shù)據(jù)分析,同時(shí)并發(fā)運(yùn)行更多的測(cè)序任務(wù),相對(duì)于傳統(tǒng)普通大內(nèi)存實(shí)例,i4p持久內(nèi)存實(shí)例可以幫助用戶(hù)打破“內(nèi)存墻”藩籬,獲得更高性能的同時(shí),有效降低整體IT基礎(chǔ)設(shè)施擁有成本(TCO)。

  MemVerge開(kāi)發(fā)的Memory Machine大內(nèi)存虛擬化軟件,可運(yùn)行在i4p持久內(nèi)存實(shí)例中,將其中的持久內(nèi)存和普通內(nèi)存進(jìn)行融合,可以透明地使用大內(nèi)存資源,無(wú)需對(duì)應(yīng)用進(jìn)行改造,即可充分發(fā)揮持久內(nèi)存的全部性能;其軟件的高級(jí)功能“ZeroIO內(nèi)存快照”,可以完全避免臨時(shí)數(shù)據(jù)的磁盤(pán)IO過(guò)程,實(shí)現(xiàn)客戶(hù)應(yīng)用性能的飛躍。同時(shí)通過(guò)阿里云計(jì)算巢還實(shí)現(xiàn)了Memory Machine大內(nèi)存虛擬化軟件與云平臺(tái)的標(biāo)準(zhǔn)化集成,實(shí)現(xiàn)快速的軟件交付部署和標(biāo)準(zhǔn)化的運(yùn)維管理,大幅提升了業(yè)務(wù)效率。

  “這能夠使我們的單細(xì)胞數(shù)據(jù)分析業(yè)務(wù)完全消除IO瓶頸,并在實(shí)際的分析任務(wù)中將持久內(nèi)存的大容量能力充分利用起來(lái),讓任務(wù)的并發(fā)能力提升了5倍以上,且該方案能讓多細(xì)胞數(shù),大樣本任務(wù)能順利地運(yùn)行成功,對(duì)提高我們生信用戶(hù)的業(yè)務(wù)吞吐能力和工作效率有非常大的助力。”尋因生物公司生物部張廣鑫表示。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )