DeeCamp2022?結(jié)營:蛋白質(zhì)組學(xué)AI大數(shù)據(jù)模型奪冠

8月31日消息,DeeCamp2022人工智能訓(xùn)練營總冠軍答辯暨結(jié)營典禮今日在創(chuàng)新工場北京總部舉行。經(jīng)過精彩答辯,挑戰(zhàn)大規(guī)模蛋白質(zhì)組學(xué)信息發(fā)現(xiàn)賽題的ProteinMiner團(tuán)隊摘得DeeCamp2022總冠軍的榮譽(yù),另外五支隊伍獲得優(yōu)勝獎。

DeeCamp人工智能訓(xùn)練營是創(chuàng)新工場發(fā)起的一項面向全球大學(xué)生的公益項目,專注培養(yǎng)應(yīng)用型AI人才,迄今已經(jīng)舉辦六屆。

此次DeeCamp2022的主題是“用AI探索生命科學(xué)新邊界”,由創(chuàng)新工場和清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)聯(lián)合主辦,來自全球各個地區(qū)頂尖高校的計算機(jī)、生命科學(xué)等專業(yè)的150位學(xué)員自發(fā)組成30支隊伍,經(jīng)過兩個月的課程學(xué)習(xí)和項目實踐,最終共六支隊伍入圍最終答辯環(huán)節(jié)。

創(chuàng)新工場董事長兼CEO李開復(fù)、清華?學(xué)智能產(chǎn)業(yè)研究院(AIR)院長張亞勤、沙特阿卜杜拉國王科技大學(xué)終身正教授兼中國人民大學(xué)高瓴人工智能學(xué)院訪問講座教授高欣、深圳灣實驗室系統(tǒng)與物理生物學(xué)所資深研究員周耀旗、清華大學(xué)智能產(chǎn)業(yè)研究院副院長劉洋、清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)首席研究員聶再清、中國人民大學(xué)數(shù)學(xué)科學(xué)研究員龔新奇、創(chuàng)新工場執(zhí)行董事兼前沿科技基金總經(jīng)理任博冰擔(dān)任評委并出席了結(jié)營典禮。

創(chuàng)新工場董事長兼CEO、HICOOL商學(xué)院榮譽(yù)院長李開復(fù)表示,AI+科學(xué)交叉是創(chuàng)新工場預(yù)測未來5到10年間會引爆的創(chuàng)新增長新范式,AI+生命科學(xué)更是造福人類、影響深遠(yuǎn)的黃金賽道。這也是6年來一貫倡導(dǎo)“學(xué)以致用”的DeeCamp首次聚焦AI+生命科學(xué)這一命題的深意所在。這次入圍總決賽的6支團(tuán)隊都是由AI和生命科學(xué)相關(guān)專業(yè)的優(yōu)秀同學(xué)組成,在頂尖科研、產(chǎn)業(yè)導(dǎo)師指導(dǎo)下,在蛋白質(zhì)結(jié)構(gòu)預(yù)測、全基因組表達(dá)預(yù)測等各種場景進(jìn)行探索,挑戰(zhàn)了多個真實世界的難題。很高興決賽同學(xué)在這次大賽中脫穎而出,期待在不久的將來,成為中國“AI+生命科學(xué)”賽道的創(chuàng)新先鋒。我期許有志創(chuàng)業(yè)的DeeCamp同學(xué),也可以把這次的項目實踐視為產(chǎn)業(yè)價值的初步探索,同時關(guān)注幫助高科技創(chuàng)業(yè)者的北京HICOOL創(chuàng)業(yè)大賽及HICOOL商學(xué)院的豐富資源。

DeeCamp2022聯(lián)合主辦方、清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)院長張亞勤院士表示:“生命科學(xué)與生物醫(yī)藥領(lǐng)域正在步入數(shù)字化 3.0時代,以人工智能和數(shù)據(jù)驅(qū)動的第四科學(xué)研究范式,將輔助人類探索并解決生命健康的問題,加速生命健康與生物醫(yī)藥領(lǐng)域向著更快速、更精準(zhǔn)、更安全、更普惠的方向穩(wěn)步發(fā)展。這既是AI for Science的重大機(jī)遇,同時也將造福全人類。我很高興做為本次DeeCamp導(dǎo)師和評委,過去兩個多月,我看到同學(xué)們在“AI+生命科學(xué)”的大命題下,積極探索AI與生命科學(xué)的交叉發(fā)展之路,也都取得了不錯的成果。最后,再次祝賀冠軍團(tuán)隊,也希望同學(xué)們都學(xué)有所成,滿載而歸!”

再次參賽終奪冠,致力推動個性化免疫治療發(fā)展

在整個上午的精彩答辯后,創(chuàng)新工場董事長兼CEO李開復(fù)對六支入圍隊伍表示了肯定:“本次大賽中,同學(xué)們都有令人驚艷的表現(xiàn),特別是在短短的一個月時間就圍繞創(chuàng)新的課題獲得出色的成果。創(chuàng)新工場非常關(guān)注生物計算的發(fā)展,已經(jīng)圍繞‘AI+遺傳中心法則’方面孵化了多家公司,包括AI+基因編輯、AI+蛋白、AI+RNA等。本屆DeeCamp同學(xué)們的表現(xiàn)讓創(chuàng)新工場對這些前沿領(lǐng)域的創(chuàng)新突破充滿了期待,期待新世代AI+生命科學(xué)的人才投入,為未來生物計算帶來更多驚喜?!?/p>

清華?學(xué)智能產(chǎn)業(yè)研究院(AIR)院長張亞勤院士表示,很高興繼續(xù)和創(chuàng)新工場聯(lián)合主辦本屆DeeCamp。生命科學(xué)領(lǐng)域步入數(shù)字化3.0時代,DeeCamp2022聚焦AI+生命科學(xué),不僅代表了當(dāng)下整個科學(xué)界的研究趨勢,也代表了中國的科技和產(chǎn)業(yè)發(fā)展趨勢。AI與數(shù)據(jù)賦能的全新的科學(xué)范式,不僅會提高科學(xué)研究的效率,也將會造福整個人類社會。

隨后,張亞勤院士公布了DeeCamp2022總冠軍榮譽(yù)的歸屬。挑戰(zhàn)大規(guī)模蛋白質(zhì)組學(xué)信息發(fā)現(xiàn)賽題的ProteinMiner團(tuán)隊,成為本屆DeeCamp的年度冠軍團(tuán)隊。

蛋白質(zhì)是生命活動的真正承擔(dān)者。獲取蛋白質(zhì)的序列和結(jié)構(gòu)信息,對于疾病的研究、藥物的研發(fā)尤為重要。質(zhì)譜作為一種生物表征儀器,在蛋白質(zhì)測序領(lǐng)域有著支配性的地位。但面對大規(guī)模的未知序列蛋白,現(xiàn)有的質(zhì)譜從頭測序技術(shù)仍面臨精度低的問題,而這是推動新抗原發(fā)現(xiàn)驅(qū)動的個性化免疫療法亟待解決的難題。

ProteinMiner立足于AI與大數(shù)據(jù)驅(qū)動的蛋白質(zhì)的質(zhì)譜測序技術(shù),致力于提升大規(guī)模地發(fā)現(xiàn)未知的蛋白序列與結(jié)構(gòu)信息的能力。ProteinMiner首次提出預(yù)訓(xùn)練的AI譜圖語言大模型,提升質(zhì)譜從頭測序的精度,加速免疫相關(guān)的新抗原/抗體的發(fā)現(xiàn),以推動個性化免疫治療的進(jìn)程。此外,ProteinMiner提出譜圖分類深度模型,實現(xiàn)快速的交聯(lián)質(zhì)譜數(shù)據(jù)的鑒定,構(gòu)建實驗數(shù)據(jù)支撐的組學(xué)規(guī)模的蛋白質(zhì)空間距離信息數(shù)據(jù)庫。

ProteinMiner團(tuán)隊的組建來源于大家多次合作的信任,隊長毛鵬志是中科院計算所計算蛋白質(zhì)組學(xué)/信息檢索方向的博士生,隊員還包括香港中文大學(xué)(深圳)計算機(jī)視覺碩博生葉崇杰、中科院計算所生物信息學(xué)博士生齊曉寧、香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)本科生薛浩楠。

DeeCamp2022總冠軍

奪冠后,隊長毛鵬志表示,很感謝DeeCamp2022提供的資源和平臺,讓自己能夠找到志同道合的成員們,把自己的想法落地為實踐,有機(jī)會取得學(xué)術(shù)和應(yīng)用場景的突破。“一切才剛剛開始。這次奪冠是我們?nèi)〉玫男〉睦锍瘫覀儠^續(xù)堅持做下去,希望能夠做出對學(xué)術(shù)界有影響,幫助產(chǎn)業(yè)界降本增效,帶來實際的效益的產(chǎn)品。這條路還有很遠(yuǎn),非常感謝和珍惜DeeCamp為我們提供了啟動資金?!?/p>

毛鵬志與團(tuán)隊成員葉崇杰都是第二次參加DeeCamp,去年他們也曾在一個團(tuán)隊并肩奮斗,雖然鎩羽而歸但反而激發(fā)再次參賽的斗志。葉崇杰說,“第二次參加DeeCamp,是出于對DeeCamp和組委會的信任,也是由于對伙伴的信賴。我和鵬志有共同的愿景,我也相信他的能力和責(zé)任心,能夠帶領(lǐng)我們?nèi)〉贸晒Α!?/p>

值得一提的是,隊伍里的薛浩楠同學(xué),剛剛升入本科三年級的學(xué)習(xí)。被問到參與科研高手云集的DeeCamp2022的感受時,他表示,自己非常珍惜DeeCamp提供的機(jī)會,不僅能夠深度體驗技術(shù)落地與功能實現(xiàn),還能夠一窺生物信息這個當(dāng)下最前沿的技術(shù)領(lǐng)域。這些都是自己在課堂上難以一線接觸到業(yè)界前沿技術(shù)+產(chǎn)業(yè)實踐的機(jī)會,未來自己也有志繼續(xù)在工程領(lǐng)域繼續(xù)探索和成長。

另外五支入圍總決賽的隊伍獲得了優(yōu)勝獎。

以鎂伽科技為產(chǎn)業(yè)導(dǎo)師的「InfGene團(tuán)隊」結(jié)合神經(jīng)網(wǎng)絡(luò)和樹模型的優(yōu)勢,發(fā)現(xiàn)分形自編碼器(FAE)可以選取相比 L1000 Panel更加精簡的代表性基因集作為特征,在XGBoost模型上達(dá)到比L1000 Panel更優(yōu)的全基因組表達(dá)預(yù)測表現(xiàn)。該方法可進(jìn)一步節(jié)約大規(guī)模測量成本,形成可專利的新Panel,并拓展應(yīng)用至建立組織特異性Panel,推動精準(zhǔn)醫(yī)療。

多肽藥物因獨特的理化性質(zhì)在現(xiàn)今的醫(yī)藥市場占據(jù)較高的份額,而親和力是判斷其能否成藥的首要步驟。「Another random number團(tuán)隊」發(fā)現(xiàn)在多肽中廣泛存在著非標(biāo)準(zhǔn)殘基,這些殘基在提高與蛋白的親和力、改善進(jìn)入生物體內(nèi)的各項性質(zhì)起著至關(guān)重要的作用。為此,團(tuán)隊采用了大規(guī)模的預(yù)訓(xùn)練模型學(xué)習(xí)了蛋白與多肽的序列信息,并將多肽的結(jié)構(gòu)信息作為特征引入模型訓(xùn)練,以期開發(fā)一個能夠準(zhǔn)確預(yù)測多肽與蛋白的親和力,為多肽藥物的親和力篩選及體內(nèi)性質(zhì)改造提供幫助。

藥物研發(fā)主要通過藥物來抑制目標(biāo)蛋白(PoI)的活性來發(fā)揮作用。目前主流的做法是找到一種小分子藥物通過bind到蛋白活性區(qū)域上,從而讓蛋白無法發(fā)揮功能。但不是所有蛋白都有這種蛋白結(jié)合口袋,事實上人體內(nèi)只有大約2%的蛋白可以成藥。而PROTAC技術(shù)可以通過利用身體內(nèi)自有的蛋白降解過程,給PoI打上降解標(biāo)記,從而直接把PoI直降解掉。這其中,預(yù)測PROTAC三元復(fù)合體的結(jié)構(gòu)是PROTAC研究的關(guān)鍵一環(huán)。Alphinity團(tuán)隊聚焦三元復(fù)合體的結(jié)構(gòu)預(yù)測,利用pre-train的歐式等變圖神經(jīng)網(wǎng)絡(luò)提出了該領(lǐng)域的第一個AI解決方案,將一次inference的時間從小時級降低到秒級,希望可以為PROTAC的研發(fā)帶來新的可能。

「Maifold團(tuán)隊」利用AlphaFold2及AlphaFoldMultimer預(yù)測得到的蛋白結(jié)構(gòu),對已知會發(fā)生相分離的蛋白或蛋白復(fù)合體進(jìn)行結(jié)構(gòu)預(yù)測。再結(jié)合圖神經(jīng)網(wǎng)絡(luò)對蛋白質(zhì)結(jié)構(gòu)進(jìn)行表征,通過GCN的方法訓(xùn)練分類模型,對蛋白單體或蛋白復(fù)合體的相分離能力進(jìn)行預(yù)測。

「酶有你我怎么活啊」隊伍整理了BRENDA數(shù)據(jù)庫和文獻(xiàn)中的Km和Kcat數(shù)據(jù),形成了初步的數(shù)據(jù)集。通過公開的數(shù)據(jù)集,團(tuán)隊整理了酶與底物的負(fù)例數(shù)據(jù),并將酶的序列和AlphaFold預(yù)測的結(jié)構(gòu)進(jìn)行了匹配,形成了包含酶結(jié)構(gòu)數(shù)據(jù)的酶活性數(shù)據(jù)集。通過自然斷點法將酶活性的值進(jìn)行了等級劃分,規(guī)定了酶的活性等級從而進(jìn)行分類預(yù)測?;趖ransformer模型,綜合考慮酶序列、酶結(jié)構(gòu)與化合物數(shù)據(jù)對酶活性進(jìn)行預(yù)測,并評估了效果。

四組專項冠軍,直指生物醫(yī)療技術(shù)與社會痛點

最后,由沙特阿卜杜拉國王科技大學(xué)的高欣教授公布了DeeCamp2022四支專項冠軍隊伍的歸屬。

最佳創(chuàng)新獎的得主DeepStruction團(tuán)隊設(shè)計了可用于藥物發(fā)現(xiàn)的端到端分子生成平臺Molecule Brewer,提供網(wǎng)頁端一站式、個性化服務(wù)。團(tuán)隊基于多模態(tài)思想,構(gòu)建了“結(jié)構(gòu)+序列”的分子生成模型,集成并挖掘蛋白多構(gòu)象結(jié)構(gòu)信息,高效預(yù)測蛋白-分子親和性,可視化蛋白關(guān)鍵位點,助力靶點發(fā)現(xiàn)及蛋白改造。團(tuán)隊原創(chuàng)的BrewerScore類藥性打分函數(shù),相比QED有更低假陽性率,所搭建的21個藥物相關(guān)分子性質(zhì)預(yù)測模型在TDC榜單均名列前茅,有效提高了藥物分子篩選效率?;谠撈脚_,團(tuán)隊還創(chuàng)設(shè)了單蛋白孤兒病-靶點-潛在藥物分子數(shù)據(jù)庫,以AI之名,饗公益之心。

最佳技術(shù)獎的得主AlphaMed團(tuán)隊系統(tǒng)地探索了主流的人工智能蛋白質(zhì)設(shè)計方法,并提出了能夠取得更先進(jìn)效果的新方法Adesign。他們的方法引入了角度信息,為神經(jīng)網(wǎng)絡(luò)注入蛋白主鏈序列先驗信息,簡化了蛋白圖編碼器,并在解碼器端移除自回歸機(jī)制來提高模型的推理效率。Adesign模型在AlphaFold DB和真實數(shù)據(jù)集CATH 4.2上,分別取得了超過60%和51%的準(zhǔn)確率;在推理速度上較此前的方法快至少40倍,達(dá)到了毫秒級高效蛋白質(zhì)設(shè)計的效果。

作為藥物合成中的關(guān)鍵步驟,先導(dǎo)優(yōu)化由于依賴專家憑經(jīng)驗設(shè)計,并需要反復(fù)合成進(jìn)行實驗驗證,也成為藥物合成中花費最高、時間最長的步驟之一。為解決這個問題,啊對對隊團(tuán)隊打造了面向藥物化學(xué)工作者的智能先導(dǎo)化合物優(yōu)化平臺DiffLead,利用人工智能指導(dǎo)化合物優(yōu)化,縮短研發(fā)周期、降低成本。平臺創(chuàng)新性地提出了條件等變原子擴(kuò)散算法,在擴(kuò)散過程中充分考慮到先導(dǎo)化合物的等變性和蛋白質(zhì)口袋的條件信息,并手動收集了首個真實先導(dǎo)優(yōu)化數(shù)據(jù)集PDBLead用于訓(xùn)練,提升了優(yōu)化后化合物與蛋白質(zhì)口袋的親和力。團(tuán)隊也斬獲了DeeCamp2022最具產(chǎn)業(yè)價值獎。

目前,數(shù)千萬中國人正遭受罕見病的折磨,而單個罕見病市場小,信息分散,新藥開發(fā)極為困難。目前急需能高效整合疾病信息,啟發(fā)藥物研發(fā)的工具。為此,最具社會價值獎得主make一起贏隊伍,以臨床知識圖譜為基礎(chǔ),聚焦罕見病,從藥物、疾病及多組學(xué)角度進(jìn)行拓展,從而整合藥理學(xué)、遺傳學(xué)和病理學(xué)等相關(guān)生物數(shù)據(jù)及利用NLP的文獻(xiàn)信息,形成面向醫(yī)生、患者、藥企、研究院所四類用戶且具有生物解釋性的罕見病知識圖譜,并獲得具有啟發(fā)性的罕見病相關(guān)潛在信息。

聚焦AI+生命科學(xué),探索前沿科技改變?nèi)祟惷\(yùn)

人工智能+生命科學(xué)的交叉在2021進(jìn)入爆發(fā)元年。在 Science雜志發(fā)布的2021年度十大突破中,其中六項都來自生物學(xué)和醫(yī)學(xué)領(lǐng)域,人工智能蛋白結(jié)構(gòu)預(yù)測技術(shù)AlphaFold和RoseTTAFold成功預(yù)測蛋白質(zhì)結(jié)構(gòu)更是被評為最大突破。

隨著高通量技術(shù)的發(fā)展,生物大數(shù)據(jù)出現(xiàn)膨脹式增長,AI算法在生命科學(xué)中得到了廣泛的應(yīng)用。例如隨機(jī)森林(Random Forest)算法可以用于對性狀相關(guān)基因組水平突變位點的預(yù)測;卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)被廣泛應(yīng)用于蛋白質(zhì)基團(tuán)間距計算及醫(yī)療影像識別技術(shù)等。AI與生命科學(xué)協(xié)同進(jìn)化,不斷延伸出新的科學(xué)邊界,AI與計算生物學(xué)、合成生物學(xué)、藥物研發(fā)結(jié)合而催生的新交叉領(lǐng)域,正在以前所未有的進(jìn)度被開墾著。

DeeCamp在2017年由創(chuàng)新工場發(fā)起,從最初小規(guī)模的實驗性訓(xùn)練營,到今天每年培訓(xùn)幾百名來自高校的AI+人才,旨在為學(xué)生提供技術(shù)學(xué)習(xí)、工程實踐、產(chǎn)品轉(zhuǎn)化和商業(yè)思考的完整過程,推進(jìn)產(chǎn)學(xué)研深度結(jié)合。

2022年,第六屆DeeCamp首次聚焦AI+生命科學(xué)領(lǐng)域,以“用AI探索生命科學(xué)新邊界”為主題,號召全球 AI和生命科學(xué)領(lǐng)域的菁英們,迎接最激動人心的挑戰(zhàn),探究改變?nèi)祟惷\(yùn)的可能性,助力生命科學(xué)領(lǐng)域中國AI應(yīng)用型人才培養(yǎng)。

舉辦至今,DeeCamp已累計收到2萬余名在校大學(xué)生報名,錄取并培養(yǎng)了1500余名學(xué)員,是目前規(guī)模最大、周期最長、最具特色的AI公益訓(xùn)練營。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2022-08-31
DeeCamp2022?結(jié)營:蛋白質(zhì)組學(xué)AI大數(shù)據(jù)模型奪冠
8月31日消息,DeeCamp2022人工智能訓(xùn)練營總冠軍答辯暨結(jié)營典禮今日在創(chuàng)新工場北京總部舉行。

長按掃碼 閱讀全文