AlphaFold2爆火背后,人類為什么要死磕蛋白質(zhì)?

原標(biāo)題:AlphaFold2爆火背后,人類為什么要死磕蛋白質(zhì)?

近期在生命科學(xué)領(lǐng)域,有一則爆炸性的新聞,DeepMind 的Al phaFold2模型,將人類的98.5%的蛋白質(zhì),全部預(yù)測了一遍,并且做成了數(shù)據(jù)集免費(fèi)開源,供科研圈的人使用。

開放的數(shù)據(jù)集不僅包括人類蛋白質(zhì)組,還有大腸桿菌、果蠅、小鼠等20個(gè)具有科研常用生物的蛋白質(zhì)組數(shù)據(jù),總計(jì)超過35萬個(gè)蛋白質(zhì)的結(jié)構(gòu)。AlphaFold2模型的目標(biāo)是為所有具有已知序列的蛋白提供預(yù)測結(jié)構(gòu)。Deepmind計(jì)劃在年底將預(yù)測數(shù)量增加到1.3億個(gè),而這個(gè)數(shù)量已經(jīng)達(dá)到了人類已知蛋白質(zhì)總數(shù)的一半。

科研圈因?yàn)檫@一新聞都炸鍋了,平時(shí)需要花費(fèi)數(shù)月、數(shù)年的才能完成的事情,只需要幾天就可以搞定,大家無一不在贊嘆這個(gè)具有劃時(shí)代意義的時(shí)刻。DeepMind聯(lián)合創(chuàng)始人兼CEO Demis Hassabis談道:“我認(rèn)為這是DeepMind整個(gè)10年多生命周期的頂峰。”對于研究人員來說,豐富的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)有了,開展下一步的研究就順暢了。

內(nèi)行人看門道,外行人看熱鬧,對于學(xué)術(shù)圈人的集體高潮,外行人的內(nèi)心都有個(gè)大大的問號,預(yù)測這么多的蛋白質(zhì)結(jié)構(gòu)究竟有什么卵用?人類為何一直在和蛋白質(zhì)死磕?

研究蛋白質(zhì)的意義

回答這個(gè)問題之前,不得不提及生命科學(xué)領(lǐng)域最重要的中心法則:遺傳信息在細(xì)胞內(nèi)的生物大分子間轉(zhuǎn)錄從DNA→RNA→蛋白質(zhì)。

如何理解呢?在生物世代繁衍的過程中,生物會把自身攜帶的遺傳物質(zhì)DNA分子,通過復(fù)制傳遞給后代,而在每一代生物從生到死的過程中,這套DNA分子以自身為設(shè)計(jì)藍(lán)圖,指導(dǎo)生產(chǎn)大量的蛋白質(zhì)分子,執(zhí)行支持生物生存和活動的全部功能。

中心法則的一端是DNA,一端是蛋白質(zhì),DNA可以看做是工廠里面生產(chǎn)制造的設(shè)計(jì)圖紙,而蛋白質(zhì)就是有各種功能的零部件,造出來的蛋白質(zhì)有的跑去參與體內(nèi)各種生物化學(xué)反應(yīng),比如食物的消化有各種酶的參與,有的在血液中(血紅蛋白)積極的運(yùn)輸養(yǎng)料,有的作為信使在細(xì)胞之間傳遞信號,有的作為衛(wèi)士,參與生物體的免疫大戰(zhàn),各種設(shè)計(jì)組裝出廠的不同蛋白質(zhì)可以讓遺傳、發(fā)育、繁殖、代謝等生命活動正常運(yùn)行開展。

對蛋白質(zhì)進(jìn)行系統(tǒng)深入的研究,能讓我們從更深層次詮釋生命體的構(gòu)成和運(yùn)作變化規(guī)律,進(jìn)而全面揭示生命運(yùn)行、發(fā)展的機(jī)制,激發(fā)生物科學(xué)、藥物研發(fā)、合成生物學(xué)方面的發(fā)展。

我們在中學(xué)就已經(jīng)簡單了解過蛋白質(zhì)了。蛋白質(zhì)是生物構(gòu)成的重要基本物質(zhì),由各種氨基酸組成,其排列方式和位置的差異使得其種類極其繁多,結(jié)構(gòu)復(fù)雜。每種蛋白質(zhì)的空間結(jié)構(gòu)和功能都大不相同,也因?yàn)榈鞍踪|(zhì)的空間結(jié)構(gòu),不同的折疊方式使得蛋白質(zhì)具有的活性和生物性能不定,而這個(gè)復(fù)雜的特性也就注定了研究蛋白質(zhì)的路徑困難重重。

蛋白質(zhì)研究的波折之路

蛋白質(zhì)早在18世紀(jì)就被法國化學(xué)家發(fā)現(xiàn),但是因?yàn)榧夹g(shù)條件的限制,直到20世紀(jì)初,科學(xué)家才能根據(jù)一些技術(shù)去深入的研究蛋白質(zhì)。因?yàn)榈鞍踪|(zhì)結(jié)構(gòu)的復(fù)雜與種類極其繁多,研究了解的過程極其費(fèi)時(shí)費(fèi)力。

對于早期的生化學(xué)家來說,研究蛋白質(zhì)的困難在于難以獲取大量的純化的蛋白質(zhì)用于研究,因此早期的研究工作就是在各種純化蛋白質(zhì)的路上。后來有生物公司1950年在牛胰腺中純化了核糖核酸酶a,并免費(fèi)提供給科學(xué)家使用,科學(xué)家的大量試驗(yàn)逐漸打開。

1949年,英國生化學(xué)家桑格用8年的時(shí)間測試出了胰島素(蛋白質(zhì))的51個(gè)氨基酸的排列順序,驗(yàn)證了蛋白質(zhì)是由氨基酸所形成的線性多聚體。因這一研究桑格被授予1958年諾貝爾化學(xué)獎。人們運(yùn)用桑格的方法對許多別的蛋白質(zhì)迅速進(jìn)行了測序,桑格的研究為1965年第一次人工合成胰島素鋪平了道路。

人類第一次知悉蛋白質(zhì)分子結(jié)構(gòu)是在1959年,英國科學(xué)家 Max Perutz 利用X射線衍射的方法,根據(jù)射線被散射的角度推測電子的位置解析了肌紅蛋白分子的三維結(jié)構(gòu),自此之后,X射線衍射成為解析高分辨率蛋白質(zhì)結(jié)構(gòu)最有力的工具。除了X射線衍射之外,后期科學(xué)家們常用的研究工具還有核磁共振與冷凍電子顯微鏡技術(shù)。

雖然有設(shè)備輔助研究,但是現(xiàn)實(shí)測試技術(shù)的局限,施行起來成本過高,按照傳統(tǒng)的實(shí)驗(yàn)步驟,從基因序列到相應(yīng)的蛋白質(zhì)結(jié)構(gòu)測定之間還要經(jīng)過基因表達(dá)、蛋白質(zhì)的提取和純化、結(jié)晶、X射線衍射分析等步驟。由于蛋白質(zhì)結(jié)構(gòu)和性質(zhì)的多樣性,這些步驟大多沒有固定的規(guī)律可循。

歷史上有科學(xué)家耗費(fèi)幾十年時(shí)間才能得到一個(gè)清晰的蛋白質(zhì)三維結(jié)構(gòu),蛋白質(zhì)三維結(jié)構(gòu)的測定成了生物學(xué)領(lǐng)域非常困難的研究。至今為止沒有AI技術(shù)的協(xié)助,三維結(jié)構(gòu)被看清的量也僅僅只有17萬個(gè),這跟蛋白質(zhì)的總量相比差距大的跟九牛一毛似的。

對于蛋白質(zhì)的結(jié)構(gòu)來說,就算我們看得清測得出它的形態(tài),但是關(guān)于其折疊的方向在三維空間中有10^300種方式,為何就選擇折疊為現(xiàn)在的狀態(tài),這個(gè)過程和選擇的路徑?jīng)]法解析。因?yàn)檠芯康姆椒ㄅc內(nèi)容都極其困難,所以研究蛋白質(zhì)的結(jié)構(gòu)以及定性就真的只有死磕這一條路了。半個(gè)多世紀(jì)以來,研究蛋白質(zhì)結(jié)構(gòu)的相關(guān)工作只要有新的發(fā)現(xiàn)就會喜提諾貝爾獎,至今為止僅僅蛋白質(zhì)領(lǐng)域已經(jīng)拿過20多項(xiàng)諾貝爾獎。

也有一批科學(xué)家跳出肉眼觀測的技術(shù)思路困境,另辟蹊徑,繞開費(fèi)事費(fèi)錢的傳統(tǒng)技術(shù)的試驗(yàn)步驟,從蛋白質(zhì)的氨基酸序列直接進(jìn)行計(jì)算預(yù)測它們的三維結(jié)構(gòu)。

站在AI巨人肩膀上研發(fā)

實(shí)現(xiàn)從氨基酸預(yù)測蛋白質(zhì)結(jié)構(gòu)的大前提就是計(jì)算機(jī)技術(shù)的發(fā)展。1998年,華盛頓大學(xué)的 David Baker 教授開發(fā)了一套名為 “Rosetta”(羅塞塔石碑)的計(jì)算機(jī)程序來預(yù)測蛋白質(zhì)結(jié)構(gòu)。但是因?yàn)樗懔Φ挠邢?,不能暴力地窮舉,因此在早期的預(yù)測中,主要用來處理氨基酸數(shù)量很小、排列比較規(guī)則的蛋白質(zhì)。對于復(fù)雜的蛋白質(zhì)也只能望洋興嘆了。

為了獲得對蛋白質(zhì)結(jié)構(gòu)預(yù)測技術(shù)水平的客觀評估,由馬里蘭大學(xué)的John Moult領(lǐng)導(dǎo)的一組科學(xué)家在1994年創(chuàng)立了CASP(結(jié)構(gòu)預(yù)測的關(guān)鍵評估),預(yù)測者可以在一個(gè)雙盲框架內(nèi)評估他們的方法,以促進(jìn)研究、監(jiān)測進(jìn)展,并建立蛋白質(zhì)結(jié)構(gòu)預(yù)測的最新水平。

得益于卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,Deepmind的研究在第十四屆CASP比賽中大放異彩,團(tuán)隊(duì)使用基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò),依靠端到端的優(yōu)化整體構(gòu)建結(jié)構(gòu),內(nèi)置了大量的序列、結(jié)構(gòu)和宏基因組等多重比較信息,其預(yù)測的GDT-TS中值達(dá)到了92.4分,遠(yuǎn)遠(yuǎn)高于第二名。這是個(gè)什么水平呢?據(jù)悉,GDT-TS的得分在70分左右,說明其結(jié)果具有準(zhǔn)確的全局和局部拓?fù)浣Y(jié)構(gòu)的模型。超過80分,結(jié)構(gòu)細(xì)節(jié)的建模越來越正確,超過95分,模型就像根據(jù)實(shí)驗(yàn)數(shù)據(jù)建立的模型一樣準(zhǔn)確。

人工智能技術(shù)作為預(yù)測蛋白質(zhì)結(jié)構(gòu)的輔助手段,通過暴力的學(xué)習(xí)窮舉,將科學(xué)家本來需要幾年幾十年預(yù)測的時(shí)間縮短為幾日,并且對于簡單地蛋白質(zhì)分子來說結(jié)構(gòu)的預(yù)測已經(jīng)非常精準(zhǔn),而這樣的結(jié)局就會讓科學(xué)家們轉(zhuǎn)身投入到深度理解蛋白質(zhì)本身的機(jī)理的研究中。

縱觀科學(xué)史,每次科學(xué)家在所在領(lǐng)域內(nèi)取得重大的進(jìn)步,都離不開當(dāng)時(shí)技術(shù)的支持。無論是在蛋白質(zhì)提純的困難年代,還是觀察蛋白質(zhì)的冷電鏡技術(shù)時(shí)代,科學(xué)家研究的工具都依賴于當(dāng)時(shí)的最高科技水平。在AI時(shí)代,因?yàn)樗懔退惴P偷臉O大提升,我們見證了蛋白質(zhì)結(jié)構(gòu)預(yù)測的歷史時(shí)刻。

AlphaFold2的數(shù)據(jù)庫現(xiàn)已開源并且還在不斷地增加新蛋白質(zhì)結(jié)構(gòu)預(yù)測,這也成為了科學(xué)家進(jìn)行蛋白質(zhì)研究的寶藏?cái)?shù)據(jù)庫。不過算出結(jié)構(gòu)也只是生物科學(xué)領(lǐng)域的初步階段,指明了方向后續(xù)的進(jìn)展還得需要試驗(yàn)與頭腦的風(fēng)暴。對于沒有在已有蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)集訓(xùn)練的其他蛋白質(zhì)結(jié)構(gòu),其研究仍然是謎一般的存在,這也給科學(xué)家們留下了很大的研究空間。

不過AlphaFold2 這樣的高精度模型,總的來說還是極大地推動科學(xué)家的研究與發(fā)展,拓展了對蛋白質(zhì)進(jìn)行功能分析、以及下游應(yīng)用的范圍,科學(xué)家們得以在各個(gè)領(lǐng)域展開開拓性的研究,比如一些癌癥、病毒類感染的疾病研究,抗生素、靶向藥的開發(fā),研發(fā)新效率的酶等為健康與環(huán)保的層面做出貢獻(xiàn)。

站在神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的技術(shù)巨人的肩膀上,生命科學(xué)領(lǐng)域的發(fā)展已經(jīng)有了質(zhì)的飛躍,AI對于蛋白質(zhì)的預(yù)測也不再依賴人類的先驗(yàn)知識去做結(jié)構(gòu)預(yù)測,相比幾年前引起轟動的 AlphaGo,AlphaFold 也讓深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)好好秀了把肌肉??茖W(xué)的創(chuàng)新離不開技術(shù)工具的強(qiáng)力輔助,而蛋白質(zhì)這個(gè)能夠影響生命進(jìn)程的分子,技術(shù)為我們打開了研究它的大門,這些海量的蛋白質(zhì)結(jié)構(gòu)信息被技術(shù)釋放,背后的解讀與分析可能蘊(yùn)含著生命信息的密碼。下一個(gè)生命科學(xué)領(lǐng)域的革命性研究成果,炸出來的是什么我們無法想象。在生命科學(xué)研究中體驗(yàn)開盲盒的快樂,也是從來沒有想過的驚喜,期待下一個(gè)未來。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-07-30
AlphaFold2爆火背后,人類為什么要死磕蛋白質(zhì)?
人工智能技術(shù)作為預(yù)測蛋白質(zhì)結(jié)構(gòu)的輔助手段,通過暴力的學(xué)習(xí)窮舉,將科學(xué)家本來需要幾年幾十年預(yù)測的時(shí)間縮短為幾日,并且對于簡單地蛋白質(zhì)分子來說結(jié)構(gòu)的預(yù)測已經(jīng)非常精準(zhǔn),而這樣的結(jié)局就會讓科學(xué)家們轉(zhuǎn)身投入到

長按掃碼 閱讀全文