一種新型深度學(xué)習(xí)模型ProtGPS能預(yù)測(cè)蛋白質(zhì)在細(xì)胞內(nèi)的定位,揭示了調(diào)控生物組織隱藏的分子密碼,為藥物設(shè)計(jì)和發(fā)現(xiàn)提供了強(qiáng)大的工具。
ProtGPS預(yù)測(cè)蛋白質(zhì)(綠色點(diǎn))的定位,無(wú)論是在其正常和致病突變形式。
一種新型深度學(xué)習(xí)模型現(xiàn)在可以預(yù)測(cè)蛋白質(zhì)如何在細(xì)胞內(nèi)自我排列。該模型揭示了塑造生物組織隱藏的分子密碼,為我們對(duì)生命的理解增加了新的復(fù)雜維度,并為藥物設(shè)計(jì)和發(fā)現(xiàn)提供了一個(gè)強(qiáng)大的生物技術(shù)工具。
以前的生物學(xué)人工智能系統(tǒng),如獲得諾貝爾獎(jiǎng)的AlphaFold,都側(cè)重于預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。但是,這個(gè)名為ProtGPS的新系統(tǒng),不僅能讓科學(xué)家預(yù)測(cè)蛋白質(zhì)的構(gòu)建方式,還能預(yù)測(cè)它在細(xì)胞內(nèi)的位置。它還賦予科學(xué)家設(shè)計(jì)具有明確分布的蛋白質(zhì)的能力,并能以外科手術(shù)般的精確度將它們引導(dǎo)到細(xì)胞的特定位置。
“了解蛋白質(zhì)的去向與了解它的折疊方式完全互補(bǔ),”馬薩諸塞州劍橋市懷特海德生物醫(yī)學(xué)研究所的化學(xué)生物學(xué)家Henry Kilgore說(shuō),他是這項(xiàng)研究的共同負(fù)責(zé)人。這兩種特性共同塑造了蛋白質(zhì)在細(xì)胞內(nèi)的功能和相互作用。他表示,這些見(jiàn)解——以及促成這些見(jiàn)解的機(jī)器學(xué)習(xí)工具——“將對(duì)藥物開(kāi)發(fā)項(xiàng)目產(chǎn)生重大影響”。
Kilgore和他的同事在2月6日發(fā)表在《科學(xué)》雜志上的一篇論文中描述了這種新工具。
將蛋白質(zhì)放在細(xì)胞地圖上
在過(guò)去的幾年里,像AlphaFold這樣的人工智能工具通過(guò)預(yù)測(cè)蛋白質(zhì)形狀,徹底改變了結(jié)構(gòu)生物學(xué)——就像宜家家具附帶的說(shuō)明書(shū)一樣,展示了如何組裝椅子或床。但是,事實(shí)證明,僅僅知道蛋白質(zhì)的結(jié)構(gòu)不足以理解其功能。ProtGPS通過(guò)確定每件分子“家具”在細(xì)胞開(kāi)放式內(nèi)部的哪個(gè)位置,填補(bǔ)了這一缺失的部分。
一些蛋白質(zhì)有明確的目的地。幾十年來(lái),研究人員已經(jīng)知道,前往細(xì)胞核或線(xiàn)粒體等位置的蛋白質(zhì)——這些結(jié)構(gòu)被膜包圍,與細(xì)胞其他部分隔開(kāi)——攜帶著引導(dǎo)它們的短信號(hào)標(biāo)簽。
但是,細(xì)胞的大部分是一個(gè)開(kāi)放的環(huán)境,蛋白質(zhì)依靠更微妙的線(xiàn)索將自己分類(lèi)成所謂的生物分子凝聚物——?jiǎng)討B(tài)的、類(lèi)似液體的簇,有助于調(diào)節(jié)基因活性,管理細(xì)胞應(yīng)激,并導(dǎo)致疾病。正如一張舒適的扶手椅可能自然地適合閱讀角一樣,蛋白質(zhì)遵循內(nèi)在的分子定位規(guī)則,引導(dǎo)它們到適合特定功能的專(zhuān)門(mén)凝聚物中。
ProtGPS現(xiàn)在已經(jīng)開(kāi)始解碼這些規(guī)則,揭示了構(gòu)成所有蛋白質(zhì)骨架的氨基酸序列中的隱藏特征——內(nèi)在的分類(lèi)線(xiàn)索,決定蛋白質(zhì)是否以及在細(xì)胞不同凝聚物中的哪個(gè)位置定位。
“我們的模型正在學(xué)習(xí)這些定位特征,”麻省理工學(xué)院的機(jī)器學(xué)習(xí)科學(xué)家、共同作者Itamar Chinn說(shuō)?!拔覀兛梢岳眠@些特征來(lái)制造具有我們想要的定位的新蛋白質(zhì)?!?/p>
ProtGPS使用機(jī)器學(xué)習(xí)框架來(lái)預(yù)測(cè)冷凝物隔室中的蛋白質(zhì)定位。
教AI學(xué)習(xí)蛋白質(zhì)的語(yǔ)言
ProtGPS就是所謂的蛋白質(zhì)語(yǔ)言模型。它的工作方式很像OpenAI的ChatGPT或Anthropic的Claude等大型語(yǔ)言模型,根據(jù)學(xué)習(xí)到的模式預(yù)測(cè)序列。但是,ProtGPS處理的不是文本或語(yǔ)音,而是蛋白質(zhì),蛋白質(zhì)以字母串的形式表示,每個(gè)字母對(duì)應(yīng)于20種氨基酸構(gòu)建模塊之一——L代表亮氨酸,S代表絲氨酸,等等。
Kilgore、Chinn和他們的同事使用名為ESM的深度學(xué)習(xí)框架構(gòu)建了該模型,ESM最初由Meta開(kāi)發(fā),用于預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)、功能和特性。
ESM是進(jìn)化規(guī)模建模的縮寫(xiě),與AlphaFold一樣,也從蛋白質(zhì)序列中提取有意義的模式。但是,Meta的模型沒(méi)有像AlphaFold那樣使用物理學(xué)來(lái)預(yù)測(cè)精確的原子級(jí)結(jié)構(gòu),而是依賴(lài)于基于序列的學(xué)習(xí),而沒(méi)有復(fù)雜的3D計(jì)算,這使得它在分析大型數(shù)據(jù)集時(shí)速度更快,可擴(kuò)展性更強(qiáng)。(上個(gè)月,推出了一個(gè)升級(jí)版的ESM,功能得到了改進(jìn)。)
Kilgore和Chinn的團(tuán)隊(duì)使用ESM的架構(gòu)來(lái)解碼嵌入在氨基酸序列中的神秘信號(hào)。研究人員調(diào)整和改進(jìn)了該工具,既可以預(yù)測(cè)蛋白質(zhì)的組裝位置,又可以設(shè)計(jì)新型蛋白質(zhì)——這些蛋白質(zhì)在自然界中不存在,但可以通過(guò)精確的凝聚物靶向特性進(jìn)行工程改造。
就這樣,ProtGPS誕生了。研究人員用近5000種已知定位于12個(gè)不同凝聚物隔室之一的人類(lèi)蛋白質(zhì)訓(xùn)練了該模型。然后,他們?cè)讵?dú)立的數(shù)據(jù)集上測(cè)試了ProtGPS,發(fā)現(xiàn)它可以準(zhǔn)確地將蛋白質(zhì)放在細(xì)胞的正確部分。
區(qū)室化的神秘密碼
某些物理和化學(xué)特性,如蛋白質(zhì)的電荷和疏水性,似乎在事物最終在細(xì)胞中的位置發(fā)揮了作用。但是,正如機(jī)器學(xué)習(xí)模型經(jīng)常出現(xiàn)的情況一樣,ProtGPS預(yù)測(cè)背后的確切原因——以及,通過(guò)擴(kuò)展,選擇性分布背后的生物學(xué)原理——仍然很大程度上是一個(gè)謎。
但這并不是說(shuō)研究人員沒(méi)有試圖將其分開(kāi)。他們仔細(xì)研究了模型的預(yù)測(cè),尋找可能解釋其分類(lèi)規(guī)則的清晰序列模式或生化特性?!皼](méi)有什么明顯的真正顯現(xiàn)出來(lái),”麻省理工學(xué)院的計(jì)算生物學(xué)家、共同作者Peter Mikhael說(shuō)。
這種黑匣子不透明性是人工智能中一個(gè)熟悉的挑戰(zhàn)。語(yǔ)言模型本質(zhì)上擅長(zhǎng)將來(lái)自許多不同特征和上下文信號(hào)的貢獻(xiàn)結(jié)合在一起,使它們能夠檢測(cè)到人類(lèi)無(wú)法立即看到的模式?!耙虼?,ProtGPS可以提取即使是經(jīng)驗(yàn)豐富的生物學(xué)家也很難定義的定位線(xiàn)索,這也就不足為奇了,”曾幫助開(kāi)發(fā)該模型的麻省理工學(xué)院機(jī)器學(xué)習(xí)科學(xué)家Ilan Mitnikov說(shuō)。
“如果規(guī)則很簡(jiǎn)單,人們?cè)缇团宄?,”Mitnikov說(shuō)。
工程改造蛋白質(zhì),預(yù)測(cè)疾病
即使沒(méi)有完全理解是什么控制著蛋白質(zhì)的細(xì)胞目的地,研究人員也表明,ProtGPS可以用來(lái)創(chuàng)建具有精心調(diào)整的定位特性的蛋白質(zhì)。該工具還被證明能夠預(yù)測(cè)與疾病相關(guān)的突變?nèi)绾纹茐牡鞍踪|(zhì)區(qū)室化,從而揭示癌癥和發(fā)育障礙等疾病背后的分子機(jī)制。
Dewpoint Therapeutics是一家由該研究的作者之一、懷特海德生物學(xué)家Richard Young共同創(chuàng)立的生物技術(shù)公司,現(xiàn)在計(jì)劃將ProtGPS整合到其藥物發(fā)現(xiàn)工作中。首席科學(xué)官I(mǎi)saac Klein稱(chēng)該工具為識(shí)別藥物靶點(diǎn)和設(shè)計(jì)新療法的“游戲規(guī)則改變者”。(Young、Kilgore和麻省理工學(xué)院計(jì)算機(jī)科學(xué)家Regina Barzilay也參與了這項(xiàng)研究,他們都在Dewpoint擔(dān)任咨詢(xún)或顧問(wèn)角色。)
其他科學(xué)家也看到了該工具的潛力,包括劍橋大學(xué)的生物物理學(xué)家Tuomas Knowles,他同時(shí)也是Transition Bio的首席技術(shù)官,該公司是另一家專(zhuān)注于針對(duì)凝聚物靶點(diǎn)進(jìn)行藥物發(fā)現(xiàn)的公司?!疤貏e令人興奮的是,這篇論文進(jìn)一步證明,存在非常特定的序列特征,控制著活細(xì)胞中蛋白質(zhì)的定位和分配到凝聚物中,”Knowles說(shuō),他沒(méi)有參與這項(xiàng)研究?!按送猓@為影響和控制蛋白質(zhì)定位提供了新的機(jī)會(huì)——并有可能糾正錯(cuò)誤定位,這是許多疾病的根源,”他補(bǔ)充道。
但是,除了它的應(yīng)用價(jià)值之外,ProtGPS 還突出了生物學(xué)中一種新興的范式,即細(xì)胞內(nèi)分子的物理排列對(duì)其功能至關(guān)重要,就像分子的結(jié)構(gòu)一樣,氨基酸序列中嵌入的密碼會(huì)影響折疊和細(xì)胞區(qū)室化。
正如一個(gè)設(shè)計(jì)良好的家不僅僅是家具的集合——它依靠直觀的布局來(lái)最大限度地發(fā)揮效用一樣,細(xì)胞也需要精確的分子組織才能發(fā)揮最佳功能。通過(guò)揭示蛋白質(zhì)序列中的隱藏模式,ProtGPS 可以作為這種細(xì)胞流動(dòng)的建筑師,解碼自然界關(guān)于細(xì)胞內(nèi)部設(shè)計(jì)的藍(lán)圖。
本文譯自 IEEE Spectrum,由 BALI 編輯發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )