把AI+科研普及到每個研究人員手邊,需要什么條件?

導語:

AI發(fā)展七十余年,每一技術性突破都將給人類未來開辟新一種可能性。而它與科學研究的深度融合,則會裂變出無數(shù)或無窮種可能性。

正文:

萬眾矚目下,今年10月,有著諾貝爾獎“嫡傳”之稱的諾貝爾化學獎終于揭曉,授予了對“鏈接化學和生物正交化學的發(fā)展作出了貢獻”的三位化學家,他們分別是美國化學家Carolyn R. Bertozzi、丹麥化學家Morten Meldal、美國化學家K. Barry Sharpless。

實際上,靴子落地前,關于這一獎項到底花落誰家引起了無數(shù)熱議。其中國際化學領域權威期刊《Chemical Reviews》就曾對該獎獲得者進行了讀者投票預測,帶領DeepMind團隊開發(fā)出能夠精準預測蛋白質(zhì)結構的AlphaFold 2的John Jumper獲得了最高票數(shù)。

盡管由于“時間問題”,最終John Jumper并未折桂,但在此之前,John Jumper團隊已成功拿到了另一個堪稱“豪華版諾貝爾獎”、“科學界的奧斯卡”的獎項——2023年生命科學突破獎(Breakthrough Prize in Life Sciences),這是迄今科研領域里獎金最高的生物學及醫(yī)學獎項。

為何John Jumper及其領導開發(fā)的AlphaFold會收獲如此多的青睞?主要原因在于,AlphaFold的誕生解決了困擾生物學界半個多世紀的經(jīng)典難題,即1972年諾貝爾化學獎得主Christian Anfinsen提出的蛋白折疊問題(Protein Folding Problem)——“蛋白質(zhì)的氨基酸序列應該能完全決定其結構”。

John Jumper團隊開創(chuàng)性地利用人工智能技術,終于破解了這一著名猜想,不僅讓蛋白質(zhì)結構預測的研究走入一個新階段,也將人們對“AI for Science(科學智能)”的關注推向高潮。

簡單來說,AI for Science就是讓人工智能利用自身強大的數(shù)據(jù)歸納和分析能力去學習科學規(guī)律和原理,得出模型來解決實際的科研問題,特別是輔助科學家在不同的假設條件下進行大量重復的驗證和試錯,從而大大加速科研探索的進程,如今這一方法已在多個前沿科學領域中取得了顯著的成果。

與大家此前耳熟能詳且觸手可及的人工智能應用相比,AI for Science所涉及的生物制藥、能源、材料研發(fā)等科研領域盡管離大眾生活看似遙遠,但其背后的共同之處在于,利用人工智能來“解放”生產(chǎn)力——讓人們能夠從許多重復性、機械化的基礎工作中釋放出來,在人工智能的輔助下進行更高效的生產(chǎn)工作。這正是人工智能的價值和魅力所在。

AI for Science:用人工智能催化一場新的“科學革命”

讓我們回到AlphaFold,從解析蛋白質(zhì)的技術演進,來觀察AI的加入到底能給科研帶來怎樣的顛覆。

作為生命的物質(zhì)基礎,蛋白質(zhì)與生命及各種生命活動有著極其緊密的聯(lián)系,包括人體所有疾病的發(fā)生幾乎都與蛋白質(zhì)功能異常有關。換句話說,如果能人為地激發(fā)或抑制蛋白靶標,“控制”蛋白質(zhì)的結構和功能,就能夠大大加速對疑難雜癥的靶向藥物和高效療法的研發(fā)。

在過去,生物學家們曾廣泛使用X射線衍射、冷凍電子顯微鏡等實驗技術來破譯蛋白質(zhì)的三維結構,這類方法耗時長且成本高。因此從1994年開始,多支科研團隊在兩年一屆的國際蛋白質(zhì)結構預測競賽(CASP,Critical Assessment of protein Structure Prediction)上施展拳腳,并由此催生了I-TESSER、RaptorX、RoseTTAFold等蛋白質(zhì)結構預測模型。

但是問題也隨之而來,這些大部分用計算機基于理論預測的蛋白質(zhì)結構模型,其實與實際觀測到的實驗數(shù)據(jù)相去甚遠,正確率不足40%。其后續(xù)發(fā)展需要持續(xù)提高預測模型的精度,以無限縮小預測結構和實驗誤差。

不僅如此,從蛋白質(zhì)結構預測推進到藥物研發(fā)環(huán)節(jié),不同藥物設計方法的原理和應用場景也有著極大差異。例如在制藥流程中,從前端的靶點發(fā)現(xiàn)、先導化合物的篩選優(yōu)化,再到后期ADMET預測、甚至臨床效果預測等多個環(huán)節(jié),都面臨著獨特的技術挑戰(zhàn)。在這個過程中,研究人員必須要進行高通量的重復性實驗,甚至要花費多年的時間,驗證次數(shù)也高達數(shù)百萬次。

而今,回看這個半世紀以來令無數(shù)學者著迷卻又難以跨越的難題,不過是科研領域延綿壁壘中的冰山一角。而成熟的AI技術與科研領域及多學科交叉融合誕生的“AI for Science”,無疑給這個難題以及人類在科學無人區(qū)的更多探索帶來了全新的可能性。

從2020年開始,AI for Science進入了集中爆發(fā)的發(fā)展階段,其中就包括了AlphaFold項目,其最新成果——由DeepMind在2021年發(fā)布的AlphaFold 2,已能成功預測98.5%的人類蛋白質(zhì)三維結構,且預測結果與大部分蛋白質(zhì)的真實結構只相差一個原子的寬度,可達到以往通過冷凍電子顯微鏡等復雜實驗觀察預測的水平。

類似于生命科學領域,分子動力學領域也出現(xiàn)了影響力同樣顯著的DeePMD-kit項目,其通過利用機器學習、高性能計算技術與物理建模相結合,能夠?qū)⒎肿觿恿W的極限提升至10億原子規(guī)模,同時保持高精度,大大解決了傳統(tǒng)分子動力學中“快而不準”、“準而不快”的難題。

還有在氣象預測領域,基于新型算子學習的神經(jīng)網(wǎng)絡模型FourCastNet,能夠?qū)⑻鞖忸A報提速45000倍;在工業(yè)領域的流體、結構等PDE方程求解方面,也已證實基于數(shù)據(jù)+物理機理融合的AI方法,是解決復雜高維物理問題的突破口……

一言以蔽之,無論是今年爆火的AI繪畫、AI對話模型ChatGPT等AI應用,亦或是大量AI for Science領域的項目案例,都足以證明AI正在為各個行業(yè)、領域帶來了一場范式革新。但AI for Science更重要的意義在于,其對前沿科研所施加的加速作用,將對人類社會和經(jīng)濟發(fā)展有著更為基礎,也更為深遠的影響。

而且,AI for Science的應用也不僅僅局限于依據(jù)已知科學原理來高效驗證或試錯,它也讓更多科研人員能夠基于AI在更復雜的場景中做探索,結合數(shù)據(jù)反推復雜場景下更為準確的物理規(guī)律。

毫不夸張地說,人工智能將成為科學家繼計算機之后的全新生產(chǎn)工具,同時也正在催化一場新的“科學革命”。

跨越落地壁壘,從深度學習框架出發(fā)

但從暢想回歸現(xiàn)實,人工智能行業(yè)想要獲得長足發(fā)展,真正成為人類新的生產(chǎn)工具,必然要跨過落地這道關卡。而AI for Science所具備的全面、深層次革新價值,亦讓它面臨遠高于人們常見AI應用的落地壁壘。

主要原因在于,AI for Science的落地應用需要大量的工業(yè)場景數(shù)據(jù)支持,以及合理的科學機理等效,而且高維、海量的數(shù)據(jù)也對算力和內(nèi)存提出了更高的要求??偟膩砜?,目前AI for Science落地應用的最大壁壘主要體現(xiàn)在數(shù)據(jù)、平臺技術、軟硬協(xié)同、領域求解能力和優(yōu)秀研發(fā)生態(tài)上。

從數(shù)據(jù)角度,工業(yè)場景的數(shù)據(jù)維度高、格式繁雜且存在孤島現(xiàn)象,同時由于隱私和法律上的一些限制,部分數(shù)據(jù)很難實現(xiàn)公開共享。因此如何高效治理這些多特征、多來源的數(shù)據(jù),解決小樣本、零樣本數(shù)據(jù)建模,是當前AI在科研領域落地的基礎。

從軟硬件協(xié)同角度,AI for Science的發(fā)展既離不開深度學習框架的支持,也無法脫離底層高性能硬件的支撐。一方面,AI for Science需要更加科學地求解真實物理問題,如高階PDE方程組的求解,以及數(shù)據(jù)+物理機理驅(qū)動的模型開發(fā)。另一方面,傳統(tǒng)的科學計算中心已廣泛支持各類科研任務,在其持續(xù)增加智能計算硬件能力的同時,也需要科學計算/智算硬件與AI開發(fā)框架深度整合,支持各類新型AI for Science計算場景并達到性能領先。

從研發(fā)生態(tài)角度,AI for Science作為一個充分體現(xiàn)交叉學科的新興科研范式,涉及生物學、分子動力學、計算流體力學、固體力學等學科,需要大量的跨領域科研人才,且不斷擴展的開源生態(tài)庫要與傳統(tǒng)數(shù)據(jù)集模擬軟件、數(shù)據(jù)集打通,才能滿足研發(fā)人員對開發(fā)工具鏈的需求,逐步形成穩(wěn)定且優(yōu)質(zhì)的科研生態(tài)。

為了跨越這些壁壘,拉低AI for Science的應用門檻,產(chǎn)、學、研各界的科學家、企業(yè)們都開始踏上了AI for Science的范式革新+普惠之路。

在深度學習框架領域,國外如TensorFlow、PyTorch、MXNet等AI框架,自誕生以來就一直在幫助眾多科學家和工程師進行學術研究及工程實現(xiàn),大大促進了AI領域的發(fā)展。作為國內(nèi)AI領域的先行者,百度也憑借百度飛槳(PaddlePaddle)從2016年打響國產(chǎn)AI框架開源第一槍,并一路朝著全面AI技術布局演進。如今,飛槳平臺已能夠?qū)Ω黝愑布崿F(xiàn)廣泛適配,并能直接部署到大規(guī)模的科學計算集群,與已有的科學計算生態(tài)緊密融合,強力支撐AI for Science方案的部署與應用。

同樣在2016年,向輝也開始在百度接觸AI行業(yè),隨后親身經(jīng)歷了AI在計算機視覺、自然語言處理、推薦等領域的技術應用與快速更迭,如今她已成為百度飛槳AI for Science產(chǎn)品負責人。

向輝在接受36氪專訪時談到,面對AI for Science的落地挑戰(zhàn),百度飛槳認為核心要解決的是構建一個通用化的深度學習平臺,能夠銜接下游的各種異構算力,提供支持科學計算問題求解的API,以及編譯加速機制等,以更好支撐典型的科學計算場景建設和分析,如支持氣象預測、流體仿真、材料發(fā)現(xiàn)等領域問題。“同時也要建設可持續(xù)的、融合科研、科學計算、平臺以及終端用戶的開放生態(tài)。”她說。

為讓不同領域的科學工作者都可以靈活地使用當下熱門的科研模型,早在2019年,百度飛槳就已開始嘗試在AI for Science領域進行技術形態(tài)、產(chǎn)品路線等規(guī)劃,并在2020年初至2021年底相繼發(fā)布了生物計算平臺“螺旋槳PaddleHelix”、量子計算平臺“量槳PaddleQuantum”,以及面向流體、固體、電磁等領域的科學計算平臺“賽槳PaddleScience”。

此外,百度飛槳還提供了PINN、FNO、DeepONet等主流模型,以及用戶可直接復用的標準案例,如CFD中障礙物繞流、渦激振動、達西流等。

百度飛槳還支持基于組件進行定制化的問題復現(xiàn)與分析,支持數(shù)據(jù)驅(qū)動以及與物理機理相結合的多種方法,分別在物理仿真、化合物分子表征、量子糾纏處理等場景有了突破性的進展。

其中,為了更好地服務廣大科學計算用戶對各類PDE方程的求解需求,百度飛槳也在積極實現(xiàn)與優(yōu)秀科學計算Repo-DeepXDE的全量模型支撐,目前已初步完成所有模型的精度對齊工作,并在百度飛槳最新的高階自動微分機制、自動化的分布式策略以及編譯加速機制等加持下,部分用例的求解效率已領先同類產(chǎn)品。

為進一步推動AI for Science的落地進程,百度飛槳還與多家高校、科研機構等開展了流體、材料、生物等方面的范例建設,并形成了一些開放性的、多學科交叉的生態(tài)社區(qū)。今年5月還推出了“飛槳AI for Science共創(chuàng)計劃”,希望通過與各方一道進行技術聯(lián)合開發(fā)、推廣資源共享,共建生態(tài)商機。

回想這些社區(qū)的發(fā)展經(jīng)歷,向輝對不少學生團隊的項目記憶猶新。她回憶,其中北航有一個學生團隊開展了一個真空羽流模擬實驗,實驗本身需要在真空條件下,無法在地面上復現(xiàn),但通過飛槳AI for Science的產(chǎn)品,團隊繁衍出了玻爾茲曼方程的一些系數(shù),最終達到了令人驚艷的效果。“這些案例都已證明,在某些場景中,百度飛槳的AI for Science能夠一定程度地解決開發(fā)者們的科研問題。”向輝說。

一路發(fā)展至今,百度飛槳AI for Science工具集已能支持AI方法與基礎學科方法交叉融合,最大的特點在于能突破基礎學科中“基于數(shù)值計算求解控制方程”面臨的維數(shù)高、時間長、跨尺度、算力不足等挑戰(zhàn),將數(shù)值差分等效為“基于數(shù)據(jù)、物理機理驅(qū)動的神經(jīng)網(wǎng)絡模型實現(xiàn)”。

開辟AI for Science賽道,對百度飛槳來說無疑是AI能力的又一次挑戰(zhàn)和躍升。在大幅加速科學問題求解的同時,它也將為行業(yè)在探索更多未知科學問題的路上深踩油門。

平臺之下,底層算力賦能軟硬協(xié)同發(fā)展

正如前文所說,AI for Science的科學問題加速求解和產(chǎn)業(yè)落地,不僅需要框架或軟件平臺層面的支持,亦需要基礎設施提供強大算力和軟件優(yōu)化能力。

面向科學計算領域,有大量芯片廠商在圍繞如何提高AI算力,加速AI應用落地做相應布局。而英特爾正是這一賽道中頗具代表性的領軍企業(yè)之一,其一直以來都在致力于“讓AI無處不在”。

在英特爾人工智能架構師楊威與36氪的訪談中,他從一家芯片企業(yè)的角度出發(fā),針對AI for Science這一領域給我們帶來了不一樣的視角和觀點。

楊威認為,AI for Science普及的主要難點卡在如何降低AI硬件的成本,以及要有易于上手的AI軟件優(yōu)化工具。

他強調(diào):英特爾從第二代至強可擴展處理器開始,實現(xiàn)了CPU內(nèi)置的AI加速。通過AVX-512和DL Boost等AI加速技術,讓“用CPU跑AI”成為了可能。此舉的意義,在于能夠充分激活和利用部署更廣泛且成本優(yōu)勢更明顯的CPU的算力,在輸出絕大多數(shù)應用所需的通用算力的同時,還能通過對AI推理的加速推進AI應用的落地。同時英特爾還向公眾開源,即免費提供各種AI軟件優(yōu)化工具,包括oneAPI、OpenVINO等,這些軟件的技術門檻與使用難度較低,且能幫助用戶釋放至強CPU的AI加速能力。

此外,考慮到AI for Science領域的模型或相似變體對內(nèi)存的消耗非常敏感,且對大內(nèi)存應用來說CPU平臺的計算資源通常會更具優(yōu)勢,英特爾還有的放矢地的進一步強化了這方面的能力——其與至強CPU搭檔的英特爾傲騰持久內(nèi)存,能提供遠超主流DRAM的容量,更容易達成TB級內(nèi)存配置并擁有接近DRAM的性能。也就是說,它能夠在盡可能降低科學計算模型在整個鏈路上時延的同時,突破限制AI for Science應用的內(nèi)存容量瓶頸。

雖然在現(xiàn)階段,英特爾針對AI for Science等AI應用的核心硬件布局是以CPU為主,加速的應用類型也是以推理為主,但這只是其在XPU時代擴展AI產(chǎn)品組合的第一步。在英特爾的“XPU愿景”里,隨著未來數(shù)據(jù)類型和應用類型的高速增長和裂變,其底層硬件架構也將從CPU拓展到CPU與GPU、FPGA和AISC加速器俱全的XPU架構。

基于這一策略,英特爾2023年不但會推出代號為Sapphire Rapids的第四代至強可擴展處理器,還會發(fā)布可與這款CPU搭配,專攻科學計算及AI加速的、代號為Ponte Vecchio的數(shù)據(jù)中心GPU產(chǎn)品,并由此形成在AI推理上以高性價比、易獲取和使用的CPU為主,在AI訓練上則以GPU為主的更完善布局。而且這種XPU組合還可借助oneAPI工具包實現(xiàn)對異構硬件的統(tǒng)一編程和管理,具有靈活調(diào)配、無縫協(xié)作和高效易用等特點。

依托上述產(chǎn)品組合已經(jīng)或即將帶來的強大算力支持,英特爾從硬件到軟件多維度地為AI for Science提供了優(yōu)化,力求讓更多科研人員可以親自參與到開發(fā)和定制當中,并實現(xiàn)科學智能的真正普及。在其持續(xù)的努力下,如今已有許多合作伙伴實現(xiàn)了產(chǎn)品落地。

例如在AI小分子藥物設計領域,英特爾與劑泰生物合作,在小分子藥物優(yōu)化方面實現(xiàn)了高通量的分子生成,有望在更大的化學空間中探索更多潛在的候選分子。在大分子藥物設計領域,英特爾則與百度飛槳、晶泰科技、上海交大等各大機構和高校進行了深入合作,基于AlphaFold 2實現(xiàn)了高通量和長序列蛋白結構預測推理的優(yōu)化,并在AlphaFold 2中引入了TB級內(nèi)存技術,總體達到了降本增效。

其中,英特爾與百度飛槳也早在2017年就開始了以軟硬件協(xié)同優(yōu)勢為主的合作。隨著雙方在AI領域的持續(xù)布局,合作的廣度和深度也在不斷提升。例如,英特爾和百度飛槳致力于實現(xiàn)英特爾全棧軟硬件和飛槳的相互支持,通過oneAPI實現(xiàn)深度適配與性能優(yōu)化,并通過飛槳+OpenVINO等方式共建部署生態(tài)。

有意思的是,如今百度飛槳與英特爾在AI for Science領域達成合作,不僅與這些前序的合作有關,也與開發(fā)者生態(tài)有著千絲萬縷的關系。

長期以來,百度飛槳都在積極發(fā)展開發(fā)者生態(tài),如建設飛槳特殊興趣小組(PPSIG),希望通過開放的社區(qū)形式與全球開發(fā)者共同構建一個開放、多元和架構包容的生態(tài)體系。而英特爾的一位專家正巧是PPSIG-科學計算Science小組最早期的成員,曾積極參與了PaddlePaddle科學計算開源社區(qū)建設,并且對分子動力學模擬在生物蛋白分子和能源材料的應用產(chǎn)生了濃厚興趣。

在這個契機下,雙方在AI for Science的合作也水到渠成。從2022年3月起,百度飛槳與英特爾結合各自實際,經(jīng)過多次討論交流,最終確定了任務方向與合作內(nèi)容,共同開展AI for Science在分子動力學和生命科學領域的實質(zhì)性工作,并取得了一系列成果,包括:百度飛槳實現(xiàn)了國內(nèi)首個完成與傳統(tǒng)分子動力學軟件LAMMPS以及AI勢函數(shù)訓練軟件DeepMD-kit融合工作的AI深度學習框架,并基于英特爾oneAPI實現(xiàn)了從訓練到推理全流程打通的“0到1”式突破性進展;百度Helix Fold模型基于至強平臺的AVX-512、oneDNN和大內(nèi)存能力進行優(yōu)化,不但實現(xiàn)了性能的顯著提升,還可輕松預測推理長度超過4000,即超長序列的蛋白質(zhì)結構。

結語:AI for Science的普惠之路,臨界點已近

一個是在深度學習領域深耕多年,已成長為國內(nèi)開源AI框架一哥的百度飛槳,一個是科學計算領域Top級玩家英特爾,雙方正依托各自優(yōu)勢產(chǎn)品和對AI領域的持續(xù)布局,以靈活多樣的“組合拳”不斷拉低AI for Science的應用門檻,共同朝著“讓AI無處不在,更加普惠千行百業(yè)”以及“讓合作貫穿產(chǎn)、學、研,助AI for Science打通理論、實驗和產(chǎn)業(yè)應用道路“的目標持續(xù)推進。

站在這個關鍵的時間節(jié)點,我們再次回溯AI發(fā)展的七十余年,或能更清晰地看到,它在每一個發(fā)展階段的爆發(fā),都在歷史長河中砸出了創(chuàng)新的波紋,這些波紋終于在今天疊加成推動產(chǎn)業(yè)變革的巨浪。正如今天的AI for Science,就正在一浪又一浪地驅(qū)動著科研沖擊范式革新的臨界點,身處其中的每一個參與者,都在抑制不住地暢想這種沖擊成功后將為人類未來開辟的可能性。

畢竟,這將是如核裂變鏈接反應或寒武紀生命大爆發(fā)一樣的無窮種可能性。

來源:36氪

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )