科學家用細胞生物學,破解AI"黑匣子"

機器學習系統(tǒng)建立在人造神經(jīng)元層上,稱為神經(jīng)網(wǎng)絡。這些網(wǎng)絡層通過神經(jīng)元之間看似隨意的連接而聯(lián)系在一起,而整個系統(tǒng)會通過微調這些連接進行"學習"。

這已經(jīng)成為如今人工智能系統(tǒng)有效運行的重要支撐,然而,它卻以極為"神秘"的方式運作。

科學家正在利用細胞生物學,破解人工智能"黑匣子"

對于諸如"這是一只貓的照片嗎?""下一步棋該怎么走?""自動駕駛汽車在遇到黃燈時是否應該加速?"等等問題,神經(jīng)網(wǎng)絡往往能夠輕松給出答案,但關鍵問題在于,我們并不知道它是如何做到的。這就是所謂的"黑匣子"。

而為了讓人工智能在具體應用中變得更值得信賴,越來越多的研究者正在試圖打開"黑匣子",理解系統(tǒng)得出某個具體結論的過程。

最近,美國加州大學圣迭戈分校生物工程與醫(yī)學教授Trey Ideker與他的研究團隊一起,開發(fā)了一種"可見"的神經(jīng)網(wǎng)絡,并用它構建了稱之為DCell的啤酒酵母細胞模型(通常被用作基礎研究的一種模型)。

具體而言,就是將神經(jīng)網(wǎng)絡映射到簡單的酵母細胞內,使得研究人員能夠觀察AI系統(tǒng)的運作方式。在這個過程當中,研究人員得到了關于細胞生物學的諸多分析結論,而由此產生的技術還可能有助于研發(fā)新的癌癥藥物和個性化治療方案。

首先,介紹一下當今機器學習系統(tǒng)中使用的神經(jīng)網(wǎng)絡的相關基礎知識:

計算機科學家通過設置多個圖層來建立神經(jīng)網(wǎng)絡框架,其中每個圖層包含數(shù)千個負責執(zhí)行微小計算任務的"神經(jīng)元".

在此基礎上,培訓人員輸入數(shù)據(jù)集(例如數(shù)百萬張貓、狗的照片,數(shù)百萬次圍棋落子,數(shù)百萬種駕駛操作與結果等),由系統(tǒng)連接圖層中的神經(jīng)元,對其進行結構化序列計算。該系統(tǒng)將通過神經(jīng)網(wǎng)絡進行數(shù)據(jù)處理,然后檢查其執(zhí)行任務的實際效果(例如將貓與狗者區(qū)分的準確度)。

最后,通過重新排列神經(jīng)元之間的連接模式并再次運行數(shù)據(jù)集,檢查新模式是否產生更好的結果。當神經(jīng)網(wǎng)絡能夠非常準確地完成任務時,培訓人員就會認定訓練成功完成。

"雖然它們被稱為神經(jīng)網(wǎng)絡,但這些系統(tǒng)所受到的人類神經(jīng)系統(tǒng)啟發(fā)還非常初級。"Ideker解釋道。

他指出:"著眼于AlphaGo,可以發(fā)現(xiàn)這套系統(tǒng)的內部工作方式完全是一團亂麻,事實上根本不像人腦。它擁有一種全新的思維方式,但只是恰好能夠作出不錯的預測結論。"

立足于此,Ideker開始在細胞生物學人工智能研究當中作出新的嘗試。他希望能夠利用神經(jīng)網(wǎng)絡向研究人員們展示這些結論的得出方式,而不僅是簡單粗暴地給出答案。

Ideker在接受采訪時表示:"我們對于這樣一套并非由計算機科學家進行優(yōu)化,而是通過進化完成優(yōu)化的特定結構抱有濃厚興趣。"

科學家正在利用細胞生物學,破解人工智能"黑匣子"

▲ DCell可以像實驗室實驗一樣精確地預測酵母細胞的生長和繁殖

這一項目之所以具備可行性,是因為釀酒酵母是一種單細胞生物,從上世紀五十年代以來就一直被作為一類基礎生物系統(tǒng)接受研究。Ideker指出:"我們擁有大量細胞生物學知識可供參考,因此這項研究非常方便。"

因此,他的團隊通過把神經(jīng)網(wǎng)絡中的各個圖層映射至酵母細胞的組成部分中,從最微觀的組成元素(構成DNA的核苷酸)開始,逐步向上延伸至更大的結構--例如核糖體(從DNA處獲取指令以制造蛋白質),最后到達線粒體及細胞核等細胞器(負責執(zhí)行細胞活動)。總體而言,這套DCell神經(jīng)網(wǎng)絡將運用到酵母細胞中的總計2526個子系統(tǒng)。

科學家正在利用細胞生物學,破解人工智能"黑匣子"

▲ DCell作為在線應用程序可供研究人員使用

DCell允許研究人員們變更細胞的DNA(即遺傳代碼),并觀察這些變化如何向上蔓延以改變其生物學特征,進而影響到后續(xù)細胞生長與繁殖。其訓練數(shù)據(jù)集由來自數(shù)百萬個真實酵母細胞的基因突變實例組成,且與對應的突變結果信息相匹配。

研究人員發(fā)現(xiàn),DCell能夠通過模擬酵母來準確預測細胞的生長。由于這是一套"可見"的神經(jīng)網(wǎng)絡,因此研究人員們能夠看到細胞機制在進行DNA混淆時發(fā)生的改變。

這種可視性,意味著DCell能夠潛在應用于細胞的計算機制研究,且無需耗費大量時間與實驗室實驗資源投入。如果研究人員能夠弄清其實際建模過程--而非簡單的酵母細胞,則可進一步模擬更復雜的人類細胞。"如果能夠構建單一人體細胞的整體工作模型并對其進行模擬,這將徹底改變精準醫(yī)學與藥物研發(fā)的發(fā)展方向。"Ideker表示。

癌癥是目前最受關注的疾病研究方向,因為每一位癌癥患者的腫瘤細胞都包含獨特的突變組合。而Ideker和他的團隊正在使用患者的基因組與突變條件建立模型,觀察細胞的實際生長速度,以及癌癥的侵略性特性。

更重要的是,致力于尋找癌癥新藥的制藥企業(yè)將能夠利用細胞生長情況作為成功或失敗的評判標準。他們將觀察到眾多可以開啟及關閉的不同基因分子,并據(jù)此思考某種潛在藥物是否能夠停止腫瘤細胞的增殖??紤]到以往需要數(shù)十億美元進行抗癌藥物研發(fā)投入,如今這種更為便捷的研究方式明顯更具吸引力。

當然,要從酵母細胞升級為人類細胞絕非易事。研究人員需要收集與人類患者相關的足夠信息,從而構建起神經(jīng)網(wǎng)絡所必需的訓練數(shù)據(jù)集--至少需要數(shù)百萬條記錄,其中包含患者的遺傳圖譜與健康結果。Ideker預測稱,這些數(shù)據(jù)的積累速度會相當快。在他看來,對患者基因組進行測序將受到高度關注。

而更棘手的部分在于積累人類癌細胞活動機制的知識,只有這樣才能將神經(jīng)網(wǎng)絡映射至細胞中的各個部分。Ideker本人正是癌細胞繪圖計劃的成員之一,他們希望能夠盡快解決這一挑戰(zhàn)。目前,對癌細胞的生物活動進行歸納是一項非常困難的任務,因為這些突變不僅能夠開啟及關閉細胞功能,同時也會對細胞功能造成不同程度的影響,并以極為復雜的方式引發(fā)協(xié)調性變化。

不過,Ideker對于利用遷移學習技術將機器學習方案從模擬酵母細胞轉化為模擬人類細胞的神經(jīng)網(wǎng)絡仍抱有樂觀態(tài)度。他總結稱:"只要建立起一套能夠識別貓的系統(tǒng),那么無需對其進行完全重新訓練,也可以教會它如何識別松鼠。"

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2018-03-21
科學家用細胞生物學,破解AI"黑匣子"
機器學習系統(tǒng)建立在人造神經(jīng)元層上,稱為神經(jīng)網(wǎng)絡。這些網(wǎng)絡層通過神經(jīng)元之間看似隨意的連接而聯(lián)系在一起,而整個系統(tǒng)會通過微調這些連接進行"學習"。

長按掃碼 閱讀全文