版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

Science:AI模擬5億年生物進(jìn)化,創(chuàng)造了一種「前所未有」的蛋白質(zhì)

學(xué)術(shù)頭條
一起見證人類探索征途上的每一個(gè)重大突破。
收藏

圖片

蛋白質(zhì)是生物體中非常重要的功能性分子,它們的形成過程經(jīng)過了數(shù)十億年的自然選擇和進(jìn)化。在這一過程中,蛋白質(zhì)的序列和結(jié)構(gòu)經(jīng)過無數(shù)次隨機(jī)突變,并通過生物系統(tǒng)的選擇機(jī)制進(jìn)行篩選,最終形成那些具有特定生物學(xué)功能的蛋白質(zhì)

近年來,隨著深度學(xué)習(xí)和語言模型(LM)的發(fā)展,科學(xué)家們開始嘗試將這些工具應(yīng)用于理解生物系統(tǒng),尤其是蛋白質(zhì)。

Science 雜志發(fā)表了一項(xiàng)重要研究成果,展示了如何利用語言模型來生成和推理蛋白質(zhì)序列、結(jié)構(gòu)和功能,并提出了一個(gè)名為 ESM3 的多模態(tài)生成式模型。該模型不僅能夠生成功能性蛋白質(zhì),還能夠模擬超過 5 億年的進(jìn)化過程,生成與自然界已知蛋白序列不同的全新蛋白質(zhì)。

圖片

ESM3 模型由人工智能初創(chuàng)公司 Evolutionary Scale 研發(fā),旨在幫助科學(xué)家理解、構(gòu)思和創(chuàng)造蛋白質(zhì)。在這項(xiàng)工作中,研究人員通過 ESM3 設(shè)計(jì)了一個(gè)新的綠色熒光蛋白(GFP),其基因序列與已知熒光蛋白的差異巨大,如果通過天然熒光蛋白的生物進(jìn)化,則需要超過 5 億年左右的時(shí)間。

這意味著,語言模型不僅可以解讀自然進(jìn)化中積累的生物數(shù)據(jù),還能通過分析進(jìn)而生成新型生物分子,開辟蛋白質(zhì)設(shè)計(jì)和藥物開發(fā)的新路徑。

AI 解碼生物語言

生物體本質(zhì)上是可編程的。

這是因?yàn)樽匀唤绲拿總€(gè)生物體都共享相同的遺傳密碼,構(gòu)成生命物質(zhì)基礎(chǔ)的蛋白質(zhì)就是僅由 20 種氨基酸組成。也因此,有人將其比作生命的“字母表”。

生物體中復(fù)雜的蛋白質(zhì)信息蘊(yùn)含著深層的生物學(xué)規(guī)律和演化歷史。近年來,科學(xué)家們通過對(duì)基因組序列和蛋白質(zhì)結(jié)構(gòu)的測序,積累了大量的蛋白質(zhì)數(shù)據(jù),包括數(shù)十億條序列和數(shù)億個(gè)結(jié)構(gòu)信息。

隨著 AI 技術(shù)的發(fā)展,科學(xué)家們開始嘗試?yán)蒙疃葘W(xué)習(xí)模型,如大語言模型(LLM),將這些遺傳信息“解碼”,以揭示蛋白質(zhì)序列中隱藏的深層模式和邏輯,并通過這些模式推斷、設(shè)計(jì)全新的蛋白質(zhì)結(jié)構(gòu)和功能。

當(dāng)前,已有多個(gè)語言模型(如 ProtBERT、ProtGPT)證明了蛋白質(zhì)序列中的模式能夠被語言模型“解碼”,從而可以幫助理解其功能。這一領(lǐng)域的研究還表明,隨著模型規(guī)模的擴(kuò)大,語言模型的能力和準(zhǔn)確性也隨之提升。

為此,研究人員使用了超過 31.5 億條蛋白質(zhì)序列、2.36 億個(gè)蛋白質(zhì)結(jié)構(gòu),以及 5.39 億個(gè)帶有功能注釋的蛋白質(zhì)數(shù)據(jù)來訓(xùn)練 ESM3 模型。該模型總共有三種不同的規(guī)模,分別為 14 億、70 億和 980 億參數(shù)。

實(shí)驗(yàn)表明,隨著模型參數(shù)規(guī)模的增加,ESM3 在生成能力和表示學(xué)習(xí)上的性能有顯著提升,特別是在生成蛋白質(zhì)結(jié)構(gòu)時(shí),980 億參數(shù)的模型表現(xiàn)出超越現(xiàn)有模型的強(qiáng)大能力。

作為該領(lǐng)域的前沿成果,ESM3 不僅僅是一個(gè)傳統(tǒng)的序列生成模型,而是一個(gè)多模態(tài)生成模型,能夠同時(shí)處理蛋白質(zhì)的序列、三維結(jié)構(gòu)和功能

ESM3 還展示了其在多種生成任務(wù)上的卓越性能。ESM3 使用了一種名為“生成掩碼語言模型”的方法,在輸入中對(duì)蛋白質(zhì)的序列、結(jié)構(gòu)和功能進(jìn)行隨機(jī)掩碼,然后通過模型推理生成缺失的部分。

圖片

(來源:Evolutionary Scale)

研究人員通過隨機(jī)掩碼并生成序列和結(jié)構(gòu),對(duì)比生成結(jié)果與真實(shí)蛋白質(zhì)的匹配情況,發(fā)現(xiàn)模型能夠生成高質(zhì)量的蛋白質(zhì)序列和結(jié)構(gòu),其與真實(shí)結(jié)構(gòu)的平均差異僅為 0.5?

此外,研究表明,ESM3 能夠通過不同的提示生成具有目標(biāo)功能的蛋白質(zhì),這為蛋白質(zhì)設(shè)計(jì)帶來了高度靈活性。與傳統(tǒng)的三維空間中的復(fù)雜建模方法不同,ESM3 將三維結(jié)構(gòu)離散化為 token,這使得它能夠與序列和功能信息一同被輸入模型進(jìn)行處理。這種方法避免了復(fù)雜的三維空間擴(kuò)散架構(gòu),使得生成過程更加高效、可控。

生成需 5 億年進(jìn)化的熒光蛋白

為了展示了 ESM3 模型在生成全新蛋白質(zhì)方面的巨大潛力,研究人員嘗試選擇綠色熒光蛋白進(jìn)行挑戰(zhàn)。

綠色熒光蛋白在生物學(xué)研究中是非常重要的工具,用于標(biāo)記和跟蹤細(xì)胞內(nèi)的分子與結(jié)構(gòu)。然而,現(xiàn)有的熒光蛋白大多數(shù)來自自然界,且其突變通常限制在已有序列周圍,很難大幅度改變其序列。在少數(shù)情況下,利??通量實(shí)驗(yàn)和機(jī)器學(xué)習(xí),科學(xué)家僅能夠引?至多 40-50 個(gè)突變(即 80% 的序列同源性),同時(shí)保留蛋白的熒光功能。

圖片

(來源:Evolutionary Scale)

為了突破這一瓶頸,研究人員通過對(duì) ESM3 模型進(jìn)行特定的功能提示,嘗試生成生成一個(gè)全新的綠色熒光蛋白,要求該蛋白的序列與已知的綠色熒光蛋白序列相似性較低,但仍要保持其熒光特性。

首先,研究人員定義了一個(gè) 229 個(gè)氨基酸長的蛋白質(zhì)序列,其中包含了與綠色熒光蛋白熒光活性相關(guān)的關(guān)鍵氨基酸,研究人員還提供了綠色熒光蛋白的三維信息,尤其是與形成熒光色素的活性位點(diǎn)相關(guān)的氨基酸殘基。

ESM3 模型在接收到這些提示后,會(huì)生成一個(gè)蛋白質(zhì)的三維結(jié)構(gòu),尤其是確保活性位點(diǎn)的氨基酸位置協(xié)調(diào)良好。然后,基于生成的結(jié)構(gòu),模型進(jìn)一步推理生成合適的氨基酸序列,并嘗試保持活性位點(diǎn)的正確結(jié)構(gòu)。

在這個(gè)過程中,ESM3 不僅僅是根據(jù)已有的綠色熒光蛋白結(jié)構(gòu)生成新的序列,還能夠在“已知”結(jié)構(gòu)的基礎(chǔ)上進(jìn)行創(chuàng)新,生成具有低序列相似性的新型蛋白質(zhì)。

經(jīng)過一系列的生成和優(yōu)化步驟,研究人員獲得了多個(gè)新的綠色熒光蛋白,其中一個(gè)特別的設(shè)計(jì)被命名為 esmGFP。這個(gè)全新的蛋白質(zhì)與現(xiàn)有的熒光蛋白(如 tagRFP)之間的序列相似性為 58%,與最接近的天然蛋白(eqFP578)之間的序列差異為 107 個(gè)氨基酸,序列相似性為 53%。

研究人員還進(jìn)一步驗(yàn)證了生成的綠色熒光蛋白是否具有實(shí)際的熒光功能。結(jié)果表明,盡管 esmGFP 發(fā)光特性有所延遲,成熟時(shí)間較長,但最終的熒光亮度與已知的綠色熒光蛋白相似,且具有穩(wěn)定的熒光特性。

研究人員還提供了時(shí)間校準(zhǔn)系統(tǒng)發(fā)育分析,指出如果通過現(xiàn)有蛋白的自然界進(jìn)化過程得到 esmGFP,則需要超過 5 億年的等效時(shí)間。

ESM3 的未來潛力與應(yīng)用

ESM3 的另一個(gè)顯著亮點(diǎn)是其在多模態(tài)條件下的生成和控制能力。

也就是說,研究人員能夠通過提示特定的蛋白質(zhì)結(jié)構(gòu)、功能或特定的關(guān)鍵氨基酸,生成滿足這些條件的新型蛋白質(zhì)。例如,模型能夠生成具有特定功能位點(diǎn)的蛋白質(zhì),同時(shí)保持整體結(jié)構(gòu)的完整性。

此外,通過組合不同的提示,模型也能夠生成符合復(fù)雜要求的蛋白質(zhì)。例如,研究人員提示蛋白質(zhì)的二級(jí)結(jié)構(gòu)和功能關(guān)鍵詞,并生成了與這些提示高度一致的蛋白質(zhì)。

ESM3 模型的這種提示響應(yīng)能力和可控特性,使得它在蛋白質(zhì)設(shè)計(jì)領(lǐng)域具有高度實(shí)用價(jià)值,尤其是在生成與現(xiàn)有已知蛋白質(zhì)具有顯著差異的新型蛋白質(zhì)方面。

在 ESM3 模型的幫助下,研究人員不僅能夠設(shè)計(jì)出新型的綠色熒光蛋白,還能在設(shè)計(jì)中創(chuàng)新,突破自然進(jìn)化的局限。這為未來蛋白質(zhì)工程、合成生物學(xué)和藥物開發(fā)等領(lǐng)域提供了新的可能性,也為蛋白質(zhì)的設(shè)計(jì)和功能驗(yàn)證提供了更加高效的工具。

例如,與自然進(jìn)化相比,ESM3 能夠大大加速蛋白質(zhì)設(shè)計(jì)的速度,并生成在自然界中無法輕易獲得的新蛋白質(zhì),而這對(duì)于基礎(chǔ)研究和應(yīng)用研究來說都是巨大的突破。

另外,在藥物設(shè)計(jì)領(lǐng)域中,生成具有特定功能的蛋白質(zhì)是一個(gè)重要的研究方向,而通過 ESM3,研究人員能夠設(shè)計(jì)出符合特定靶點(diǎn)的蛋白質(zhì),減少實(shí)驗(yàn)驗(yàn)證的時(shí)間和成本。

而在合成生物學(xué)領(lǐng)域中,ESM3 能夠?yàn)殚_發(fā)新的合成途徑提供幫助,生成具備新功能的酶或代謝途徑。

研究人員還指出,隨著模型規(guī)模和數(shù)據(jù)量的進(jìn)一步增加,ESM3 有潛力生成更加復(fù)雜和創(chuàng)新的蛋白質(zhì)。未來,ESM3 的應(yīng)用可能涵蓋從基礎(chǔ)研究到藥物設(shè)計(jì)等更多領(lǐng)域,為蛋白質(zhì)工程開辟全新的可能性。

目前,ESM3 已通過 API 推出公開測試版,使科學(xué)家能夠通過編程或基于瀏覽器的交互式 app 來設(shè)計(jì)蛋白質(zhì)。科學(xué)家們可以通過免費(fèi)學(xué)術(shù)訪問層使用 EvolutionaryScale Forge API,也可以使用開放模型的代碼和權(quán)重。

作者:木木

評(píng)論
中國退役軍人科普員。
庶吉士級(jí)
ESM3 能夠通過不同的提示生成具有目標(biāo)功能的蛋白質(zhì),這為蛋白質(zhì)設(shè)計(jì)帶來了高度靈活性。
2025-01-19
山東省科技館檸月如風(fēng)
貢士級(jí)
新技術(shù)的應(yīng)用讓我們對(duì)蛋白質(zhì)有了更深層次的理解,我們能夠研制出更高效的生物制劑來應(yīng)對(duì)疾病,生產(chǎn)出有特定用途的新材料,甚至是創(chuàng)造新的生命,新的物種。
2025-01-19
陳吉遷
少師級(jí)
利用語言模型來生成和推理蛋白質(zhì)序列、結(jié)構(gòu)和功能
2025-01-19