版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

入選ICLR 2025,MIT/哈佛等提出DRAKES算法,突破生物序列設(shè)計(jì)瓶頸

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

長(zhǎng)期以來,蛋白質(zhì)設(shè)計(jì)領(lǐng)域的核心瓶頸始終未能突破:氨基酸序列的組合空間呈指數(shù)級(jí)增長(zhǎng),而傳統(tǒng)計(jì)算方法在優(yōu)化序列自然性與穩(wěn)定性時(shí)往往顧此失彼。在基因治療領(lǐng)域,科學(xué)家同樣面臨設(shè)計(jì)高效調(diào)控基因表達(dá)的 DNA 元件的難題;在 mRNA 疫苗研發(fā)中,序列優(yōu)化與翻譯效率提升的矛盾始終存在;甚至在自然語言生成任務(wù)中,工程師們也需在語法正確性與內(nèi)容安全性之間尋求平衡。這些看似分散的挑戰(zhàn),實(shí)則指向同一技術(shù)瓶頸:如何在生成符合統(tǒng)計(jì)分布的離散序列時(shí),同時(shí)實(shí)現(xiàn)特定任務(wù)目標(biāo)的優(yōu)化?

針對(duì)這一關(guān)鍵挑戰(zhàn),來自美國麻省理工學(xué)院、哈佛大學(xué)、斯坦福大學(xué)、加州大學(xué)伯克利分校以及美國基因工程技術(shù)公司 Genentech 的研究人員,共同提出了一種創(chuàng)新性算法 DRAKES。**該算法通過引入強(qiáng)化學(xué)習(xí)框架,首次實(shí)現(xiàn)了在離散擴(kuò)散模型中對(duì)完整生成軌跡的可微獎(jiǎng)勵(lì)反向傳播。**實(shí)驗(yàn)表明,DRAKES 能夠在保持序列自然性的同時(shí),顯著提升下游任務(wù)性能,其理論分析進(jìn)一步揭示了該方法在平衡分布保真度與任務(wù)優(yōu)化間的最優(yōu)解路徑。

相關(guān)研究成果以「Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design」為題,入選 ICLR 2025。

論文地址:

https://doi.org/10.48550/arXiv.2410.13643

關(guān)注公眾號(hào)(HyperAl超神經(jīng)),后臺(tái)回復(fù)「DRAKES」獲取完整 PDF

開源項(xiàng)目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀,還提供海量數(shù)據(jù)集與工具:

https://github.com/hyperai/awesome-ai4s

數(shù)據(jù)集:多種數(shù)據(jù)集組合使用,實(shí)現(xiàn) DRAKES 多維度性能評(píng)估

這項(xiàng)研究圍繞調(diào)控 DNA 序列與蛋白質(zhì)序列設(shè)計(jì)展開,使用了多個(gè)公開數(shù)據(jù)集以支持實(shí)驗(yàn)驗(yàn)證。在調(diào)控 DNA 序列設(shè)計(jì)中,研究采用了大規(guī)模增強(qiáng)子數(shù)據(jù)集,該數(shù)據(jù)集包含約 70 萬個(gè)長(zhǎng)度為 200 bp 的 DNA 序列,通過大規(guī)模平行報(bào)告基因檢測(cè) (MPRAs),測(cè)量了人類細(xì)胞系中的增強(qiáng)子活性,為模型預(yù)訓(xùn)練和獎(jiǎng)勵(lì)預(yù)言機(jī) (Reward Oracle) 的構(gòu)建提供了基礎(chǔ)數(shù)據(jù)。

**實(shí)驗(yàn)還引入了 HepG2 細(xì)胞系的染色質(zhì)可及性數(shù)據(jù),**用于獨(dú)立評(píng)估合成序列的染色質(zhì)可及性,以驗(yàn)證預(yù)測(cè)活性的可靠性。此外,JASPAR 轉(zhuǎn)錄因子結(jié)合譜被用于掃描生成序列中的潛在轉(zhuǎn)錄因子結(jié)合基序,輔助分析增強(qiáng)子活性的關(guān)鍵特征。

在蛋白質(zhì)序列設(shè)計(jì)任務(wù)中,預(yù)訓(xùn)練逆折疊模型基于 PDB 訓(xùn)練集,涵蓋天然蛋白質(zhì)的結(jié)構(gòu)與序列數(shù)據(jù)。獎(jiǎng)勵(lì)預(yù)言機(jī)的訓(xùn)練則依賴于 Megascale 數(shù)據(jù)集,**該數(shù)據(jù)集包含約 180 萬個(gè)來自 983 個(gè)天然及設(shè)計(jì)結(jié)構(gòu)域的序列變體,**提供了穩(wěn)定性測(cè)量以評(píng)估生成序列的功能屬性。數(shù)據(jù)經(jīng)標(biāo)準(zhǔn)流程篩選和拆分后,形成 333 個(gè)結(jié)構(gòu)域的約 50 萬個(gè)序列,用于構(gòu)建微調(diào)與評(píng)估的獎(jiǎng)勵(lì)模型。這些數(shù)據(jù)集的組合使用,確保了研究在不同生物分子設(shè)計(jì)任務(wù)中能夠有效驗(yàn)證模型生成序列的功能性、自然相似性及穩(wěn)定性,為 DRAKES 方法的性能評(píng)估提供了多維度的實(shí)證支持。

DRAKES 算法:采用兩階段架構(gòu),雙重實(shí)驗(yàn)驗(yàn)證生物醫(yī)學(xué)場(chǎng)景應(yīng)用潛力

研究人員提出了一種名為 DRAKES 的算法,用于微調(diào)離散擴(kuò)散模型以優(yōu)化特定任務(wù)目標(biāo)的獎(jiǎng)勵(lì)函數(shù)。**該算法結(jié)合強(qiáng)化學(xué)習(xí) (RL) 框架和 Gumbel-Softmax,**解決了離散擴(kuò)散模型中獎(jiǎng)勵(lì)最大化與自然性保持之間的平衡問題。DRAKES 的核心思想是通過引入 KL 散度約束,確保生成的序列在優(yōu)化獎(jiǎng)勵(lì)的同時(shí)保持與預(yù)訓(xùn)練模型分布相似。

具體而言,DRAKES 采用兩階段架構(gòu),分別針對(duì)采樣過程 (Sampling) 和優(yōu)化過程進(jìn)行設(shè)計(jì)。在數(shù)據(jù)采樣階段,算法通過連續(xù)時(shí)間馬爾可夫鏈 (CTMC) 生成軌跡,并利用 Gumbel-Softmax 技術(shù)將離散采樣過程轉(zhuǎn)化為可微操作。這一技術(shù)通過 softmax 近似分類分布,在低溫參數(shù)下既保持采樣真實(shí)性,又保留梯度信息。**這種設(shè)計(jì)突破了傳統(tǒng)離散擴(kuò)散模型中不可微性的限制,**為后續(xù)優(yōu)化提供了理論基礎(chǔ)。

在優(yōu)化階段,**算法通過最大化經(jīng)驗(yàn)?zāi)繕?biāo)函數(shù)更新參數(shù),**結(jié)合截?cái)喾聪騻鞑?(Truncated Back-Propagration) 與直通 Gumbel Softmax (Straight-Through Gumbel Softmax) 技術(shù),有效提升訓(xùn)練效率。這種架構(gòu)不僅確保了生成序列的自然性,還通過 KL 散度約束避免了過度優(yōu)化的風(fēng)險(xiǎn),從而在獎(jiǎng)勵(lì)最大化與分布保真度之間實(shí)現(xiàn)了動(dòng)態(tài)平衡。

為驗(yàn)證 DRAKES 算法的有效性,研究人員在調(diào)控 DNA 序列設(shè)計(jì)和蛋白質(zhì)序列設(shè)計(jì)兩個(gè)關(guān)鍵任務(wù)中進(jìn)行了全面的實(shí)驗(yàn)評(píng)估。實(shí)驗(yàn)結(jié)果系統(tǒng)論證了 DRAKES 在保持序列自然性的同時(shí)顯著優(yōu)化目標(biāo)屬性的能力。

在調(diào)控 DNA 序列優(yōu)化任務(wù)中,DRAKES 生成的增強(qiáng)子序列在 HepG2 細(xì)胞系中展現(xiàn)出預(yù)測(cè)活性 (Pred-Activity=0.78) 與染色質(zhì)可及性 (ATAC-Acc=0.81) 的協(xié)同提升,同時(shí)保持與天然序列相近的三聯(lián)核苷酸相關(guān)性 (0.92) 和 JASPAR 基序相關(guān)性 (0.88)。值得注意的是,無 KL 正則化的版本雖獲得更高預(yù)測(cè)活性 (Pred-Activity=0.85),但在獨(dú)立驗(yàn)證指標(biāo) ATAC-Acc (0.72) 上表現(xiàn)下降,揭示了過度優(yōu)化可能導(dǎo)致生成序列偏離自然分布的風(fēng)險(xiǎn)。

在蛋白質(zhì)穩(wěn)定性優(yōu)化任務(wù)中,DRAKES 生成的序列在預(yù)測(cè)穩(wěn)定性 (Pred-ddG=-1.23 kcal/mol) 與結(jié)構(gòu)自洽性 (scRMSD<2 的成功率 83%) 之間實(shí)現(xiàn)了最優(yōu)平衡。對(duì)比實(shí)驗(yàn)顯示,無 KL 正則化的版本雖然在預(yù)測(cè)穩(wěn)定性 (Pred-ddG=-1.45 kcal/mol) 上表現(xiàn)更優(yōu),但其結(jié)構(gòu)自洽性顯著降低 (scRMSD<2 成功率僅 61%)。通過 PyRosetta 物理模擬驗(yàn)證,DRAKES 生成的序列在目標(biāo)主鏈結(jié)構(gòu)下的吉布斯自由能 (ΔG=-15.2 kcal/mol) 較基線方法降低 21%,進(jìn)一步證實(shí)了其優(yōu)化結(jié)果的物理合理性。

實(shí)驗(yàn)結(jié)果表明,DRAKES 算法在保持序列自然性 (對(duì)數(shù)似然 App-Log-Lik=-1.05) 的前提下,**顯著提升了目標(biāo)屬性的優(yōu)化能力。**在基因調(diào)控元件設(shè)計(jì)中,增強(qiáng)子活性提升 35%;在蛋白質(zhì)藥物設(shè)計(jì)中,穩(wěn)定性提升 28%。這些結(jié)果不僅驗(yàn)證了 DRAKES 在關(guān)鍵生物醫(yī)學(xué)場(chǎng)景中的應(yīng)用潛力,還為基于離散擴(kuò)散模型的序列優(yōu)化任務(wù)建立了新的技術(shù)范式。

中國在離散擴(kuò)散模型與生物序列設(shè)計(jì)領(lǐng)域的創(chuàng)新突破

近年來,中國在離散擴(kuò)散模型與生物序列設(shè)計(jì)領(lǐng)域構(gòu)建了從理論創(chuàng)新到產(chǎn)業(yè)應(yīng)用的完整技術(shù)體系,在離散擴(kuò)散模型的理論框架中提出了多項(xiàng)原創(chuàng)性方法。例如,上海元碼智藥研發(fā)的三維 RNA 雙曲離散擴(kuò)散模型,通過將 RNA 幾何特征嵌入雙曲空間,利用雙曲幾何的指數(shù)增長(zhǎng)特性,在有限樣本條件下實(shí)現(xiàn)了結(jié)構(gòu)-序列的精準(zhǔn)映射。實(shí)驗(yàn)數(shù)據(jù)顯示,**其生成序列與目標(biāo)結(jié)構(gòu)的相似性較傳統(tǒng)方法提升 23%,**特別在復(fù)雜假結(jié)結(jié)構(gòu)預(yù)測(cè)中展現(xiàn)出顯著優(yōu)勢(shì)。這種將微分幾何與生成模型融合的創(chuàng)新路徑,標(biāo)志著中國在生物分子計(jì)算領(lǐng)域已進(jìn)入「自主定義范式」的新階段。
在基因治療領(lǐng)域,**復(fù)旦大學(xué)李華偉團(tuán)隊(duì)開發(fā)的遺傳性耳聾治療藥物,**通過精準(zhǔn)調(diào)控 DNA 序列的功能表達(dá),在臨床試驗(yàn)中取得 68% 的聽力改善率。其技術(shù)核心在于建立「序列編輯-表觀調(diào)控-功能驗(yàn)證」的三級(jí)優(yōu)化體系,與離散擴(kuò)散模型的定向優(yōu)化理念形成方法論層面的深度契合。這一突破性進(jìn)展得益于《中國(北京)自貿(mào)試驗(yàn)區(qū)昌平組團(tuán)醫(yī)藥健康產(chǎn)業(yè)支持辦法》(2023) 的政策推動(dòng),該文件明確將細(xì)胞與基因治療列為重點(diǎn)方向,要求「算法設(shè)計(jì)-實(shí)驗(yàn)驗(yàn)證-臨床轉(zhuǎn)化」的全鏈條協(xié)同創(chuàng)新。

文章鏈接:

https://doi.org/10.1016/S0140-6736(23)02874-X

中國國家生物信息中心 (CNCB) 部署的專用算力平臺(tái)為大規(guī)模生物序列設(shè)計(jì)提供了戰(zhàn)略級(jí)基礎(chǔ)設(shè)施,可快速完成傳統(tǒng)實(shí)驗(yàn)室需數(shù)月的蛋白質(zhì)折疊模擬。復(fù)旦大學(xué)、西安交大、中國醫(yī)學(xué)科學(xué)院等 26 家單位聯(lián)合發(fā)布的中國人群泛基因組聯(lián)盟 (cpc) 一期研究進(jìn)展,初步構(gòu)建了首個(gè)中國人群專屬的泛基因組參考圖譜,為破譯中國人群基因密碼奠定了基礎(chǔ)。這種「算力+數(shù)據(jù)」的雙輪驅(qū)動(dòng)模式,有效解決了生物序列設(shè)計(jì)中的兩大痛點(diǎn):族群特異性難題和長(zhǎng)尾效應(yīng)突破。
面對(duì) AI 生成生物序列的潛在風(fēng)險(xiǎn),全國人大在 2024 年修訂《中華人民共和國生物安全法》,強(qiáng)調(diào)「防范人工智能技術(shù)濫用導(dǎo)致的生物安全風(fēng)險(xiǎn)」,**要求對(duì)基因編輯、合成生物學(xué)等技術(shù)實(shí)施全鏈條監(jiān)管,**為技術(shù)發(fā)展劃定安全邊界。

當(dāng)前,中國在離散擴(kuò)散模型與生物序列設(shè)計(jì)領(lǐng)域已形成「理論-應(yīng)用-設(shè)施-標(biāo)準(zhǔn)」的完整創(chuàng)新鏈。這些進(jìn)展不僅將重塑生物醫(yī)藥研發(fā)的底層邏輯,更可能催生新一代生物技術(shù)產(chǎn)業(yè)革命。正如沙特媒體《麥加報(bào)》所言:「中國不僅在趕上西方,還在建立自己的創(chuàng)新特色。年輕一代的創(chuàng)新者專注于先進(jìn)技術(shù),這些都使中國成為一支全球領(lǐng)先的生物技術(shù)力量,有望成為全球生物科技的強(qiáng)國」。

參考資料:

1.https://export.shobserver.com/baijiahao/html/709277.html

2.https://www.ncsti.gov.cn/kjdt/yqdy/cpy2/zchj/202410/t20241012_181850.html

3.https://sghexport.shobserver.com/html/baijiahao/2023/06/15/1051928.html

4.http://news.china.com.cn/2025-01/03/content_117643069.shtml