清華大學(xué) AIR GenSI 研究組聯(lián)合清華大學(xué)藥學(xué)院共同提出了一種用于蛋白質(zhì)家族特異性生成建模的工具——ProfileBFN(即輪廓貝葉斯流網(wǎng)絡(luò))。ProfileBFN 能夠從多序列比對(duì) (MSA) 輪廓的角度擴(kuò)展了離散貝葉斯流網(wǎng)絡(luò),實(shí)現(xiàn)了高效的蛋白質(zhì)家族設(shè)計(jì)。實(shí)證結(jié)果表明,在生成多樣且新穎的家族蛋白質(zhì)時(shí),ProfileBFN 能夠準(zhǔn)確捕捉家族的結(jié)構(gòu)特征。
相關(guān)成果以「Steering Protein Family Design through Profile Bayesian Flow」為題,作為 Oral 論文,入選了 ICLR 2025。與此同時(shí),團(tuán)隊(duì)的另一項(xiàng)成果 CrysBFN 也入選了 ICLR 2025 Spotlight,研究論文題目為「A Periodic Bayesian Flow for Material Generation」。
在上一屆會(huì)議中,團(tuán)隊(duì)提出了幾何貝葉斯流網(wǎng)絡(luò) GeoBFN,相關(guān)成果以「Unified Generative Modeling of 3D Molecules with Bayesian Flow Networks」為題,入選 ICLR 2024 Oral。
論文鏈接:
https://go.hyper.ai/Dg5ha
開(kāi)源項(xiàng)目「awesome-ai4s」匯集了 200 余篇 AI4S 論文解讀,并提供海量數(shù)據(jù)集與工具:
https://github.com/hyperai/awes
多序列比對(duì): 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的基石
多序列比對(duì) (MSA) 指的是將 3 種或更多生物序列 (DNA、RNA 或蛋白質(zhì)) 進(jìn)行比對(duì)的過(guò)程。進(jìn)行多序列比對(duì)有助于發(fā)現(xiàn)和識(shí)別由于功能、結(jié)構(gòu)或進(jìn)化關(guān)系而產(chǎn)生的相似區(qū)域,為生物大分子之間關(guān)系提供更加全面的視角。
近年來(lái),利用 MSA 信息已經(jīng)成為蛋白質(zhì)設(shè)計(jì)中的重要一環(huán)。在 AlphaFold、ESM 等里程碑式工作中都有專(zhuān)門(mén)模塊編碼 MSA 信息:
成也多序列,敗也多序列
MSA 是進(jìn)化信息的寶庫(kù),但是現(xiàn)有模型好像都高估了自己的挖寶能力。隨著技術(shù)的發(fā)展,深度生成模型輸入的 MSA 深度不斷增加,但是效果卻遇到了瓶頸,這讓添加 MSA 信息的性?xún)r(jià)比遭到了質(zhì)疑。其中根本原因在于 MSA 的數(shù)量和質(zhì)量都存在嚴(yán)重的不確定性:
研究人員將在多序列比對(duì)中相似于滿足一定相似度的序列叫做同源序列。在數(shù)量上,對(duì)于某些「孤兒」蛋白質(zhì),同源序列可能不超過(guò) 10 條,而有些蛋白質(zhì)能夠搜索到超過(guò) 10,000 條同源序列,這給大模型造成了很大困惑,產(chǎn)生了資源的浪費(fèi)和效率上的影響。
實(shí)際上,大自然的鬼斧神工豈是人類(lèi)能妄加揣測(cè)的。在億萬(wàn)年間的進(jìn)化中,趨同結(jié)構(gòu)反映了自然選擇的效果,而變異則提供了進(jìn)化新的可能性。對(duì)于這些特殊環(huán)境的特殊物種,它們往往保留了進(jìn)化樹(shù)伊始的原貌信息,這恰恰是共進(jìn)化理論推演的基礎(chǔ)。把同源序列作為模型輸入的話,這些信息注定被大量其他無(wú)關(guān)信息所淹沒(méi),只能建模高概率的表示。為解決這一點(diǎn),ProfileBFN 把每一簇同源序列建模成與數(shù)量無(wú)關(guān)的統(tǒng)一表示。
好的同源序列應(yīng)該蘊(yùn)含盡可能多的同源信息。實(shí)驗(yàn)表明,在大多數(shù)情況下,用幾條信息熵最大的同源序列能起到和用上百條同源序列一樣的效果。某些同源序列間僅有幾個(gè)氨基酸的差別,它們給模型帶來(lái)了很多誤導(dǎo)的冗余信息。
Profile:下一代蛋白質(zhì)基座模型基石
科學(xué)以發(fā)現(xiàn)為先,**ProfileBFN 的創(chuàng)新的在于發(fā)掘原有 MSA 中存在的大量信息冗余。**100 條同源序列,如果按照信息熵的方法排序,僅使用前 20 條訓(xùn)練就能讓模型達(dá)到同樣的效果。為此,一個(gè)單序列和多序列之間的橋梁需要被建立,這就是 Profile 出現(xiàn)的原因:
直觀來(lái)理解,Profile 就是一個(gè)多序列比對(duì)中氨基酸出現(xiàn)次數(shù)的逐列統(tǒng)計(jì)。進(jìn)一步說(shuō),如果有 1w 條同源序列,每條長(zhǎng)度為 100,Profile 將其從 [10000,100] 直接壓縮成了 [20,100] 的列表(20 種常見(jiàn)氨基酸),這大大簡(jiǎn)化了計(jì)算復(fù)雜度。特別的,單序列也可以看作特殊的 Profile,只不過(guò)每列只有一個(gè) 1。
**ProfileBFN 發(fā)現(xiàn),進(jìn)行 MSA 到 Profile 的壓縮不但沒(méi)有原本預(yù)料的嚴(yán)重信息損失,還大大提升了模型性能。**這一點(diǎn)可以理解為:在構(gòu)建 Profile 的大浪淘沙中,每條同源序列都對(duì)這個(gè)位置出現(xiàn)氨基酸種類(lèi)進(jìn)行了投票表決,掩蓋細(xì)微矛盾凸顯整體趨勢(shì)。
ProfileBFN 的強(qiáng)勁表現(xiàn)出人意料
相比于傳統(tǒng)基于多序列比對(duì)的方法,**ProfileBFN 依賴(lài)數(shù)據(jù)縮小 10 倍,學(xué)習(xí)到蛋白質(zhì)序列上下文信息增加 1.5 倍,**效果立竿見(jiàn)影!
經(jīng)過(guò)探索,已經(jīng)證實(shí) ProfileBFN 對(duì)多種下游任務(wù)都有促進(jìn)作用:
*** 酶分類(lèi):**提升功能保真度,減少篩選成本
*** 蛋白質(zhì)表示學(xué)習(xí):**助力多任務(wù)特征提取
*** 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè):**增強(qiáng)同源信息,提高建模精度
*** 抗體生成:**遷移作用優(yōu)異,準(zhǔn)確預(yù)測(cè)功能區(qū)域
酶是一類(lèi)具有催化活性的特殊蛋白,其功能特異性通常通過(guò) EC 編號(hào) (Enzyme Commission Number) 進(jìn)行描述。研究發(fā)現(xiàn),ProfileBFN 生成的新酶候選在 EC 編號(hào)上高度匹配野生型酶,這意味著生成的蛋白質(zhì)在功能上保持了高度一致性。這一特性大幅減少了實(shí)驗(yàn)篩選的難度,提高了新型酶設(shè)計(jì)的成功率。
ProfileBFN 在生成蛋白質(zhì)的同時(shí),也在模型內(nèi)部構(gòu)建了精確的蛋白質(zhì)表示。研究人員提取這些表示,并在蛋白質(zhì)熱穩(wěn)定性、蛋白質(zhì)相互作用、蛋白質(zhì)亞細(xì)胞定位等多個(gè)數(shù)據(jù)集上進(jìn)行微調(diào),結(jié)果表明在分類(lèi)等下游任務(wù)中,ProfileBFN 提供的表示能夠有效提升模型性能。這表明它不僅是一種生成模型,還能作為強(qiáng)大的特征學(xué)習(xí)工具。
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是結(jié)構(gòu)生物學(xué)的重要問(wèn)題,**尤其在孤兒蛋白質(zhì)(即同源蛋白極少)場(chǎng)景下,傳統(tǒng)方法的準(zhǔn)確性受到極大限制。研究表明,ProfileBFN 可以作為同源信息增強(qiáng)器,**在僅有少量 MSA 數(shù)據(jù)的情況下,生成更多高質(zhì)量的同源蛋白質(zhì),從而提升 AlphaFold 系列模型的預(yù)測(cè)精度。這一能力使 ProfileBFN 在結(jié)構(gòu)生物學(xué)領(lǐng)域展現(xiàn)出廣闊的應(yīng)用前景。
抗體是能與抗原特異性結(jié)合的功能性蛋白,在免疫和病理研究中具有重要意義。為探索 ProfileBFN 在抗體生成方面的潛力,**研究人員基于 OAS (Observed Antibody Space) 抗體序列數(shù)據(jù)庫(kù) 對(duì)模型進(jìn)行了微調(diào),**結(jié)果顯示 ProfileBFN 在生成多樣化、高質(zhì)量抗體序列方面表現(xiàn)出色。
ProfileBFN 的過(guò)人效果源于這一新研究給出了后 MSA 時(shí)代生成生物序列的范式:
* MSA 不直接作為輸入?yún)⑴c訓(xùn)練過(guò)程,不引入額外訓(xùn)練開(kāi)銷(xiāo)
* 在推理階段,對(duì)單序列和 MSA 進(jìn)行統(tǒng)一建模
* 同源序列既是模型輸入也是輸出
BFN 完美利用先驗(yàn)信息
既然 Profile 信息很重要,甚至勝過(guò)原有同源序列,那么該如何利用 Profile 信息呢?貝葉斯流網(wǎng)絡(luò) BFN 對(duì) Profile 的完美契合!這體現(xiàn)在兩點(diǎn):
* BFN 建模從分布到分布的過(guò)程,輸入 Profile 表示輸出仍然也是 Profile 表示
* 與其從零開(kāi)始推理,BFN 可以引入 Profile 信息作為先驗(yàn)進(jìn)行條件推理
對(duì)于自回歸模型 (AutoRegressive)、擴(kuò)撒模型 (Diffusion) 等傳統(tǒng)模型,必須要求數(shù)據(jù) (Tokens) 作為輸入,處理 Profile 信息會(huì)額外增加算法復(fù)雜度。
有了 BFN 作為模型骨架,ProfileBFN 可以進(jìn)而實(shí)現(xiàn):
* 任務(wù)的簡(jiǎn)化。同源信息條件生成變?yōu)?Profile 信息模仿。
* 效率的提升。采樣范圍縮小有效性提高
ProfileBFN 有望成為濕實(shí)驗(yàn)救星
在合成生物學(xué)等任務(wù)中,周期長(zhǎng)、評(píng)價(jià)指標(biāo)單一、可信度不足是研究者們廣泛遇到的問(wèn)題。ProfileBFN 作為蛋白質(zhì)基座模型,能夠在資源有限的情況下整合更多同源信息,充分利用特定先驗(yàn)信息,對(duì)多指標(biāo)有良好的遷移作用,這無(wú)疑讓它成為合成候選蛋白,定向進(jìn)化的不二之選。
關(guān)于研究組
清華大學(xué)智能產(chǎn)業(yè)研究院生成式符號(hào)智能研究組 (GenSI) 的研究領(lǐng)域橫跨 LLM 和 AI for Science 兩個(gè)方向,預(yù)期兩個(gè)方向互相促進(jìn),從而實(shí)現(xiàn) AGI for Science (AI Scientist) 的終極使命。
具體的研究方向包括新一代大規(guī)模預(yù)訓(xùn)練技術(shù)、超大規(guī)模強(qiáng)化學(xué)習(xí) (Large Scale RL)、深度生成模型 (Deep Generative Models) 及其在科學(xué)數(shù)據(jù)中的應(yīng)用等,注重人工智能基礎(chǔ)算法和科學(xué)問(wèn)題融合創(chuàng)新。目前,該團(tuán)隊(duì)聚焦于深度生成模型的前沿理論以及大規(guī)模結(jié)構(gòu)化生成模型 (Scalable Structured-based Generative Models) 方法探索,致力于解決 LLM 和 AI4Sci 領(lǐng)域中現(xiàn)實(shí)且富有挑戰(zhàn)的科學(xué)問(wèn)題,例如提升 LLM 的推理能力、超越 AF3-level 的結(jié)構(gòu)生成任務(wù)等。