版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

劍橋大學(xué)團隊提出AlphaFold-Metainference,精準預(yù)測無序蛋白質(zhì)結(jié)構(gòu)集合

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

自 2018 年底 AlphaFold 橫空出世以來,蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域在 AI 的加持下可謂是發(fā)生了翻天覆地的變化。如今,AlphaFold 不僅在預(yù)測精度方面令人刮目相看,更是在最新的迭代中將預(yù)測范圍逐步拓寬。也難怪中科院院士施一公曾在媒體面前毫不吝嗇對其評價道,「依我之見,這是人工智能對科學(xué)領(lǐng)域最大的一次貢獻,也是人類在 21 世紀取得的最重要的科學(xué)突破之一,是人類在認識自然界的科學(xué)探索征程中一個非常了不起的歷史性成就」。

盡管 AlphaFold 引領(lǐng)的蛋白質(zhì)結(jié)構(gòu)預(yù)測革命如此迅速,也仍有一些懸而未決的問題攔路在前。其中,針對無序蛋白質(zhì)的研究在生命科學(xué)領(lǐng)域中一直是個難題。這些蛋白質(zhì)在細胞信號傳導(dǎo)、調(diào)控過程以及多種疾病中發(fā)揮著關(guān)鍵作用,**但由于它們在結(jié)構(gòu)上具有特殊的異質(zhì)性和動態(tài)性,無法用單一結(jié)構(gòu)表示,**因此其研究并未像有序蛋白質(zhì)結(jié)構(gòu)預(yù)測一樣進展顯著。而 AlphaFold 的成功卻為科學(xué)家指明新的解題思路。

近日,來自劍橋大學(xué)的研究團隊近期發(fā)表了一項新研究,提出了一種名為 AlphaFold-Metainference 的方法。**該方法利用了 AlphaFold 預(yù)測的對齊誤差 (predicted aligned error, PAE) 圖與分子動力學(xué) (molecular dynamics, MD) 模擬中的距離變化矩陣之間的相關(guān)性,從而構(gòu)建無序蛋白質(zhì)和含無序區(qū)域蛋白質(zhì)的結(jié)構(gòu)集合 (structural ensembles),**為基于深度學(xué)習(xí)方法的無序蛋白質(zhì)結(jié)構(gòu)預(yù)測提供了新思路,同時也進一步拓寬了 AlphaFold 的適用范圍。

目前,相關(guān)研究成果以「AlphaFold prediction of structural ensembles of disordered proteins」發(fā)表在國際學(xué)術(shù)期刊 Nature Communications 上。

研究亮點:
* 突破預(yù)測局限,實現(xiàn)高精度預(yù)測。研究證實了 AlphaFold 即便未在無序蛋白數(shù)據(jù)上訓(xùn)練,也能準確預(yù)測其殘基間距離。

* 創(chuàng)新預(yù)測方法,構(gòu)建結(jié)構(gòu)集合。該方法利用了 AlphaFold 預(yù)測的距離作為結(jié)構(gòu)約束,結(jié)合元推理框架和分子動力學(xué)模擬構(gòu)建無序蛋白及含有無序區(qū)域蛋白的結(jié)構(gòu)集合。

* 深化深度學(xué)習(xí)方法,拓展應(yīng)用邊界。該方法在處理高度無序和部分無序蛋白時表現(xiàn)出色,生成的結(jié)構(gòu)集合與實驗數(shù)據(jù)一致性顯著優(yōu)于單個 AlphaFold 結(jié)構(gòu),有效解決了無序蛋白結(jié)構(gòu)預(yù)測難題。

論文地址:

https://www.nature.com/articles/s41467-025-56572-9

開源項目「awesome-ai4s」匯集了 200 余篇 AI4S 論文解讀,并提供海量數(shù)據(jù)集與工具:

https://github.com/hyperai/awes

數(shù)據(jù)集:多源數(shù)據(jù)嚴謹驗證

在深度學(xué)習(xí)模型的訓(xùn)練方面,由于無序蛋白質(zhì)的結(jié)構(gòu)集合體在數(shù)量和準確度方面都很低,但是可以基于有序蛋白的可用信息對無序蛋白質(zhì)進行預(yù)測,因此研究人員采用了蛋白質(zhì)數(shù)據(jù)庫 (Protein Data Bank, PDB) 中大量的高分辨率折疊蛋白質(zhì)結(jié)構(gòu)訓(xùn)練深度學(xué)習(xí)模型。

在實驗數(shù)據(jù)對比方面,由于獲取無序蛋白質(zhì)的殘基間距離的試驗信息具有挑戰(zhàn)性,同時加上數(shù)據(jù)標簽本身可能會影響構(gòu)象集合的性質(zhì)。**為此研究人員采用了小角 X 射線散射 (small-angle X-ray scattering, SAXS) 數(shù)據(jù)和核磁共振 (nuclear magnetic resonance, NMR) 擴散測量,**為研究提供了無標簽的無序蛋白殘基間距離分布信息,用于對比和驗證預(yù)測結(jié)果。

另外,在進一步的驗證中,**研究人員還分析了通過全原子分子動力學(xué) (all-atom molecular dynamics) 模擬獲得的結(jié)構(gòu)集合數(shù)據(jù) Aβ 和 α-synuclein,并且使用 CALVADOS-2 (C2) 進行粗粒度模擬,**從而進一步驗證了 AlphaFold 預(yù)測距離的準確性。

模型架構(gòu):創(chuàng)新融合元推理方法

本研究所闡述的 AlphaFold-Metainference 方法,是用于生成代表無序蛋白質(zhì)和含無序區(qū)域蛋白質(zhì)天然狀態(tài)的結(jié)構(gòu)集合。

該方法的核心基于一項觀察,即 AlphaFold 預(yù)測的殘基間距離即使對于無序蛋白質(zhì)也是相對準確的,因此可以在元推理框架內(nèi)的分子動力學(xué)模擬中用作結(jié)構(gòu)約束。簡單來說,為了生成結(jié)構(gòu)集合,AlphaFold-Metainference 使用了預(yù)測的距離作為分子動力學(xué)模擬中的結(jié)構(gòu)約束,將 AlphaFold 距離圖 (distograms) 轉(zhuǎn)換為結(jié)構(gòu)集合。

首先是 AlphaFold 預(yù)測距離。研究人員借助 AlphaFold 的距離圖預(yù)測殘基間平均距離,并通過特定公式計算預(yù)測距離和標準偏差。然后,基于 MMseqs2 進行多序列對比,使用默認設(shè)置的 AlphaFold 1.1.1 模型進行預(yù)測,期間不使用結(jié)構(gòu)模板。AlphaFold 輸出殘基間距離分布到 64 個等寬的 bin 中,范圍從 2.15625 到 21.84375 ?,最后一個 bin 還包括了超過 21.84375 ? 的距離。

然后是結(jié)合元推理 (Metainference) 方法,所謂元推理就是一種貝葉斯推理方法,它能夠根據(jù)最大熵原理,通過結(jié)合先驗信息和實驗數(shù)據(jù)來確定結(jié)構(gòu)集合。在該階段,**研究人員將 AlphaFold 預(yù)測的距離圖作為偽實驗數(shù)據(jù),運用貝葉斯元推理方法,**將結(jié)構(gòu)異質(zhì)性和系統(tǒng)誤差分開,如力場或前向模型不準確、數(shù)據(jù)中的隨機誤差以及由于系綜樣本量有限產(chǎn)生的誤差等,從而確定結(jié)構(gòu)集合。

在分子動力學(xué)模擬中,依據(jù)元推理能量函數(shù)進行計算,通過多副本模擬和吉布斯采樣確定誤差參數(shù),**最后再使用 CALVADOS-2 力場實施粗?;M,**實現(xiàn) AlphaFold-Metainference。

最后是距離約束選擇,該階段依據(jù)距離概率和預(yù)測對齊誤差篩選 AlphaFold 預(yù)測的距離,**結(jié)合蛋白質(zhì)親水性和預(yù)測局部距離差測試 (predicted local distance difference test, pLDDT) 分數(shù)確定選擇標準。**值得注意的是,實驗利用 pLDDT 分數(shù)選取結(jié)構(gòu)化區(qū)域的殘基距離并非排除其作為距離約束,以優(yōu)化結(jié)構(gòu)集合的生成。

所有分子動力學(xué)模擬都從 AlphaFold 預(yù)測的結(jié)構(gòu)開始,在 NVT 系綜下進行,每個模擬設(shè)置 6 個副本,每個副本運行 100 萬步,從能量最小化步驟得到的不同初始位置開始模擬。**模擬采用 Langevin 積分器,**時間步長為 5 fs,摩擦系數(shù)為 0.01 ps?1,使用基于 Cα 的模型及 CALVADOS-2 參數(shù)和函數(shù)形式。

其中,針對高度無序和部分無序蛋白質(zhì),使用了 PULCHRA 將粗?;现械乃薪Y(jié)構(gòu)轉(zhuǎn)換為全原子表示,再利用 GROMACS 進行能量最小化,以獲得更精確的結(jié)構(gòu)。

總而言之,研究人員所展示的結(jié)果闡明了如何使用最初為預(yù)測折疊蛋白質(zhì)天然狀態(tài)而開發(fā)的深度學(xué)習(xí)方法來生成代表無序蛋白質(zhì)天然狀態(tài)的結(jié)構(gòu)集合。該方法大大擴展了基于深度學(xué)習(xí)的蛋白質(zhì)結(jié)構(gòu)預(yù)測范圍,為無序蛋白質(zhì)結(jié)構(gòu)預(yù)測提供了一個新思路。

實驗結(jié)果:全面驗證其合理性

在 AlphaFold 預(yù)測準確性方面

研究人員對比了一組 11 種既有 SAXS 測量數(shù)據(jù)又有 NMR 擴散測量數(shù)據(jù)的蛋白質(zhì),AlphaFold 預(yù)測的距離分布與 SAXS 衍生的距離分布之間具有良好的一致性。并且研究人員還添加了一種折疊蛋白質(zhì)作為對照,如下圖所示。

SAXS 獲得的殘基間距離分布,與 AlphaFold 預(yù)測的高度無序蛋白質(zhì)的殘基間距離分布的比較

值得一提的是,由于 AlphaFold 預(yù)測的距離最遠可達約 22 ?,因此 AlphaFold 預(yù)測的距離分布并未覆蓋整個 SAXA 衍生的分布。結(jié)果顯示,添加的對照組的 DKL 值為 0.037,與 11 種高度無序蛋白質(zhì)的 DKL 值(DKL 范圍為 0.008-0.096)相當,這進一步表明了 AlphaFold 對于無序和有序蛋白質(zhì)的殘基間距離的預(yù)測具有相當?shù)臏蚀_性。

值得一提的是,由于 AlphaFold 預(yù)測的距離最遠可達約 22 ?,因此 AlphaFold 預(yù)測的距離分布并未覆蓋整個 SAXA 衍生的分布。結(jié)果顯示,添加的對照組的 DKL 值為 0.037,與 11 種高度無序蛋白質(zhì)的 DKL 值(DKL 范圍為 0.008-0.096)相當,這進一步表明了 AlphaFold 對于無序和有序蛋白質(zhì)的殘基間距離的預(yù)測具有相當?shù)臏蚀_性。

另外,AlphaFold 預(yù)測的距離與從 Aβ 和 α-synuclein 的 MD 集合以及從 CALVADOS-2 集合中反算出來的距離同樣具有良好的一致性。

在高度無序結(jié)構(gòu)集合驗證方面

利用小角 X 射線散射測量可以計算出成對距離分布。研究人員比較了實驗所得的距離分布與從 AlphaFold-Metainference 模擬確定的結(jié)構(gòu)集合中獲得距離分布,比較對象仍為上述所提到的 11 種高度無序蛋白質(zhì)。

同時為了進一步比較,研究人員還展示了使用 CALVADOS-2 獲得的距離分布,以及直接從單個 AlphaFold 結(jié)構(gòu)中生成的 AlphaFold 派生距離分布。為了提供定量比較,研究人員發(fā)現(xiàn)與單個 AlphaFold 派生結(jié)構(gòu)相比,AlphaFold-Metainference 與 CALVADOS-2 提供的結(jié)構(gòu)集合與 SAXS 數(shù)據(jù)更為一致。

研究人員進一步使用 NMR 化學(xué)位移來比較結(jié)構(gòu)集合,這些化學(xué)位移通過 CamShift 在每個時間步長進行反算獲得。**結(jié)果顯示,部分情況下 AlphaFold-Metainference 的預(yù)測更加準確。**如下圖所示。

來自 SAXS 數(shù)據(jù)和通過分子模擬獲得的結(jié)構(gòu)集合中高度無序蛋白質(zhì)成對距離分布的比較

* SAXS 獲得的實驗成對距離的分布表示為黑線

* AlphaFold 單一結(jié)構(gòu)預(yù)測表示為紫線

* AlphaFold-Metainference 結(jié)構(gòu)集合預(yù)測表示為綠線

* CALVADOS-2獲得的成對距離分布表示為橙線

在部分無序結(jié)構(gòu)集合驗證方面

研究人員準備了一組包括 6 個既有有序結(jié)構(gòu)域又有無序結(jié)構(gòu)域的蛋白質(zhì),這些蛋白質(zhì)具有不同的序列長度,且可以獲得 SAXS 數(shù)據(jù)進行驗證。

首先是 TDP-43,這是一種多功能 RNA 結(jié)合蛋白,具有模塊化結(jié)構(gòu),可參與多種細胞過程,包括轉(zhuǎn)錄、前 mRNA 剪接和 mRNA 穩(wěn)定性調(diào)節(jié),其與肌萎縮側(cè)索硬化癥及其他神經(jīng)退行性疾病有關(guān)。

實驗結(jié)果發(fā)現(xiàn),當應(yīng)用研究人員過濾標準來選擇 AlphaFold 預(yù)測的距離,并隨后應(yīng)用帶有這些距離約束的 AlphaFold-Metainference 時,**所獲得的結(jié)構(gòu)集合與 SAXS 數(shù)據(jù)一致性顯著更好,**DKL 值僅為 0.018,**優(yōu)于直接使用 AlphaFold 預(yù)測的結(jié)構(gòu)與 SAXS 數(shù)據(jù)時 0.582 的 DKL 值。**如下圖所示。

使用 AlphaFold-Metainference 預(yù)測的 TDP-43 的結(jié)構(gòu)集合

隨后研究人員繼續(xù)分析了 ataxin-3 和人類朊蛋白。對于前者,取得了與上述 TDP-43 相似的結(jié)果,直接從 AlphaFold 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫中使用 AlphaFold 得到的預(yù)測結(jié)構(gòu)與 SAXS 數(shù)據(jù)的一致性較差,DKL 值為 0.653,而當應(yīng)用過濾標準來選擇 AlphaFold-Metainference 模擬的 AlphaFold 預(yù)測距離時,**獲得了與 SAXS 數(shù)據(jù)一致性更好的結(jié)構(gòu)集合,**DKL 值僅為 0.020。如下圖所示。

使用 AlphaFold-Metainference 預(yù)測的 ataxin-3 結(jié)構(gòu)集合對于后者,直接從 AlphaFold 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫中使用 AlphaFold 得到的預(yù)測結(jié)構(gòu)與 SAXS 數(shù)據(jù)的一致性較差,DKL 值為 0.1,**而當應(yīng)用過濾標準時,則獲得了與 SAXS 數(shù)據(jù)一致性更好的結(jié)構(gòu)集合,**DKL 值僅為 0.053。如下圖所示。


使用 AlphaFold-Metainference 預(yù)測的人朊病毒蛋白的結(jié)構(gòu)集合

另外,研究人員還針對其他 3 種蛋白質(zhì) CbpD、H16 和 PC 進行了研究,結(jié)果表明,**在所有情況下,實驗和反向計算的殘基間距離分布之間的一致性非常好,**并且相對于直接從 AlphaFold 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫中獲取的 AlphaFold 單個結(jié)構(gòu)有很大的改善,如下圖 D 所示。

最后,在與 CALVADOS-2 方法的比較中,AlphaFold-Metainference 在 6 種蛋白質(zhì)的其中 4 個(ataxin-3、CbpD、H16 和 PC),性能都更優(yōu)秀,其余 2 種(TDP-43 和人類朊病毒蛋白)產(chǎn)生了相當?shù)慕Y(jié)構(gòu)集合。如下圖所示。

部分無序蛋白質(zhì)的 SAXS 衍生和 AlphaFold 預(yù)測的成對距離分布的比較

基于深度學(xué)習(xí)的無序蛋白預(yù)測進展

在過去的幾年里,AlphaFold 主要被應(yīng)用于預(yù)測折疊蛋白質(zhì)的靜態(tài)結(jié)構(gòu),也讓其多為科研界所詬病,而本次研究無疑證實了其在無序蛋白質(zhì)結(jié)構(gòu)預(yù)測方面中同樣具有潛在應(yīng)用優(yōu)勢,同時也為無序蛋白質(zhì)結(jié)構(gòu)預(yù)測提供了新的研究方向。

事實上,隨著 AI 與生命科學(xué)的緊密融合,**針對于無序蛋白質(zhì)結(jié)構(gòu)預(yù)測的探討早已是層出不窮,**利用 AI 揭示生命之謎也成了現(xiàn)代生命科學(xué)領(lǐng)域中主流的手段。

比如此前曾發(fā)布在 Current Opinion in Structural Biology 上的一篇文章探討了基于深度學(xué)習(xí)在內(nèi)在無序蛋白 (Intrinsically disordered proteins , IDPs) 研究中的應(yīng)用進展,并且闡述了其在無序蛋白預(yù)測、構(gòu)象集合表征等方面的推動作用。

相關(guān)研究以「Deep learning for intrinsically disordered proteins:From improved predictions to deciphering conformational ensembles」為題發(fā)表。

* 論文地址:

https://www.sciencedirect.com/science/article/pii/S0959440X24001775

無獨有偶,來自丹麥哥本哈根大學(xué)的研究團隊以「Conformational ensembles of the human intrinsically disordered proteome」為題,在 Nature 上發(fā)布了一篇關(guān)于無序蛋白質(zhì)研究的文章,其中討論了利用多種深度學(xué)習(xí)方法預(yù)測 IDP 的無序區(qū)域、構(gòu)象集合及相關(guān)屬性,包括的深度學(xué)習(xí)方法如上文提到的 AlphaFold,以及蛋白質(zhì)語言模型、生成對抗網(wǎng)絡(luò)等。

*論文地址:

https://www.nature.com/articles/s41586-023-07004-5

毫無疑問,AI 的快速發(fā)展正在加速我們?nèi)チ私馍恼嬷B。曾經(jīng)英國科學(xué)家約翰·肯德魯用 X 射線晶體學(xué)探索第一個蛋白質(zhì)結(jié)構(gòu),花費了整整 12 年時間,如今 AlphaFold 只需要短短幾年就能破解數(shù)以億計個蛋白質(zhì)的折疊之謎,而未來,誰又能斷言我們不能掌握無序蛋白質(zhì)結(jié)構(gòu)預(yù)測呢?