版權歸原作者所有,如有侵權,請聯(lián)系我們

入選AAAI 2025,浙江大學提出多對一回歸模型M2OST,利用數(shù)字病理圖像精準預測基因表達

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

數(shù)字病理圖像作為一種全切片病理圖像 (WSIs),能夠對組織切片的高分辨率數(shù)字化呈現(xiàn),全面展示細胞形態(tài)、結構和空間分布特征。與傳統(tǒng)玻璃切片相比,WSIs 不僅便于存儲和分析,還能在多個尺度上提供更直觀的組織視圖,因而在病理診斷與生物醫(yī)學研究中應用日益廣泛。通過對這些圖像的分析,科研人員可以探索細胞空間組織與基因表達之間的內(nèi)在聯(lián)系,從而揭示多細胞系統(tǒng)中復雜的轉錄調(diào)控機制。

近年來,空間轉錄組學 (Spatial Transcriptomics, ST) 作為單細胞 RNA 測序的空間延伸技術,已成為研究細胞亞型分布、互作關系和分子機制的重要工具。然而,受限于其高昂的設備和試劑成本,ST 技術在實際應用中仍面臨普及難題。相較之下,WSIs 更具經(jīng)濟性和可及性,在臨床應用上更為經(jīng)濟且易于獲取。因此,如何借助深度學習手段,從 WSIs 中低成本重建 ST 圖譜,成為一個備受關注的研究方向。

現(xiàn)有方法多將 ST 預測問題視為傳統(tǒng)的回歸問題,使用單級圖像 - 標簽對進行訓練。這使得它們只能對最大放大倍數(shù)圖像的基因表達關系進行建模,浪費了 WSIs 固有的多尺度信息。

基于這一問題,中國浙江大學的林蘭芬教授研究團隊聯(lián)合浙江杭州之江實驗室以及日本立命館大學共同提出了 M2OST,這是一種多對一回歸 Transformer 模型,旨在利用不同層次的病理圖像共同預測基因表達。通過整合 WSIs 中的采樣點視覺信息和多尺度特征,該模型能夠生成更準確的 ST 圖譜。此外,研究團隊還將多對一的多層特征提取過程解耦為層內(nèi)特征提取和跨層特征提取,在不影響模型性能的情況下大大降低了計算成本,優(yōu)化了計算效率。

相關成果以「M2OST: Many-to-one Regression for Predicting Spatial Transcriptomics from Digital Pathology Images」為題,入選 AAAI 2025。

研究亮點:

* 將 ST 預測問題概念化為多對一建模問題,利用分層結構 WSIs 中嵌入的多尺度信息和點間特征,聯(lián)合預測 ST 圖譜

* 提出基于多對一回歸的 Transformer 模型 M2OST,對不同序列長度的輸入集具有魯棒性

* 將 M2OST 中的多尺度特征提取過程解耦為層內(nèi)特征提取和跨層特征提取,在不影響模型性能的情況下顯著提高了計算效率

* 對提出的 M2OST 方法進行了全面的實驗,并在 3 個公開的 ST 數(shù)據(jù)集上證明了其有效性

論文地址:
https://arxiv.org/abs/2409.15092
關注「HyperAl超神經(jīng)」公眾號,后臺回復「M2OST」獲取完整 PDF

開源項目「awesome-ai4s」匯集了 200 余篇 AI4S 論文解讀,并提供海量數(shù)據(jù)集與工具:
https://github.com/hyperai/awesome-ai4s

數(shù)據(jù)集:使用 3 個 ST 數(shù)據(jù)集證明其有效性

研究團隊使用了 3 個公開的 ST 數(shù)據(jù)集來評估所提出的 M2OST 模型的性能:

*人類乳腺癌數(shù)據(jù)集 (HBC):包含 68 個 WSI 中的 30,612 個點位,每個點位至多有 26,949 個不同的基因。該數(shù)據(jù)集中的點直徑為 100μm,以 200μm 的中心距排列成網(wǎng)格。

*人類陽性乳腺腫瘤數(shù)據(jù)集 (HER2):由 36 個病理圖像和 13,594 個點位組成,每個點位包含 15,045 個已記錄的基因表達數(shù)據(jù)。該數(shù)據(jù)集中的 ST 數(shù)據(jù)每個捕獲點之間的中心距為 200μm,每個點的直徑為 100μm。

*人類皮膚鱗狀細胞癌數(shù)據(jù)集 (cSCC):包括 12 個 WSI 和 8,671 個點位。該數(shù)據(jù)集中的每個點位都對 16,959 個基因進行了分析。所有點的直徑為 110μm,排列成中矩形點陣,中心距為 150μm。

M2OST 模型:多對一回歸結構,多層次病理圖像共同預測基因表達

近年來,從全切片病理圖像 (WSIs) 中預測空間轉錄組 (ST) 圖譜成為當前數(shù)字病理學領域中的研究熱點。早期方法如 ST-Net 和 DeepSpaCE 基于卷積神經(jīng)網(wǎng)絡 (CNN) 進行圖像塊級別的 ST 預測。近期發(fā)布的雙模態(tài)嵌入框架 BLEEP 引入對比學習策略,將 WSI 圖像塊特征與 ST 點嵌入對齊,并引入 K 近鄰算法緩解推理階段的批次效應問題。

隨著基于 Transformer 的模型興起,其性能已超越傳統(tǒng) CNN。深度學習模型 HisToGene 首次將 Transformer 引入基因表達預測,實現(xiàn)玻片級建模,提升了效率但仍受限于計算資源。Hist2ST 模型在此基礎上融合 CNN、Transformer 與圖神經(jīng)網(wǎng)絡,進一步捕捉長距離依賴,但其復雜的模型結構也導致過擬合風險上升。

與主流關注采樣點間相關性的思路不同,基于分層圖像特征提取的方法 iStar,強調(diào)采樣點內(nèi)的基因表達僅與其對應的圖像塊區(qū)域相關,采用預訓練的 HIPT 進行特征提取,并通過 MLP 映射至表達值,性能優(yōu)越,但由于特征不可學習,仍存在進一步優(yōu)化空間。

研究團隊受此啟發(fā),M2OST 同樣采用了圖像塊級方案,一次預測一個采樣點,確保每個預測的獨立性與準確性。研究團隊還進一步拓展了 iStar 的思路,設計了一套可學習的多尺度特征提取與融合模塊,通過對局部區(qū)域的精細建模和跨尺度信息整合,提升模型在復雜組織結構下的預測能力。

如下圖所示,來自不同全切片病理圖像 (WSIs) 層級的 3 個圖像塊序列被輸入到模型中,以共同預測相應位點的基因表達。

在接收到來自 3 個不同層次的病理圖像塊后,首先,M2OST 會將它們送入可變形圖像塊嵌入層 (DPE),以實現(xiàn)自適應 token 生成。DPE 不僅能從每張圖像中提取基礎病理圖像塊,還能在高層次的病理圖像中引入更大尺寸的圖像塊,從而捕捉更廣泛的上下文信息。

同時,DPE 通過生成細粒度的點內(nèi) token 和粗粒度的周圍 token,以強化模型對采樣點中心區(qū)域特征的關注,從而在多對一的建模過程中突出采樣點間特征 (inter-spot features),為后續(xù)的表達預測提供更精細、結構化的特征表示。

M2OST 模型示意圖


在 M2OST 中使用的 DPE

而后,在每個序列中添加 cls token,并如圖中 PE 所示,引入可學習的位置編碼,M2OST 使用內(nèi)層 token 混合模塊 (ITMM) 對每個序列進行層內(nèi)特征提取。ITMM 基于 Vision Transformer 架構構建,并引入隨機掩碼自注意力機制 (Rand Mask Self-Attn),以增強模型在圖像建模過程中的泛化能力。


ITMM 的網(wǎng)絡結構

在層內(nèi)特征提取完成后,M2OST 引入跨層 token 混合模塊 (CTMM),用于促進多層序列之間的跨層信息交互。由于多尺度輸入序列的長度存在差異,CTMM 通過引入全連接跨層注意力機制以避免直接融合造成的信息失真,同時保持每個尺度分支參數(shù)的相對獨立性。隨后,為了增強通道級的跨尺度信息交換能力,M2OST 在 CTMM 之后引入了跨層通道混合模塊 (CCMM)。

CCMM 采用對序列長度不敏感的結構設計,CTMM 根據(jù)不同層之間的注意力相似度和可學習權重,動態(tài)整合跨尺度的上下文信息,輸出同形狀的多層序列。首先對每個層次的序列進行全局平均池化 (Global Avg Pooling),將其序列信息壓縮為一個 token 表示,然后將不同層次的 token 組合在一起,并結合擠壓激勵機制 (Squeeze & Excitation) 計算跨層通道注意力分數(shù)。這些分數(shù)隨后被映射回各自的輸入序列,完成通道級的跨尺度信息交換。

(a) CTMM 的網(wǎng)絡結構。(b) CCMM 的網(wǎng)絡結構

該多尺度特征建模過程整體構成 M2OST 的編碼器模塊,并在整個網(wǎng)絡中迭代 N 次,以逐步豐富空間轉錄組預測所需的多層次、高表達力的圖像表征。最后,將 3 個 cls token 連接起來,送入線性回歸頭部進行 ST 點預測。

實驗結果:多維度評估證明 M2OST 模型有效性

研究團隊全面比較了 M2OST 與多種主流方法在多個數(shù)據(jù)集上的表現(xiàn)。實驗結果如下表所示,M2OST 在更少的參數(shù)量和更少的 FLOPs 下,實現(xiàn)了更為優(yōu)越的性能。與 ST-Net 相比,M2OST 的參數(shù)量減少了 0.40M,F(xiàn)LOPs 降低了 0.63G,而 M2OST 在 HER2+ 和 cSCC 數(shù)據(jù)集上的皮爾遜相關系數(shù) (PCC) 分別提升了 1.16% 和 1.13%。


M2OST 與其他方法的比較實驗結果

M2OST 與一對一多尺度方法的比較:

研究團隊還將 M2OST 與普通的一對一多尺度方法進行了比較,如 CrossViT 和 HIPT/iStar。相較于標準 ViT,CrossViT 展現(xiàn)出更強的 ST 回歸能力,證實了在該任務中整合多尺度信息具有顯著優(yōu)勢。然而,CrossViT 在點內(nèi)信息建模方面存在一定限制,其整體性能仍不及 M2OST。

此外,iStar 在 ST 預測準確性上表現(xiàn)出色,證明了 HIPT 架構在從 WSI 中提取多尺度特征方面的有效性。然而,為了節(jié)約計算成本,iStar 采用固定的 HIPT 權重來生成用于 ST 預測的 WSI 特征,限制了其特征提取能力。同時,在推理效率方面,iStar 的逐塊、逐尺度的提取流程顯著增加了處理時間。研究結果表明,當在相同的 GPU 內(nèi)存限制下運行,M2OST 的推理速度比 iStar 快約 100 倍,且性能仍優(yōu)于后者,充分展示了端到端訓練在 ST 回歸任務中的潛力和 M2OST 模型的有效性。

圖像塊級和玻片級 ST 方法的比較:

實驗結果顯示,玻片級方法在 3 個數(shù)據(jù)集上的表現(xiàn)普遍不及圖像塊級方法。盡管 Hist2ST 相較于 HisToGene 展現(xiàn)出更強性能,但其大量參數(shù)和高 FLOPs 使得這種性能的提升意義不大。與 ST-Net 等基線圖像塊級方法相比,Hist2ST 在 3 個數(shù)據(jù)集上的 PCC 分別降低 2.78%、2.99% 和 2.66%。這表明一個點的基因表達主要與其對應的組織區(qū)域相關,引入點間相關性并未顯著提升預測準確性。盡管如此,玻片級方法在生成完整 ST 圖譜方面仍具優(yōu)有更高的效率,未來通過優(yōu)化網(wǎng)絡設計,仍有潛力實現(xiàn)具有競爭力的回歸精度。

可視化分析:

(a) 主成分分析 (PCA) 之后的空間轉錄組 (ST) 圖譜的可視化結果。 (b) DDX5 基因空間分布的可視化結果。研究團隊對不同方法在 ST 圖譜預測中的可視化結果進行了分析對比,結果顯示玻片級方法(如 HisToGene 和 Hist2ST)通常能夠生成更平滑的圖譜,而圖像塊級方法則保留了更清晰的局部結構特征。

值得注意的是,M2OST 始終能夠生成更準確的 ST 圖譜,呈現(xiàn)出更高的預測精度。研究團隊進一步對關鍵基因 DDX5 的表達進行了可視化,DDX5 通過激活 β - catenin 信號通路,在非小細胞癌細胞的增殖和腫瘤發(fā)生中起關鍵作用。結果表明 M2OST 在該基因的預測中表現(xiàn)最優(yōu),優(yōu)于所有對比方法,驗證了 M2OST 模型在單基因表達預測水平上的準確性。

空間轉錄組學的突破性進展與跨領域應用

空間轉錄組學作為連接細胞功能與組織結構的橋梁,能夠解析單個細胞在時間和空間維度上的基因表達模式,并揭示細胞類群的空間位置及其生物學特征,正推動生物醫(yī)學研究向更深層次發(fā)展。

在這一領域,2025 年 4 月,日本東京大學醫(yī)科學研究所的研究團隊開發(fā)了基于圖像輔助的圖對比學習進行空間轉錄組學分析的深度學習框架 STAIG。該框架能夠整合基因表達、空間數(shù)據(jù)和組織學圖像,且不需要對齊數(shù)據(jù),從而克服了傳統(tǒng)方法在消除批次效應和識別空間區(qū)域上的局限性。STAIG 通過自監(jiān)督學習,從蘇木精和伊紅 (H&E) 染色圖像中提取特征,無需依賴大規(guī)模數(shù)據(jù)集進行預訓練。

在訓練過程中,STAIG 動態(tài)調(diào)整圖結構,并通過組織學圖像選擇性排除無關的負樣本,減少了偏差。最終,STAIG 通過局部對比分析基因表達的共性,成功實現(xiàn)了批次整合,避免了手動坐標對齊的復雜性,顯著減少了批次效應。研究表明,STAIG 在多個數(shù)據(jù)集上表現(xiàn)出色,特別是在空間區(qū)域識別方面,能夠揭示腫瘤微環(huán)境中的詳細基因和空間信息,展現(xiàn)出其解析空間生物學復雜性的重要潛力。

點擊https://mp.weixin.qq.com/s?__biz=MzU3NTQ2NDIyOQ==&mid=2247519676&idx=1&sn=c8de8536b3db868a96310bf300db18a1&scene=21#wechat_redirect 查看詳細報道:無需預對齊即可消除批次效應,東京大學團隊開發(fā)深度學習框架STAIG,揭示腫瘤微環(huán)境中的詳細基因信息

與此同時,中國上海臨港實驗室魏武研究團隊也在空間轉錄組學領域取得了顯著進展。2024 年 11 月,團隊在 Briefings in Bioinformatics 期刊上發(fā)表了題為「MCGAE: unraveling tumor invasion through integrated multimodal spatial transcriptomics」的研究論文。該研究開發(fā)了專為空間轉錄組數(shù)據(jù)分析設計的深度學習框架 MCGAE (Multi-View Contrastive Graph Autoencoder),該框架通過結合基因表達、空間坐標和圖像特征,創(chuàng)建多模態(tài)、多視圖的生物表征,顯著提升了空間域識別的準確性。在腫瘤數(shù)據(jù)中展現(xiàn)了對腫瘤區(qū)域的精確識別與分子調(diào)控特征的深度解析,為復雜組織、疾病機制研究和藥物靶點發(fā)現(xiàn)提供了強有力的工具。

論文原文:
https://academic.oup.com/bib/article-pdf/26/1/bbae608/60786360/bbae608.pdf

此外,空間轉錄組學在農(nóng)業(yè)領域的應用也展現(xiàn)出巨大潛力。2025 年 4 月,北京大學現(xiàn)代農(nóng)業(yè)研究院的研究團隊在 Genome Biology 上發(fā)表了一項題為「Spatiotemporal tranomics reveals key gene regulation for grain yield and quality in wheat」的重要研究,利用空間轉錄組技術構建了小麥籽粒發(fā)育早期不同時間段的高分辨率基因表達圖譜,揭示了小麥籽粒發(fā)育過程中的基因表達特征。這一研究不僅為小麥的分子設計育種與產(chǎn)量提高提供了重要的理論支持,也為全球糧食安全提供了有力保障。

論文原文:
https://www.biorxiv.org/content/biorxiv/early/2024/06/03/2024.06.02.596756.full.pdf

未來,隨著空間轉錄組數(shù)據(jù)的不斷積累和數(shù)字病理圖像獲取手段的持續(xù)優(yōu)化,人工智能與組學技術的深度融合將推動深度學習模型在多種組織類型和疾病背景中的廣泛應用,助力精準醫(yī)療的發(fā)展。M2OST 的提出為構建高效、低成本、高精度的空間基因表達預測框架奠定了堅實基礎,預示著人工智能與多組學數(shù)據(jù)融合分析在生物醫(yī)學領域的深遠前景。