心血管疾病死亡是我國居民總死亡的首要原因。超聲心動圖因其無創(chuàng)、成本低、實時成像等優(yōu)點,已成為臨床上應(yīng)用最廣泛的心臟檢查方法之一。在實際操作中,超聲醫(yī)生需要從不同位置和角度對心臟進行掃查,以獲取多個切面的超聲圖像,后綜合各切面圖來對心臟結(jié)構(gòu)和功能進行分析,包括識別心肌輪廓、測量各個腔室大小等。
然而,由于不同切面之間存在顯著的結(jié)構(gòu)差異,現(xiàn)有分割模型在多切面圖上的泛化能力較弱,通常需要針對每個特定切面進行單獨定制,導(dǎo)致重復(fù)開發(fā)的成本較高。此外,當特定切面的模型應(yīng)用于其他切面時,性能往往會顯著下降,從而限制了其在臨床中的推廣和應(yīng)用。
對此,來自深圳大學(xué)醫(yī)學(xué)部生物醫(yī)學(xué)工程學(xué)院醫(yī)學(xué)超聲圖像計算實驗室 (MUSIC)、深圳大學(xué)大數(shù)據(jù)國家工程實驗室和深圳市人民醫(yī)院超聲科的研究團隊提出了多切面超聲心動圖統(tǒng)一分割模型 EchoONE。該模型將自然圖像分割大模型 SAM 微調(diào)技術(shù)和心臟超聲切面先驗知識進行結(jié)合,可對多切面超聲心動圖的心臟結(jié)構(gòu)進行精準分割,有效減少設(shè)計模型的冗雜度,更加高效地輔助醫(yī)生進行心功能評估。
該研究以「EchoONE: Segmenting Multiple echocardiography Planes in One Model」為題,入選 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)。
研究亮點:
* 成功開發(fā)了一種統(tǒng)一模型,能夠?qū)Y(jié)構(gòu)差異顯著的多切面超聲心動圖進行精確分割
* 提出了一種先驗可組合的掩碼學(xué)習(xí)模塊 (PC-Mask) 生成語義感知密集提示,同時引入局部特征融合與適應(yīng)模塊 (LFFA) 適配 SAM 架構(gòu)。這使得 EchoONE 在處理數(shù)據(jù)分布差異顯著、邊界模糊的不同切面超聲心動圖時表現(xiàn)出色
* 模型 EchoONE 性能優(yōu)于其他多個基于微調(diào)的大模型,在外部測試集的表現(xiàn)同樣達到最優(yōu)
數(shù)據(jù)集:3 大公開數(shù)據(jù)集 + 22,044 張私有圖像-標注對
本研究使用了來自多個中心的多切面超聲心動圖,包括私有數(shù)據(jù)集和公開數(shù)據(jù)集。
公開數(shù)據(jù)集包括 CAMUS、HMC_QU 和 EchoNet_Dynamic。CAMUS 是本領(lǐng)域被廣泛使用的心臟超聲數(shù)據(jù)集,來自法國多家醫(yī)院,包括 500 個病例的二腔心 (2CH)、四腔心 (4CH) 數(shù)據(jù)。HMC_QU 數(shù)據(jù)集由哈馬德醫(yī)療公司 (HMC)、坦佩雷大學(xué)和卡塔爾大學(xué)合作創(chuàng)建。EchoNet-Dynamic 數(shù)據(jù)集由斯坦福大學(xué)創(chuàng)建,本研究僅使用其測試集進行外部測試實驗,便于比較分析。
* CAMUS 心臟超聲圖像數(shù)據(jù)集下載:
https://hyper.ai/cn/datasets/38453
* HMC-QU 心臟醫(yī)學(xué)影像數(shù)據(jù)集下載:
https://hyper.ai/cn/datasets/38456
私有數(shù)據(jù)集取自國內(nèi)多家合作醫(yī)院的超聲數(shù)據(jù),總計 22,044 張圖像-標注對,包括二腔心 (2CH)、三腔心 (3CH)、四腔心 (4CH) 和胸骨旁左室短軸 (PSAX) 的 3 個不同水平切面。
模型架構(gòu):基于 SAM,EchoONE 模型由 3 大組件構(gòu)成
EchoONE 的整體框架主要由 3 個組件構(gòu)成:一個基于 SAM 的分割架構(gòu);一個用于生成密集提示 (Dense Prompt) 的組件;一個基于 CNN 的局部特征分支,用于對 SAM 進行調(diào)整和適應(yīng)。整個網(wǎng)絡(luò)架構(gòu)在原始 SAM 的基礎(chǔ)上構(gòu)建,包含了基于 Transformer 的圖像編碼器和掩碼解碼器、稀疏提示編碼器以及用于密集提示的掩碼編碼器 (Mask Encoder)。
此外,研究人員在階梯側(cè)邊調(diào)優(yōu) (LST) 分支中引入了局部特征融合與自適應(yīng)模塊 (LFFA),增強了 SAM 對特定任務(wù)的適應(yīng)性。同時,他們還提出了一個基于聚類的先驗可組合掩碼學(xué)習(xí)模塊 (PC-Mask),以生成語義感知的密集提示。PC-Mask 和 LFFA 的詳細信息如下:
(a) PC-Mask 模塊
密集的掩碼提示為 SAM 提供了比點、框提示更豐富的信息,PC-Mask 模塊可以自動生成高質(zhì)量的掩模提示。為了處理多個切面上語義結(jié)構(gòu)的多樣性,研究人員首先將不同切面上的圖像分組為潛在特征空間中的 K 個聚類。每個集群的中心被用作潛在空間中簇的原型 (Prototypes)。類似地,一個中心掩模 (Center Mask),可以通過平均被分配給簇的那些圖像的掩模來得到。
以這些掩模中心作為結(jié)構(gòu)的先驗,研究人員的目標是在沒有切面類型信息的情況下,為每個新圖像生成一個心肌區(qū)域的密集提示。對于一個輸入圖像,用它與這些原型的相似性「或距離」來表示它在潛在空間中的位置;然后利用相似度作為權(quán)值,將這些先驗中心組合為多通道先驗嵌入,最后輸入到一個輕量級 U-Net,輸出結(jié)果作為 SAM 的密集提示 (Dense Prompt),這個過程使用 Dice Loss 和 BCE Loss 進行約束。
(b) LFFA 模塊
為了充分利用 SAM 的能力,避免重新訓(xùn)練、浪費資源,需要一個輔助分支來調(diào)整 SAM 以適應(yīng)新的場景。研究人員為此設(shè)計了一個可學(xué)習(xí)的 CNN 分支,由 3 部分組成:首先是用于局部特征提取的殘差塊 (Residual Block);其次是用于調(diào)整圖像編碼器的跨分支注意的 CNN 塊;第三是使掩碼解碼器適應(yīng)特定任務(wù)的局部特征融合 Transformer 塊。
在掩碼解碼器中,除了原本 SAM 的兩個 Transformer 塊,研究人員還添加了 3 個可學(xué)習(xí)塊,以適應(yīng)局部特性的融合。將圖像編碼器中跨分支注意的每層 CNN 塊的局部特征連接到掩碼解碼器對應(yīng)的 Transformer 塊,而每層特征通過 LFFA 模塊進行融合,過程如下所示。
實驗結(jié)論:在超聲心動圖的多切面分割任務(wù)中, EchoONE 既準確又穩(wěn)健
研究人員使用內(nèi)部和外部數(shù)據(jù)集進行了廣泛實驗,證明了 EchoONE 的有效性。
對多切面任務(wù)的魯棒性:下表匯總了模型在內(nèi)部測試集各個切面上的表現(xiàn)。可以看到,EchoONE 對比基于 CNN、Transformer 和 SAM 的模型,在平均 Dice、IoU 和 HD95 指標上均達到了最優(yōu)。
對不同心臟結(jié)構(gòu)的魯棒性:如下面的雷達圖所示,對比以往模型,EchoONE 模型在心臟的每個結(jié)構(gòu) (左心房、左心室、心肌) 得到了更高的 Dice 值。
對跨中心數(shù)據(jù)的魯棒性:下面的圖和表格顯示了 EchoONE 在內(nèi)部 5 個中心的測試集上取得最優(yōu)表現(xiàn)。
外部驗證:如下圖所示,即使是訓(xùn)練時候沒有見過的兩個外部測試集,**EchoONE 依然展示了強大的泛化性能。**對于存在噪聲明顯、低質(zhì)量圖像的 HMC_QU,EchoONE 也提供 73.94% 的 Dice 分數(shù),表明其在真實臨床實踐方面的存在巨大潛力。
可視化分析:從可視化結(jié)果對比也可以看到,EchoONE 不僅提供了合理的分割區(qū)域,在輪廓細化方面也效果突出,這個得益于其為不同的切面生成粗分割結(jié)果,提示模型聚焦該區(qū)域并細化邊界,從而改進分割結(jié)果。
消融實驗結(jié)果:為了進一步研究 PC-Mask 和 LFFA 模塊對于模型提升性能的有效性,研究人員在內(nèi)部 5 個數(shù)據(jù)集上進行了消融實驗。從結(jié)果來看,這兩個模塊分別通過以語義感知方式利用先驗知識和融合局部特征優(yōu)化 SAM 架構(gòu),使得 EchoONE 可以對超聲心動圖的多切面分割問題實現(xiàn)準確和穩(wěn)健的性能。
研究可推廣至其他醫(yī)學(xué)影像模式中
EchoONE 模型致力于解決多切面分割這一復(fù)雜挑戰(zhàn),通過引入一種創(chuàng)新的密集提示學(xué)習(xí)模塊——PC-Mask,以可組合的方式利用先驗結(jié)構(gòu)知識,在分割過程中提供有效的切面特定語義指導(dǎo)。此外,研究還提出了一種可學(xué)習(xí)的 CNN 局部特征分支,用于優(yōu)化圖像編碼器并適應(yīng)掩碼解碼器,LFFA 模塊不僅提升了最終性能,還加快了收斂速度。
這是首次提出的一種使用單一魯棒模型對所有切面超聲心動圖進行有效分割的方案,簡化了人工智能技術(shù)在臨床實踐中的應(yīng)用。盡管目前僅在超聲圖像上進行了驗證,但這種方法具有推廣至其他醫(yī)學(xué)影像模式中處理多切面分割問題的潛力。未來,研究人員將聚焦于提升更多切面的泛化能力,以及構(gòu)建針對多切面視頻的魯棒模型。
值得一提的是,本研究課題負責(zé)人薛武峰來自深圳大學(xué)醫(yī)學(xué)部生物醫(yī)學(xué)工程學(xué)院,團隊長期圍繞心臟醫(yī)學(xué)影像和人工智能開展研究,涵蓋心臟結(jié)構(gòu)/功能/血流建模、心臟基礎(chǔ)模型、圖文大模型等。歡迎訪問學(xué)生、博后、研究員等加入,有意者可聯(lián)系薛武峰老師 「xuewf@szu.edu.cn」。
* 薛武峰個人主頁:
https://bme.szu.edu.cn/info/116