版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

模擬醫(yī)生會診,四川大學華西醫(yī)院團隊開發(fā)多智能體對話框架助力疾病診斷

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

罕見病患病率低,相關(guān)專業(yè)知識匱乏,加之病癥個體復雜多變,誤診和延遲診斷等現(xiàn)象頻繁出現(xiàn)。近年來,GPT-4 等大語言模型 (LLMs) 在醫(yī)學問答和常見病診斷方面表現(xiàn)優(yōu)異,但在罕見病等復雜臨床任務(wù)中仍面臨挑戰(zhàn)。為提升 LLMs 在醫(yī)學領(lǐng)域的實際應(yīng)用能力,一些研究人員開始探索多智能體系統(tǒng) (Multi-Agent Systems , MAS) 的應(yīng)用。

所謂智能體,是指為了完成某個目標,能夠接收輸入并執(zhí)行特定操作的系統(tǒng)。例如,我們與 ChatGPT 交流病情時,實際上是在與單一智能體對話。相較之下,多智能體系統(tǒng)通過多智能體對話 (MAC) 實現(xiàn)更動態(tài)、交互式的診斷,該模式模擬了臨床實踐中的多學科團隊 (MDT) 討論機制,讓多個智能體圍繞同一病例展開討論并分析,達成共識后輸出病情診斷結(jié)果。

近日,四川大學華西醫(yī)院、華西生物醫(yī)學大數(shù)據(jù)中心、浙江大學醫(yī)學院、北京郵電大學等團隊,分別基于 GPT-3.5 和 GPT-4,開發(fā)了多智能體對話 (MAC) 框架。該框架由 Admin Agent、Supervisor Agent 和多個 Doctor Agent 組成,共同參與患者病情分析。MAC 的最佳配置是采用 GPT-4 作為基礎(chǔ)模型,并由 4 名 Doctor Agent 和 1 名 Supervisor Agent 組成。

評估 GPT-3.5、GPT-4、MAC 在 302 例罕見病的臨床推理與醫(yī)學知識生成中的表現(xiàn)可得,MAC 在初診和復診階段均優(yōu)于單一智能體模型。此外,MAC 的診斷能力超越思維鏈 (CoT) 提示、自我優(yōu)化 (Self-Refine) 和自我一致性 (Self-Consistency) 等方法,能輸出更豐富的診斷內(nèi)容。例如,GPT-3.5 和 GPT-4 能基于臨床表現(xiàn)識別心包炎和癲癇,但 MAC 通過聯(lián)合對話進行更深入的分析,能夠確定特定病例的心包炎是由 Bardet-Biedl 綜合征引起的。

總而言之,MAC 顯著提升了 LLMs 的診斷能力,彌合了理論知識與臨床實踐之間的鴻溝,有望成為醫(yī)生的重要輔助工具。該研究以「Enhancing diagnostic capability with multi-agents conversational large language models」為題,發(fā)表于 Nature 旗下期刊 npj digital medicine。



數(shù)據(jù)集:篩選 302 種罕見疾病

本研究從 Orphanet 數(shù)據(jù)庫中篩選出 302 種罕見疾病作為研究對象。Orphanet 數(shù)據(jù)庫是由歐盟委員會共同資助的綜合性罕見疾病數(shù)據(jù)庫,涵蓋 33 種類型的超 7,000 種疾病。

在確定目標疾病后,研究團隊檢索了 Medline 數(shù)據(jù)庫中 2022 年 1 月之后發(fā)表的臨床病例報告。通過對這些病例報告進行結(jié)構(gòu)化數(shù)據(jù)提取,詳細收集了患者人口統(tǒng)計學特征、臨床表現(xiàn)、病史、體格檢查結(jié)果以及各類輔助檢查結(jié)果(包括基因檢測、病理活檢和放射學檢查等),并記錄了最終診斷信息。

為全面評估大型語言模型 (LLM) 在臨床環(huán)境中的應(yīng)用價值,研究團隊設(shè)計了兩階段的臨床咨詢模擬實驗,每個病例都被安排到初級咨詢和后續(xù)咨詢環(huán)境中測試:

第一階段模擬初步咨詢場景(初診),主要考察 LLM 在患者初次就診、僅具備有限臨床信息情況下的表現(xiàn)。LLMs 的任務(wù)是得出一個最有可能的診斷、幾個可能的診斷以及進一步的診斷。

第二階段模擬后續(xù)隨訪咨詢場景(復診),評估 LLM 在獲得完整患者信息(包括各項檢查結(jié)果)后的診斷能力。LLMs 的任務(wù)是得出 1 個最有可能的診斷和幾個可能的診斷。

這種分階段的研究設(shè)計不僅能夠測試 LLM 在信息不完整情況下的初步判斷能力,還能系統(tǒng)評估其在全面掌握臨床數(shù)據(jù)后的醫(yī)學推理和最終診斷準確性,從而全面反映 LLM 在臨床決策支持中的實際應(yīng)用潛力。



基于 GPT-4、有 4 個 Doctor Agents 的 MAC 框架表現(xiàn)最優(yōu)

研究團隊利用 Autogen 提供的結(jié)構(gòu),分別基于 GPT-3.5-turbo 和 GPT-4 開發(fā)了 2 個多智能體對話框架 (Multi-Agent Conversation Framework, MAC),模擬醫(yī)生會診。如下圖所示,其中 Admin Agent 提供患者信息,Supervisor Agent 負責發(fā)起并監(jiān)督聯(lián)合對話,3 名 Doctor Agents 共同討論患者病情。對話將持續(xù)進行,直至 Agent 間達成一致意見或達到預設(shè)的最大對話輪次(本研究設(shè)定為 13 輪),輸出最終診斷結(jié)果。

Supervisor Agent 扮演著質(zhì)量控制和流程優(yōu)化的角色,其職責涵蓋:(1)監(jiān)督和評估 Doctor Agents 提出的建議與決策;(2)審查診斷方案和擬議檢查項目,識別可能遺漏的關(guān)鍵點;(3)協(xié)調(diào) Doctor Agents 間的討論,促進診斷方案的完善;(4)推動 Doctor Agents 就最終診斷和檢查方案達成共識;(5)在達成共識后及時終止對話流程。

Doctor Agents 的職責包括:(1)基于專業(yè)醫(yī)學知識提供診斷推理和臨床建議;(2)系統(tǒng)評估和評議其他 Agent 的意見,并提出科學合理的論點和依據(jù);(3)整合并優(yōu)化其他 Agent 的反饋意見,持續(xù)改進診斷輸出。

使用來自 Medline 數(shù)據(jù)庫的真實臨床病例報告,研究人員評估了 GPT-3.5、GPT-4 和 MAC 對 302 種罕見疾病的知識和診斷能力。此外,其還研究了不同設(shè)置對 MAC 性能的影響。

例如,研究團隊比較了 MAC 框架分別采用 GPT-4 和 GPT-3.5 作為基礎(chǔ)模型時的性能差異。結(jié)果發(fā)現(xiàn),使用 GPT-3.5 或 GPT-4 作為基礎(chǔ)模型的 MAC 表現(xiàn)明顯優(yōu)于其各自的獨立版本,換言之,與單智能體模型相比,MAC 的診斷能力大大增強。此外,當用作 MAC 的基礎(chǔ)模型時,GPT-4 被證明優(yōu)于 GPT-3.5,這意味著,更強大的基礎(chǔ)模型可能會帶來更好的整體性能。

此外,研究人員還研究了 Doctor Agents 數(shù)量對多智能體框架性能的影響,以 GPT-4 為基礎(chǔ)模型的實驗結(jié)果顯示,在最可能診斷準確率方面,4 個 Agent 時達到峰值 34.11%,而 5 個 Agent 則略微下降至 31.79%。在可能診斷的準確性方面也觀察到相似規(guī)律,2、3、4、5 個 Agent 的準確率分別為 51.99%、53.31%、53.86% 和 50.99%。在以 GPT-3.5 為基礎(chǔ)模型的實驗中,4 個 Doctor Agents 同樣展現(xiàn)出最佳性能表現(xiàn)。不過整體而言,其中 3 個 Agent 產(chǎn)生的性能與 4 個 Agent 時差距不大。

進一步地,在模擬 4 名 Doctor Agents 參與的初步咨詢場景中,基于 GPT-4 的 MAC 框架在多項關(guān)鍵指標上均取得了更優(yōu)異的表現(xiàn):在最可能診斷的準確性方面達到 34.11%(GPT-3.5 為 24.28%),在可能診斷的準確性達到 48.12%(GPT-3.5 為 36.64%),在進一步診斷測試的幫助度方面達到 78.26%(GPT-3.5 為 77.37%)。在隨訪咨詢中的診斷表現(xiàn), 具有 4 名 Doctor Agents 參與、基于 GPT-4 的 MAC 框架也表現(xiàn)最優(yōu)。

研究人員還評估了移除 Supervisor Agent 對 MAC 整體性能的潛在影響。結(jié)果發(fā)現(xiàn),移除 Supervisor Agent 時,在模擬 4 名 Doctor Agents 參與的初步咨詢場景中,基于 GPT-4 的 MAC 框架在最有可能的診斷準確性、可能的診斷準確率、進一步診斷測試的幫助性方面的數(shù)據(jù)分別為 32.67%、45.47%、78.04%,均比不移除時低。在隨訪咨詢場景中,移除 Supervisor Agent 的 MAC 框架在最有可能的診斷準確性、可能的診斷準確率也均比不移除時低。這說明,Supervisor Agent 提高了框架的有效性。



實驗結(jié)論:MAC 可直擊疾病根本原因,診斷能力更強

研究團隊評估了 GPT-3.5、GPT-4 和 MAC 框架在罕見病知識生成方面的表現(xiàn),包括疾病定義、流行病學、臨床特征、病因、診斷方法、鑒別診斷、產(chǎn)前診斷、遺傳咨詢、治療管理及預后等內(nèi)容。結(jié)果表明,如下圖所示,這些模型在所有評估維度上表現(xiàn)良好,各項指標得分均超過 4 分。此外,它們在內(nèi)容準確性(不適當/不正確的內(nèi)容)、信息完整性(遺漏)、安全性(可能傷害的可能性及程度)以及客觀性(偏倚)等方面均展現(xiàn)了較高的水平。

在特定案例的病癥診斷中,如下圖所示,研究人員發(fā)現(xiàn) GPT-3.5 和 GPT-4 能夠基于明顯癥狀診斷疾病,例如通過臨床表現(xiàn)識別心包炎和癲癇,然而,它們在探究疾病的根本原因方面存在不足。相比之下,MAC 框架通過聯(lián)合對話進行更深入的分析,可以確定特定病例的心包炎是由 Bardet-Biedl 綜合征引起的。

研究人員將 MAC 與輸入/輸出 (I/O) 提示、思維鏈提示 (CoT)、自我優(yōu)化和自我一致性方法進行了比較。如下圖所示,在初次和后續(xù)咨詢中,MAC 在最可能的診斷、可能的診斷及進一步診斷測試的有效性方面均表現(xiàn)最佳。

此外,MAC 輸出的 tokens 也更多,增加的輸出不僅有助于探索不同的推理路徑,還使反思與修正先前輸出成為可能,這可以增加分析深度,提升識別被忽視疾病根本原因的能力。然而,研究亦表明,盡管增加 LLM 調(diào)用的數(shù)量并由此生成更多 tokens 可以提升 MAC 性能,但這種改進幅度受到任務(wù)類型及所采用細化方法的限制。

綜上所述,本研究成功開發(fā)了一種用于疾病診斷的多智能體對話框架 (MAC),該框架可在臨床咨詢的不同階段提供有價值的診斷建議并推薦進一步的診斷,適用于所有類型的罕見病。此外,相較于現(xiàn)有的思維鏈 (CoT)、自我優(yōu)化和自我一致性等方法,MAC 不僅具備更高的診斷準確性,還能生成更豐富、全面的診斷內(nèi)容,該框架顯著提升了大語言模型的臨床診斷能力。

多智能體系統(tǒng)在醫(yī)療領(lǐng)域具備極大的應(yīng)用潛力

近年來,多智能體系統(tǒng)在醫(yī)療決策與診斷領(lǐng)域展現(xiàn)出喜人的進展,多個重要框架相繼出現(xiàn),并采用不同策略來利用大語言模型執(zhí)行臨床任務(wù)。例如,上海交通大學提出針對醫(yī)學領(lǐng)域的多學科協(xié)作框架 MedAgents,該框架讓基于 LLM 的智能體在角色扮演環(huán)境中進行多輪協(xié)作討論,顯著增強了 LLM 在零樣本醫(yī)療問答中的表現(xiàn)。研究以「MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning」為題,發(fā)表在 arXiv 上。

論文地址:

https://arxiv.org/abs/2311.10537

不同于 MedAgents 等聚焦于醫(yī)療問答,MAC 框架專注于診斷任務(wù),促使多個智能體在相同的臨床背景下進行分析、互動討論,并提供開放式診斷建議。在智能體的架構(gòu)設(shè)計上,MAC 包含多個 Doctor Agents 和一個 Supervisor Agent,而其他框架則采用不同設(shè)定,例如為問題和答案分別創(chuàng)建單獨的 Agent。在共識達成方式上,各框架亦有所不同。例如,MedAgents 通過迭代修訂不斷優(yōu)化答案,直至所有專家達成一致,而 MAC 由 Supervisor Agent 判斷 Doctor Agents 何時達到足夠的共識。

盡管這些多智能體系統(tǒng)在配置與目標上各具特色,但它們在醫(yī)療領(lǐng)域的應(yīng)用潛力巨大,未來仍需深入研究,以全面探索并優(yōu)化其在臨床環(huán)境中的實際作用。

上文所述多智能體對話框架的研究團隊專注于生成式人工智能與臨床醫(yī)學交叉領(lǐng)域的前沿探索,擁有豐富的臨床數(shù)據(jù)資源與先進的計算硬件設(shè)施,相關(guān)研究成果已在國際高水平學術(shù)期刊發(fā)表。

該團隊致力于將人工智能技術(shù)落地應(yīng)用,切實變革臨床醫(yī)療診療模式與生態(tài)系統(tǒng),誠摯邀請學術(shù)機構(gòu)及企業(yè)開展項目合作,歡迎有志于此領(lǐng)域的優(yōu)秀研究生報考,同時招聘富有激情的科研助理加入團隊。有意向者可聯(lián)系 geteff@wchscun.cn.