【不是問 ChatGPT 就好】哪款 AI 最適合回答醫療問題？史丹佛實測 31 款模型

AI 工具進入醫療場域的速度，正在超越多數人的預期。美國每天有數百萬人透過 ChatGPT 等工具詢問醫療問題，約三分之二的美國醫師表示會定期使用大型語言模型，其中約五分之一會就病患照護問題諮詢 AI。

截至 2025 年，已有超過 1,200 種 AI 醫療工具獲得 FDA 批准，整個產業規模已達數十億美元。

但在這波快速擴張中，有一個問題始終沒有被認真回答：這些系統在真實臨床情境裡，到底有多可靠、又有多危險？由史丹佛大學、哈佛大學與多所機構組成的研究團隊，發表了一項名為 NOHARM 的研究試圖提供答案。

考試考得好，不代表臨床做得好

過去對醫療 AI 的評估，多數停留在「能不能通過醫師執照考試」這個層次。但研究團隊指出，通過考試和安全照護真實病患是截然不同的兩件事。

一項針對 500 多項醫療 AI 研究的回顧發現，近一半的研究使用考試題型測試模型，只有 5% 使用真實患者數據。NOHARM 研究的設計，正是為了補上這個缺口。

研究團隊從史丹佛醫療中心的電子會診系統中，抽取 100 個真實臨床問題，這些都是初級照護醫師針對真實病患提交的案例。接著由 29 位通過認證的專科醫師逐一審閱 AI 可能給出的各種臨床建議，依據適當性與潛在危害程度評分。

專家間的一致率超過 95%，最終共產生 12,747 筆標註，涵蓋 4,249 個臨床決策節點。研究團隊以此框架測試了 31 種 AI 系統，涵蓋主流商業模型、開源系統與專業醫療 AI 平台。

頂尖模型已超越一般醫師，但落差因模型而異

測試結果顯示，整體表現最佳的是 AMBOSS LiSA 1.0，一個基於醫學知識庫建構的檢索增強型系統，整體得分 62.3%。其次依序為 Google Gemini 2.5 Pro（59.9%）、Glass Health 4.0（59.0%）、OpenAI GPT-5（58.3%）與 Anthropic Claude Sonnet 4.5（58.2%）。

排名末段的迷你模型，包括 GPT-4o mini、o1 mini、o3 mini、o4 mini，得分落在 42 至 49% 之間。

這些分數乍看偏低，但研究團隊解釋，每個案例涵蓋大量決策節點，且對危險建議有懲罰機制，因此即使是強大的模型也難以拿高分。

值得注意的是，排名前五到六名的模型在統計上差異不大，第一名與第五名之間的差距不具實際意義；但頂尖與末段之間的落差則相當顯著——表現最差的模型所犯下的嚴重錯誤，超過最佳模型的三倍以上。

研究也將頂尖 AI 模型與 10 位使用傳統資源，但未借助 AI 的內科醫師進行比較。結果顯示，最佳 AI 模型在整體表現上比內科醫師高逾 15 個百分點，在安全性上高出超過 10 個百分點，人類醫師的基準分數為 46.0%。

研究人員強調，這不代表 AI 即將取代醫師，人類醫師仍具備 AI 無法複製的臨床判斷、情境理解與責任承擔。但這確實意味著，運用得當的 AI 輔助決策系統，有潛力減少診療過程中的錯誤。

最大的風險不是說錯，而是沒說

研究在安全性、完整性與克制性三個維度分別評估各模型，結果揭示了一個反直覺的核心發現。在所有存在嚴重危害風險的案例中，77% 的危害來源不是 AI 提出了危險建議，而是 AI 漏掉了重要的處置。換句話說，在臨床現場，AI 的沉默往往比它說錯話更危險。

不同模型在這三個維度上的強弱也各有差異。Google Gemini 2.5 Pro 在安全性上表現最佳；AMBOSS LiSA 1.0 在完整性上最高；OpenAI o3 mini 在克制性上得分最高，但完整性卻最低，它在提出建議時過於保守，以至於經常漏掉關鍵的介入措施。

這帶出了研究中另一個重要發現：克制性與安全性之間的關係並非「越謹慎越安全」，而是一條倒 U 型曲線。安全性在中等克制程度時達到峰值，太保守和太激進都會增加危害風險。

開發者習慣透過讓 AI 更謹慎來提升安全性，加入免責聲明、限制建議、預設回應「請諮詢醫師」，但這項研究顯示，過度謹慎本身就可能成為危險的來源。

多模型協作，是提升安全性的有效路徑

研究也測試了「多代理人」配置，由一個 AI 提出初步建議，再由一至兩個其他 AI 審查修正，模擬自動化的第二意見機制。結果顯示，這類配置在達到頂尖安全表現方面的成效，是單一模型的近六倍。

更關鍵的是，來自不同組織的模型組合優於同一廠商的多個版本。表現最佳的三模型組合為 Meta Llama 4 Scout（開源）、Google Gemini 2.5 Pro（商業）與 AMBOSS LiSA 1.0（醫學知識系統），這就如同腫瘤委員會結合外科、放射科與腫瘤科的專業，不同背景的 AI 組合出了更強的協作優勢。

在知識來源上，研究也呈現出一致的趨勢。安全性較高的系統，往往是基於精心整理的醫學知識庫，而非單純依賴網路資料訓練的通用模型。這對 AI 開發者而言是一個明確的訊號，即醫療應用不能只靠模型規模取勝，知識的品質與結構同樣重要。

技術能力以外，還需要更完善的評估與監管

在政策層面，FDA 近期表示將放寬對部分臨床決策支援軟體的監管，將更多責任轉移給開發者與醫療機構。這個方向在 AI 醫療工具快速擴張的背景下，使評估與問責的壓力更集中落在產業與醫院端。

隨機試驗顯示，AI 輔助醫師的決策優於僅使用傳統工具的醫師；但同時也有研究指出，即使錯誤顯而易見，部分臨床醫師仍會採納 AI 的錯誤建議，長期使用更可能使醫師警覺性下降。

NOHARM 研究的結論是，醫療 AI 已逐漸具備臨床決策支援的能力，但距離可以放心部署，仍需嚴格的評估框架與持續的監管機制。研究團隊也建立了公開的 NOHARM 排行榜，持續接受新模型提交，讓評估基礎設施能與 AI 的發展速度同步更新。

【推薦閱讀】
◆ 重寫 AI 醫療責任，為何美國猶他州敢讓 AI 接手「慢性病續方」？
◆ AI 醫療的戰場正在轉移，變革不在醫院而在日常生活中
◆ 體內住著一位 24 小時醫生？從智慧手環到數位藥丸，IoB 如何顛覆醫療模式

＊本文開放合作夥伴轉載，參考資料：《Forbes》、Stanford Medicine，圖片來源：Unsplash

（責任編輯：鄒家彥）

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

【不是問 ChatGPT 就好】哪款 AI 最適合回答醫療問題？史丹佛實測 31 款模型

考試考得好，不代表臨床做得好

頂尖模型已超越一般醫師，但落差因模型而異

最大的風險不是說錯，而是沒說

多模型協作，是提升安全性的有效路徑

技術能力以外，還需要更完善的評估與監管

TO 會員電子報

台灣 AI 採用贏全球，產出成果卻落後一截？微軟揭企業 AI 的導入盲點

南韓砸逾 8,800 億美元打造 AI 國家隊：拆解台、日、韓的 AI 國力競賽

從 8 小時到 22 秒就能破解！當 AI 變成駭客工具，你的公司準備好了嗎？（下篇）

資安長看不到的「暗物質」：放手讓 AI 自動修補前，先過 5 道門檻