【不是問 ChatGPT 就好】哪款 AI 最適合回答醫療問題?史丹佛實測 31 款模型

AI 工具進入醫療場域的速度,正在超越多數人的預期。美國每天有數百萬人透過 ChatGPT 等工具詢問醫療問題,約三分之二的美國醫師表示會定期使用大型語言模型,其中約五分之一會就病患照護問題諮詢 AI。

截至 2025 年,已有超過 1,200 種 AI 醫療工具獲得 FDA 批准,整個產業規模已達數十億美元。

但在這波快速擴張中,有一個問題始終沒有被認真回答:這些系統在真實臨床情境裡,到底有多可靠、又有多危險?由史丹佛大學、哈佛大學與多所機構組成的研究團隊,發表了一項名為 NOHARM 的研究試圖提供答案。

考試考得好,不代表臨床做得好

過去對醫療 AI 的評估,多數停留在「能不能通過醫師執照考試」這個層次。但研究團隊指出,通過考試和安全照護真實病患是截然不同的兩件事。

一項針對 500 多項醫療 AI 研究的回顧發現,近一半的研究使用考試題型測試模型,只有 5% 使用真實患者數據。NOHARM 研究的設計,正是為了補上這個缺口。

研究團隊從史丹佛醫療中心的電子會診系統中,抽取 100 個真實臨床問題,這些都是初級照護醫師針對真實病患提交的案例。接著由 29 位通過認證的專科醫師逐一審閱 AI 可能給出的各種臨床建議,依據適當性與潛在危害程度評分。

專家間的一致率超過 95%,最終共產生 12,747 筆標註,涵蓋 4,249 個臨床決策節點。研究團隊以此框架測試了 31 種 AI 系統,涵蓋主流商業模型、開源系統與專業醫療 AI 平台。

頂尖模型已超越一般醫師,但落差因模型而異

測試結果顯示,整體表現最佳的是 AMBOSS LiSA 1.0,一個基於醫學知識庫建構的檢索增強型系統,整體得分 62.3%。其次依序為 Google Gemini 2.5 Pro(59.9%)、Glass Health 4.0(59.0%)、OpenAI GPT-5(58.3%)與 Anthropic Claude Sonnet 4.5(58.2%)。

排名末段的迷你模型,包括 GPT-4o mini、o1 mini、o3 mini、o4 mini,得分落在 42 至 49% 之間。

這些分數乍看偏低,但研究團隊解釋,每個案例涵蓋大量決策節點,且對危險建議有懲罰機制,因此即使是強大的模型也難以拿高分。

值得注意的是,排名前五到六名的模型在統計上差異不大,第一名與第五名之間的差距不具實際意義;但頂尖與末段之間的落差則相當顯著——表現最差的模型所犯下的嚴重錯誤,超過最佳模型的三倍以上。

研究也將頂尖 AI 模型與 10 位使用傳統資源,但未借助 AI 的內科醫師進行比較。結果顯示,最佳 AI 模型在整體表現上比內科醫師高逾 15 個百分點,在安全性上高出超過 10 個百分點,人類醫師的基準分數為 46.0%。

研究人員強調,這不代表 AI 即將取代醫師,人類醫師仍具備 AI 無法複製的臨床判斷、情境理解與責任承擔。但這確實意味著,運用得當的 AI 輔助決策系統,有潛力減少診療過程中的錯誤。

最大的風險不是說錯,而是沒說

研究在安全性、完整性與克制性三個維度分別評估各模型,結果揭示了一個反直覺的核心發現。在所有存在嚴重危害風險的案例中,77% 的危害來源不是 AI 提出了危險建議,而是 AI 漏掉了重要的處置。換句話說,在臨床現場,AI 的沉默往往比它說錯話更危險。

不同模型在這三個維度上的強弱也各有差異。Google Gemini 2.5 Pro 在安全性上表現最佳;AMBOSS LiSA 1.0 在完整性上最高;OpenAI o3 mini 在克制性上得分最高,但完整性卻最低,它在提出建議時過於保守,以至於經常漏掉關鍵的介入措施。

這帶出了研究中另一個重要發現:克制性與安全性之間的關係並非「越謹慎越安全」,而是一條倒 U 型曲線。安全性在中等克制程度時達到峰值,太保守和太激進都會增加危害風險。

開發者習慣透過讓 AI 更謹慎來提升安全性,加入免責聲明、限制建議、預設回應「請諮詢醫師」,但這項研究顯示,過度謹慎本身就可能成為危險的來源。

多模型協作,是提升安全性的有效路徑

研究也測試了「多代理人」配置,由一個 AI 提出初步建議,再由一至兩個其他 AI 審查修正,模擬自動化的第二意見機制。結果顯示,這類配置在達到頂尖安全表現方面的成效,是單一模型的近六倍。

更關鍵的是,來自不同組織的模型組合優於同一廠商的多個版本。表現最佳的三模型組合為 Meta Llama 4 Scout(開源)、Google Gemini 2.5 Pro(商業)與 AMBOSS LiSA 1.0(醫學知識系統),這就如同腫瘤委員會結合外科、放射科與腫瘤科的專業,不同背景的 AI 組合出了更強的協作優勢。

在知識來源上,研究也呈現出一致的趨勢。安全性較高的系統,往往是基於精心整理的醫學知識庫,而非單純依賴網路資料訓練的通用模型。這對 AI 開發者而言是一個明確的訊號,即醫療應用不能只靠模型規模取勝,知識的品質與結構同樣重要。

技術能力以外,還需要更完善的評估與監管

在政策層面,FDA 近期表示將放寬對部分臨床決策支援軟體的監管,將更多責任轉移給開發者與醫療機構。這個方向在 AI 醫療工具快速擴張的背景下,使評估與問責的壓力更集中落在產業與醫院端。

隨機試驗顯示,AI 輔助醫師的決策優於僅使用傳統工具的醫師;但同時也有研究指出,即使錯誤顯而易見,部分臨床醫師仍會採納 AI 的錯誤建議,長期使用更可能使醫師警覺性下降。

NOHARM 研究的結論是,醫療 AI 已逐漸具備臨床決策支援的能力,但距離可以放心部署,仍需嚴格的評估框架與持續的監管機制。研究團隊也建立了公開的 NOHARM 排行榜,持續接受新模型提交,讓評估基礎設施能與 AI 的發展速度同步更新。

【推薦閱讀】

◆ 重寫 AI 醫療責任,為何美國猶他州敢讓 AI 接手「慢性病續方」?
◆ AI 醫療的戰場正在轉移,變革不在醫院而在日常生活中
◆ 體內住著一位 24 小時醫生?從智慧手環到數位藥丸,IoB 如何顛覆醫療模式

*本文開放合作夥伴轉載,參考資料:《Forbes》Stanford Medicine,圖片來源:Unsplash

(責任編輯:鄒家彥)