Search
Close this search box.

生病請去看醫生別問 ChatGPT,研究指 AI 醫療診斷錯誤率超過 5 成

醫生、AI、ChatGPT、診斷

「生病了請去看醫生」這句我們經常掛在嘴邊的話,即便是在 AI 高速發展的今天,依然有著它的道理存在,尤其人類更不該輕信 AI 給出的醫療建議,畢竟 AI 的誤診率至今依然超過 5 成。

在 2022 年所進行的一項研究中,專家發現 ChatGPT 能夠通過部分美國醫療執照考試測驗,引起 AI 投資者與民眾的熱烈關注;然而,這並不代表 AI 已經可以取代成功人類醫生,因為 AI 很有可能會利用極具說服力話語,給予一般民眾錯誤的醫療建議。

ChatGPT 限制被輕鬆繞過,誤診率超過 50%

來自加拿大安大略省西部大學的醫學教育家 Amrit Kirpalani,近日對 ChatGPT 進行了一項實驗,他從醫學知識庫 Medscape 中,取得了 150 份關於真實患者的完整醫療案例,包括身體檢查結果、實驗室化驗數據等等,並將資料轉化成 ChatGPT 能夠理解和處理的提示,看看 AI 會給出什麼樣的診斷建議。

不過在實驗過程中,Amrit Kirpalani 很快就發現了一項重大問題,那就是 OpenAI 刻意限制了 ChatGPT 給予使用者醫療建議,希望能藉此框出「圍欄」以保護使用者安全,同時也避免 OpenAI 本身落入可能的訴訟風險。

Amrit Kirpalani 選擇透過社交工程方法,告訴 ChatGPT 他是為了撰寫論文所以才希望 AI 給予醫療案例的診斷建議,接著 AI 馬上就提供了一連串答案,並且附上了各個案例診斷結果背後的判斷原理。

然而,在 Amrit Kirpalani 所輸入的 150 個真實醫療案例中,ChatGPT 卻有多達 76 個判斷錯誤,相當於誤診率超過 50%。

AI 醫生回應「有理有據」反而變成最大問題

Amrit Kirpalani 表示,針對 AI 醫療診斷正確率的實驗結果,雖然令人感到有趣,但另一方面也讓人感到擔憂。Amrit Kirpalani 說,ChatGPT 在處理複雜主題和簡化解釋方面非常強,但即便是錯誤的建議,AI 同樣會透過淺顯易懂的方式向使用者說明,這就使得 AI 非常具有說服力。

大型語言模型及所有現代人工智慧的問題在於,它們對於使用者所輸入的問題和主體,其實並沒有真正進行過理解;AI 只是根據從訓練期間獲得的大量文本,推理出機率並給予單詞,最終組成一段又一段看起來可信的句子。

用以訓練 AI 的資料參差不齊,就會導致 AI 經常出現「幻覺」,使得回應變得毫無意義,但人工智慧仍然不會改變表達方式,依舊提出值得令人信服、結構完整且看似有理有據的論點。

Amrit Kirpalani 指出,如果使用者不是某個領域的專家,那麼 AI 所給出的答案就會產生強大的誤導性,進而傳播錯誤訊息;由於 AI 的表達太過堅定,就算是對特定領域稍微熟悉的人,可能也都需要一段時間才能意識到人工智慧正在胡說八道。

ChatGPT 走入醫學生課堂,但仍需要人類糾錯

Amrit Kirpalani 認為,在醫療領域上想打造出可靠的 AI 醫生並不容易,研究人員首先需要將大量的臨床數據投入訓練,並且在訓練過程中持續監督。Amrit Kirpalani 說,將來一些非常具體的醫療任務,或許可以透過類似 ChatGPT 的工具來完成,但對於複雜病例的診斷,AI 則需要對個案之間細微差異有著更深度的了解。

Amrit Kirpalani 表示,短期內 AI 仍不會徹底取代人類醫師,不過人工智慧確實能夠用來提高醫生的診斷能力。此外,西部大學醫學生、同時也是此研究的合著者 Edward Tran 指出,根據他的經驗 ChatGPT 在醫學院課堂中已經變得不可或缺,許多醫學生和實習生每天都會使用 AI 工具,無論是協助整理筆記、解釋診斷方法或準備考試。

即便是醫學系學生,仍然可能會被 ChatGPT 所蒙騙,不過好處在於他們有著人類教授來糾正錯誤,但使用 ChatGPT 的一般民眾並沒有這個能力。

Amrit Kirpalani 強烈建議大眾,請不要使用 ChatGPT 尋求任何醫療建議,尤其是在 AI 發展仍舊不夠成熟的今天。

【推薦閱讀】

◆ 「發展 AI 真的很危險」從迪士尼、Netflix 到 Motorola 大企業紛紛發出警告

◆ 「AI 再進步也無法驚天動地」開發者指 GPT-4 很夠用,未來投資 GPT-5 不值得

◆ 《決勝時刻》演員抗議遊戲變 AI 配音失去靈魂!好萊塢發起罷工拒絕 AI 搶工作

*本文開放合作夥伴轉載,資料來源:《Ars Technica》《PLOS》。首圖來源:Unsplash