追求零幻覺可能是錯誤目標，AI 幻覺問題從無解變成「可管理的技術挑戰」

大型語言模型自進入商業應用以來，「幻覺」始終是揮之不去的陰影。不過從 2021 年至今，這個問題的核心已經產生顯著變化。

理解當前 LLM 幻覺率的真實數據、技術應對策略的成熟度，以及創意與穩定性之間難以調和的問題，是企業在判斷是否導入前得需理解的關鍵發展。

幻覺問題的現況與高風險場景

過去五年間，整體 LLM 幻覺率從 2021 年的 38% 降至 2026 年的 8.2%，頂尖模型如 GPT-4o 與 Gemini 2.0，在特定基準測試中甚至能將錯誤率壓低到 0.7% 至 1.9% 之間。這個數據看似樂觀，但細究不同任務類型卻會有相當大的落差。

在 Omni-MATH 數學基準測試上，平均準確率僅 38.61%；GPQA 資料分析任務的準確率為 52.2%；MMLU-Pro 在教學或特定主題的精確查詢上更只有 0.67 分。

換言之，總體幻覺率的下降，並未平均分布於所有應用場景，數學運算、資料分析與專業建議等需要精確輸出的任務，仍是重災區。

史丹佛大學的研究發現，主要 LLM 在法律查詢上的幻覺率介於 58% 至 88% 之間；引用文獻的捏造率甚至高達 94%。這類錯誤之所以危險，正是因為模型不會表達不確定，而是用同樣流暢、權威的語氣呈現虛構資訊。

對於受高度監管的領域而言，這種錯誤模式幾乎是不可接受的。生成醫療案例摘要模型幻覺率可達 64.1%；法律 AI 工具即便在最佳狀態下，仍有 17% 至 34% 的錯誤輸出。金融與醫療對錯誤的容忍度極低，即使是頂尖模型 1% 至 2% 的錯誤率，在實務上仍可能引發合規風險、財務損失與法律責任。

真正解決幻覺：優化提示工程就可以達到一定效果？

面對幻覺問題，業界已發展諸多應對方案，其中以檢索增強生成（RAG）最為核心。RAG 透過外部驗證文件錨定模型輸出，將生成內容綁定於可查證的來源，根據各領域的實測，可將幻覺率減少 30% 至 70%。結合即時網路搜尋的設計，更能避免訓練資料截止日期所造成的過時問題；混合式檢索（關鍵字加語意搜尋）則進一步將準確度提升約 20%。

另外，驗證鏈（Chain-of-Verification）在生成最終答案前，先讓模型自行規劃驗證問題；還有 OpenAI 的「Let’s Verify Step by Step」研究指出，針對推理過程每一步給予回饋的「過程監督」，效果優於僅針對最終結果的「結果監督」，模型能更精確學習錯誤發生的位置。

自我一致性投票機制（Self-consistency）則是另一種思路。它讓模型針對同一個問題獨立生成多條推理路徑，每條路徑可能得出不同答案，最後採納出現次數最多的那個作為最終輸出。背後的邏輯是：正確答案通常能透過不同的推理過程抵達，而錯誤答案往往因隨機性而呈現分歧，因此「多數決」能有效過濾掉偶發性的幻覺。

上述驗證鏈、過程監督與自我一致性投票，本質上都屬於提示工程的範疇，它們不修改模型本身，而是透過設計查詢與互動方式來引導模型產生更準確的輸出。

研究顯示，僅透過提示工程的調整，即可將 GPT-4o 的錯誤率從 53% 降至 23%，效果不容小覷。

然而，提示工程單獨使用時效果脆弱，容易受到問題類型、模型版本與上下文長度的影響而失準，必須與檢索增強、微調等其他層次的技術組合，才能發揮穩定的防護效益。

抑制幻覺將同步削弱模型在創意上的表現

值得深思的是，幻覺與創造力共享同一套生成機制。模型之所以能寫出新穎的故事、提出意想不到的類比，正是因為它能在訓練資料的統計模式之外進行外推。

完全抑制幻覺，意味著也將同步削弱模型在創意寫作、腦力激盪與假設推理等任務上的表現。創意寫作任務中刻意產生的「幻覺」比例超過 70%，這並非缺陷，而是設計上的取捨。

正因為如此，目前業界的主流方向並非追求單一解法，而是採取混合架構，將檢索、推理與訓練等技術組合堆疊，讓彼此的弱點互相補位。檢索層由 RAG 負責，作用是「事實錨定」，以及前述的驗證鏈、過程監督與自我一致性投票，作用是「管理模型的推理路徑」，確保模型不會在邏輯推導中走偏，最後則是訓練與運行時層透過抗雜訊微調與 MARL 等中介軟體，從模型內部與執行環境兩端建立防護，作用是保障在前述流程失效時提供最後一道過濾。

三者協同運作的邏輯在於，RAG 解決「資料來源是否正確」、提示工程解決「推理過程是否嚴謹」、微調與中介軟體解決「模型本身是否容易出錯」，分別對應幻覺成因的不同層面，才能在多樣化的任務情境中發揮穩定效益。

對企業而言，這意味著導入策略必須從「追求零錯誤」轉向「設定可接受閾值」。應根據場景的風險等級、錯誤的可逆性與決策的影響範圍，制定差異化的防護層級。

幻覺問題不會消失，但已在可控範圍內

LLM 幻覺問題在過去五年間已從「無解的根本缺陷」轉變為「可管理的技術挑戰」，但這並不意味著問題本身已被解決。整體幻覺率下降至 8.2% 是顯著進步，頂尖模型在受控任務中達到個位數錯誤率也令人鼓舞，然而真實世界的複雜場景，尤其是法律、醫療與多步驟推理仍可能呈現雙位數甚至過半數的錯誤比例。

對企業決策者而言，三個關鍵思考方向值得持續關注。其一，技術必須與業務情境對齊，基準測試上的優異表現不等於特定領域的可用性，導入前的場景化評估不可省略。

其二，防護必須採取堆疊策略，沒有任何單一技術能獨力解決幻覺問題，RAG、提示工程、微調與驗證機制需要協同部署。

其三，組織治理與技術同等重要，導入 AI 治理框架的組織能將幻覺相關風險降低，這提醒我們，工具的可靠性最終取決於使用工具的流程與人員。

【推薦閱讀】
◆ 不賣軟體給律師，Lawhive 如何以 AI 重構流程讓律師收入最高達傳統 2.8 倍？
◆ 博士、律師、棋王都來了！Mercor 用 AI 招募高技能人才來訓練 AI
◆ 律師事務所還得辦「AI 黑客松」？AI 正全面改變律師的工作方式

＊本文開放合作夥伴轉載，參考資料：《WPN》、《SQ Magazine》，圖片來源：Unsplash

（責任編輯：鄒家彥）

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

追求零幻覺可能是錯誤目標，AI 幻覺問題從無解變成「可管理的技術挑戰」

幻覺問題的現況與高風險場景

真正解決幻覺：優化提示工程就可以達到一定效果？

抑制幻覺將同步削弱模型在創意上的表現

幻覺問題不會消失，但已在可控範圍內

TO 會員電子報

64% 製造業主管稱 AI 提升效率，為何營收、成本仍沒明顯改善？揭開 3 大 ROI 盲點

AI 理財顧問為何比傳統業者更有優勢？金融業正在陷入一場「不對等競爭」

高雄市政府經濟發展局局長廖泰翔：讓 AI 應用從過去的單點案例，串連成產業網

從開源 Llama 到付費 Muse Spark 1.1：Meta 如何用低價 API 搶攻 AI Agent 開發入口？