Search
Close this search box.

追求零幻覺可能是錯誤目標,AI 幻覺問題從無解變成「可管理的技術挑戰」

大型語言模型自進入商業應用以來,「幻覺」始終是揮之不去的陰影。不過從 2021 年至今,這個問題的核心已經產生顯著變化。

理解當前 LLM 幻覺率的真實數據、技術應對策略的成熟度,以及創意與穩定性之間難以調和的問題,是企業在判斷是否導入前得需理解的關鍵發展。

幻覺問題的現況與高風險場景

過去五年間,整體 LLM 幻覺率從 2021 年的 38% 降至 2026 年的 8.2%,頂尖模型如 GPT-4o 與 Gemini 2.0,在特定基準測試中甚至能將錯誤率壓低到 0.7% 至 1.9% 之間。這個數據看似樂觀,但細究不同任務類型卻會有相當大的落差。

在 Omni-MATH 數學基準測試上,平均準確率僅 38.61%;GPQA 資料分析任務的準確率為 52.2%;MMLU-Pro 在教學或特定主題的精確查詢上更只有 0.67 分。

換言之,總體幻覺率的下降,並未平均分布於所有應用場景,數學運算、資料分析與專業建議等需要精確輸出的任務,仍是重災區。

史丹佛大學的研究發現,主要 LLM 在法律查詢上的幻覺率介於 58% 至 88% 之間;引用文獻的捏造率甚至高達 94%。這類錯誤之所以危險,正是因為模型不會表達不確定,而是用同樣流暢、權威的語氣呈現虛構資訊。

對於受高度監管的領域而言,這種錯誤模式幾乎是不可接受的。生成醫療案例摘要模型幻覺率可達 64.1%;法律 AI 工具即便在最佳狀態下,仍有 17% 至 34% 的錯誤輸出。金融與醫療對錯誤的容忍度極低,即使是頂尖模型 1% 至 2% 的錯誤率,在實務上仍可能引發合規風險、財務損失與法律責任。

真正解決幻覺:優化提示工程就可以達到一定效果?

面對幻覺問題,業界已發展諸多應對方案,其中以檢索增強生成(RAG)最為核心。RAG 透過外部驗證文件錨定模型輸出,將生成內容綁定於可查證的來源,根據各領域的實測,可將幻覺率減少 30% 至 70%。結合即時網路搜尋的設計,更能避免訓練資料截止日期所造成的過時問題;混合式檢索(關鍵字加語意搜尋)則進一步將準確度提升約 20%。

另外,驗證鏈(Chain-of-Verification)在生成最終答案前,先讓模型自行規劃驗證問題;還有 OpenAI 的「Let’s Verify Step by Step」研究指出,針對推理過程每一步給予回饋的「過程監督」,效果優於僅針對最終結果的「結果監督」,模型能更精確學習錯誤發生的位置。

自我一致性投票機制(Self-consistency)則是另一種思路。它讓模型針對同一個問題獨立生成多條推理路徑,每條路徑可能得出不同答案,最後採納出現次數最多的那個作為最終輸出。背後的邏輯是:正確答案通常能透過不同的推理過程抵達,而錯誤答案往往因隨機性而呈現分歧,因此「多數決」能有效過濾掉偶發性的幻覺。

上述驗證鏈、過程監督與自我一致性投票,本質上都屬於提示工程的範疇,它們不修改模型本身,而是透過設計查詢與互動方式來引導模型產生更準確的輸出。

研究顯示,僅透過提示工程的調整,即可將 GPT-4o 的錯誤率從 53% 降至 23%,效果不容小覷。

然而,提示工程單獨使用時效果脆弱,容易受到問題類型、模型版本與上下文長度的影響而失準,必須與檢索增強、微調等其他層次的技術組合,才能發揮穩定的防護效益。

抑制幻覺將同步削弱模型在創意上的表現

值得深思的是,幻覺與創造力共享同一套生成機制。模型之所以能寫出新穎的故事、提出意想不到的類比,正是因為它能在訓練資料的統計模式之外進行外推。

完全抑制幻覺,意味著也將同步削弱模型在創意寫作、腦力激盪與假設推理等任務上的表現。創意寫作任務中刻意產生的「幻覺」比例超過 70%,這並非缺陷,而是設計上的取捨。

正因為如此,目前業界的主流方向並非追求單一解法,而是採取混合架構,將檢索、推理與訓練等技術組合堆疊,讓彼此的弱點互相補位。檢索層由 RAG 負責,作用是「事實錨定」,以及前述的驗證鏈、過程監督與自我一致性投票,作用是「管理模型的推理路徑」,確保模型不會在邏輯推導中走偏,最後則是訓練與運行時層透過抗雜訊微調與 MARL 等中介軟體,從模型內部與執行環境兩端建立防護,作用是保障在前述流程失效時提供最後一道過濾。

三者協同運作的邏輯在於,RAG 解決「資料來源是否正確」、提示工程解決「推理過程是否嚴謹」、微調與中介軟體解決「模型本身是否容易出錯」,分別對應幻覺成因的不同層面,才能在多樣化的任務情境中發揮穩定效益。

對企業而言,這意味著導入策略必須從「追求零錯誤」轉向「設定可接受閾值」。應根據場景的風險等級、錯誤的可逆性與決策的影響範圍,制定差異化的防護層級。

幻覺問題不會消失,但已在可控範圍內

LLM 幻覺問題在過去五年間已從「無解的根本缺陷」轉變為「可管理的技術挑戰」,但這並不意味著問題本身已被解決。整體幻覺率下降至 8.2% 是顯著進步,頂尖模型在受控任務中達到個位數錯誤率也令人鼓舞,然而真實世界的複雜場景,尤其是法律、醫療與多步驟推理仍可能呈現雙位數甚至過半數的錯誤比例。

對企業決策者而言,三個關鍵思考方向值得持續關注。其一,技術必須與業務情境對齊,基準測試上的優異表現不等於特定領域的可用性,導入前的場景化評估不可省略。

其二,防護必須採取堆疊策略,沒有任何單一技術能獨力解決幻覺問題,RAG、提示工程、微調與驗證機制需要協同部署。

其三,組織治理與技術同等重要,導入 AI 治理框架的組織能將幻覺相關風險降低,這提醒我們,工具的可靠性最終取決於使用工具的流程與人員。

【推薦閱讀】

◆ 不賣軟體給律師,Lawhive 如何以 AI 重構流程讓律師收入最高達傳統 2.8 倍?
博士、律師、棋王都來了!Mercor 用 AI 招募高技能人才來訓練 AI
律師事務所還得辦「AI 黑客松」?AI 正全面改變律師的工作方式

*本文開放合作夥伴轉載,參考資料:《WPN》《SQ Magazine》,圖片來源:Unsplash

(責任編輯:鄒家彥)