準確性超越 GPT-4o！Contextual AI 如何破解企業導入 AI 最大難題：幻覺？

生成式 AI 浪潮襲來，每個人都可能已在不同程度運用 AI，但對一些企業來說仍有顧慮。IBM 針對全球 2,000 家企業進行調查，歸納出 2025 年 AI 應用面臨的挑戰中，有將近一半（45%）受訪者擔心數據的準確性或偏差。

這樣的擔憂其來有自，生成式 AI 模型通常被訓練要提供它認為最好的答案，也因此可能提供看似事實的虛假或誤導性資訊，而不是直接說「不知道」。這個問題被稱為「幻覺（hallucination）」，對於講究數據準確性、受嚴格監管的產業，像是金融、醫療保健和電信業，往往難以容忍。

這些企業需要能提供準確資訊，或明確承認自己不知道某些資訊的 AI 模型。瞄準此一痛點的新創 Contextual AI，近期發表新 AI 模型 GLM，稱在 FACTS Grounding 基準測試中，準確率超越 Google、Anthropic 和 OpenAI 等 AI 巨頭，背後是怎麼做到的？

「行銷部門使用的 AI 模型並不適用」

Contextual AI 執行長兼共同創辦人 Douwe Kiela 表示，幻覺問題的解方之一是 RAG （檢索增強生成）技術，他們的目標是用正確的方法部署、提升 RAG。這家新創的考量與 ChatGPT、Claude 這類通用模型有極大差異──通用 AI 模型被設計用於處理從創意寫作到技術文件的各種任務。

Contextual AI 的做法相反，專門為高風險企業環境，設計針對 RAG 應用優化的 AI 模型──在這些環境中，事實準確性比創意靈活性更為重要。Kiela 補充，「在對錯誤極為敏感的企業環境中，行銷部門使用的通用語言模型並不適合。」

其 GLM 模型在 FACTS 基準測試中取得了 88% 的事實準確度（factuality）得分，相較之下，Google 的 Gemini 2.0 Flash 為 84.6%，Anthropic 的 Claude 3.5 Sonnet 為 79.4%，而 OpenAI 的 GPT-4o 為 78.8%。

讓嚴格的「Groundedness」成為企業 AI 標準

要確保企業 AI 產出品質、準確性、相關性，科技媒體《VentureBeat》指出，Groundedness 的方法變得越來越重要，也就是讓 AI 的回應嚴格依據企業所提供的上下文資訊，不能擅自推測或編造內容。

RAG 是 Groundedness 的主要技術之一，Kiela 舉例說明進行 Groundedness 帶來的差異──如果提供一個食譜或公式，並在某處標註「這只適用於大多數情況」，多數 AI 模型會假設這項內容普遍適用，並在相關提問直接回覆該食譜或公式，但擁有 Groundedness 的 AI 模型能捕捉到當中的細微差異，向使用者表示「這裡說的只適用於大多數情況」。

Kiela 強調，對於企業環境來說，AI 說「我不知道」的能力非常重要。

深化 RAG 整合能力，不讓企業 AI 變「科學怪人」

Contextual AI 觀察，傳統的 RAG 系統使用不可更改的現成模型進行嵌入、使用向量數據庫進行檢索、運用缺乏透明度的語言模型進行生成，再用提示或編排框架將這些組件縫合在一起，「這導致生成式 AI 的『科學怪人』出現：各組件在技術上可行，整體卻不是最佳狀態。」

Contextual AI 做法是打造「RAG 2.0」，共同優化系統的所有組件。Kiela 解釋其採用一種進行智慧檢索的方法──它會查看問題，然後像最新一代 AI 模型一樣思考，並且首先規劃檢索策略，因此有助於在最相關的資訊發送到 GLM 之前做好優先排序，更好地整合企業資訊的處理方式。

Kiela 表示，擁有一個 GLM 可能比典型的語言模型更無趣一些，但它確實能夠確保回應植基於上下文，並且讓企業信任 AI 來完成工作。

免費報名 3/17-3/21【NVIDIA GTC 2025】AI 大會

📢 活動辦法：成功報名 NVIDIA GTC 2025 並於 3/17-3/21 觀看任一場 GTC 線上演講，私訊 TechOrange 粉絲專頁提供報名時的註冊名稱、公司與信箱，即可抽 NVIDIA® GeForce RTX™ 4080 SUPER 顯卡！

【推薦閱讀】

◆ 為何 AI 就是不想承認自己不知道？專家提 AI 幻覺解法

◆ CEO 的 AI 時代生存指南！Deloitte 盤點執行長需扮演的 3 大角色

◆ AI 真的知道怎麼推理嗎──最佳解答為何是 AI 擁有「jagged intelligence」？

＊本文開放合作夥伴轉載，資料來源：IBM、《VentureBeat》、《SiliconANGLE》、Microsoft，首圖來源：Unsplash。

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

準確性超越 GPT-4o！Contextual AI 如何破解企業導入 AI 最大難題：幻覺？

「行銷部門使用的 AI 模型並不適用」

讓嚴格的「Groundedness」成為企業 AI 標準

深化 RAG 整合能力，不讓企業 AI 變「科學怪人」

免費報名 3/17-3/21【NVIDIA GTC 2025】AI 大會

TO 會員電子報

將螢幕錄影化為 AI 代理訓練素材，Guidde 用「影片教學」讓 AI 學會模仿人類操作

HBM 吃掉 30% 資本支出、台積電 N3 產能逼近極限：SemiAnalysis 創辦人揭 AI 狂飆後半導體的真正瓶頸

睡前交辦 AI、醒來驗收成果：矽谷工程師變成「AI 代理主管」，Google、Amazon 都在發生

【AWS 找上 Cerebras】AI 推理晶片戰開打，挑戰 NVIDIA GPU 主導地位