Search
Close this search box.

準確性超越 GPT-4o!Contextual AI 如何破解企業導入 AI 最大難題:幻覺?

生成式 AI 浪潮襲來,每個人都可能已在不同程度運用 AI,但對一些企業來說仍有顧慮。IBM 針對全球 2,000 家企業進行調查,歸納出 2025 年 AI 應用面臨的挑戰中,有將近一半(45%)受訪者擔心數據的準確性或偏差。

這樣的擔憂其來有自,生成式 AI 模型通常被訓練要提供它認為最好的答案,也因此可能提供看似事實的虛假或誤導性資訊,而不是直接說「不知道」。這個問題被稱為「幻覺(hallucination)」,對於講究數據準確性、受嚴格監管的產業,像是金融、醫療保健和電信業,往往難以容忍。

這些企業需要能提供準確資訊,或明確承認自己不知道某些資訊的 AI 模型。瞄準此一痛點的新創 Contextual AI,近期發表新 AI 模型 GLM,稱在 FACTS Grounding 基準測試中,準確率超越 Google、Anthropic 和 OpenAI 等 AI 巨頭,背後是怎麼做到的?

「行銷部門使用的 AI 模型並不適用」

Contextual AI 執行長兼共同創辦人 Douwe Kiela 表示,幻覺問題的解方之一是 RAG (檢索增強生成)技術,他們的目標是用正確的方法部署、提升 RAG。這家新創的考量與 ChatGPT、Claude 這類通用模型有極大差異──通用 AI 模型被設計用於處理從創意寫作到技術文件的各種任務。

Contextual AI 的做法相反,專門為高風險企業環境,設計針對 RAG 應用優化的 AI 模型──在這些環境中,事實準確性比創意靈活性更為重要。Kiela 補充,「在對錯誤極為敏感的企業環境中,行銷部門使用的通用語言模型並不適合。」

其 GLM 模型在 FACTS 基準測試中取得了 88% 的事實準確度(factuality)得分,相較之下,Google 的 Gemini 2.0 Flash 為 84.6%,Anthropic 的 Claude 3.5 Sonnet 為 79.4%,而 OpenAI 的 GPT-4o 為 78.8%。

讓嚴格的「Groundedness」成為企業 AI 標準

要確保企業 AI 產出品質、準確性、相關性,科技媒體《VentureBeat》指出,Groundedness 的方法變得越來越重要,也就是讓 AI 的回應嚴格依據企業所提供的上下文資訊,不能擅自推測或編造內容。

RAG 是 Groundedness 的主要技術之一,Kiela 舉例說明進行 Groundedness 帶來的差異──如果提供一個食譜或公式,並在某處標註「這只適用於大多數情況」,多數 AI 模型會假設這項內容普遍適用,並在相關提問直接回覆該食譜或公式,但擁有 Groundedness 的 AI 模型能捕捉到當中的細微差異,向使用者表示「這裡說的只適用於大多數情況」。

Kiela 強調,對於企業環境來說,AI 說「我不知道」的能力非常重要。

深化 RAG 整合能力,不讓企業 AI 變「科學怪人」

Contextual AI 觀察,傳統的 RAG 系統使用不可更改的現成模型進行嵌入、使用向量數據庫進行檢索、運用缺乏透明度的語言模型進行生成,再用提示或編排框架將這些組件縫合在一起,「這導致生成式 AI 的『科學怪人』出現:各組件在技術上可行,整體卻不是最佳狀態。」

Contextual AI 做法是打造「RAG 2.0」,共同優化系統的所有組件。Kiela 解釋其採用一種進行智慧檢索的方法──它會查看問題,然後像最新一代 AI 模型一樣思考,並且首先規劃檢索策略,因此有助於在最相關的資訊發送到 GLM 之前做好優先排序,更好地整合企業資訊的處理方式。

Kiela 表示,擁有一個 GLM 可能比典型的語言模型更無趣一些,但它確實能夠確保回應植基於上下文,並且讓企業信任 AI 來完成工作。

免費報名 3/17-3/21【NVIDIA GTC 2025】AI 大會

📢 活動辦法:成功報名 NVIDIA GTC 2025 並於 3/17-3/21 觀看任一場 GTC 線上演講,私訊 TechOrange 粉絲專頁提供報名時的註冊名稱、公司與信箱,即可抽 NVIDIA® GeForce RTX™ 4080 SUPER 顯卡

【推薦閱讀】

為何 AI 就是不想承認自己不知道?專家提 AI 幻覺解法

CEO 的 AI 時代生存指南!Deloitte 盤點執行長需扮演的 3 大角色

AI 真的知道怎麼推理嗎──最佳解答為何是 AI 擁有「jagged intelligence」?

*本文開放合作夥伴轉載,資料來源:IBM《VentureBeat》《SiliconANGLE》Microsoft,首圖來源:Unsplash