Search
Close this search box.

「資料乾淨度」決定 AI 代理是否出包,企業導入前需做的資料治理檢查

資料乾淨程度決定 AI 代理是否出包!避免 AI 幻覺企業應該先對數據做好哪些事?

隨著人工智慧不斷發展,企業對代理型 AI(Agentic AI)的需求也變得越來越高;同時,AI 代理也被視為推動更高層次數位轉型,以高準確性、速度和規模,自動化執行複雜任務的首選。

根據跨國會計師事務所 PwC 於 2025 年 5 月進行的調查,企業對代理型 AI 的興趣,正快速轉化為實際的 IT 投資。其中,高達 88% 的受訪者表示,公司內部團隊或業務部門,正計劃於 2026 年為 AI 代理增加相關預算。

此外,更有 79% 的受訪者指出,公司已經開始導入 AI 代理工具;至於在早一步獲得 AI 賦能的企業之中,有 66% 坦言代理型 AI 正替企業提高生產力,並帶來可被量化的真實價值。

然而,代理型 AI 的發展前景卻也並非一片光明。根據科技顧問公司 Gartner 預測,到了 2027 年底將有超過 40% 的代理型 AI 專案,將會因為成本飆升、商業價值不明確或風險控制不足,進而遭到企業出手取消。

押注代理型 AI 前景,科技巨頭先出手

換句話說,唯有準備得當且正確執行,AI 代理才有可能對企業各項績效指標,例如降低成本、加速決策和完成任務等,產生直接、正面的影響,其顛覆性更會超越早一步發展的生成式 AI。

在 AI 代理的推廣上,科技巨頭的表現顯然最為積極。舉例來說,NVIDIA 選擇投入開發企業級 AI 平台,希望替產業界輕鬆打造用於特定任務的代理型 AI,日前更已於加拿大渥太華醫院(The Ottawa Hospital)進行實地驗證。

NVIDIA 為渥太華醫院設計了一套專業的醫療代理型 AI 系統,它能 24 小時全年無休處理患者的醫療詢問,包含提供手術準備、術後康復,以及病人未來復健所需要的各種詳細資訊。

NVIDIA 醫療保健 VP Kimberly Powell 指出,AI 代理可以顯著節省醫療服務提供者,例如醫院、診所的時間和金錢,同時提升患者的就醫體驗。

乾淨資料對於 AI 代理究竟多重要?

只不過對於醫療行業來說,假如 AI 模型被輸入的是過時、低品質,或者根本不準確的相關資料,那麼院方對 AI 代理所執行的投資,反而就會變成浪費時間、金錢與資源的行為。畢竟,代理型 AI 終究需要仰賴品質良好、準確且最新的患者資訊,才能推動 AI 模型執行決策,甚至是進一步發展自動化任務。

許多使用者都同意,生成式 AI 是非常有用的內容創作工具,然而外界對代理型 AI 的目標與要求,卻必須更高出一等,因為代理型 AI 不是單純回答問題,而是能以半自主方式規劃、判斷並執行一連串任務流程,因此對資料與輸入文件的品質要求,也比一般生成式 AI 更加嚴苛。

身為 AI 代理的核心,大型語言模型(LLM)在乾淨、經過驗證且安全的資料方面擁有剛性需求,尤其 AI 代理的行動和決策,完全取決於它所獲得的數據和規則,這將更強調結構化資料與數位化文件的必須性,讓代理型 AI 得以制定決策並觸發工作流程。

不僅是在人命關天的醫療單位,如銀行貸款申請等金融服務情境,同樣需要代理型 AI 提供精確且即時的建議;比方說當使用者提出銀行貸款申請時,若 AI 從來源文件中所獲取的財務審查資料已經過時,那麼 AI 代理可能就會批准高風險申請人的要求,導致銀行的潛在損失增加。

尤其在企業從「紙本」轉向「數位」的過程中,若使用低解析度、影像品質較差的老舊設備進行文件掃描,並且把成果導入 AI 模型之中,將更容易發生光學字元辨識(OCR)和自然語言處理(NLP)的混淆,進而導致 AI 代理出現決策誤判。

預處理數位文件,善用掃描技術與 AI

為了防止代理型 AI 因低品質資料產生「幻覺」,甚至做出衝擊企業營運的糟糕決策,組織都應該在將資料導入 AI 模型之前,預先做好各種處理與準備。

首先,企業應該定期替資料進行「大掃除」,移除重複文件、過時版本及損毀檔案,並善用 AI 執行文件分類、摘要和清理,藉此加快處理流程。

對於需要將紙本文件進行數位化的企業來說,採用更為先進的掃描設備,將能擁有校正傾斜文件的能力,並借助更高的解析度和新技術,大幅強化字元清晰度、去除文件污漬和背景雜訊,以達到最精確的 OCR 辨識效果。

若再配合人工修正紙本掃描文件中的錯別字、格式問題,還能進一步改善最終的輸入品質,避免「垃圾進,垃圾出」(garbage in, garbage out.)現象,令最先進的 AI 陷入困境。

導入標籤定義資料,數據保密不能忘

其次,當資料經過適當清理,接著就該為文件導入中介資料(Metadata)標籤,比方說「銷售簡報」或「人資培訓手冊」等,透過 AI 容易理解的語意類別來定義資料屬性,賦予文件結構讓 AI 代理能夠更深入、準確的進行引用。

接著,企業應該要積極保護資料機密性,要求 AI 系統僅能存取自身工作任務所需的數據,絕不開放多餘權限;而那些不再被需要的敏感個資,更應該被即時清理且永久刪除,降低資料外洩與違反法規的風險。

最後,企業需考慮在代理型 AI 正式上線之前,透過規模較小的文件集和範例提示進行測試,打造出一定程度的回饋循環,藉此不斷優化資料來源與格式,讓 IT 團隊及早發現資料問題、AI 幻覺或資料誤判,再進一步擴大應用規模。

高品質資料將成企業 AI 決勝關鍵

從科技產業到百工百業,代理型 AI 總是被寄予高度期望,產業分析師更預計到了 2030 年,AI 代理相關支出將達到 1,550 億美元規模。

因此,若想要讓 AI 代理準確、可靠且合乎規範,企業必須優先考量資料與文件品質,再借助乾淨資料和清晰文件的力量,讓代理型 AI 系統精確運作。

在由 AI 代理所領導的未來,企業手上的「高品質資料」將不僅僅是種資產,更是確保人工智慧輸出可信、有效率的先決條件。

【推薦閱讀】

◆ 防範「影子 AI 」資安風險,微軟示警:別讓消費級 AI 工具滲透職場
◆ AI 投資走向泡沫?數據揭示:佔 GDP 不到 1%,爆發週期才剛開始
◆ 要讓 30 萬名員工成為「AI 專家」,摩根大通靠 2 步驟啟動內部培訓

*本文開放合作夥伴轉載,參考資料:《TechRadar》《Harvard Business Review》,首圖來源:GPT-4o

(責任編輯:鄒家彥)