Search
Close this search box.

【維運工程師被 AI 取代?】最新測試:最先進 AI 模型的故障分析能力仍不及人類專家

維運工程師要被 AI 取代了?最新測試發現 AI 故障分析能力仍遠遠不及人類專家

隨著 AI 技術不斷被投入商業應用,有些人工智慧公司對外大肆宣傳,聲稱他們開發的「自主維運 AI 代理」,有辦法取代人類工程師,肩負起生產環境中各種事故的調查工作。

然而致力於伺服器、資料庫等監控服務的美國 SaaS 公司 Datadog,近日推出了全新的測試標準「ARFBench」,讓 AI 模型針對實際的服務中斷事件進行故障研究、原因推理。

結果顯示,即使是目前最優秀、最先進的人工智慧模型,仍舊無法勝過它們原本要取代的人類工程師。

奠基於真實資料,考驗 AI 能力

ARFBench 的全稱為「異常推理框架基準測試(Anomaly Reasoning Framework Benchmark)」,由 Datadog 與卡內基美隆大學共同推動。

ARFBench 測試奠基於 63 起真實的生產環境故障事件之上,並且從工程師在緊急狀況發生時,於 Slack 討論串中進行的對話中提取、精煉而來。

根據官方介紹,ARFBench 測試包含 750 道選擇題,涵蓋 142 項監控指標與 538 萬個資料點,同時每道題目都經過人工審核,不包含任何 AI 所合成的假設性資料,亦不採用理論上的典型情境。

研究人員在 ARFBench 的資訊頁面中指出,每年於商業生產環境中,因為系統中斷而造成的損失,累積可高達數兆美元;而 ARFBench 的開發宗旨,即在於驗證 AI 是否真的能夠協助產業扭轉此類局面。

困難度分三階段,瞄準 AI 痛點

不僅如此,研究人員也對當今的 AI 模型提出了一項關鍵質疑。

研究人員指出,在以「問題」為導向的分析中,例如故障研究、原因推理等,通常都會於事故應變時扮演著核心角色,然而,現代 AI 模型是否能夠可靠回答工程師,在工作實務中提出的各種時間序列問題,其結果卻依舊不明確。

ARFBench 將其所包含的問題與 AI 的解答能力,由淺至深分為三個等級,第一等級是要求 AI 成功判斷,其所給出的圖表是否存在異常現象;第二等級為要求 AI 深入分析,究竟異常現象是從何時開始、嚴重程度如何、故障又屬於哪種類型。

至於第三等級則需要跨指標推理,即要求 AI 說明,某張圖表所呈現的問題,是否導致了另一張圖表中的問題,而這正是人工智慧的弱點所在。

AI 不如人類,先進模型也翻車

根據實測,面對最困難的第三等級故障情境分析要求,即使是最先進的 GPT-5 模型,其 F1 分數(排除盲猜最常見類別試圖得分)也僅有 47.5%。

若將各階段的成績相加並進行比較,在一次隨機猜測原因正確率僅 24.5% 的測試中,GPT-5 以 62.7% 的準確率,領先所有參與測試的 AI 模型,第二名為得分 58.1% 的 Gemini 3 Pro,Claude Opus 4.6 以 54.8% 排名第三,稍微舊一點的 Claude Sonnet 4.5 以 47.2% 排名第四。

反觀人類方面,特定領域專家如資深 SRE 工程師,其事故分析準確率可以達到 72.7%;而非領域專家,即 Datadog 內部缺乏豐富維運經驗的時間序列研究員,也依然有 69.7% 的正確率。

簡單來說,根據 Datadog 所給出的實測,目前還沒有任何人工智慧模型,有辦法勝過人類工程師在故障判斷方面的準確率。

通用不代表強大,專用模型效率更高

除了參與測試的先進模型外,Datadog 還在 ARFBench 的論文中,指出了另一個有趣現象。

事實上,在完整排行榜上名列榜首的模型,為 Datadog 自家所研發的混合模型 Toto-1.0-QA-Experimental,而該模型是由 Datadog 的內部時間序列預測模型 Toto,以及開源模型 Qwen3-VL 32B 組合而成。

Toto-1.0-QA-Experimental 於 ARFBench測試中,準確度達到 63.9%,更關鍵之處在於它的參數量,跟最先進的 GPT-5 有著非常大的差距,但卻能夠於「識別異常」這項任務上,其 F1 測驗分數較其他所有模型高出至少 8.8%。

根據該成績所引導出來的結論,研究人員表明,一個專門為分析異常、推理生產情境問題所打造,並且以可觀測性資料進行訓練的特殊領域模型,其實反而可以在特定任務上超越最先進的通用模型,這也正是該測試意圖證明的核心關鍵之一。

人類與 AI 協作其實更重要

研究人員在論文中直言,ARFBench 測試中最寶貴的發現,並非是哪個模型的分數最高,而是頂尖模型與人類專家之間,存在顯著不同的錯誤模式,這表明兩者的優勢將能夠互補。

研究人員進一步解釋,在分析生產環境的故障原因時,AI 模型會產生幻覺、忽略 Metadata,甚至是遺失上下文,而人類則較會誤讀故障記錄中的時間戳記,偶爾也會在處理複雜指令時出錯,兩者的錯誤模式幾乎沒有重疊之處。

所以在理論上,假如有人可以打造出一種完美的「AI 模型/人類專家仲裁機制」,並且在每一次遭遇問題時,自動選擇要交給 AI 或人類專家進行處理,那麼其事故原因分析的準確率,將可以大幅上升至 87.2%,遠遠高於單獨使用任何一方的表現。

總歸來說,ARFBench 是一套源自真實的生產環境故障事件,並且經過驗證的測試資料集,足以精確量化人機協作所提高的效率。

有興趣的讀者可以在 Hugging Face 上,親自檢視 ARFBench 資料集,還有官方所公佈的 AI 模型測試排行榜,以及 ARFBench 的更多技術細節。

【推薦閱讀】

◆ 「軟體工程師」職稱最快今年開始消失?Claude Code 負責人:寫 Code 的人會更多,但不一定叫工程師
◆ 當提示詞變成義大利麵程式碼:難察覺的「AI 技術債」來襲,企業如何跨越治理盲點?
◆ 20 人團隊靠 AI Agent 變 150 人戰力:「AI 原生」顧問公司如何瓦解 McKinsey、BCG 的金字塔模式?

*本文開放合作夥伴轉載,參考資料:DecryptarXiv,首圖來源:Nano Banana 2

(責任編輯:鄒家彥)