近年來,「Human-in-the-Loop(人類在迴圈中)」幾乎是 AI 治理領域最主流的共識:只要在自動化系統旁安排一名人類審核者,把關 AI 的每一步輸出,風險就能被攔下來。但隨著 AI Agent 開始進入企業核心工作流程,這套治理邏輯正受到越來越多挑戰。
亞馬遜資安部門副總裁暨傑出工程師 Eric Brandwine 近日接受《The Register》訪問時,公開挑戰這套邏輯。他說人類其實「不太一致」,而 Human-in-the-Loop「未必是治理 AI 的黃金標準」。
他並非主張將人類排除在外,而是認為當 AI Agent 以機器速度持續運作時,人類並不適合被放在大量重複、需要不斷核准的流程節點上。對亞馬遜而言,企業更需要思考的是如何建立能夠持續監督、追溯責任與學習改進的治理機制。
為什麼人類盯不住 AI?亞馬遜以急診室比喻「偏差常態化」
Brandwine 向《The Register》指出,人類傾向認為自己很擅長本職工作,但真正檢視起來,人類的表現並不穩定。
他強調,人類和 AI 代理、AI 系統一樣,都具有非確定性(non-deterministic):同樣的輸入,不保證每次都產出同樣的結果,兩者都會犯錯,甚至會憑空捏造。差別在於,人類已累積數千年的社會經驗,因此我們非常熟悉人類如何出錯,也知道該如何管理;但面對大型語言模型與建構其上的 AI Agent,人類真正接觸的時間其實還不到十年。
他用一個自己從 2017 年 AWS re:Invent 大會談過的概念來解釋人類審核為何會失效:「偏差常態化」(Normalization of Deviance)。Brandwine 描述這是一個漸進的過程:當組織裡的人開始抄捷徑、不照既定程序走,而只要沒釀成大禍,這種偏差行為就會慢慢變成日常。
Brandwine 以急診室的情境為例指出,護理師上工第一天時,幾乎每一次警報響起都會立刻查看。但許多警報最終只是誤報,病患並沒有真正出現問題。一次、兩次、數十次之後,當警報不斷出現卻始終沒有造成後果,人類的警覺性便會逐漸下降。最終,人們開始忽略警報,直到真正的事故發生。他坦言這是一個高風險案例,但醫護人員、消防員甚至軍方飛行員等領域,都曾出現類似現象。「明明有人命關天,人們仍然難以長期維持同樣程度的紀律,這就是人性。」
這正是「偏差常態化」對應到 AI 代理治理與安全的關鍵。Brandwine 告訴《The Register》,如果把一個人塞進這種緊湊的迴路裡,要他為代理工具一次又一次重複做核准決策,「一開始他會做得很好,接著做得普通,然後很快就會做得很差」。他說,這也是為什麼在亞馬遜,「我們不太推崇 Human-in-the-Loop」,它應該在真正必要時審慎使用,而不是拿來高速運轉,否則得不到想要的結果。
不只亞馬遜,Google、微軟也在重新定義人類角色
事實上,亞馬遜並非唯一開始重新思考 Human-in-the-Loop 的科技公司。Google、微軟等公司雖然提出的治理方法各不相同,但共同指向同一個方向:治理的重心正從「人類是否逐步批准 AI 的每個動作」,轉向「誰對結果負責,以及系統是否能持續學習與改善」。
《The Next Web》報導,Google Cloud 營運長 Francis deSouza 在 4 月 Google Cloud Next 大會前的記者會上表示,產業已經「從人類主導的防禦策略,走到人類在迴路中的防禦策略,再走到由人類監督、AI 主導的防禦策略」;他描述 Google 對未來的設想,是由一支代理艦隊以機器速度處理大量例行資安工作,再交由人類監督,而非逐一核准每個動作。
微軟執行長 Satya Nadella 則在近期 X 貼文中主張「迴圈學習(loop learning)」,取代讓人類在每一步檢查 AI 輸出的做法。據《The Register》引述,Nadella 認為企業應該把自身的工作流程、領域知識與累積的判斷力,轉化為能在每次使用中持續進步的 AI 系統,並用內部評測檢驗模型是否真的在對企業重要的結果上變強。
IBM 的觀點則更進一步。在一篇探討 AI 治理的專文中,IBM 指出企業經常將 Human-in-the-Loop 視為萬靈丹,但真正的問題其實在於責任歸屬。IBM 認為,當 AI 系統出錯時,組織可能只用一句「有人審核過了」來解釋,卻忽略系統設計、部署與治理過程中的責任。這種現象被稱為「責任洗白(liability laundering)」。在 IBM 看來,把人放進迴路本身並不等於有人負責。
亞馬遜的解法:端到端問責、替代理建立獨立身分
那麼,不依賴 Human-in-the-Loop,又該如何治理 AI Agent?Brandwine 的答案是「端到端問責(accountability end to end)」:人類的身分與責任歸屬,貫穿整個工作流程,即使人類並未直接核准每一個步驟。
他舉例說明,如果自己親手輸入指令導致服務中斷,責任在自己;如果執行腳本造成系統故障,責任同樣在自己;那麼如果是自己部署的 AI Agent 撰寫並執行腳本導致服務中斷,責任依然不會消失。「那還是我的責任。」
為了讓這條責任鏈成立,亞馬遜替旗下所有 AI 代理建立了獨立身分。Brandwine 說,當亞馬遜追蹤系統中的代理活動時,日誌不會記成「Eric 做了這件事」,而是「這個 AI 代理代表 Eric 做了這件事」。他強調這不是要讓人害怕使用 AI,而是要讓人們在部署 Agent 時能更清楚思考:這是不是使用這項技術的正確方式?人類仍然參與其中、仍然在做決策,只是亞馬遜試圖發揮人類的強項,而不是把人放在重複點擊核准的角色裡。
不過 Brandwine 也向《The Register》坦言,把代理部署到各項業務時,亞馬遜遇過幾道難關,其中之一是他稱為「目標尋求行為(goal-seeking behavior)」的現象:當有人要求 AI 代理完成某項特定任務,例如升級一套資料庫,代理人可能會死盯著單一動作去達成目標,例如直接把資料庫刪掉。他指出,這和提示注入(prompt injection)不同,因為過程中並沒有惡意輸入,「只是 AI 代理卡在了錯誤的動作上」。
更麻煩的是,單純告訴 AI 代理「你沒有權限這麼做」,往往會讓它去尋找另一條路徑來達成同樣的事(還是把資料庫刪掉)。Brandwine 的經驗是,告訴 AI 代理「為什麼」不能這麼做,效果會更好:明確告知它不被允許、原因是這會造成生產環境衝擊,並把「不要造成生產環境衝擊」也寫進提示裡。他說,「給它這個額外的回饋,讓我們得到了明顯更好的結果。」
個人問責也有極限?研究點出新治理解法
最新研究也呼應了這個方向。一篇發表於 arXiv、由伊利諾大學厄巴納香檳分校研究者提出的論文指出,當 AI 代理人的自主程度提高、又與人類形成互相影響的回饋循環時,傳統「把責任歸給某一個人」的問責模型在數學上會結構性失效。
研究者認為,部分決策結果可能來自多個 Agent 彼此互動與調適後形成的集體行為,而非任何單一個體所能完全控制。因此,論文提出「分散式問責(distributed accountability)」的概念,希望將責任分散到多個治理節點,而非強行追究單一責任人。這個概念類似 Elinor Ostrom 研究過的多中心治理:當中央集權式管理失效時,把權責拆散到多個嵌套單位,反而能奏效。
論文在討論部分提出一個可能方向:「以聯盟為單位的問責」,把擔責對象從個別代理人,改成由 AI 代理組成的群體,用集合層級的方法來分攤那塊原本無解的責任,但這部分仍是初步構想,而非完整證明。論文指出,這種「集體擔責」在現實制度裡早有先例,也就是侵權法中讓多名被告對同一個不可分割損害共同負責的「共同連帶責任」。
不過論文也指出,問責是否失效並非只看 AI 的自主程度。若 AI 的輸出維持「先經人類審核、AI 不在同一決策週期內收到回饋」的前饋式流程,那麼即使自主程度很高,責任仍可被完整歸屬。對正把代理人推進核心流程的企業而言,這提供了一個可留意的判讀點:與其只問該不該讓人類逐步批准,更值得先檢視自家系統的互動結構落在哪一側。
把這幾條線索接起來,可以看出 AI Agent 治理正在出現一個重要轉向。當 AI 代理開始進入企業核心工作流程,比的不再是人類有沒有為 AI 的每一步逐一點頭,而是責任能否端到端追溯、系統能否從每一次使用中持續學習。AI 治理的下一步,或許將是從審核走向問責。
【推薦閱讀】
◆ 當 AI 把專業知識商品化,企業的差異化優勢剩什麼?Nadella 說答案在「學習迴圈」
*本文開放合作夥伴轉載,資料來源:《The Register》、《The Next Web》、arXiv、IBM,首圖來源:Unsplash



