人工智慧新創公司 Anthropic 執行長 Dario Amodei,今年 4 月在個人網站上發表了一篇文章,其名為《關於可解釋性 AI 的急迫性》,呼籲人們應該要開始了解人工智慧模型的思維方式。
在文中 Dario Amodei 強調,目前人類對於 AI 的內部運作機制了解甚少,然而,這些系統對經濟、科技和國家安全,卻已經變得至關重要,若再加上 AI 逐漸擁有的自主性,若人類完全不能理解它們的工作原理,這將會令人難以接受。
另一方面,Anthropic 的研究部門也正積極深入了解,究竟 AI 模型是如何思考、看待這個世界,以及為什麼會產生「有用」或「有害」的答案。
除了效能,AI 更要兼顧「安全」與「人性」
若跟其他 AI 新創公司相較,於 2021 年成立的 Anthropic,確實擁有十分不同的特質,其中之一就是「以人為本」。Anthropic 始終堅持以「合憲 AI」(Constitutional AI)的方式訓練模型,確保旗下產品「有益、誠實、無害」,同時還符合社會大眾普遍認為的最佳利益。
在先進 AI 市場上,由 Anthropic 最新公開的 Claude 4.0 Opus 與 Sonnet,其效能再次於程式開發領域名列前茅,並且跟 Google Gemini 2.5 Pro、Open AI o3 互相抗衡。
但若以更加宏觀的角度來看,Anthropic 始終在思考 AI 廣泛介入人類社會後可能產生的影響,尤其是醫學、心理學和法律等關鍵領域;畢竟對於這些產業來說,模型的「安全性」與「人性」總是比起效能更加重要。
因此 Dario Amodei 認為,唯有先專注於開發具備「可解釋性」的 AI,並讓外界在某種程度上,確切了解模型究竟在想什麼,以及如何得出特定的結論,並理解它們做出決策的原因,才有可能降低 AI 的應用風險,帶領人工智慧邁向下個階段。
人工智慧不透明,小錯誤也能變大傷害
Dario Amodei 表示,雖然絕大多數時候 AI 模型都可以正確回答問題,但人類至今仍然不知道,為什麼 AI 會選擇使用某些詞而非其他用詞,或者為什麼 AI 會犯錯,並且因資訊不正確而產生「幻覺」,甚至給予不符合人類價值觀的回應,這些問題都會嚴重阻礙 AI 模型發揮全部潛力。
對於 Dario Amodei 與 Anthropic 來說,解決上述問題的最佳方法,就是探討 AI 的思考方式,即人類若能反過來理解模型的思維邏輯,或許就能有系統地阻止越獄及有害行為,甚至是定位 AI 模型究竟擁有哪些危險知識。
此外 Dario Amodei 也認為,由於目前的 AI 模型具有高度不透明性,因此對金融業、資安敏感環境等領域的部署構成了障礙;當人類無法完全對 AI 行為做出預測和限制,即便是小小的錯誤,皆有可能造成大大的傷害。
合規成為可解釋性 AI 瞄準的最大痛點
為了防止 AI 做出的決策「無憑無據」,導致廠商撇清責任,近來美國通過了多條規定,要求在醫療或金融領域的部分服務上,廠商或業者必須就 AI 的決策給出解釋,此時人工智慧的「可解釋性」就會變得十分重要。
試想一下,假如有一天金融機構使用大型語言模型(LLM)進行詐騙偵測,同時法律規定也 AI 必須給出理由,說明為什麼要拒絕客戶的貸款申請,這時一款擁有可解釋性的 AI 就能成功解決企業痛點。
至於在製造業領域,一款能夠主動解釋決策的人工智慧模型,亦能向業主表明為什麼選擇某個廠商進行合作,而非另一個廠商,藉此優化供應鏈與生產效率,預防當前仍不可見的關鍵瓶頸。
正因如此,Dario Amodei 已經要求 Anthropic 在 AI 的可解釋性方面加倍努力,目標於 2027 年之前,透過「解釋」改善當前 AI 模型的多數問題。
Anthropic 甚至還主動投資一家 AI 研究實驗室 Goodfire,其金額高達 5,000 萬美元,並嘗試藉由該單位所開發的「AI 腦部掃描」技術,分析人工智慧在識別圖像時所採取的概念。
徹底透明就能零風險?學者不以為然
不過對於某些 AI 研究者來說,Dario Amodei 不斷強調的「可解釋性」,或許只是管理人工智慧風險的眾多手段之一。
美國普林斯頓大學 AI 安全研究員 Sayash Kapoor 就認為,雖然讓 AI 模型具備可解釋性,這件事情本身仍然具有一定價值,但以確保模型安全運作的觀點來說,可解釋性既不是「必要條件」,也並非「充要條件」,更不是讓 AI 風險徹底歸零的靈丹妙藥。
Sayash Kapoor 說,單純以安全的角度來說,讓 AI 模型運作完全「透明化」,事實上並沒有太大必要,而是該採取多種安全手段的結合,例如搭配輸出過濾器。
Sayash Kapoor 直言,外界應該要適當反思部分 AI 研究者口中所稱的「不可知謬誤」(fallacy of inscrutability),即人類若無法完全瞭解一個系統的內部,就無法負責任地進行使用或管理,然而完全透明卻並非是大多數先進技術,用以評估「安全與否」的絕對方式。
過去 Sayash Kapoor 曾在自身著作中表明,未來 AI 會變成像是網路、電力等,跟日常生活徹底融合的技術,甚至高速發展出足夠智能,為當今人類面臨的許多複雜問題找到解決方案。
因此 Sayash Kapoor 強調,一套 AI 系統在現實環境下的表現是否可靠,仍然才是最為關鍵的重點,絕對不是一昧地追求「透明」。
黃仁勳批評:想透明就不該私下研究技術
除了 Sayash Kapoor 之外,NVIDIA 執行長黃仁勳日前也指出,他並不完全贊同 Dario Amodei 的論點,尤其是 AI 開發權是否只應限於 Anthropic 等少數幾家實力雄厚的公司方面。
黃仁勳說,如果一家企業想要安全且負責任的為 AI 領域做出貢獻,那它就應該公開、透明的進行所有工作,而非閉起門來私下研究技術,然後對外界宣稱自己研究足夠安全。
對此 Anthropic 則回應,執行長 Dario Amodei 從未宣稱「只有 Anthropic」才能建立安全且功能強大的 AI 模型,他反而一直主張為 AI 開發者--包含 Anthropic 在內,共同替 AI 的透明度建立標準,讓大眾和政策制定者瞭解 AI 模型的風險與能力,同時做好相應的法規準備。
值得一提的是,Anthropic 亦並非 AI 業界之中,唯一一個追求可解釋性的團隊,由 Neel Nanda 所領導的 Google DeepMind,其實也正在朝相同方向努力。
及早布局可解釋性 AI,企業將擁競爭優勢
Dario Amodei 說,人類想要徹底剖析 AI 的思考方式,找出它們為什麼會撒謊、追求權力,或發現其他大大小小的弱點,可能還需要 5 到 10 年的時間才能實現。
同時 Dario Amodei 也呼籲各國政府,應該考慮實施「最低程度」的監管,並鼓勵 AI 的可解釋性研究,同時要求人工智慧公司主動揭露旗下模型的安全保障措施。
在競爭激烈的 AI 市場中,擁有可解釋性的 AI 將成為業者打造差異化產品的關鍵因素;那些及早將可解釋性列為優先考量的企業,將有機會藉由建立更加令人信賴、更合規,甚至於適應性更強的 AI 系統,獲得相對顯著的競爭優勢。
【推薦閱讀】
◆ AI 黑盒子是什麼?無法理解的「黑箱作業」打破 AI 黑盒有多重要
◆ 「書呆子經理」到來!Anthropic 創辦人指科技業將迎來「AI 管理狂人」時代
◆ Anthropic 公開「多代理 AI」設計與提示工程 8 大原則,效能飆升 90%
*本文開放合作夥伴轉載,參考資料:《VentureBeat》、《TechCrunch》,首圖來源:Bing AI
(責任編輯:鄒家彥)



