Search
Close this search box.

【難道 AI 真的會思考?】科學家解密人工智慧「黑盒子」,看穿 AI 大腦究竟如何運作

儘管 AI 是由人類所創造出來的產物,但如同大型語言模型(LLM)這類的人工智慧應用,其運作方式和原理仍然相當神秘,因此科學家們一向將 AI 的「思考」過程視為「黑盒子」,意思是從外部進行觀察時,人類仍然無法徹底解釋人工智慧究竟是如何運作。

不可否認,大型語言模型的確非常實用,但 AI 在背後的運作卻如同黑盒子一樣缺乏透明性,而這不僅僅技術上的問題,還涉及了 AI 的安全和道德難題。舉例來說,人類如何在不知道原理的情況下,就選擇信任 AI 給出的醫療診斷或財務風險評估?當我們將關鍵決策交給 AI 但卻無法解釋「為什麼」時,就會為人類帶來重大安全風險。

人工智慧公司 Anthropic 最近發表的研究,就是想嘗試去理解人工智慧演算法的背後,究竟有哪些因素影響了 AI 的最終決策,而其針對的目標自然是旗下的大型語言模型 Claude。

掌握 AI 趨勢 & 活動資訊一點都不難!訂閱電子報,每週四一起《AI TOgether》

感謝訂閱!隨時注意信箱的最新資訊

現今人工智慧在主要的邏輯架構上,大致類似於人類大腦的分層神經網路,這使得 AI 能夠接收和處理訊息,然後根據訊息做出「決策」或「預測」。此類系統經過大量資料集的「訓練」,使 AI 有能力將訊息整合起來,並透過演算法將各種相關資訊進行連接,然而當 AI 根據訓練資料輸出結果時,人類卻不一定知道演算法究竟是如何得出結論。

上述的謎團進一步催生出了人工智慧的「解釋」領域,研究人員試圖追蹤機器進行決策選擇的路徑,以便理解其輸出結果的來由,當 AI 的神經網路內出現被活化的「神經元」,這就會形成一種「特徵」,當研究人員對這些「特徵」蒐集的足夠多,人類就越能理解某些「輸入」是如何觸發 AI 的思考,進而影響到輸出結果。

蒐集「特徵」找出 AI 思考模式

Anthropic 的研究團隊嘗試透過「字典學習」破解 Claude 的神經網路,最終成功將 AI 所產生的部分「特徵」跟輸出結果進行關聯。換句話說,透過這種方法研究者將能夠藉由查找某些指定的特徵,並對應到特定的「輸入」跟「結果」,進一步理解 AI 模型如何進行推理及運算。

舉例來說,當 Anthropic 的研究人員對 Claude 提到美國的「金門大橋」時,AI 將活化某一組神經元,接著「思考」連接舊金山和馬林郡的一個巨大建築物,然後擁有類似訊息的神經元也會同步觸發,讓 AI 可以關聯金門大橋附近的其他主題,例如阿爾卡特拉斯島、加州州長及以舊金山為背景的電影《迷魂記》等等,上述過程即形成了一種特徵。

破解「黑盒子」只是個開始

Anthropic 的研究團隊藉由這種方式,成功識別出 Claude 神經網路內的數百萬個特徵,而其所呈現出來的結果,就像一座解碼 Claude 幕後運作原理的羅塞塔石碑。若站在更加實用的層面上思考,這樣的成果可以幫助 AI 開發者,早一步發現潛藏於大型語言模型內部的危險,甚至於阻止 AI 發出對人類有威脅的訊息。

然而 Anthropic 的研究僅僅只是個開始,當媒體詢問團隊是否已經解決了 AI 的黑盒子問題時,研究人員都給出了一致且強烈的「不!」。團隊表示在 Claude中的發現有諸多限制,例如其成果不一定有助於解碼其他大型語言模型,甚至可能帶來更多未知的謎團,但終究還是讓 AI 如何運作的這個「黑盒子」,多少有了一點點光亮。

【延伸閱讀】

◆ 【見證 AI 歷史性一刻】歐盟通過全球首部人工智慧監管法案,阻擋高風險 AI 保護人類安全

◆ 「AI 不該掌握在少數人手中」科技巨頭過度集權人工智慧引發批評,未來可能會強得無法對抗

◆ 【OpenAI 內鬥恐威脅人類】主管稱資源都拿去研發新品,OpenAI 忽視安全性 AI 會開始暴走嗎?

*本文開放合作夥伴轉載,資料來源:《Gizmodo》《Wired》。首圖來源:Piqsels