許多人都覺得現今的 AI 還無法威脅人類,但情況真的是如此嗎?根據英國人工智慧安全研究所(AISI)最近公開的一份研究表明,那些由人類開發者所刻意設下,目的是為了防止 AI 聊天機器人產生惡意、非法言論的限制,其實非常容易被使用者給繞過。
英國首相里希·蘇納克在 2023 年 11 月 2 日,正式啟動了英國人工智慧安全研究所,該單位的任務是探索所有與 AI 相關的可能風險,從傳達偏見與散播錯誤訊息等社會危害,直到最不可能但極端的威脅,例如人類有一天將完全失去對人工智慧的控制權。
英國人工智慧安全研究所發現,當前已經正式上線且公開在市面上的某 5 款大型語言模型,其實全都非常容易出現「越獄」的情況,換句話說,只要使用者刻意輸入精心設計的提示,就會引起 AI 意料之外的回覆。
掌握 AI 趨勢 & 活動資訊一點都不難!訂閱電子報,每週四一起《AI TOgether》

感謝訂閱!隨時注意信箱的最新資訊
即便大多數對外公開的大型語言模型,其實都內建了一定的保護機制,以防止 AI 產生有害或非法的回應,但英國人工智慧安全研究所仍指出,透過「越獄」來欺騙 AI 模型忽略這些保護措施,實際上十分簡單且有效。
更令人感到意外的是,即便 AISI 的研究人員沒有刻意「攻擊」這些 AI 模型,但它們或多或少都會給出有害的回覆;一旦 AISI 開始嘗試進行相對簡單的攻擊手段,AI 就有高達 98% 甚至於 100% 的機率給出惡意言論,讓人類開發者所導入的保護機制形同虛設。
雖然 AISI 並沒有指出進行測試的 5 款大型語言模型,究竟是為哪些 AI 服務,但報告表明這些大型語言模型目前所採取的安全措施和保護機制,全都讓開發人員過去的努力付諸流水。
英國人工智慧安全研究所還計劃對其他 AI 模型執行進一步測試,藉此開發出更多的評估方法和指標,在未來持續確保人工智慧的安全性。

價值 15,000 元線上課程限時限額免費!
【立即免費報名 6/19 (三)GoTech 雲端練功坊線上課程】

【延伸閱讀】
◆ 【OpenAI 內鬥恐威脅人類】主管稱資源都拿去研發新品,OpenAI 忽視安全性 AI 會開始暴走嗎?
*本文開放合作夥伴轉載,資料來源:《engadget》、《TechRadar》。首圖來源:Unsplash



