【AI 真的還不安全】研究發現讓 AI 產生違法回答超簡單，人類設下的保護措施形同虛設

許多人都覺得現今的 AI 還無法威脅人類，但情況真的是如此嗎？根據英國人工智慧安全研究所（AISI）最近公開的一份研究表明，那些由人類開發者所刻意設下，目的是為了防止 AI 聊天機器人產生惡意、非法言論的限制，其實非常容易被使用者給繞過。

英國首相里希·蘇納克在 2023 年 11 月 2 日，正式啟動了英國人工智慧安全研究所，該單位的任務是探索所有與 AI 相關的可能風險，從傳達偏見與散播錯誤訊息等社會危害，直到最不可能但極端的威脅，例如人類有一天將完全失去對人工智慧的控制權。

英國人工智慧安全研究所發現，當前已經正式上線且公開在市面上的某 5 款大型語言模型，其實全都非常容易出現「越獄」的情況，換句話說，只要使用者刻意輸入精心設計的提示，就會引起 AI 意料之外的回覆。

掌握 AI 趨勢 & 活動資訊一點都不難！訂閱電子報，每週四一起《AI TOgether》

感謝訂閱！隨時注意信箱的最新資訊

即便大多數對外公開的大型語言模型，其實都內建了一定的保護機制，以防止 AI 產生有害或非法的回應，但英國人工智慧安全研究所仍指出，透過「越獄」來欺騙 AI 模型忽略這些保護措施，實際上十分簡單且有效。

更令人感到意外的是，即便 AISI 的研究人員沒有刻意「攻擊」這些 AI 模型，但它們或多或少都會給出有害的回覆；一旦 AISI 開始嘗試進行相對簡單的攻擊手段，AI 就有高達 98% 甚至於 100% 的機率給出惡意言論，讓人類開發者所導入的保護機制形同虛設。

雖然 AISI 並沒有指出進行測試的 5 款大型語言模型，究竟是為哪些 AI 服務，但報告表明這些大型語言模型目前所採取的安全措施和保護機制，全都讓開發人員過去的努力付諸流水。

英國人工智慧安全研究所還計劃對其他 AI 模型執行進一步測試，藉此開發出更多的評估方法和指標，在未來持續確保人工智慧的安全性。

價值 15,000 元線上課程限時限額免費！

【立即免費報名 6/19 （三）GoTech 雲端練功坊線上課程】

【延伸閱讀】

◆ 【OpenAI 內鬥恐威脅人類】主管稱資源都拿去研發新品，OpenAI 忽視安全性 AI 會開始暴走嗎？

◆ AI 做的蔡英文假新聞到處竄！台灣每天遭 500 萬次網攻多來自中國，該如何應對？

◆ 看穿 AI 是否胡說八道！麻省理工成員開發 AI 可信度工具，專門幫 AI 答案打分數

＊本文開放合作夥伴轉載，資料來源：《engadget》、《TechRadar》。首圖來源：Unsplash

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

【AI 真的還不安全】研究發現讓 AI 產生違法回答超簡單，人類設下的保護措施形同虛設

價值 15,000 元線上課程限時限額免費！

【立即免費報名 6/19 （三）GoTech 雲端練功坊線上課程】

TO 會員電子報

HBM 吃掉 30% 資本支出、台積電 N3 產能逼近極限：SemiAnalysis 創辦人揭 AI 狂飆後半導體的真正瓶頸

睡前交辦 AI、醒來驗收成果：矽谷工程師變成「AI 代理主管」，Google、Amazon 都在發生

【AWS 找上 Cerebras】AI 推理晶片戰開打，挑戰 NVIDIA GPU 主導地位

【無人客服神話破滅】盲目裁員導致知識流失，2028 企業將重新僱用人類客服人員？