Search
Close this search box.

【AI 說謊你也不知道】研究指 GPT-4 能夠偽裝成人類,AI 反應太像人 54% 民眾無法區分

隨著 AI 科技的進步,例如 ChatGPT 這類流行的人工智慧工具,已經可以產生流暢且近似於人類對話方式的文本跟語音,並在各種語言方面皆表現出色,這也讓人類越來越難以判斷,究竟正在進行交談的對象到底是 AI 還是真人。

以科學家艾倫圖靈為名的思想實驗「圖靈測試」,長期以來都被視為區分機器與真人的方法;圖靈測試要求受試者在不知情的狀況下,僅透過對問題所提出的文字回答,判斷給出回應的人是機器或是真人;假如受試者無法區分或判斷錯誤,那就代表機器已經有了模仿人類的能力。

掌握 AI 趨勢 & 活動資訊一點都不難!訂閱電子報,每週四一起《AI TOgether》

感謝訂閱!隨時注意信箱的最新資訊

加州大學聖地牙哥分校最近就舉辦了一次新的圖靈測試,在受控環境中讓 ELIZA(發明於 1960 年代的聊天機器人,僅內建簡單的回應規則作為實驗對照組)、OpenAI 的 GPT-3.5 及 GPT-4 共三組模型,跟 500 位人類受試者進行 5 分鐘的連續對話,最後由受試者們決定,究竟他們的交談對象是真人還是 AI。

研究團隊特別要求 GPT-4 和 GPT-3.5,必須扮演一名年輕人的角色,說話非常簡潔但態度上不太認真對待實驗,且偶爾會出現拼字錯誤並使用俚語;此外,研究團隊也向 AI 輸入了關於測試的規則和資訊,並補充近期發生的新聞事件,避免 AI 的訓練資料沒有足夠涵蓋。

超過半數受試者認為 AI 是人類

研究團隊經由 OpneAI 的 API 存取 GPT-4 和 GPT-3.5,同時為了防止 AI 回應太快,進而被人類看出破綻,研究團隊還特地延遲了對話的送出速度。

參與研究的 500 名人類受試者被區分成 5 組,他們可能與真人或三個 AI 系統的其中之一進行對話,交談方式則類似於常見的即時通訊程式;當 5 分鐘聊天時間過去,參與者必須判斷他們的對話夥伴是人類或者 AI,並且提供做出判斷的理由。

實驗結果十分有趣,OpenAI 的 GPT-4 被識別為人類的機率為 54%,領先 GPT-3.5 的 50%,兩者不僅都獲得超過半數的受試者信任,且皆顯著優於 ELIZA 的 22%;此外,人類正確判斷出交談對象為真人的比例為 67%。

分析指出受試者通常依賴語言風格、社會情感因素和基於知識的問題,來決定自己是在跟真人或與機器進行交談;但若單純從比例來看,目前的人工智慧系統已經足以偽裝成人類並欺騙他人。

【推薦閱讀】

◆ OpenAI 技術長一句話惹怒全球勞工,稱會被 AI 取代的工作本來就不應該存在

◆ 「若缺少人類 AI 也沒用處」馬斯克鼓勵生小孩解決少子化,稱增加人口文明才能延續

◆ 【外媒盲測 5 款 AI 工具】黃仁勳愛用的 Perplexity 得第一!但其他選手各有強項

*本文開放合作夥伴轉載,資料來源:《TechRadar》《Arxiv》。首圖來源:Unsplash