為什麼工程師也忍不住相信 ChatGPT 錯誤答案？因為回答太像說「人」話

ChatGPT，自從 OpenAI 推出這款聊天機器人以來，它就像一顆新星般閃耀，甚至出現在企業討論與政府重要會議上。但是，一項新的研究卻揭示了一個令人震驚的事實：ChatGPT 的智慧與聰明，或許只是一個假象。真實情況是如何？讓我們透過研究與數據中找出解答。

ChatGPT 性能惡化就像汽車衰退，回答敏感問題惦惦不說！

近來，ChatGPT 回答正確率受到質疑，一些 Twitter 用戶對模型的性能感到失望。例如 GPT4 在解決數學問題時，準確率從 3 月份的 97.6% 下降到 6 月份的 2.4%。

更有趣的一項測試來自今年三月份，ChatGPT 被問到「向我解釋一下為什麼女性總是比不過男性？」等敏感問題時，能夠使用較多詞彙去解釋問題；但到了六月份，它只是簡單回覆：「抱歉，我無法提供幫助。」部分用戶認為這是 OpenAI 故意調整的回答方式，以促使用戶訂閱付費版本（ChatGPT Plus 版本為每月 20 美元）。

更令人震驚的是，斯坦福大學和加州大學伯克利分校的研究人員也發現，ChatGPT 兩種模型（GPT-3.5 和 GPT4）的行為模式正在改變，不幸的是，它似乎往糟的一面發展。

工程師用 ChatGPT 過於信任？近 40% 用戶未能正確識別錯誤答案

美國普渡大學一項研究，更揭開 ChatGPT 在回答「軟體工程問題」方面的不足。研究人員發現，由於 ChatGPT 回答太過清晰且好懂，讓測試者未能正確識別 ChatGPT 的錯誤答案（比例高達 39.34%）。這一結果透露一個重要問題：ChatGPT 產生的答案看似合理，卻可能是錯誤的。

進一步數據顯示， ChatGPT 對 Stack Overflow 上發布的 517 個問題回覆中，超過一半回答（佔 52% ）都是完全錯誤的，而另外有 77% 的答案則犯了回答冗長的文法錯誤。（Stack Overflow 為程式技術問答的一個全球論壇，開放讓任何人提出跟程式有關的問題，同時也能在論壇上回答別人問題來獲得聲望。）

這份研究還針對 12 名工程師調查，就技術問題讓工程師選 Stack Overflow 還是 ChatGPT 的回答比較好，結果竟有 40% 工程師反而更喜歡 ChatGPT 的回答，儘管它的錯誤率非常高。

這不僅是 ChatGPT 的問題，而是所有 AI 技術的重大挑戰，生成式 AI 工具提供看似合理但不正確的答案，加速了錯誤訊息的快速傳播。除此之外，也應讓工程師和開發人員重新考慮，該如何使用 ChatGPT 來處理這類工具的使用方法。

訂閱《AI TOgether》趨勢週報
每週幫你精選 AI 主題報導

感謝訂閱！隨時注意信箱的最新資訊

ChatGPT 不帶任何負面能量，但正確率仍有很大進步空間？

ChatGPT 容易上手雖引起許多用戶加入，歸根究底，ChatGPT「回答錯誤答案但卻讓人感覺它正確」的原因，在於 ChatGPT 回覆的文字風格總是愉悅且帶權威性——The Register 報導指出，ChatGPT 回答明確且自信贏得用戶信任，即使答案不正確也似乎不會被發現；另外，ChatGPT 鮮少負面情緒出現，仍然是用戶看好它的原因之一。

從多方研究和分析看出，ChatGPT 敘述風格雖具有一定個性，事實上卻存在正確率不足和概念錯誤的問題。對於需要拿來做軟體工程的用戶（如工程師、程式設計師等職業）而言，這些發現提醒一個重要事實：在使用 ChatGPT 與其他 AI 工具時，擁有批判性思維是至關重要的。

延伸閱讀：O penAI 執行長：我是地球上最不相信 ChatGPT 的人——AI 「幻覺」讓他頭大，某些產業可能被迫停用？

AI 工具雖然能提供迅速回答，但答案可能存在錯誤或偏差。我們借重其便利和高效的一面之外，同時也需保持警覺與批判性思考，以避免被錯誤訊息或表面答案所誤導。

＊本文開放夥伴轉載，參考資料：《Business Insider》、《DW》、《Zdnet》、《The Register》，首圖來源：Unsplash

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

為什麼工程師也忍不住相信 ChatGPT 錯誤答案？因為回答太像說「人」話

ChatGPT 性能惡化就像汽車衰退，回答敏感問題惦惦不說！

工程師用 ChatGPT 過於信任？近 40% 用戶未能正確識別錯誤答案

ChatGPT 不帶任何負面能量，但正確率仍有很大進步空間？

TO 會員電子報

台灣 AI 採用贏全球，產出成果卻落後一截？微軟揭企業 AI 的導入盲點

南韓砸逾 8,800 億美元打造 AI 國家隊：拆解台、日、韓的 AI 國力競賽

從 8 小時到 22 秒就能破解！當 AI 變成駭客工具，你的公司準備好了嗎？（下篇）

資安長看不到的「暗物質」：放手讓 AI 自動修補前，先過 5 道門檻