快問 AI「Strawberry」包含幾個 r，為什麼你會發現 AI 答錯了？

無論你使用 ChatGPT 或 Claude，現在請你嘗試問 AI 一個問題，那就是「Strawberry 這個單字中包含幾個 r」，你將很驚訝地發現，AI 會告訴你錯誤答案：2 個。

多數 AI 的難關：Strawberry 草莓問題

上述這件有趣的事情，正是 OpenAI 在宣布全新推理模型 OpenAI o1 推出時，給予外界簡單卻又令人感到驚訝的示範。擁有推理能力、懂得思考的 o1 模型，原則上會給予正確的答案，數出 Strawberry 中帶有 3 個 r 字母，但是傳統的大型語言模型（LMM）卻不行。

為什麼 ChatGPT 或 Claude，皆無法正確數出 Strawberry 其實有 3 個 r 呢？其實理由很簡單，因為大型語言模型的是透過「標記」後的資料去進行訓練，AI 會把 Strawberry 整個單詞視為一個標記，既不會去拆解這個標記（單詞），更會對每個字母之間的差異視而不見。

無論 ChatGPT 或 Claude，對於「Strawberry 這個單字中包含幾個 r」的問題，居然都給出了錯誤的答案。

多數的大型語言模型，原則上都無法正確回答 Strawberry 問題，不過 OpenAI 的 o1 推理模型卻可以，造成兩者之間差異的關鍵，在於 OpenAI o1 擁有「思維鏈」，可以去拆解使用者提出的問題，並且經過思考後再給予答案。

擁有自我反省能力的 OpenAI o1

OpenAI o1 導入了被稱為強化學習（Reinforcement learning，RL）的訓練方法，要求 AI 模型在回答問題之前，花上更多時間思考問題，並創造出一步一步深入解構問題的思維鏈；新的訓練流程讓 o1 得以嘗試不同的解題策略，並且「認識」自己對於問題理解上的錯誤。

換句話說，身為推理模型的 OpenAI o1，事實上有著自我反省的能力，藉由先了解自己的錯誤，並在沒有人類的提示下，對問題進行更準確的理解，進而給出更加合理的回答；當然，這背後的運作原理極度複雜，有時甚至不為科學家明確所知。

唯一可以確定的部分，在於 OpenAI o1 將能有效處理更加複雜的任務，尤其是在競爭性程式設計、數學和科學推理方面。

推理模型適合特定任務運算

OpenAI 官方報告指出，o1-preview 版本在 Codeforces 的競爭性程式設計問題中，排行名列第 89 位；而在數學方面，o1-preview 於國際數學奧林匹克資格考試中得分為 83%，在此之前 GPT-4o 的得分僅 13%。

OpenAI 也指出，o1 推理模型在物理、化學和生物學的特定任務上，其表現幾乎與人類博士生的水準相當；至於小型的 o1-mini 則是專為程式碼編寫任務所設計，成本方面比起 o1-preview 要低 80%。

值得注意的是即便 OpenAI o1 懂得思考與反省，但在大多數任務上和指標上，它仍未超越 GPT-4o，尤其是在回答延遲方面，畢竟其在幕後多出了大量的運算步驟。

並非全面進化，擔心外界錯誤期待

OpenAI 產品經理 Joanne Jang 在 X 平台上指出，他擔心外界對於 o1 有著「錯誤的期待」，認為它是一個奇蹟般的超強 AI 模型，然而事實上 o1 目前依然不夠好，或許在一些困難的任務中確實可以大放異彩，但仍需要時間繼續進步。

華頓商學院教授 Ethan Mollick 也指出，他試用了 OpenAI o1 一個月之後認為，全新的推理模型確實為傳統大型語言模型，解決了一些非常困難的問題，但並非是全方位的進步。

Ethan Mollick 教授嘗試讓 o1 解答填字遊戲，AI 首先「思考」了字謎盤面整整 108 秒，並透過自我的反覆迭代，不斷創造、拒絕自己提出來的想法，嘗試找到符合的單詞並填滿整個盤面。

在途中 Ethan Mollick 教授發現，目前 o1 的工作方式似乎與 GPT-4o 非常類似，AI 最終甚至還給出了不存在於謎題中的解答，因此 o1 顯然還有許多進步空間。

說 AI 會思考比較像是「行銷手段」

就在 OpenAI o1 正式公開後，AI 領域除了有驚訝的聲音，當然也不乏部分批評。

Hugging Face 執行長 Clement Delangue 首先指出，AI 系統的運作不該使用「思考」這個說法，它們只是在「處理」和「執行預測」，就像 Google 搜尋給出的建議那樣；透過思考來描述 OpenAI o1 更像是種行銷手段，希望欺騙使用者並讓大眾認為 AI 變得比以前更聰明。

此外，OpenAI 使用的「推理」（Reasoning）也是一個相對模糊的術語，即使用在人類身上，其實也很難準確定義該術語的實質含義。

獨立人工智慧研究員 Simon Willison 認為，目前他難以使用大型語言模型所具備的能力，來界定「推理」這個詞對於 AI 的確切意義；他希望未來可以找到一個範例，例如在過去的模型上做不到，但是 o1 上卻做得到的事情，來協助證明「推理」所代表的真正內涵。

【推薦閱讀】

◆ AI 黑盒子是什麼？無法理解的「黑箱作業」打破 AI 黑盒有多重要

◆ AI「答案引擎」answer engine 是什麼？和搜尋引擎有何不同？5 個答案引擎介紹

◆ 新創 AI 專案失敗率超過 8 成！想要成功關鍵居然是你的老闆

＊本文開放合作夥伴轉載，資料來源：《arstechnica》、《OpenAI》。首圖來源：Bing

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

快問你的 AI「Strawberry」包含幾個 r，為什麼你會發現 AI 答錯了？

目錄

多數 AI 的難關：Strawberry 草莓問題

擁有自我反省能力的 OpenAI o1

推理模型適合特定任務運算

並非全面進化，擔心外界錯誤期待

說 AI 會思考比較像是「行銷手段」

TO 會員電子報

Human-in-the-Loop 不再是黃金標準？亞馬遜揭 AI Agent 治理最大盲點

「3 成企業成功獲得 AI 投資回報，7 成企業尚未跨過應用門檻。」博弘雲端 Nextlink AI Solutions Day 與各領域專家共探零售業如何落實 AI Agent 商業價值

去完一趟 COMPUTEX，AI 就能落地嗎？導入的隱形成本藏在這裡

Anthropic 與白宮從對抗轉向合作：一場管制風波，正逼出 AI 安全新規則