無論你使用 ChatGPT 或 Claude,現在請你嘗試問 AI 一個問題,那就是「Strawberry 這個單字中包含幾個 r」,你將很驚訝地發現,AI 會告訴你錯誤答案:2 個。
目錄
多數 AI 的難關:Strawberry 草莓問題
上述這件有趣的事情,正是 OpenAI 在宣布全新推理模型 OpenAI o1 推出時,給予外界簡單卻又令人感到驚訝的示範。擁有推理能力、懂得思考的 o1 模型,原則上會給予正確的答案,數出 Strawberry 中帶有 3 個 r 字母,但是傳統的大型語言模型(LMM)卻不行。
為什麼 ChatGPT 或 Claude,皆無法正確數出 Strawberry 其實有 3 個 r 呢?其實理由很簡單,因為大型語言模型的是透過「標記」後的資料去進行訓練,AI 會把 Strawberry 整個單詞視為一個標記,既不會去拆解這個標記(單詞),更會對每個字母之間的差異視而不見。

多數的大型語言模型,原則上都無法正確回答 Strawberry 問題,不過 OpenAI 的 o1 推理模型卻可以,造成兩者之間差異的關鍵,在於 OpenAI o1 擁有「思維鏈」,可以去拆解使用者提出的問題,並且經過思考後再給予答案。
擁有自我反省能力的 OpenAI o1
OpenAI o1 導入了被稱為強化學習(Reinforcement learning,RL)的訓練方法,要求 AI 模型在回答問題之前,花上更多時間思考問題,並創造出一步一步深入解構問題的思維鏈;新的訓練流程讓 o1 得以嘗試不同的解題策略,並且「認識」自己對於問題理解上的錯誤。
換句話說,身為推理模型的 OpenAI o1,事實上有著自我反省的能力,藉由先了解自己的錯誤,並在沒有人類的提示下,對問題進行更準確的理解,進而給出更加合理的回答;當然,這背後的運作原理極度複雜,有時甚至不為科學家明確所知。
唯一可以確定的部分,在於 OpenAI o1 將能有效處理更加複雜的任務,尤其是在競爭性程式設計、數學和科學推理方面。
推理模型適合特定任務運算
OpenAI 官方報告指出,o1-preview 版本在 Codeforces 的競爭性程式設計問題中,排行名列第 89 位;而在數學方面,o1-preview 於國際數學奧林匹克資格考試中得分為 83%,在此之前 GPT-4o 的得分僅 13%。
OpenAI 也指出,o1 推理模型在物理、化學和生物學的特定任務上,其表現幾乎與人類博士生的水準相當;至於小型的 o1-mini 則是專為程式碼編寫任務所設計,成本方面比起 o1-preview 要低 80%。
值得注意的是即便 OpenAI o1 懂得思考與反省,但在大多數任務上和指標上,它仍未超越 GPT-4o,尤其是在回答延遲方面,畢竟其在幕後多出了大量的運算步驟。
並非全面進化,擔心外界錯誤期待
OpenAI 產品經理 Joanne Jang 在 X 平台上指出,他擔心外界對於 o1 有著「錯誤的期待」,認為它是一個奇蹟般的超強 AI 模型,然而事實上 o1 目前依然不夠好,或許在一些困難的任務中確實可以大放異彩,但仍需要時間繼續進步。
華頓商學院教授 Ethan Mollick 也指出,他試用了 OpenAI o1 一個月之後認為,全新的推理模型確實為傳統大型語言模型,解決了一些非常困難的問題,但並非是全方位的進步。
Ethan Mollick 教授嘗試讓 o1 解答填字遊戲,AI 首先「思考」了字謎盤面整整 108 秒,並透過自我的反覆迭代,不斷創造、拒絕自己提出來的想法,嘗試找到符合的單詞並填滿整個盤面。
在途中 Ethan Mollick 教授發現,目前 o1 的工作方式似乎與 GPT-4o 非常類似,AI 最終甚至還給出了不存在於謎題中的解答,因此 o1 顯然還有許多進步空間。
說 AI 會思考比較像是「行銷手段」
就在 OpenAI o1 正式公開後,AI 領域除了有驚訝的聲音,當然也不乏部分批評。
Hugging Face 執行長 Clement Delangue 首先指出,AI 系統的運作不該使用「思考」這個說法,它們只是在「處理」和「執行預測」,就像 Google 搜尋給出的建議那樣;透過思考來描述 OpenAI o1 更像是種行銷手段,希望欺騙使用者並讓大眾認為 AI 變得比以前更聰明。
此外,OpenAI 使用的「推理」(Reasoning)也是一個相對模糊的術語,即使用在人類身上,其實也很難準確定義該術語的實質含義。
獨立人工智慧研究員 Simon Willison 認為,目前他難以使用大型語言模型所具備的能力,來界定「推理」這個詞對於 AI 的確切意義;他希望未來可以找到一個範例,例如在過去的模型上做不到,但是 o1 上卻做得到的事情,來協助證明「推理」所代表的真正內涵。
【推薦閱讀】
◆ AI 黑盒子是什麼?無法理解的「黑箱作業」打破 AI 黑盒有多重要
*本文開放合作夥伴轉載,資料來源:《arstechnica》、《OpenAI》。首圖來源:Bing



