Search
Close this search box.

【讓 AI 學會「想慢一點」】AI 思考模式大突破,AlphaOne 如何重塑推理能力?

讓 AI 懂得「快思慢想」,通用推理框架 AlphaOne 不只更精確效率還更高

隨著大型推理模型(LRM)成為 AI 世界的主流產品之一,業界也逐漸發現,如果有辦法讓 AI 思考得「慢一點」,事實上有助於最終答案的精確度提升。

美國伊利諾大學厄巴納-香檳分校和加州大學柏克萊分校的研究人員,近日就透過論文提出一種全新框架,讓開發人員可以更有效地控制大型語言模型(LLM)及 LRM 的「思考方式」,近一步改善 AI 的推理能力,同時又不會因為刻意讓 AI 慢速思考,導致運算資源增加並拉長任務時間。

當 AI 開始擁有人類的「系統 2 思維」

這個新框架被稱為 AlphaOne(α1),它本質上是一種「測試階段擴展」(test-time scaling)技術,可以在 AI 推理過程中調整模型行為,而且無需對現有模型發起成本高昂的重新訓練。

AlphaOne 框架提供了一種通用方法,調節先進 LLM 與 LRM 的推理過程,為開發人員提供更多彈性,以比現有解決方案更可控、更符合成本效益的方式,改善 AI 於複雜任務上的運算效能。

近年來,許多 LRM 開發商如 OpenAI o3、DeepSeek-R1 等,已經將由「系統 2 思維」(System 2 thinking)所啟發出來的全新機制,融入到最先進的 AI 模型之中。

所謂的「系統 1」與「系統 2」思維,原先指的是美國心理學家丹尼爾·康納曼(Daniel Kahneman),在自身著作《快思慢想》(Thinking, Fast and Slow)一書中所提出,關於人類的思維歸納的兩大思考模式。

當上述概念延伸至人工智慧領域,「系統 1」即是指快速、直覺和自動化的 AI 運算,至於「系統 2」則是緩慢、深思熟慮且具備邏輯,足以讓 AI 模型解決數學、程式碼撰寫和資料分析等,複雜領域問題的運作方法。

學會慢速思考還不夠,如何切換更關鍵

目前較為先進的 LRM 模型,在經過訓練後會自動產生轉換標記,主動拋出如「等待」、「此外」之類的斷點,刻意啟動慢速思考。當這些轉換標記遭到觸發,AI 模型就會暫停並自我反省之前的步驟,接著修正其推理方向,就像人類在遇到難題時,通常會選擇暫停且重新思考一樣。

然而,當今的 LRM 事實上無法有效運用其慢速思考的能力。根據許多研究顯示,目前的 LRM 依然很容易「過度思考」簡單的問題,因此浪費運算資源,或是「欠缺思考」複雜的問題,最終導致錯誤的答案。

AlphaOne 研究團隊在論文中指出,這種問題主要源於 LRM 無法在「系統 1」與「系統 2」之間,找到一個最佳方式進行轉換,而且 AI 可以調用的運算效能始終有限,進而使推理結果不盡理想。

舊技術太過僵化,運算成本也無法壓低

在 AlphaOne 框架推出之前,當前的 AI 業界大多採取兩種方案,解決 LRM 可能會「過度思考」或「欠缺思考」的窘況,其中之一為平行擴充。舉例來說,平行擴充下的「Best-of-N」方法,會透過多次執行模型以挑選出最佳答案,可是運算成本也會因此變得十分高昂。

至於另一個方法則是序列擴充,即嘗試在單次 AI 運算中,直接調整思維過程,例如 S1 方法就是透過在上下文中加入「等待」標記,強制使 AI 緩慢思考的技術實踐。另一個被稱為「草稿鏈」(Chain of Draft,CoD)的方式,則是會反過來要求模型使用較少的字詞,減少 AI 推理時的資源消耗。

然而,無論是 Best-of-N、S1 或 CoD,它們仍然都是相對僵化、一刀切的解決方案,執行效率往往不高。

提升「等待」頻率,迎接「α 時刻」

因此 AlphaOne 研究團隊認為,若想要讓 LRM 成功達成「快思慢想」,單純的增加或減少思考過程,顯然並不是最佳解決方案,所以團隊決定拋出一個更加基本的問題,即是否有可能開發出一套新策略,讓 AI 在慢速思考與快速思考之間流暢轉換,同時兼顧運算資源消耗的平衡

在上述前提下,AlphaOne 框架就此誕生,這項新技術可以讓開發人員精細控制 AI 模型的推理過程,並藉由 Alpha(α)參數的導入,作為調整模型思考階段於資源預算的刻度指示。

在 LRM 思考過程中的某個時間點,即研究人員口中的「α 時刻」到來之前,採用 AlphaOne 框架的 LRM 將執行一套頻繁插入「等待」標記的獨特策略,藉此鼓勵模型緩慢並熟慮的思考。

一旦 AI 模型達到「α 時刻」,AlphaOne 框架就會在上下文中插入 </think> 標記,結束慢速思考階段,並強迫 AI 模型轉換為快速推理,繼續產生最終答案,藉此實踐「可控制、可擴展的推理思考」方法。

若是跟類似的傳統技術相較,AI 開發者通常只能對 LRM 做出少數且獨立的調整,例如在模型思考過程中,僅加入一、兩次的「等待」標記,而 AlphaOne 框架則可以設定為「密集介入」或「稀疏介入」,讓開發者擁有比過去更細緻的思考速度控制權。

人類思考「由快而慢」,但 AI 思考要「由慢而快」

AlphaOne 研究人員向外媒表示,雖然新技術是一個嚴謹的通用框架,但仍然可以跟思維鏈(CoT)或模型的各種自定義調整相輔相成,同時也能跟模型本身的架構一同演進。

研究團隊強調,AlphaOne 框架的重點並非在於「實作細節」,而是它為推理方式所建構的一般性原則,即推理過程若可以由慢而快,逐步進行結構化的速度調整,將能有效增強 LLM 與 LRM 的執行效率與準確度。

根據研究人員在參數大小分別從 15 億到 320 億不等,共 3 種不同的推理模型,套用 AlphaOne 框架後所進行的測試,相較於原始模型、導入 CoD 技術的模型,以及採用 S1 技術的模型,四者之間經過互相比較後,AlphaOne 框架所帶來的增益確實有目共睹。

研究人員指出,讓 AI 模型「先慢速思考,再快速思考」的策略,確實可以讓 LLM 及 LRM 的推理表現更佳,這突顯出 AI 跟人類思維邏輯之間的根本性差異,即人類通常是「先快速思考,再慢速思考」,而 AI 必須擁有相反的流程,才有辦法從慢速思考的過程獲得收益

AlphaOne 研究團隊也坦言,上述情況說明有效的 AI 推理方式,並非來自於模仿人類的思維邏輯,而是來自明確調節的推理速度,這跟目前 AI 業界在提示工程等領域的實務發現一致。

因此對開發人員來說,未來 AI 系統的整體設計,應該更偏向去實踐「由慢而快」的推理流程,藉此提高 LLM 與 LRM 的性能與可靠性,至少在目前推理模型仍不夠完善的情況下需要如此。

慢速思考雖費時,品質卻更好、消耗也更少

至於另外一個有趣發現,在於研究人員直接指出,即便將較多運算資源投入到慢速思考,事實上 AI 的整體推理流程,反而會變得更有效率。原因在於,隨著 Alpha 參數的增加,其實 Token 的整體長度會跟著減少,換句話說就是 AI 在有效的慢速思考之後,將可以擁有訊息量更多、品質更高的推理進度。

在這種情況下,儘管 AI 模型需要更多時間進行思考,但最終卻會生成更簡潔、更準確的推理路徑,進一步減少生成的標記總數,同時降低推理成本。

根據研究團隊說法,若是跟 S1 方法相較,導入 AlphaOne 框架後 AI 模型平均的 Token 使用量減少了約 21%,同時推理準確率則提高了 6.15%,即便是在博士級別的數學、科學和程式碼問題運算方面亦是如此。

更細微的思考控制,帶來更可靠的 AI 應用

AlphaOne 研究團隊認為,對於需要處理複雜的問題回答,或者程式碼生成等企業級的 AI 應用程式來說,新技術帶來的增益可轉化為雙重好處,第一是提高 LLM 及 LRM 的答案生成品質,並且大幅節省成本;第二是提高任務成功率,同時拉高終端使用者的體驗滿意度。

此外,透過增加更多、更密集的「等待」標記,將可以讓 LLM 及 LRM 的推理過程,獲得比過去更好的結果,亦是該論文呈現的重要結論之一。

AlphaOne 框架的程式碼預計短期之內對外公開,透過給予開發者更細微的行為控制,協助他們在下一代推理模型之上,建立起更加穩定、可靠且有效率的 AI 應用。

此外 AlphaOne 研究團隊也指出,對於使用開源或客製化 AI 模型的企業而言,未來 AlphaOne 框架將可以輕鬆整合到現有產品,甚至只需要最小程度的設定變更,例如更新參數中的模型名稱即可,非常方便易用。

【推薦閱讀】

◆ 將 AI 胡說八道機率降到 1%!Vectara 利用 AI 代理打造「幻覺矯正守護者」
◆ MCP 正在成為 AI 業界新標準!為什麼科技巨頭開始替 AI 導入「互通性協議」?
◆ 【拋棄傳統收費】Globant 讓錢花在刀口,顧問服務將像 SaaS 一樣訂閱

*本文開放合作夥伴轉載,參考資料:《VentureBeat》《AlphaOne》,首圖來源:Bing AI

(責任編輯:鄒家彥)