【AI 推理成本革命】不再靠人類直覺設計策略,AutoTTS 讓 AI 自己找最省 Token 推理方式

讓 AI 自主設計 LLM 推理策略更有效率!全新 AutoTTS 框架讓 Token 消耗量大降 69.5%

回顧大型語言模型(LLM)的發展,新興的「測試階段擴展(Test-time scaling,TTS)」技術,早已成為一種有效方式,透過在推論階段為 LLM 提供額外的運算週期,從而提升其在實際應用中的表現。

然而,過往 AI 模型所使用的 TTS 策略,大多由人工手動設計,高度依賴人類直覺來決定模型推理的規則。

為解決前述瓶頸,來自 Meta、Google 及多所大學的研究人員,共同研發出了一套能夠自動找出最佳 TTS 策略的框架「AutoTTS」;自動化的 AutoTTS 框架讓企業、組織不再需要手動調整演算法,即可動態最佳化運算資源的分配。

根據實驗資料,借助 AutoTTS 框架所執行的最佳推理策略,可以有效降低企業於生產環境中,部署進階 AI 推理模型所需要的 Token 用量及營運成本。

在 AutoTTS 高效率的推理預算管理下,即使不犧牲任何精準度,也能夠成功將 AI 模型的 Token 消耗量降低高達 69.5%。

如何分配運算資源,高度仰賴人類直覺

自誕生以來 TTS 技術已經有了長足的發展,它透過在 AI 生成答案時,提供額外的運算資源以強化大型語言模型,而額外的運算資源使 AI 模型能夠於得出最終回應之前,直接生成多種推理路徑,或者主動評估推理時的中間步驟。

因此,過去開發者設計 TTS 策略時的主要挑戰,即在於如何最佳化分配額外的運算資源;傳統上幾乎都由人類手動設計策略,並且仰賴單純的推測,執行僵化的啟發式演算法。

換句話說,工程師必須針對 AI 模型何時應該分支到新的推理路徑、何時要深入探索現有路徑、何時得剪去無望的推理分支,或是要求模型完全停止推理,提出各種相應的規則及閾值假設。

過往設計 TTS 策略高度仰賴人類直覺,並且得手動調整參數,進而導致大量可能有效的方法,尚未獲得充分探索,使得 AI 模型只能在精確度和運算成本之間,達成相對次佳的權衡。

現行 TTS 演算法的缺點

目前流行的 TTS 演算法大致可分為三種,並且皆圍繞「寬度」與「深度」的控制空間,前者代表 AI 探索的推理分支數量,後者則是每個分支的展開程度。

其中 Self-consistency(SC)方法會採樣固定數量的推理軌跡,並透過多數決確定答案;而 Adaptive-consistency(ASC)方法會在達到信心閾值時提前停止演算,以節省運算資源;至於 Parallel-probe 方法則採用顆粒度更細緻的策略,在修剪無望分支的同時,深化其餘推理分支。

雖然某些更先進的 TTS 演算法採用更複雜的結構,比方說樹狀搜尋或外部驗證器,但這些方法全都是由人類精心手工設計,因此同樣限制了策略探索的範圍,導致潛在的資源分配模式中,有相當大一部分未曾觸及。

AutoTTS 重新定義人類與 AI 角色

自動化的 AutoTTS 框架,重新定義了測試階段擴展技術的最佳化方式。開發團隊認為,與其將 TTS 策略設計視為人類任務,不如將其視為在受控環境中進行的演算法搜尋問題。

簡單來說,AutoTTS 框架重新分配了「人類工程師」與「AI 模型」的角色。

在 AutoTTS 框架下,工程師不再需要手動設計 LLM 何時應該進行分支、修剪或停止推理的具體規則,而是轉向建構探索環境,並負責制定邊界,包括狀態與動作的控制空間,定義出在準確度與運算成本之間取得平衡的最佳化目標,並規劃確切的回饋機制。

舉例而言,探索型 LLM 如 Claude Code 將負責設計策略,它會同時身兼自主型 AI 代理的任務,不停迭代用以決定 AI 模型在推理過程中,如何分配其運算資源,並透過程式碼定義策略或演算法的「TTS 控制器」。

AutoTTS 框架會要求探索型 LLM 根據回饋測試,不斷最佳化 TTS 控制器,直到發現最優的資源分配策略為止。

善用離線資料,壓低運算成本

為了降低 AutoTTS 不間斷執行自動最佳化任務的運算成本,該框架也仰賴一種被稱為「Offline Replay Environment」的技術,讓 AI 透過閱讀歷史紀錄進行學習,而非實際執行消耗算力。

由於探索型 LLM 每次測試新策略時,皆必須調用基礎推理模型以生成全新的 Token,長期運作下來成本將十分驚人,此時 Offline Replay Environment 會依賴於從基礎 LLM 中預先收集的數千條,包含「探測訊號(probe signals)」的軌跡,幫助 TTS 控制器評估不同推理分支進度的中間答案。

在每次探索最佳化策略的迴圈中,探索型 LLM 驅動的 AI 代理都會提出一個控制器,並根據來自 Offline Replay Environment 的資料對其進行評估,觀察 TTS 控制器在執行過程中的軌跡,藉此了解運算資源是如何隨著時間進行分配。

透過分析執行軌跡,AI 代理就能夠診斷出具體的失敗模式,例如點出控制器在特定情境下,是否會過度激進的修剪分支,接著 AI 代理會反覆執行迴圈並修改 TTS 控制器的程式碼,改善準確度並考量運算成本的權衡。

由 AI 發現的策略,跟人類截然不同

正由於探索 TTS 策略是由 LLM 所驅動而非人類直覺,所以 AutoTTS 框架可以擺脫傳統限制,發現高度協調且極為複雜,人類工程師很可能永遠都無法手動編寫出來的新規則。

舉例而言,由 AutoTTS 框架所發現的一種最佳控制器,稱為「Confidence Momentum Controller(CMC)」,它利用了數種罕見機制以管理運算資源,包含 Trend-based stopping、Coupled width-depth control 及 Alignment-aware depth allocation。

其中,Trend-based stopping 有別於傳統 TTS 策略,指示 AI 模型一旦達到某個瞬間信心閾值便停止推理,它改以追蹤置信度的指數移動平均值(EMA)為基礎,僅在整體信心水準較高且趨勢未呈明顯下降時,才要求 AI 停止推理。

直譯為「寬度與深度的耦合控制」的 Coupled width-depth control 也展現出異於人類的決策方式。傳統上,工程師會把 TTS 的「擴展」與現行路徑的「深化」視為獨立決策,但 AutoTTS 框架卻發現了一個將這兩項動作相互連結的循環回饋機制,若現行分支的信心值停滯或下降,控制器便會自動觸發生成新的分支。

至於 Alignment-aware depth allocation 策略則更加有趣,它要求 TTS 控制器不要將相同的運算資源,分配給所有活躍中的推理分支,而是動態識別哪些分支跟當前的領先答案更加一致,並且向這些分支提供優先級更高、更多的運算資源,加速答案共識形成,快速驗證結果正確性。

嚴謹實驗證明,Token 消耗大幅降低

為了驗證以 AI 驅動的 AutoTTS 框架是否真的更有效,研究人員建立了一個嚴謹的評估框架。

測試實驗在參數範圍介於 0.6B 至 8B 之間的 Qwen3 模型上進行,同時研究人員還將 AutoTTS 框架導入 DeepSeek-R1 模型 8B 蒸餾版本,測試其是否具備泛化能力。

研究人員以 AIME24 數學基準測試,以及未參與訓練的 AIME25、HMMT25 和 GPQA-Diamond 等資料集作為測試項目,比較由 AutoTTS 所發現 TTS 策略,跟業界四種人工設計的演算法,即前面提及的 SC@64、ASC、Parallel-probe 與 Early-Stopping Self-Consistency(ESC;平行生成軌跡,並且在答案看似穩定時提前停止)方式相比,AutoTTS 框架真正具備的實際優勢。

結果發現,當設定為兼顧效能與成本的平衡模式時,相較於傳統的 SC@64 方法,透過 AutoTTS 框架發現的控制器,可將 Token 總消耗量降低約 69.5%,而該控制器在四種 Qwen 模型上也維持了相同的平均準確度。

此外,當推理預算提高時,在 8 個測試中就有 5 個案例,為 AutoTTS 將峰值準確度提升到超越所有人工設計演算法的水準。

至於在 GPQA-Diamond 基準測試中,平衡型 AutoTTS 框架將推理 Token 的消耗量,從 51 萬大幅削減至僅剩 15.1 萬,同時還略微提升了整體準確度;即便將 AutoTTS 框架用於 DeepSeek 而非 Qwen 模型,其 HMMT25 基準測試中亦達到了最高的整體準確度,Token 消耗同樣減少將近一半。

成本準確度兼顧,低預算也能有好策略

對於企業級 AI 應用開發者而言,AutoTTS 框架的測試表現,凸顯了兩項主要的營運優勢。

首先,AutoTTS 框架不僅能夠節省 Token 消耗成本,還可以主動提升基礎模型的峰值效能,由 AI 設計所設計的 TTS 控制器,在即時偵測雜訊或無效推理分支方面表現傑出,並能將運算資源持續導向最具生產價值的推理訊號分支。

其次,AutoTTS 框架適合高性價比的客製化 AI 模型開發,由於採用了 Offline Replay Environment 技術,使 TTS 策略的整體探索過程,能夠壓低到僅約 39.9 美元,耗費時間也只需 160 分鐘,這意味著企業即使沒有專門的研究預算,也能輕鬆取得針對專有模型和內部任務量身打造的最佳化 AI 推理策略。

包含 AutoTTS 以及利用該框架所發現的 Confidence Momentum Controller 控制器,開發團隊均已上傳至 GitHub;同時官方表示,CMC 可以作為其他現行 TTS 控制器的無痛替換方案。

【推薦閱讀】

◆ 不把雞蛋放在同一個 AI 供應商籃子裡:Walmart 自研 Code Puppy,降低模型依賴風險
◆ 16GB 筆電就能跑多模態模型、AI Agent?Google 發表 Gemma 4 12B 揭企業 AI 新需求
◆ 如何用 AI 代理為軟體開發做出高價值貢獻?專家提點 5 大面向,人類管理仍不可或缺

*本文開放合作夥伴轉載,參考資料:VentureBeatarXiv,首圖來源:Nano Banana 2

(責任編輯:鄒家彥)