總部位於新加坡的通用人工智慧(AGI)研究公司 Sapient Intelligence 宣布,旗下團隊成功開發出一款全新的 AI 架構「HRM」,它有能力於複雜推理任務的表現上,一舉超越現有的大型語言模型,甚至還可以用更少的樣本、參數量進行訓練,達到更高的資料處理效率。
HRM 全稱「Hierarchical Reasoning Model」,直譯為「分層推理模型」,其開發靈感源於人類大腦利用不同系統,分別進行緩慢、深思熟慮的規劃,以及快速、直覺的運算。
根據 Sapient Intelligence 的說法,HRM 僅需要當前 LLM 所需求的一小部分運算資源和記憶體,就可以達到同等水準的執行效能,這種資料處理效率對於樣本稀少、運算資源有限的企業 AI 應用,具有十足重要的突破性意義。
思維鏈太脆弱,AI 推理需要新方法
當面對複雜問題時,目前的 LLM 大多仰賴思維鏈(CoT)技術,將問題分解為以文字為基礎的多個中間步驟,並且強迫模型在運算答案時,於每個步驟皆「用力思考」,耗盡運算效能以得出最佳解答。
雖然 LLM 在導入思維鏈技術後,確實顯著改善了模型的推理能力,但思維鏈卻也有著天生的限制。Sapient Intelligence 的研究人員在論文中指出,思維鏈對於 AI 推理過程來說,更像是一根「輔助用的拐杖」,而不是從根源改善模型的推理能力,更不是足夠令人滿意的解決方案。
研究人員表明,思維鏈仰賴脆弱且人為定義的問題分解方式,只要其中一個步驟出現錯誤,或者解答順序發生問題,整個 AI 推理過程就可能完全脫軌。
由於思維鏈技術對於指令的明確性太過依賴,進而把 AI 模型的推理能力,直接限制到了 Token 層面,即需要大量的訓練數據以輔助推理過程,並使 LLM 經常出現冗長、緩慢的反應。
除此之外,思維鏈技術也忽略了在模型內部發生,無法透過語言或文字所表達出來的「潛在推理」,這些缺點都造成了 LLM 的資料處理能力大打折扣,因此需要找出一種更有效率的方法,盡量減少 AI 對訓練數據需求。
模仿人類思考方式,先從潛在推理下手
為了超越現有的思維鏈技術,研究人員決定從「潛在推理」(latent reasoning)下手;在這種推理方式中,模型並不會如同過去一樣,產生人為定義的「思考標記」(thinking tokens),而是直接針對問題的抽象表達進行推理。
事實上,潛在推理更符合且貼近人類的思考方式。研究人員在論文中指出,人類大腦可以於潛在空間中,以驚人的效率維持冗長、連貫的推理過程,而且不需要將推理的詳細內容,持續不斷地轉換為文字表達。
然而,想要在 AI 上達到前述程度的深度內部推理,技術上極具挑戰性,畢竟若單純於深度學習模型中,堆疊更多的思考層次,通常會導致「梯度消失」(vanishing gradient)的嚴重問題,意即 AI 的學習信號會在各層之間不斷減弱,最終導致訓練徹底失效。
即便科學界目前找出了另一種替代方法,透過建立循環計算架構,不斷讓 AI 重複進行思考,但這也可能會出現「早期收斂」(early convergence)問題,使得 AI 模型在未充分探索問題的情況下,過快給出解決方案。
高階模型+低階模型,分工處理問題
在上述兩種方案都有顯著缺點的情況下,Sapient Intelligence 將目光轉向了神經科學。研究人員表示,人腦其實早已提供一個令人信任的藍圖,可以實現當代 AI 模型所缺乏的計算深度。
換句話說,人腦透過分層結構,將問題置於不同時間尺度上運行的皮層區域進行運算,從而實現了深度、多階段的推理;受此方法啟發所創造出來的新技術,就是比起 LLM 與思維鏈,擁有更高效率的「分層推理模型」(HRM)。
本質上,HRM 內部擁有兩套耦合且循環的模組,高階(H)模組用於緩慢、抽象的規劃,低階(L)模組則用於快速、詳細的運算,這種結構將可以在 AI 處理問題時,呈現出「分層收斂」(hierarchical convergence)的過程。
若以更簡單的方式解釋,即 HRM 在執行運算時,低階 L 模組會先處理問題的一小部分,直到擁有穩定的局部解決方案為止,緊接著,高階 H 模組會接手運算結果,並且更新整體推理策略,然後交給 L 模組一個全新、更精細的子問題,如此來回往復直到問題被處理完畢。
巢狀迴圈設計,減少訓練資料需求
研究人員解釋,HRM 所採取的循環運算方式,將可以有效重置 L 模組,防止 AI 出現早期收斂現象,並讓整個系統以更精簡的架構,執行一連串的推理步驟,而且不會受到梯度消失問題影響。
根據論文內容,分層收斂的實現允許 HRM 執行一連串不同、穩定且互相嵌套的運算,其中 H 模組引導問題的整體解決策略,而 L 模組則在每個推理步驟執行時,發起密集搜尋或精煉問題。
論文強調,HRM 的巢狀迴圈設計,可以讓 AI 模型深入推理其潛在空間,不再需要長時間的思維鏈提示,或者大量訓練資料的額外輔助。
思考具可解釋性,但推理過程仍是黑盒
只不過,創新的 HRM 架構也引出一項關鍵問題,那就是 AI 於執行潛在推理的過程中,是否把「可解釋性」當成了代價。
對此 Sapient Intelligence 創辦人兼執行長 Guan Wang 出聲反駁,並解釋 HRM 的內部思考流程,仍然能夠解碼與可視化,就像採用思維鏈技術的 LLM,依舊可以對外提供模型思維過程的文字窗口一樣。
Guan Wang 進一步指出,事實上我們現在所看見的「思維鏈窗口」,本身就是一種誤導,因為它所呈現的東西,仍然沒有反映出模型內部的真實推理過程。
Guan Wang 直言,過去已有研究顯示,AI 模型有時會以錯誤的推理步驟,產生出正確的答案;因此,關於「AI 如何思考」這件事情的本質,至今仍然是個難以全面理解的黑盒子。
HRM 效率驚人,擊敗 OpenAI、Claude
至於在實際運作效能方面,研究人員將抽象與推理資料庫(ARC-AGI)、極度困難的數獨謎題,以及複雜的迷宮任務等,需要大量搜尋與記憶回溯的問題,全都交給 HRM 嘗試運算。
結果發現,架構創新的 HRM 竟有能力解決高階 LLM 也無法應付的問題。
例如在 Sudoku-Extreme 和 Maze-Hard 的基準測試中,擁有最先進思維鏈技術的模型完全失效,解答準確度為 0%;相較之下,於每項任務中僅用了 1,000 個樣本進行訓練的 HRM,卻達到了幾乎完美的解答準確率。
在測試抽象推理和概要能力的 ARC-AGI 基準測試方面,僅有 27M 參數的 HRM 得分達 40.3%,其他規模更大的的思維鏈模型,如 OpenAI o3-mini-high、Claude 3.7 Sonnet,分別卻只有 34.5% 與 21.2% 的得分。
研究人員強調,HRM 的「驚人表現」是在缺乏大型預訓練語料庫,以及非常有限的樣本資料下所達成,徹底突顯了新架構的強大功能與超高效率。
賦能 AI 機器人,HRM 還會自我進化
儘管在解決複雜問題上,HRM 已經展示出了強大威力,但這項新技術的影響層面,似乎會比想像中來得更廣。
Guan Wang 認為,未來的開發者應該繼續使用 LLM 處理語言型或創意型任務,但是對於「複雜或決定性任務」,類似 HRM 架構的 AI 模型,將可以提供更優異的效能,同時進一步減少幻覺。
Guan Wang 表示,HRM 將十分適用於對運算延遲敏感的領域,例如 AI 機器人或實體人工智慧,而那些需要處理複雜決策,或者長期規劃連續性問題的產業,比方說科學探索等,亦是 HRM 可以發揮所長的地方。
在特定情境下,Guan Wang 指出,HRM 不只是能夠「解決問題」,還能夠學會「以更好的方式」解決問題,例如在處理數獨問題的實驗中,隨著 AI 訓練持續進展,HRM 的運算步驟也會逐漸減少,就像一名數獨新手逐步進化成數獨專家一樣。
任務處理加速百倍,降低支出提升企業獲利
對於企業來說,HRM 在效率方面的進化,更是轉換為公司獲利的關鍵。
HRM 所採用的平行運算方式,取代了思維鏈技術需要串列生成逐個 Token 的缺點,因此 Guan Wang 估算,此特性將可以讓 HRM 把任務完成時間加速 100 倍,並帶來更低的推理延遲,甚至是令高效能推理 AI 有機會於邊緣裝置直接執行。
此外,HRM 所能節省的成本也十分可觀;相較於大型、成本高且延遲嚴重的 API 模型,如 HRM 這種為特定複雜任務所打造的專門推理引擎,絕對是個更具成本價值的選擇。
為了進一步表達 HRM 帶來的效率提升,Guan Wang 說,透過 HRM 架構訓練專業級數獨模型,大約只需要 2 個 GPU 小時,即便是訓練更複雜的 ARC-AGI 基準測試模型,也只要 50 到 200 個 GPU 小時,相較於其他大型基礎模型,HRM 所需的訓練資源簡直是九牛一毛。
HRM 擁獨特優勢,反映 AI 發展未來
僅需少量時間、資料就可以進行訓練的 HRM,亦為許多商業情境指出了一條明路,比方說物流最佳化與複雜的系統診斷等任務,由於樣本資料和訓練預算都十分有限,HRM 在應用上肯定會比 LLM 更具優勢。
展望未來,Sapient Intelligence 正努力將 HRM 從一款專門的問題解決器,逐步打造成更加通用的 AI 推理模組,並已經在醫療保健、氣候預測和機器人技術領域,獲得了一定的初步成果。
Sapient Intelligence 執行長 Guan Wang 預測,隨著 AI 技術發展,下一代的人工智慧模型,將會與現今以文字為基礎的系統顯著不同,並且加入更多自我修正功能。
至於對整個 AI 產業界來說,目前 HRM 所代表的意義,或許是人工智慧未來發展所追求的東西,很可能不是規模更大、參數更巨量的模型,而是受人類大腦所啟發,執行上更聰明、更加結構化的創新架構。
*立即報名 8/15 【AI Agent 知識工作革命論壇】,解析企業如何在各工作場景導入 AI Agent 完成任務

【推薦閱讀】
◆ 人類行為被 AI 預測嗎?科學家研發「半人馬讀心」模型 Centaur
◆ 【這是我們在等的嗎】讓 AI 永遠不會產生幻覺!專家稱「符號推理」可能成最佳解答
◆ AI 思維鏈將失效?OpenAI、Google 和 Anthropic 等研究人員聯合發出警告
*本文開放合作夥伴轉載,參考資料:《VentureBeat》、《Sapient Intelligence》,首圖來源:Bing AI
(責任編輯:鄒家彥)



