Search
Close this search box.

【LLM 更聰明了】突破 RAG 瓶頸!Search-R1 直接把「搜尋引擎」整合到推理模型中

推理模型整合搜尋引擎超越 RAG,開發者打造 Search-R1 讓 AI 即時又精確

LLM 推理的挑戰:無法有效整合外部資料

大型語言模型(LLM)推理能力持續出現顯著進步,但 AI 推理模型在運用訓練集以外的資料(比如網路即時資訊、額外導入的第三方參考資料),卻經常無法進行妥善運用。

由於 LLM 的先天限制,導致使用者於動態、資訊密集場景中,想要透過 LLM 存取相關功能,例如整合來自網路搜尋的資料時,經常出現意料之外的問題。

對此,伊利諾大學厄本那香檳分校(University of Illinois at Urbana-Champaign),以及麻薩諸塞大學阿默斯特分校(University of Massachusetts Amherst)的研究人員,共同開發出了一項全新技術「Search-R1」。

Search-R1:突破 RAG 方法限制的新技術

Search-R1 能夠在 LLM 進行推理並生成結果的過程中,無縫整合搜尋引擎檢索功能,藉此提升最終答案的即時性,提高 AI 推理模型應用外部資料來源的能力。

對於大多數 LLM 來說,透過網路搜尋引擎取得最新的外部知識,通常有助改善生成結果的精確度。在過去,將搜尋引擎與 LLM 整合的主要方法,包含常見的「檢索增強生成」(RAG),以及直接透過提示工程、模型微調等方式進行實踐。

然而,上述方法卻都有一定限制,導致它們並不適合用於推理模型。舉例來說,RAG 經常發生檢索不夠準確的問題,並且缺乏多輪、多次查詢與檢索的相關能力,而這對於 LLM 的推理任務來說卻是不可或缺。

至於提示工程、模型微調等,這類以「訓練」為基礎的方法,背後則需要素材廣泛,甚至是帶有人工註解,能夠進行搜尋與推理互動的巨量資料集,因此相當難以發起大規模製作,以及進一步推廣大範圍運用。

AI 推理無縫整合網路搜尋

在傳統方法擁有限制的情況下,研究人員選擇了另一條路,並打造出全新方案 Search-R1。

Search-R1 允許 LLM 在推理過程中,直接跟搜尋引擎進行互動,更同時支援 LLM 的迭代推理,並將搜尋引擎定義為 LLM 的一部分,使 AI 模型能夠將其 token生成與搜尋結果無縫整合。

在 LLM 導入 Search-R1 功能後,AI 模型將可以就思考、搜尋、資訊和答案區段,各自產生獨立的標記,表明各區段之間的交互作用。

舉例來說,Search-R1 於 LLM 的推理過程中,將以 <think> 標籤表明思考區段,如果 AI 模型此時判斷需要外部資訊,就會主動產生一個包含搜尋查詢的 <search> 標籤並進行標記,然後將檢索要求傳送給搜尋引擎。

緊接著,搜尋結果會以 <information> 的區段標記,直接插入仍在進行推理的上下文視窗,AI 模型將繼續使用新增的上下文發起思考、推理,最後於整個運算過程結束後,於 <answer> 區段生成結果。

跟過往 RAG 之間的最大不同,在於 Search-R1 所使用的流程與結構,允許 LLM 在推理問題和取得最新資訊時,多次呼叫搜尋引擎,而非只能進行單次查閱。

效仿 DeepSeek-R1 簡化訓練

將 LLM 的思考、搜尋、推理鏈交錯在一起,過程十分具備挑戰性,因此研究人員採用了「純強化學習」(RL)方式訓練 Search-R1,不只簡化了整體開發流程,更讓模型能夠在沒有人工標記資料的引導下,自行探索、推理如何使用搜尋引擎工具。

研究人員表示,Search-R1 在「基於結果的獎勵模型」訓練方式下,成功消除了創建複雜獎勵模型,並驗證模型推理過程的必要,這就跟 DeepSeek R1、R1 Zero 中所使用的方法相同;開發團隊也不必再像過去的「監督微調」訓練方式一樣,建立大量人工手動標記的資料集投入訓練。

在論文中研究人員也指出,Search-R1 可以被視為 DeepSeek-R1 的延伸,差異在於後者著重參數推理,Search-R1 則透過引入搜尋增量的「純強化學習」訓練,進一步增強 AI 檢索驅動的決策能力。

至於效能方面,研究人員將 Search-R1 與 Qwen-2.5、Llama-3.2 等 LLM 進行整合,並且透過不同方式,例如單純使用思維鏈(CoT)推理、整合 RAG 等方式進行比較,結果皆發現 LLM 在導入 Search-R1 功能後,其表現確實有所進步,超越了各種傳統與基礎方法。

研究人員直言,這樣的結果「符合預期」,畢竟將搜尋引擎納入 LLM 推理過程,確實可以讓 AI 獲得相關的外部知識,從而提高整體表現性能。

商業應用與發展潛力:讓 AI 更智慧且反應迅速

對於商業應用而言,AI 模型可以自主發起網路搜尋,並且將即時資訊整合到推理任務中,Search-R1 的出現將對 AI 產業造成重大影響。

舉例來說,企業在導入 Search-R1 後,將可以增強 LLM 於客戶支援、知識管理和資料分析等領域的準確性與可靠性;透過讓 LLM 動態適應不斷變化的資訊,更能協助企業建立起更智慧、反應更迅速的 AI 解決方案。

對於那些需要存取不斷變化的資料,以及需要多個步驟才能找到答案的 AI 應用程式來說,未來導入 Search-R1 功能的 LLM,將會變得更加有幫助。

另一方面,Search-R1 所效仿的訓練方法,亦表明外界仍然未充分發掘應用於 DeepSeek-R1 模型背後,使用「純強化學習」(RL)訓練方式的完整應用潛力。

【推薦閱讀】

◆  AI 模型「開源」了什麼?當「選擇性透明」成為常態我們該怎麼看這個詞?
◆  Google 發表新推理模型 Gemini 2.5,專攻進階程式設計有多強?
◆  DeepSeek R2 要來了?V3 模型默默更新,硬體靠 Mac Studio 就可跑

*本文開放合作夥伴轉載,參考資料:《VentureBeat》《Arxiv》《GitHub》《知乎》,首圖來源:Bing AI

(責任編輯:鄒家彥)