【LLM 更聰明了】突破 RAG 瓶頸！Search-R1 直接把「搜尋引擎」整合到推理模型中

LLM 推理的挑戰：無法有效整合外部資料

大型語言模型（LLM）推理能力持續出現顯著進步，但 AI 推理模型在運用訓練集以外的資料（比如網路即時資訊、額外導入的第三方參考資料），卻經常無法進行妥善運用。

由於 LLM 的先天限制，導致使用者於動態、資訊密集場景中，想要透過 LLM 存取相關功能，例如整合來自網路搜尋的資料時，經常出現意料之外的問題。

對此，伊利諾大學厄本那香檳分校（University of Illinois at Urbana-Champaign），以及麻薩諸塞大學阿默斯特分校（University of Massachusetts Amherst）的研究人員，共同開發出了一項全新技術「Search-R1」。

Search-R1 能夠在 LLM 進行推理並生成結果的過程中，無縫整合搜尋引擎檢索功能，藉此提升最終答案的即時性，提高 AI 推理模型應用外部資料來源的能力。

對於大多數 LLM 來說，透過網路搜尋引擎取得最新的外部知識，通常有助改善生成結果的精確度。在過去，將搜尋引擎與 LLM 整合的主要方法，包含常見的「檢索增強生成」（RAG），以及直接透過提示工程、模型微調等方式進行實踐。

然而，上述方法卻都有一定限制，導致它們並不適合用於推理模型。舉例來說，RAG 經常發生檢索不夠準確的問題，並且缺乏多輪、多次查詢與檢索的相關能力，而這對於 LLM 的推理任務來說卻是不可或缺。

至於提示工程、模型微調等，這類以「訓練」為基礎的方法，背後則需要素材廣泛，甚至是帶有人工註解，能夠進行搜尋與推理互動的巨量資料集，因此相當難以發起大規模製作，以及進一步推廣大範圍運用。

在傳統方法擁有限制的情況下，研究人員選擇了另一條路，並打造出全新方案 Search-R1。

Search-R1 允許 LLM 在推理過程中，直接跟搜尋引擎進行互動，更同時支援 LLM 的迭代推理，並將搜尋引擎定義為 LLM 的一部分，使 AI 模型能夠將其 token生成與搜尋結果無縫整合。

在 LLM 導入 Search-R1 功能後，AI 模型將可以就思考、搜尋、資訊和答案區段，各自產生獨立的標記，表明各區段之間的交互作用。

舉例來說，Search-R1 於 LLM 的推理過程中，將以 <think> 標籤表明思考區段，如果 AI 模型此時判斷需要外部資訊，就會主動產生一個包含搜尋查詢的 <search> 標籤並進行標記，然後將檢索要求傳送給搜尋引擎。

緊接著，搜尋結果會以 <information> 的區段標記，直接插入仍在進行推理的上下文視窗，AI 模型將繼續使用新增的上下文發起思考、推理，最後於整個運算過程結束後，於 <answer> 區段生成結果。

跟過往 RAG 之間的最大不同，在於 Search-R1 所使用的流程與結構，允許 LLM 在推理問題和取得最新資訊時，多次呼叫搜尋引擎，而非只能進行單次查閱。

將 LLM 的思考、搜尋、推理鏈交錯在一起，過程十分具備挑戰性，因此研究人員採用了「純強化學習」（RL）方式訓練 Search-R1，不只簡化了整體開發流程，更讓模型能夠在沒有人工標記資料的引導下，自行探索、推理如何使用搜尋引擎工具。

研究人員表示，Search-R1 在「基於結果的獎勵模型」訓練方式下，成功消除了創建複雜獎勵模型，並驗證模型推理過程的必要，這就跟 DeepSeek R1、R1 Zero 中所使用的方法相同；開發團隊也不必再像過去的「監督微調」訓練方式一樣，建立大量人工手動標記的資料集投入訓練。

在論文中研究人員也指出，Search-R1 可以被視為 DeepSeek-R1 的延伸，差異在於後者著重參數推理，Search-R1 則透過引入搜尋增量的「純強化學習」訓練，進一步增強 AI 檢索驅動的決策能力。

至於效能方面，研究人員將 Search-R1 與 Qwen-2.5、Llama-3.2 等 LLM 進行整合，並且透過不同方式，例如單純使用思維鏈（CoT）推理、整合 RAG 等方式進行比較，結果皆發現 LLM 在導入 Search-R1 功能後，其表現確實有所進步，超越了各種傳統與基礎方法。

研究人員直言，這樣的結果「符合預期」，畢竟將搜尋引擎納入 LLM 推理過程，確實可以讓 AI 獲得相關的外部知識，從而提高整體表現性能。

對於商業應用而言，AI 模型可以自主發起網路搜尋，並且將即時資訊整合到推理任務中，Search-R1 的出現將對 AI 產業造成重大影響。

舉例來說，企業在導入 Search-R1 後，將可以增強 LLM 於客戶支援、知識管理和資料分析等領域的準確性與可靠性；透過讓 LLM 動態適應不斷變化的資訊，更能協助企業建立起更智慧、反應更迅速的 AI 解決方案。

對於那些需要存取不斷變化的資料，以及需要多個步驟才能找到答案的 AI 應用程式來說，未來導入 Search-R1 功能的 LLM，將會變得更加有幫助。

另一方面，Search-R1 所效仿的訓練方法，亦表明外界仍然未充分發掘應用於 DeepSeek-R1 模型背後，使用「純強化學習」（RL）訓練方式的完整應用潛力。

【推薦閱讀】

◆ AI 模型「開源」了什麼？當「選擇性透明」成為常態我們該怎麼看這個詞？
◆ Google 發表新推理模型 Gemini 2.5，專攻進階程式設計有多強？
◆ DeepSeek R2 要來了？V3 模型默默更新，硬體靠 Mac Studio 就可跑

＊本文開放合作夥伴轉載，參考資料：《VentureBeat》、《Arxiv》、《GitHub》、《知乎》，首圖來源：Bing AI

（責任編輯：鄒家彥）

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.