DeepMind | 合成数据+RL，SWiRL让大模型拥有超强“工具脑”！

总结1: SwiRL + Tool use > Base Model + Tool use >> Base Model。引入工具后还是效果提升非常大，说明Base Model已经具备不错的Tool调用的能力了。SwiRL可以改进Tool 调用的能力。总结2: 不需要其他标注资源，利用现有的Model就可以合成数据进行RL训练提升Model的Tool Use能力。

HxShine

883人浏览 · 2025-07-04 17:15:51

HxShine · 2025-07-04 17:15:51 发布

大家好，我是HxShine

今天分享一篇来自斯坦福大学和 Google DeepMind 的文章，标题为：《Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use》（利用合成数据生成和多阶段强化学习进行推理和工具使用）。

本文提出了一种名为 SWiRL (Step-Wise Reinforcement Learning) 的方法，旨在优化 LLMs 在复杂多步推理和工具使用任务中的表现。该方法分为两个主要阶段：
2. 合成数据生成：通过迭代式生成多阶段（Multi-step）的推理和工具使用数据，并从中学习。
2. 多目标强化学习：提出一种针对多阶段优化的强化学习方法。提示模型的Tool调用以及推理能力能力。

与Search-R1等方法不同，其通过合成推理的Tracing数据，并基于该数据来进行RL学习，可以极大提升在复杂多步推理和工具使用任务中的表现。可以给后续DeepResearch的端到端的RL训练提供一个参考。

一、概述

Title: Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use
URL: https://arxiv.org/abs/2504.04736
Authors: Anna Goldie, Azalia Mirhoseini, Hao Zhou, Irene Cai, Christopher D. Manning

1 Motivation

现有的 LLMs 在处理需要多步骤推理和工具使用的复杂查询时（如多跳问答、数学问题求解、编程等）表现不佳。
传统的强化学习方法（如 RLHF、RLAIF）主要关注单一步骤优化，而多步骤任务中，中间步骤的错误可能导致最终结果的错误，因此需要对整个行动链条的准确性进行优化。
需要开发一种能够处理多步骤动作序列（例如，确定何时停止搜索以及何时综合信息）并有效从错误中恢复的优化技术。

2 Methods

SWiRL 方法旨在提升 LLM 在多步推理和工具使用任务中的表现，避免了对人工标注和GroundTruth的依赖，其核心在于合成数据生成和基于模型判定的分步强化学习。

优点总结：不需要Golden label，不需要人类标注，基于model-based judgment和data生成，过滤，来做RL的训练。

详细方法和步骤:

Stage 1: 多步合成数据生成与筛选 (Multi-Step Data Collection)

数据生成：
- 使用开源 LLM (Gemma 2) 并接入外部工具（如搜索引擎或计算器）。
- 迭代式地提示模型生成多步轨迹（trajectories）。在每一步中，模型可以生成思维链（chain of thought），选择调用工具或直接给出最终答案。
- 如果模型调用工具，则查询会被自动提取并在环境中执行，结果会作为下一步的上下文提供给模型。
- 轨迹在模型生成最终答案（通过特殊标记表示）时结束。
- 轨迹转换：将包含 k 个动作的轨迹转换为 k 个子轨迹，每个子轨迹包含从开始到该动作的所有上下文。
数据筛选策略：探索四种筛选策略对模型性能的影响：
- No filtering (无筛选)：不进行任何筛选。
- Process filtering (过程筛选)：保留每一步都被模型（Gemini 1.5 Pro Thinking）判断为合理的轨迹。判断标准是当前动作 a_i 在给定上下文 s_i 下的合理性，不使用GroundTruth。
- Outcome filtering (结果筛选)：仅选择最终答案 a_K 与GroundTruth的轨迹。
- Process and outcome filtering (过程与结果联合筛选)：同时满足过程合理性及最终答案正确的轨迹。
数据集构建规模：
- 收集了 50,000 条合成轨迹（基于 10,000 个 HotPotQA 训练集问题，每个问题 5 条轨迹）。
- 收集了 37,500 条合成轨迹（基于 7,500 个 GSM8K 训练集问题）。
- 为防止轨迹过长，将 HotPotQA 的最大步骤数设置为 5，GSM8K 设置为 10。

Stage 2: 分步强化学习优化 (Step-Wise Reinforcement Learning Methodology)

优化目标：
- 目标函数是期望的逐步奖励总和：J(θ) = E[R(a|s)]，其中 R(a|s) 是根据生成式奖励模型（Gemini 1.5 Pro）评估当前动作 a 在上下文 s 下的质量。不使用GroundTruth label来做Reward。
- 该方法通过细粒度的、按步骤的微调，使模型能够学习局部决策（预测下一步）和全局轨迹优化（生成最终响应），并获得即时反馈。
推理阶段评估 (Step-Wise Inference-time Evaluation)：
- 在推理时，模型会迭代地被提示，选择调用工具或生成最终答案。
- 如果模型生成工具调用（如 <search_query> 或 <math_exp> 标签），则解析查询并在环境中执行，结果会注入到模型上下文中。
- 该过程持续直到模型生成答案（通过 <answer> 标签表示）或达到最大查询次数限制（问答数据集 5 次，数学推理数据集 10 次）。

Q1: 他的reward是怎么来的，如何计算？

答：作者直接采用Gemini 1.5 Pro（直接LLM as judge，这个效果好吗？）作为reward model。其主要做法是：

每一步生成之后，用reward model来判定本步动作（如某条搜索查询或推理步骤），在当前上下文里是否“reasonable（合理）”。
reward model的判定形式是：对于每一个action，reward model只基于该action和前面的全部上下文（包括之前的步骤和环境给出的反馈），判断这一步的推理或操作是否靠谱，然后输出评分（相当于是“好/坏”标签，见原文 process filtering prompt）。
这种reward不是基于最终答案（outcome），而是基于每一个过程动作的合理性（process-based）。

优点：

生成数据快、成本低，不用人工逐步标注，只要评判prompt设计合理即可。
它能更细粒度地对每个步骤给反馈，而不是等整个问题解完后才评判，避免“只会背答案”的问题，提高多步推理能力。
这样能充分利用现有强大LLM的理解和判断力，不需要再训练一个reward模型。

Q2：如何理解强化学习的目标函数？
$J(\theta) = \mathbb{E}_{s\sim T,\; a\sim\pi_\theta(s)} [R(a|s)]$

1. 各个符号的含义：

$J(θ)J(\theta)$ ：是整体的优化目标函数，也叫“期望总奖励”。目标是让模型学会让 $J(θ)J(\theta)$ 值最大化，也就是每一步都能获得尽可能高的奖励。
$θ\theta$ ：代表基础语言模型的参数，训练过程就是不断调整 $θ\theta$ 。
$\sim T$ ： $s$ 表示在合成的数据轨迹中出现的所有“状态”， $T$ 是全部这些状态的集合。每条多步轨迹中，每到达一个新的上下文/已知信息组成的时刻就是一个 $s$ 。
$\sim \pi_\theta(s)$ ： $πθ\pi_\theta$ 是当前参数下的模型策略，意思是在状态 $s$ 下，模型会生成一个动作 $a$ （比如输出一步链式推理，或发起一次工具调用）。
$R (a ∣ s)$ ：奖励函数。在当前上下文 $s$ 下生成action $a$ 后，由Gemini 1.5 Pro这样的奖励模型打分，衡量 $a$ 在当前 $s$ 下的“合理性”“高质量”程度。

2. 整体的优化思想： 在所有的数据状态 $s$ 下，从模型当前策略 $πθ\pi_\theta$ 生成的动作 $a$ ，经奖励模型 $R (a ∣ s)$ 打分后，整体的平均分数要尽量高。强化学习的目标就是最大化这个 $J(θ)J(\theta)$ ，即让模型输出每一步都受到奖励模型认可、在多步推理链条上“逐步走好”。模型每走一步、每输出一句话/工具调用，都会根据之前的全部上下文被奖励模型打分；整个训练的目标就是反复采样这样的“状态-下一步行为”，期望行为在奖励模型评价体系下，平均得分越高越好。

3 Conclusion

多步推理与工具使用的显著提升： SWiRL 在复杂多跳问答和数学推理任务中，平均性能优于基线模型达 15%。

数据筛选策略的有效性： 该方法即使在未筛选的数据上也能有效学习，但在“仅过程筛选”的数据上表现最佳，这表明模型可以从包含不正确最终答案的轨迹中学习，甚至受益于正确和不正确最终答案的混合数据。
- Process filtering (过程筛选)：指的是保留每一步都被模型（Gemini 1.5 Pro Thinking）判断为合理的轨迹。判断标准是当前动作 a_i 在给定上下文 s_i 下的合理性，不使用GroundTruth。