RPT：拿强化学习做 LLM 预训练

结合预训练的规模优势与强化学习的决策优势

qq_36671160

810人浏览 · 2025-06-11 13:31:02

qq_36671160 · 2025-06-11 13:31:02 发布

论文标题

Reinforcement Pre-Training

论文地址

https://arxiv.org/pdf/2506.08007

作者背景

微软研究院，北京大学，清华大学

动机

Yann Lecun曾在前几年的演讲中，多次将人工智能比作一块蛋糕，其中无监督学习是蛋糕的本体，监督学习是蛋糕上面的糖霜，而强化学习则是中间点缀的樱桃

在这里插入图片描述

这一比喻体现了三种训练方法的差异：无监督预训练能够从海量数据中获取稠密的学习信号，适合作为模型的基础部分；监督训练利用带人工标注的数据让模型学会具体的任务，实现对智能体的“塑形”；强化学习赋予了模型自主探索的能力，但因反馈信息非常稀疏，只能作为精致而少量的“点缀”

进入大模型时代，强化学习的重要性越发明显，但当前的主流做法还是将其应用于微调阶段，并且难以推动规模化训练：RLHF（对齐人类偏好）虽然效果显著，但训练数据需要精心构造，成本较大且容易发生奖励劫持；RLVR（对齐验证结果）虽然缓解了 RM 失真的问题，某些场景下（比如编程）可以只构建环境而不用标注数据，但其应用范围非常有限（大部分工作都是数学、编程、推理领域），无法作为通用方案扩展

于是作者提出了强化预训练（Reinforcement Pre-Training），在预训练阶段引入强化学习信号，融合自监督学习的规模优势与强化学习的决策优势，构建规模可扩展的通用预训练新范式。就好比直接拿樱桃做蛋糕

在这里插入图片描述

本文方法

预训练的规模优势源于自回归方法能通过 Next Token Prediction 充分利用海量的无监督数据，所以 RPT 的核心思想就是用强化学习的方式做 NTP 任务：

在这里插入图片描述

如上图所示，RPT 将 NPT 视作推理任务：对于每个 Next Token 的预测，都先生成一段思考，再输出最终答案（也可以一次性预测多个token）；验证时如同常规 RLVR 一样，对比预测结果与语料中的真实词是否严格一致，进而产生奖励（0或1）。通过这种设计，海量未标注文本就转化为了规模空前的强化学习训练数据

作者实际上尝试了多种奖励设计，包括未完全命中时使用预言模型概率代替0作为奖励等，后续实验结果差不多，所以最终选择了上述最简单的做法

考虑到大部分 token 无需推理便可轻松预测，作者使用了一个代理模型来做筛选，具体地，使用小尺寸的 DeepSeek-R1-Distill-Qwen-1.5B 计算每次 NTP 任务中，top-16候选词概率分布形成的熵，过滤掉熵值较低的简单 token，生成更具挑战性的训练任务。这样便模拟了人类对复杂问题的表述过程：在某些关键结点“边说边想”

最后，使用 Deepseek-R1-Distill-Qwen-14B 作为基础模型，作为强化学习的一个良好起点，使用 verl 实现训练框架，并使用 vllm 进行推理。使用 GRPO 算法更新策略模型，训练长度 8k，学习率 1×10^−6，去除 KL 惩罚，batch-size为 256，每个问题采样8次，温度0.8，500 步以后使用动态采样，总共训练 1000 步

实验结果

为了让模型获得更强的推理能力，作者在需要大量推理的数学竞赛数据集 OmniMATH 上做上述强化预训练，然后分别验证预训练效果、模型 zero-shot 能力、对下游任务训练效果的影响，以及 RPT 训练对 LLM 行为模式的具体改变

一、预训练效果

预训练效果由 NTP 任务准确率来衡量，在不同难度的预测任务上（难度通过上述 top-16 熵来衡量）效果如下
在这里插入图片描述

可见经过强化预训练的模型，NTP 能力明显提升，与更大尺寸的模型效果相当，并且符合幂律，意味着可以投入更大计算成本，RPT 便能取得更好的预训练效果

在这里插入图片描述

应该是受限于计算资源，上图只展示了一个指数刻度内的 NTP 准确性，不知道这里能否像 LLM 预训练一样有一根很长的幂律曲线

此外，NTP 上满足幂律，能否像 LLM 一样使下游任务受益，论文也未作探讨

二、预训练改变的行为模式

作者统计了 RPT 前后模型在做 NTP 推理时行为模式的变化，具体地，统计了六种思维方式的出现频率：

转移： 策略切换
反思： 自我检查
分解： 问题拆分
假设： 提出并验证假设
发散思维： 探索可能性
演绎： 逻辑推理

在这里插入图片描述

如上图所示，RPT 模型在推理时，假设模式的使用率高出 161.8%，演绎模式的使用率高出 26.2%；相比之下，RPT 前的模型更依赖于分解模式，这表明 RPT 的确显著改变了模型的推理形式

三、下游任务 zero-shot 效果

在 MMLU-Pro（全面的多任务理解基准）与 SuperGPQA（涵盖 285 个学科的大规模研究生水平推理问题基准）上进行 zero-shot 测试，结果表明经过 RPT 训练（而且是在与测试问题无关的其他领域），模型获得了更好的推理能力

在这里插入图片描述

四、下游任务 RL 效果

作者在 Skywork-OR1（昆仑万维发布的数学、代码数据集）上进行 RL 训练，最终效果如下表所示，其中第二行是指在 RL 训练前先对模型进行 NTP 的微调训练（模拟 RLHF 流程）

在这里插入图片描述

可见如果 RPT 是在类似领域上做的预训练，那么对下游的 RL 训练将会有明显的改进

智源数据社区

更多推荐

知识蒸馏RLDG：先基于精密任务训练RL策略(HIL-SERL)，得到的RL数据去微调OpenVLA，最终效果超越人类演示数据

智源数据社区

RLPD——利用离线数据实现高效的在线RL：不进行离线RL预训练，直接应用离策略方法SAC，在线学习时对称采样离线数据

智源数据社区

AgentFly：重塑Agent，无需微调LLM，如我们一样的记忆和经验持续学习

未来，AgentFly的研究方向可能包括：更高效的记忆压缩与检索机制、遗忘策略以应对记忆爆炸、以及在更开放的多智能体环境中的协作与应用。近年来，大型语言模型（LLM）智能体已成为AI领域的热点，它们能自主使用工具、进行多步推理，完成复杂任务，如深度研究、代码生成、多轮对话等。，智能体通过不断积累成功和失败的经验（存入“案例库”），在遇到新任务时快速检索相似案例指导决策，从而实现持续进步——：它告诉