ConRFT:一种基于一致性策略的 VLA 模型强化微调方法
25年2月来自中科院自动化所和中科院大学 AI 学院的论文“ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy”。视觉-语言-动作 (VLA) 模型在现实世界的机器人操作中已展现出巨大潜力。然而,由于演示有限且不一致,尤其是在接触丰富的环境中,通过监督学习对这些模型进行微调难以实现稳健的性能。本
25年2月来自中科院自动化所和中科院大学 AI 学院的论文“ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy”。
视觉-语言-动作 (VLA) 模型在现实世界的机器人操作中已展现出巨大潜力。然而,由于演示有限且不一致,尤其是在接触丰富的环境中,通过监督学习对这些模型进行微调难以实现稳健的性能。本文提出一种针对 VLA 模型的强化微调方法 ConRFT,该方法由离线和在线微调组成,并具有统一的基于一致性的训练目标,以应对这些挑战。在离线阶段,该方法集成行为克隆和 Q 学习,有效地从一小组演示中提取策略并稳定价值估计。在在线阶段,VLA 模型通过一致性策略进一步微调,并进行人工干预以确保安全的探索和高样本效率。在八个不同的现实世界操作任务上评估了方法。经过 45-90 分钟的在线微调,该系统的平均成功率达到 96.3%,优于之前的监督方法,成功率提升 144%,且 episode 长度缩短了 1.9 倍。
大模型的强化学习微调
强化学习 (RL) 已被广泛用于对 LLM 和 VLM 进行微调。早期的研究主要集中于将强化学习融入人类反馈 [7, 8, 9, 21, 22],例如通过学习人类偏好,或整合特定于任务的奖励(无需明确的人类偏好)[11, 12, 13, 23]。虽然许多此类方法采用在线策略算法(例如 PPO [24])来微调预训练策略 [12, 25, 26],但它们通常需要大量的交互数据才能达到理想的性能 [27, 28]。虽然强化学习在许多领域都取得了成功,但它通常在自生成的合成环境中学习,而不是在真实环境中学习。这一差距阻碍了 VLA 模型的直接迁移,因为 VLA 模型需要与真实世界的交互。
现实世界的强化学习系统
现实世界的机器人强化学习系统,需要算法既能在处理高维输入时保持样本高效,又能足够灵活地适应诸如奖励指定和环境重置等实际考虑因素 [20]。先前的一些方法已经有效地展示了在物理环境中直接进行策略学习 [29, 30, 31, 20],这些方法既使用了离线策略 [32, 33, 34, 35],也使用了在线策略 [36, 37],或者将强化学习视为“监督学习” [14, 38]。尽管取得了这些进展,许多现实世界的强化学习系统仍然需要长时间的训练或大量的交互数据 [39],这在接触密集型任务中可能不切实际且容易产生风险。
离线-到-在线方法
离线-到-在线的强化学习旨在利用离线数据集初始化策略,然后通过在线交互对其进行微调,以提高样本效率 [15]。现有研究通常采用离线预训练阶段,然后进行在线微调阶段 [15, 40, 41, 16],在训练过程中混合使用离线和在线数据。该方法利用预收集的数据来引导策略训练,然后在实际任务中对策略进行微调 [32]。大多数离线-到-在线方法假设存在具有足够状态覆盖率的大规模多样化数据集 [42, 43],而这在实际部署中很少满足。
ConRFT
所提出的管道 ConRFT 包括两个阶段:离线微调,然后在线微调以优化机器人策略,如图所示。

第一阶段:使用 Cal-ConRFT 进行离线微调
由于预训练的 VLA 模型通常缺乏对新型机器人配置的零样本泛化能力,因此在离线阶段,专注于使用预收集的小型离线数据集(20-30 次演示)训练策略,然后再过渡到在线强化学习。用预训练的 VLA 模型初始化强化学习策略,从而减少探索负担和整体在线训练时间。考虑到能够有效利用离线数据,选择标定 Q-学习 (Cal-QL) [16] 作为基础离线强化学习方法,因为希望 Q-函数对分布外 (OOD) 动作数据具有鲁棒性。具体而言,Cal-QL 通过减少时间差分 (TD) 误差和附加正则项,在预收集的数据集上训练 Q-函数。当 OOD 动作的 Q 值超过参考策略 Vμ(s) 的值,该正则化器会惩罚该动作,同时对离线数据集中观察的动作进行补偿以抵消该惩罚。
Cal - QL的目标函数定义为:

其中 Q_θ 是参数化 θ 所学习的 Q 函数,Q_θ 是参数化 θ 的延迟目标 Q 函数。BπQ(s, a) = r(s, a) + γ E_a′∼π(·|s′) (Q(s′, a′)) 是贝尔曼备份算子。α 是控制保守惩罚的超参数。D 是存储演示的演示缓冲区。
然而,虽然 Cal-QL 通常能够高效地利用离线数据集,但当可用的演示样本较少(例如 20-30 个)时,它很难训练出有效的策略。在这种情况下,有限的状态覆盖会导致值估计不佳,从而使策略难以推广到未见过的状态。相比之下,典型的离线 RL 数据集通常从多种行为策略中收集,从而提供广泛的状态覆盖范围以减少分布偏移。由于缺乏这种广度,单独的 Cal-QL 损失可能无法充分指导学习过程,从而导致性能不佳。
为了解决这个问题,加入 BC 损失来增强离线训练过程。BC 损失直接最小化策略生成的动作与演示中的动作之间的差异。通过加入 BC 损失,鼓励模型模仿演示中的行为,从而在离线阶段提供额外的监督信号。这有助于 VLA 模型学习更有效的策略,并用少量演示初始化稳定的 Q 函数,尤其是在控制精度至关重要且接触丰富的操作任务中。
受基于一致性目标 [18] 下 BC 损失与 Q 指导相结合的启发,在离线阶段引入 Cal-ConRFT。该方法采用一致性策略作为动作头来微调 VLA 模型,解决两个关键问题:1) 它有助于利用预收集数据中经常出现的不一致和次优演示;2) 与基于扩散的动作头相比,基于一致性的动作头在计算上保持轻量级,可实现高效推理 [18, 44, 45]。一致性策略将扩散范围 [ε, K ] 离散化为 M 个子区间,边界为 k_1 = ε ≤ k_2 ≤ ··· ≤ k_m = K 且 ε = 0.002。
以一致性策略为动作头的 VLA 模型如下:

其中 f 表示以 ψ 为参数的一致性策略,下标 k 表示扩散步骤,ak ∼ N (0, kI),E_φ(s) 表示以 φ 为参数的预训练 VLA 模型的编码状态。
基于一致性的 VLA 模型微调训练目标如下:

其中 BC 损失 LBC_π = E_π (s,a)∼D,m∼U[1,M−1] [(f_ψ(a+k_mz,k_m | E(s)), a)], z∼N(0,I),d 代表欧氏距离 d(x,y) = ||x−y||_2,Q 损失 LQ_π = −E_s∼D,a∼π_ψ[Q(s,a)]。β 和 η 是两个超参,用于平衡 BC 损失和 Q 损失。
这种组合通过将价值估计与专家操作进行对齐,并提升离线训练期间的策略性能,即使在少量演示的情况下也能实现高效的策略学习和稳定的价值估计。此外,它还为在线阶段提供了可靠的初始化,从而促进安全有效的探索。
第二阶段:使用 HIL-ConRFT 在线微调
虽然离线阶段基于少量演示数据提供初始策略,但其性能受限于预收集的演示数据的范围和质量。因此,引入 HIL-ConRFT 在线阶段,其中 VLA 模型通过与真实环境交互,利用一致性策略在线进一步微调。在线训练过程中,离线阶段的演示缓冲区 D 保持不变。此外,还有一个重放缓冲区 R 用于存储在线数据,然后实施对称采样 [27],即在每个批次中,在这两个缓冲区之间进行均等采样,以形成每个训练批次。由于 VLA 模型会根据其当前策略不断收集新的转换,因此数据分布会自然地随着策略而演变。这种持续的交互减少离线阶段面临的分布偏移问题。因此,用标准 Q 损失进行在线的评论家更新:

基于一致性的 VLA 模型微调训练目标如下:

其中,BC 损失 LBCπ = E(s,a) (DUR),mU=1,M-1] [d(f_ψ(a+k_m z k_m [ E(s), a], z ∼ N (0, I),d 表示欧氏距离 d(x, y) = ||x − y||_2,Q 损失 LQ_π = −E_s∼(D∪R),a∼π_ψ [Q(s, a)]。需要注意的是,该目标与离线阶段非常相似,能够快速适应在线微调。
通常,在线阶段降低 BC 损失权重 β 并增加 Q 损失权重 η,但要保留 BC 损失主要有两个原因。1) 首先,它确保策略持续与演示数据保持一致,防止出现可能导致性能崩溃的剧烈偏差。这对于在接触丰富的操作任务中保持动作质量至关重要,因为策略的突然变化可能会导致不安全或低效的行为。2) 其次,由于强化学习本质上涉及探索,因此它在高维状态-动作空间中可能变得不稳定。对探索过程提供稳定作用 [48],这样 BC 损失可防止策略偏离其离线基线过远,从而降低低效或不安全行为的风险。这在现实世界的机器人训练中非常重要,尤其是在不安全行为可能导致损坏或其他危害的物理环境中。
此外,通过人机交互学习将人为干预融入到在线阶段。具体而言,HIL 学习允许人类操作员及时干预,在探索过程中提供纠正措施,然后从 VLA 模型接管机器人的控制权。这些人工纠正措施会被添加到演示缓冲区 D 中,提供高级指导,引导探索朝着更安全、更高效的方向发展 [49]。当机器人出现破坏性行为(例如碰撞障碍物、施加过大的力或破坏环境)时,人工干预至关重要。除了确保安全的探索之外,人工干预还可以加速策略收敛。在策略导致机器人陷入无法恢复或不良状态,或者机器人陷入局部最优(如果没有外部帮助,则需要花费大量时间和步骤才能克服)的情况下,人类操作员可以介入纠正机器人的行为,引导其朝着更安全、更有效的方向发展。这会带来一个稳定的学习过程,与单纯的自主探索相比,VLA 模型的微调速度更快、更安全。
最后ConRFT的算法总结如下:

实验旨在评估方法在实际场景中微调 VLA 模型的有效性和效率。为此,针对八个不同的操作任务进行实际实验,如图所示。这些任务旨在反映各种操作挑战,包括物体放置任务(例如,将面包放入烤面包机并将面包放在白盘子上)、精确且接触性强的操作(例如,将轮子对准并插入椅子底座)以及动态物体处理(例如,悬挂中国结)。为了验证微调方法,选择 Octo-small 模型 [47],因为它在性能和推理效率之间取得了平衡,并在 7 自由度 Franka Emika 机械臂上采用一致性策略 [45] 作为动作头。

对于所有任务,状态观测包括从腕戴式摄像头(128 × 128)和侧面摄像头(256 × 256)捕获的两幅 RGB 图像,并结合机器人手臂的本体感受状态,包括末端执行器姿态、扭转、力/扭矩和夹持器状态。动作空间定义为下游阻抗控制器的 6 维末端执行器姿态增量或包含 1 维二进制夹持器动作的 7 维目标,此外还适用于涉及抓取的任务。数据收集和策略以 10Hz 的频率命令动作。在训练之前,从人类操作员那里收集正反两方面的演示,以训练二元分类器,该分类器针对每项任务是否成功完成给出二元反馈。此外,每个任务的初始状态都使用脚本化的机器人运动或人类操作员的手动重置进行随机化。
如下图为硬件设置和摄像头视图示例。本文给出所有实际任务的硬件设置示例和对应的摄像头视图,包括:a) 拿香蕉;b) 放勺子;c) 打开抽屉;d) 拿面包;e) 打开烤面包机;f) 放面包;g) 插轮子;h) 手打中国结。

更多推荐
所有评论(0)