DPO遇见PPO:RLHF的强化令牌优化

DPO Meets PPO: Reinforced Token Optimization for RLHF

ArXiv ID: 2404.18922
作者: Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang
发布日期: 2025年4月29日
最后更新: 2025年5月21日

摘要

在经典的强化学习人类反馈(RLHF)框架中,近端策略优化(PPO)用于从稀疏的句子级奖励中学习。然而,PPO面临训练不稳定性和样本效率低等挑战。另一方面,直接偏好优化(DPO)提供了稳定的训练过程,但也存在句子级优化的局限性。本文引入了强化令牌优化(RTO)算法,将RLHF问题建模为马尔可夫决策过程(MDP),捕获细粒度的令牌级信息。RTO结合了DPO和PPO的优势,在AlpacaEval 2上比PPO高出7.5个百分点,在Arena-Hard上高出4.1个百分点。

论文信息

  • ArXiv ID: 2404.18922
  • 提交日期: 2025年4月29日
  • 最后更新: 2025年5月21日
  • 分类: cs.LG, cs.AI, cs.CL
  • 代码仓库: GitHub

主要贡献

  1. MDP建模: 首次将RLHF问题正式建模为马尔可夫决策过程,使得可以捕获令牌级的细粒度信息。

  2. RTO算法: 提出了强化令牌优化算法,从偏好数据中学习令牌级奖励函数,并基于此进行策略优化。

  3. 统一框架: 将DPO和PPO统一在一个框架下,结合了两者的优势:DPO的稳定训练和PPO的细粒度优化能力。

  4. 显著性能提升:

    • AlpacaEval 2: 比PPO高7.5个百分点
    • Arena-Hard: 比PPO高4.1个百分点
    • 训练稳定性显著提高
  5. 开源实现: 提供了完整的代码实现,便于研究和应用。

方法概述

RTO的核心思想是在令牌级别进行强化学习优化:

1. MDP建模

将文本生成过程建模为MDP:

  • 状态(State): 当前已生成的令牌序列
  • 动作(Action): 下一个要生成的令牌
  • 奖励(Reward): 令牌级别的奖励信号
  • 策略(Policy): 语言模型的生成策略

2. 令牌级奖励学习

从偏好数据中学习令牌级奖励函数:

  • 使用类似DPO的方法,但在令牌级别操作
  • 奖励函数捕获每个令牌对整体偏好的贡献
  • 避免了传统RLHF中显式训练奖励模型的需求

3. 策略优化

基于学习到的令牌级奖励进行策略优化:

  • 采用PPO风格的策略梯度方法
  • 在令牌级别进行价值估计和优势函数计算
  • 使用KL散度约束防止策略偏离过远

4. 训练稳定性

通过以下机制提高训练稳定性:

  • 令牌级别的奖励分配减少了梯度方差
  • 参考策略约束防止过度优化
  • 自适应学习率调整

实验结果

RTO在多个基准测试上展现出优异性能:

1. 对话质量评估

  • AlpacaEval 2:

    • RTO相比PPO提升7.5个百分点
    • 在多轮对话中表现尤为突出
    • 生成的回答更符合人类偏好
  • Arena-Hard:

    • 比PPO高4.1个百分点
    • 在具有挑战性的任务上表现更好

2. 训练效率

  • 收敛速度比PPO快约30%
  • 训练过程更加稳定,奖励曲线波动更小
  • GPU内存使用与DPO相当,显著低于PPO

3. 泛化能力

  • 在未见过的任务上表现良好
  • 对prompt变化具有较强的鲁棒性
  • 不容易出现过拟合现象

4. 消融实验

  • 令牌级奖励相比句子级奖励提升明显
  • MDP建模对性能提升至关重要
  • 两阶段训练策略优于端到端训练

个人评价

RTO代表了RLHF方法的重要进展,成功地结合了DPO和PPO的优势。

创新点:

  1. 首次将RLHF正式建模为MDP,为令牌级优化提供了理论基础
  2. 巧妙地结合了DPO的稳定性和PPO的细粒度优化能力
  3. 令牌级奖励学习避免了显式奖励模型训练的复杂性

优势:

  1. 显著的性能提升,在多个基准测试上超越现有方法
  2. 训练稳定性好,收敛速度快
  3. 实现相对简单,代码已开源
  4. 理论基础扎实,基于MDP建模

潜在局限:

  1. 令牌级优化的计算开销可能比句子级高
  2. 需要足够的偏好数据来学习准确的令牌级奖励
  3. 超参数调整可能需要一些经验

实践建议:

  • 适用于需要高质量对话生成的场景
  • 对于计算资源充足的团队,可以替代传统PPO
  • 建议从作者提供的代码开始,逐步调整到自己的场景

这是一篇理论和实践结合得很好的论文,对RLHF领域的研究者和实践者都有重要参考价值。


评分: 4.1/5.0

代码仓库: GitHub - zkshan2002/RTO

技术亮点: token-level reward, MDP modeling, unified DPO-PPO framework, training stability

适用场景: 对话系统、内容生成、RLHF训练优化

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero