DPO Meets PPO: Reinforced Token Optimization for RLHF
ArXiv ID: 2404.18922
作者: Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang
发布日期: 2025年4月29日
最后更新: 2025年5月21日
摘要
在经典的强化学习人类反馈(RLHF)框架中,近端策略优化(PPO)用于从稀疏的句子级奖励中学习。然而,PPO面临训练不稳定性和样本效率低等挑战。另一方面,直接偏好优化(DPO)提供了稳定的训练过程,但也存在句子级优化的局限性。本文引入了强化令牌优化(RTO)算法,将RLHF问题建模为马尔可夫决策过程(MDP),捕获细粒度的令牌级信息。RTO结合了DPO和PPO的优势,在AlpacaEval 2上比PPO高出7.5个百分点,在Arena-Hard上高出4.1个百分点。
论文信息
- ArXiv ID: 2404.18922
- 提交日期: 2025年4月29日
- 最后更新: 2025年5月21日
- 分类: cs.LG, cs.AI, cs.CL
- 代码仓库: GitHub
主要贡献
MDP建模: 首次将RLHF问题正式建模为马尔可夫决策过程,使得可以捕获令牌级的细粒度信息。
RTO算法: 提出了强化令牌优化算法,从偏好数据中学习令牌级奖励函数,并基于此进行策略优化。
统一框架: 将DPO和PPO统一在一个框架下,结合了两者的优势:DPO的稳定训练和PPO的细粒度优化能力。
显著性能提升:
- AlpacaEval 2: 比PPO高7.5个百分点
- Arena-Hard: 比PPO高4.1个百分点
- 训练稳定性显著提高
开源实现: 提供了完整的代码实现,便于研究和应用。
方法概述
RTO的核心思想是在令牌级别进行强化学习优化:
1. MDP建模
将文本生成过程建模为MDP:
- 状态(State): 当前已生成的令牌序列
- 动作(Action): 下一个要生成的令牌
- 奖励(Reward): 令牌级别的奖励信号
- 策略(Policy): 语言模型的生成策略
2. 令牌级奖励学习
从偏好数据中学习令牌级奖励函数:
- 使用类似DPO的方法,但在令牌级别操作
- 奖励函数捕获每个令牌对整体偏好的贡献
- 避免了传统RLHF中显式训练奖励模型的需求
3. 策略优化
基于学习到的令牌级奖励进行策略优化:
- 采用PPO风格的策略梯度方法
- 在令牌级别进行价值估计和优势函数计算
- 使用KL散度约束防止策略偏离过远
4. 训练稳定性
通过以下机制提高训练稳定性:
- 令牌级别的奖励分配减少了梯度方差
- 参考策略约束防止过度优化
- 自适应学习率调整
实验结果
RTO在多个基准测试上展现出优异性能:
1. 对话质量评估
AlpacaEval 2:
- RTO相比PPO提升7.5个百分点
- 在多轮对话中表现尤为突出
- 生成的回答更符合人类偏好
Arena-Hard:
- 比PPO高4.1个百分点
- 在具有挑战性的任务上表现更好
2. 训练效率
- 收敛速度比PPO快约30%
- 训练过程更加稳定,奖励曲线波动更小
- GPU内存使用与DPO相当,显著低于PPO
3. 泛化能力
- 在未见过的任务上表现良好
- 对prompt变化具有较强的鲁棒性
- 不容易出现过拟合现象
4. 消融实验
- 令牌级奖励相比句子级奖励提升明显
- MDP建模对性能提升至关重要
- 两阶段训练策略优于端到端训练
个人评价
RTO代表了RLHF方法的重要进展,成功地结合了DPO和PPO的优势。
创新点:
- 首次将RLHF正式建模为MDP,为令牌级优化提供了理论基础
- 巧妙地结合了DPO的稳定性和PPO的细粒度优化能力
- 令牌级奖励学习避免了显式奖励模型训练的复杂性
优势:
- 显著的性能提升,在多个基准测试上超越现有方法
- 训练稳定性好,收敛速度快
- 实现相对简单,代码已开源
- 理论基础扎实,基于MDP建模
潜在局限:
- 令牌级优化的计算开销可能比句子级高
- 需要足够的偏好数据来学习准确的令牌级奖励
- 超参数调整可能需要一些经验
实践建议:
- 适用于需要高质量对话生成的场景
- 对于计算资源充足的团队,可以替代传统PPO
- 建议从作者提供的代码开始,逐步调整到自己的场景
这是一篇理论和实践结合得很好的论文,对RLHF领域的研究者和实践者都有重要参考价值。
评分: 4.1/5.0
代码仓库: GitHub - zkshan2002/RTO
技术亮点: token-level reward, MDP modeling, unified DPO-PPO framework, training stability
适用场景: 对话系统、内容生成、RLHF训练优化