DPO遇见PPO:RLHF的强化令牌优化

Posted on 四月 29, 2025

DPO Meets PPO: Reinforced Token Optimization for RLHF

ArXiv ID: 2404.18922
作者: Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang
发布日期: 2025年4月29日
最后更新: 2025年5月21日

摘要

在经典的强化学习人类反馈(RLHF)框架中,近端策略优化(PPO)用于从稀疏的句子级奖励中学习。然而,PPO面临训练不稳定性和样本效率低等挑战。另一方面,直接偏好优化(DPO)提供了稳定的训练过程,但也存在句子级优化的局限性。本文引入了强化令牌优化(RTO)算法,将RLHF问题建模为马尔可夫决策过程(MDP),捕获细粒度的令牌级信息。RTO结合了DPO和PPO的优势,在AlpacaEval 2上比PPO高出7.5个百分点,在Arena-Hard上高出4.1个百分点。

论文信息

ArXiv ID: 2404.18922
提交日期: 2025年4月29日
最后更新: 2025年5月21日
分类: cs.LG, cs.AI, cs.CL
代码仓库: GitHub

主要贡献

MDP建模: 首次将RLHF问题正式建模为马尔可夫决策过程,使得可以捕获令牌级的细粒度信息。
RTO算法: 提出了强化令牌优化算法,从偏好数据中学习令牌级奖励函数,并基于此进行策略优化。
统一框架: 将DPO和PPO统一在一个框架下,结合了两者的优势:DPO的稳定训练和PPO的细粒度优化能力。
显著性能提升:
- AlpacaEval 2: 比PPO高7.5个百分点
- Arena-Hard: 比PPO高4.1个百分点
- 训练稳定性显著提高
开源实现: 提供了完整的代码实现,便于研究和应用。

方法概述

RTO的核心思想是在令牌级别进行强化学习优化:

1. MDP建模

将文本生成过程建模为MDP:

状态(State): 当前已生成的令牌序列
动作(Action): 下一个要生成的令牌
奖励(Reward): 令牌级别的奖励信号
策略(Policy): 语言模型的生成策略

2. 令牌级奖励学习

从偏好数据中学习令牌级奖励函数:

使用类似DPO的方法,但在令牌级别操作
奖励函数捕获每个令牌对整体偏好的贡献
避免了传统RLHF中显式训练奖励模型的需求

3. 策略优化

基于学习到的令牌级奖励进行策略优化:

采用PPO风格的策略梯度方法
在令牌级别进行价值估计和优势函数计算
使用KL散度约束防止策略偏离过远

4. 训练稳定性

通过以下机制提高训练稳定性:

令牌级别的奖励分配减少了梯度方差
参考策略约束防止过度优化
自适应学习率调整

实验结果

RTO在多个基准测试上展现出优异性能:

1. 对话质量评估

AlpacaEval 2:
- RTO相比PPO提升7.5个百分点
- 在多轮对话中表现尤为突出
- 生成的回答更符合人类偏好
Arena-Hard:
- 比PPO高4.1个百分点
- 在具有挑战性的任务上表现更好

2. 训练效率

收敛速度比PPO快约30%
训练过程更加稳定,奖励曲线波动更小
GPU内存使用与DPO相当,显著低于PPO

3. 泛化能力

在未见过的任务上表现良好
对prompt变化具有较强的鲁棒性
不容易出现过拟合现象

4. 消融实验

令牌级奖励相比句子级奖励提升明显
MDP建模对性能提升至关重要
两阶段训练策略优于端到端训练

个人评价

RTO代表了RLHF方法的重要进展,成功地结合了DPO和PPO的优势。

创新点:

首次将RLHF正式建模为MDP,为令牌级优化提供了理论基础
巧妙地结合了DPO的稳定性和PPO的细粒度优化能力
令牌级奖励学习避免了显式奖励模型训练的复杂性

优势:

显著的性能提升,在多个基准测试上超越现有方法
训练稳定性好,收敛速度快
实现相对简单,代码已开源
理论基础扎实,基于MDP建模

潜在局限:

令牌级优化的计算开销可能比句子级高
需要足够的偏好数据来学习准确的令牌级奖励
超参数调整可能需要一些经验

实践建议:

适用于需要高质量对话生成的场景
对于计算资源充足的团队,可以替代传统PPO
建议从作者提供的代码开始,逐步调整到自己的场景

这是一篇理论和实践结合得很好的论文,对RLHF领域的研究者和实践者都有重要参考价值。

评分: 4.1/5.0

代码仓库: GitHub - zkshan2002/RTO

技术亮点: token-level reward, MDP modeling, unified DPO-PPO framework, training stability

适用场景: 对话系统、内容生成、RLHF训练优化