DPO遇见PPO:RLHF的强化令牌优化

DPO Meets PPO: Reinforced Token Optimization for RLHF ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang发布日期: 2025年4月29日最后更新: 2025年5月21日 摘要在经典的强化学习人类反馈(RLHF)框架中,近端策略优化(PPO)用于从稀疏的句子级奖励中学习。然而,PPO面临训练不稳定性和样本效率低等挑战。另一方面,直接偏好优化(DPO)提供了稳定的训练过程,但也存在句子级优化的局限性。本文引入了强化令牌优化(RTO)算法,将RLHF问题建模为马尔可夫决策过程(MDP),捕获细粒度的令牌级信息。RTO结合了DPO和PPO的优势,...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero