DPO全景图:从理论到实践的完整指南

DPO全景图:从理论到实践的完整指南 ArXiv ID: 2410.15595作者: Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Zongrui Li, Ruirui Lei, Wanggui He, Luu Anh Tuan, Long Chen, Hao Jiang, Zhou Zhao, Fei Wu机构: Zhejiang University发布日期: 2024-10-21最后更新: 2025-07-14 摘要在大语言模型(LLM)的训练旅程中,让模型”听懂人话”一直是个难题。传统的RLHF(基于人类反馈的强化学习)虽然效果不错,但就像用大炮打蚊子——复杂、昂贵、还容易翻车。你需要训练一个奖励模型(Reward Model),然后用PPO等强化学习算法反复迭代,整个过程既耗时又吃资源。 DPO(Direct Pref...

阅读全文

理解偏好学习中的性能差距:RLHF与DPO的二分法分析

Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO ArXiv ID: 2505.19770作者: Ruizhe Shi, Minhak Song, Runlong Zhou, Zihan Zhang, Maryam Fazel, Simon S. Du发布日期: 2025年5月26日最后更新: 2025年10月3日 摘要本文对强化学习人类反馈(RLHF)和直接偏好优化(DPO)之间的性能差距进行了精细的理论分析。研究将性能差距分解为两个来源,并在精确优化和有限样本优化场景下进行分析。结果显示,根据模型误规范的类型,RLHF、DPO或在线DPO可能各自表现更优。值得注意的是,当奖励模型类和策略模型类同构且都存在误规范时,在线DPO可以同时优于RLHF和标准DPO。...

阅读全文

DPO遇见PPO:RLHF的强化令牌优化

DPO Meets PPO: Reinforced Token Optimization for RLHF ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang发布日期: 2025年4月29日最后更新: 2025年5月21日 摘要在经典的强化学习人类反馈(RLHF)框架中,近端策略优化(PPO)用于从稀疏的句子级奖励中学习。然而,PPO面临训练不稳定性和样本效率低等挑战。另一方面,直接偏好优化(DPO)提供了稳定的训练过程,但也存在句子级优化的局限性。本文引入了强化令牌优化(RTO)算法,将RLHF问题建模为马尔可夫决策过程(MDP),捕获细粒度的令牌级信息。RTO结合了DPO和PPO的优势,...

阅读全文

直接偏好优化的主动学习

直接偏好优化的主动学习论文概述本文是一篇关于大语言模型的优化方法论文,由 B 等89位研究者共同完成。 研究目标本研究的主要目标包括: 适用于在线和离线设置的直接偏好优化新型主动学习框架 在神经网络最后一层线性化直接偏好优化目标以实现高效计算 采用 D-最优设计方法选择最具信息量的偏好反馈 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述该方法在神经网络表示的最后一层线性化直接偏好优化目标,使得能够计算偏好反馈收集的 D-最优设计。这个数学框架允许原则性地选择最具信息量的反馈对。对于在线设置,算法主动选择向人类评估者呈现哪...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero