迈向评估性思维: 基于演化奖励模型的元策略优化论文概述本文是一篇关于奖励模型的优化方法论文,由 Zae Myung Kim 等4位研究者共同完成。
元策略优化(MPO)解决了大语言模型基于奖励对齐的两个关键限制:对奖励欺骗的脆弱性以及对奖励模型提示工程的依赖性(既脆弱又劳动密集)。MPO引入了一个元奖励模型,在训练过程中动态优化奖励模型的提示,监控不断演化的训练上下文并持续调整提示以保持高度对齐。这种元学习方法提供了抵抗策略利用的自适应奖励信号,同时大大减少了手动奖励提示设计的工作量。MPO实现了与广泛手工制作的奖励提示引导的模型相当或更好的性能,并且在不同任务中保持有效性,无需专门的奖励设计。
研究目标本研究的主要目标包括:
引入具有元奖励模型的元策略优化(MPO)框架,用于动态提示优化
通过自适应奖励信号调整解决奖励欺骗脆弱性
消除大量手动奖励提示工程的需求
研究背景当前挑战...
揭秘大语言模型中的长链思维推理
Demystifying Long Chain-of-Thought Reasoning in LLMs
ArXiv ID: 2502.03373作者: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue发布日期: 2025-02-05
摘要扩展推理计算能够增强大语言模型(LLM)的推理能力,长链思维(CoT)使回溯和错误纠正等策略成为可能。本文系统研究了长链思维推理的机制,揭示了四个主要发现:(1)监督微调(SFT)简化训练并缓解强化学习中的奖励攻击问题;(2)推理能力随着训练和推理阶段计算量的增加而涌现;(3)扩展可验证的奖励信号对于强化学习解锁长链思维推理至关重要;(4)错误纠正等核心能力存在于基础模型中,但需要适当的训练才能激活。我们的发现为训练长形式推理的大语言模型提供了洞察,并展示了训练和推理时的计算...