Demystifying Long Chain-of-Thought Reasoning in LLMs
ArXiv ID: 2502.03373作者: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue发布日期: 2025-02-05
摘要扩展推理计算能够增强大语言模型(LLM)的推理能力,长链思维(CoT)使回溯和错误纠正等策略成为可能。本文系统研究了长链思维推理的机制,揭示了四个主要发现:(1)监督微调(SFT)简化训练并缓解强化学习中的奖励攻击问题;(2)推理能力随着训练和推理阶段计算量的增加而涌现;(3)扩展可验证的奖励信号对于强化学习解锁长链思维推理至关重要;(4)错误纠正等核心能力存在于基础模型中,但需要适当的训练才能激活。我们的发现为训练长形式推理的大语言模型提供了洞察,并展示了训练和推理时的计算...