Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
ArXiv ID: 2508.01191作者: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu发布日期: 2025-08-13
摘要链式思维(CoT)提示已成为增强大语言模型推理能力的强大技术。然而,一个根本问题仍然存在:CoT代表真正的推理能力,还是仅仅是从训练数据中学到的复杂模式匹配?本文从数据分布视角研究CoT推理,系统考察大语言模型是否能将CoT推理泛化到训练分布之外。我们开发了DataAlchemy,一个用于跨三个维度(任务复杂度、推理链长度、输出格式)训练和探测大语言模型...
LLM的链式思维推理是海市蜃楼吗?从数据分布视角的分析
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
ArXiv ID: 2508.01191作者: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu发布日期: 2025年8月2日最后更新: 2025年8月13日
摘要链式思维(Chain-of-Thought, CoT)提示已被证明能够提升大语言模型(LLM)的性能。然而,本文质疑CoT推理是否真的如表面所示那样深入,还是仅仅是一种表面现象。通过数据分布的视角,研究者开发了”DataAlchemy”研究环境来调查CoT推理。研究揭示,CoT推理实际上是”脆弱的”,高度依赖于训练数据的分布...
DeepSeek-R1-0528 - DeepSeek 大型语言模型
DeepSeek-R1-0528 - DeepSeek 大型语言模型模型概述DeepSeek-R1-0528 是 DeepSeek 公司于 2025 年 5月发布的大型语言模型,拥有 671B total (MoE) 参数规模。 具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-R1-0528 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 599.4K,获得了 2,377 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-R1-0528 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领...
揭秘大语言模型中的长链思维推理
Demystifying Long Chain-of-Thought Reasoning in LLMs
ArXiv ID: 2502.03373作者: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue发布日期: 2025-02-05
摘要扩展推理计算能够增强大语言模型(LLM)的推理能力,长链思维(CoT)使回溯和错误纠正等策略成为可能。本文系统研究了长链思维推理的机制,揭示了四个主要发现:(1)监督微调(SFT)简化训练并缓解强化学习中的奖励攻击问题;(2)推理能力随着训练和推理阶段计算量的增加而涌现;(3)扩展可验证的奖励信号对于强化学习解锁长链思维推理至关重要;(4)错误纠正等核心能力存在于基础模型中,但需要适当的训练才能激活。我们的发现为训练长形式推理的大语言模型提供了洞察,并展示了训练和推理时的计算...
DeepSeek-R1 - DeepSeek 大型语言模型
DeepSeek-R1 - DeepSeek 大型语言模型模型概述DeepSeek-R1 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型,拥有 671B total (MoE) 参数规模。 具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-R1 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 548.2K,获得了 12,773 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-R1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特...
OpenAI o1-preview - OpenAI 大型语言模型
OpenAI o1-preview - OpenAI 大型语言模型模型概述OpenAI o1-preview 是 OpenAI 公司于 2024 年 9月发布的大型语言模型。 具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 OpenAI o1-preview 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Advanced chain:of-thought reasoning before answering
PhD:level performance on physics, chemistry, and biology benc...
无需提示的链式思维推理
Chain-of-Thought Reasoning Without Prompting
ArXiv ID: 2402.10200作者: Xuezhi Wang, Denny Zhou发布日期: 2024-02-15
摘要大语言模型(LLM)能否在没有链式思维(CoT)等提示技术的情况下有效推理?本文揭示了一个令人惊讶的发现:CoT推理路径本质上就存在于大语言模型中,只需改变解码过程就能引出,无需任何提示。与选择最可能下一个标记的标准贪婪解码不同,我们研究了top-k序列中的替代标记。我们的实验表明,这些替代路径经常包含CoT风格的推理,即使模型没有被明确提示进行逐步推理。我们展示了替代序列中CoT路径的存在与模型置信度相关,并且模型通常具有在默认贪婪输出中未表达的内在推理能力。这一发现具有重要意义:它表明大语言模型拥有可通过解码策略而非提示工程访问的潜在推理能力,并提供了一种在没...
提示工程一个提示工程师
论文概述这项工作通过构建元提示来研究”提示工程一个提示工程师”,这些元提示更有效地引导大型语言模型执行自动提示工程。提出的 PE2 方法引入了关键组件,如逐步推理模板和上下文规范,以及优化概念的语言化对应物(批量大小、步长、动量),以改进自动提示工程性能。
论文信息:
发布时间:2023-11-09
作者:Qinyuan Ye, Maxamed Axmed, Reid Pryzant等
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:元提示(Meta-Prompting)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法
研究动机本研究旨在探索更有效的提示工程技术,提升大型语言模型...
思维树:大型语言模型的审慎问题解决
论文概述思维树(Tree of Thoughts, ToT)是一个突破性框架,它通过允许语言模型通过树结构搜索探索多条推理路径,从而推广了思维链(Chain of Thought)方法。与 CoT 的线性逐token生成不同,ToT 允许大型语言模型通过考虑多条不同的推理路径、自我评估选择,以及在必要时回溯来进行审慎的决策制定,以做出全局性选择。这使得能够解决需要探索、战略性前瞻或初始决策起关键作用的复杂任务。
论文信息:
发布时间:2023-05-17
作者:Shunyu Yao, Dian Yu, Jeffrey Zhao等
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:思维树(Tree of Thoughts)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方...
从标注数据自动增强和选择思维链提示
论文概述Automate-CoT解决了手动思维链提示工程的挑战,通过从标注的训练数据自动生成和选择高质量的理性推理链。它使用机器生成的理性推理配合方差减少的策略梯度优化来选择最优的提示组合,消除了对人工标注推理链的需求,同时达到最先进的性能。
论文信息:
发布时间:2023-02-24
作者:KaShun Shum, Shizhe Diao, Tong Zhang
机构:Hong Kong University of Science and Technology, University of Illinois Urbana-Champaign
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:自动思维链 (Automatic CoT)
研究背景思维链提示在推理任务上表现出色,但手工制作高质量的推理链需要大量...
ReAct: 在语言模型中协同推理与行动
论文概述ReAct引入了一种范式,其中大型语言模型以交错的方式生成推理轨迹和特定任务的行动,在两种能力之间创造协同效应。推理轨迹帮助模型推导、跟踪和更新行动计划,同时处理异常情况,而行动允许它与外部源(如知识库或环境)交互以收集额外信息。这种方法克服了纯推理或纯行动方法的局限性,在可解释性和可信度方面取得了显著改进。
论文信息:
发布时间:2022-10-06
作者:Shunyu Yao, Jeffrey Zhao, Dian Yu等
机构:Princeton University, Google Research
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:推理与行动协同 (ReAct)
研究背景大型语言模型在各类任务中展现出强大的能力,但纯推理方法容易产生幻觉,而纯行动方法缺乏规划能力。本研究针对...
自洽性改进语言模型中的思维链推理
论文概述本论文提出了自洽性 (Self-Consistency),这是一种新颖的解码策略,通过替换朴素的贪婪解码显著改进思维链提示。自洽性不是只采用贪婪路径,而是采样一组多样化的推理路径,并通过对采样路径进行边缘化来选择最一致的答案。这利用了一个直觉:复杂的推理问题通常允许多种不同的思考方式,但都导向唯一的正确答案,在多个推理基准测试中实现了显著的性能提升。
论文信息:
发布时间:2022-03-21
作者:Xuezhi Wang, Jason Wei, Dale Schuurmans等
机构:Google Research
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:自洽性 (Self-Consistency)
研究背景大型语言模型在思维链提示下展现出强大的推理能力,但单次生成的结果可能不稳定。本研...
思维链提示激发大型语言模型的推理能力
论文概述思维链 (Chain-of-Thought, CoT) 提示是一项突破性技术,通过生成中间推理步骤显著提高大型语言模型的推理能力。本论文展示了如何通过简单的少样本提示配合推理链,在算术、常识和符号推理任务上实现突破性性能,而无需任何模型微调。CoT已成为现代大型语言模型应用中的基础技术之一。
论文信息:
发布时间:2022-01-28
作者:Jason Wei, Xuezhi Wang, Dale Schuurmans等
机构:Google Research, Google Brain
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:思维链 (Chain-of-Thought)
研究背景大型语言模型在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
...
展示你的工作:使用语言模型草稿本进行中间计算
论文概述这项来自Google Research的开创性工作引入了”草稿本”(scratchpad)技术,通过训练transformer输出中间计算步骤,极大地提高了它们执行复杂多步骤计算的能力。通过要求语言模型”逐步”展示其工作过程,该方法使LM能够解决从长加法到执行任意程序等以前难以处理的任务。
论文信息:
发布时间:2021-11-30
作者:Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari等
机构:Google Research
研究方向:提示工程、LLM推理
核心技术:思维链(Chain-of-Thought)
研究背景语言模型在单步预测任务上表现出色,但在需要多步计算的复杂任务上遇到困难。本研究针对以下问题展开:
现有问题
语言模型难以执行需要多步骤的复杂计算
模型的中间推理过程不可见,难以调试和理解
长序列计算容易出错...