面向连续空间推理的推理时扩展论文信息
标题: Towards Inference-time Scaling for Continuous Space Reasoning
作者: Minghan Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari
发布日期: 2025-10-14
ArXiv链接: https://arxiv.org/abs/2510.12167
核心概述通过结合过程或结果奖励模型(PRM或ORM)重排序的多样本生成,推理时扩展已被证明对大型语言模型的文本推理有效。本文研究是否可以将这些成熟技术成功应用于连续空间推理,使用COCONUT连续空间推理语言模型作为骨干。
研究系统评估了推理时扩展技术在连续空间推理任务中的表现,如科学计算、物理模拟和几何问题求解。与离散文本推理不同,连续空间推理涉及数值计算和空间关...
测试时扩展在知识密集型任务中尚不有效
测试时扩展在知识密集型任务中尚不有效论文信息
标题: Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet
作者: James Xu Zhao, Bryan Hooi, See-Kiong Ng
发布日期: 2025-09-08
ArXiv链接: https://arxiv.org/abs/2509.06861
核心概述测试时扩展通过允许模型生成长推理链来增加推理时计算,在许多领域展现出强大性能。然而,本研究表明,这种方法对于需要高事实准确性和低幻觉率的知识密集型任务尚不有效。
研究系统评估了测试时扩展技术在知识密集型任务上的表现,如开放域问答、事实核查和专业领域查询。实验使用多个先进推理模型,包括o1-preview、o1-mini等,在WikiQA、Tri...