论文概述这项研究提出了一种全新的语言模型架构,通过在潜在空间中进行隐式推理来实现测试时计算的扩展。与传统方法通过生成更多token来扩展推理能力不同,该模型采用了循环块迭代的创新设计,能够在测试时展开至任意深度,从而在不增加输出长度的情况下显著提升推理能力。研究团队将概念验证模型扩展到35亿参数,在计算效率上达到相当于500亿参数传统模型的水平,且无需专门训练数据,可在小上下文窗口下工作。
论文信息:
发布时间:2025-02-07
作者:Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein
研究方向:提示工程 (Prompt Engineerin...