Key Contributions
- 引入了用于自适应推理时计算分配的AB-MCTS框架
- 动态平衡”更宽”探索与”更深”改进策略
- 通过有原则的多轮探索/利用泛化了重复采样
- 优于重复采样和标准MCTS基线
- 证明了结合响应多样性与解决方案改进的重要性
Methodology
AB-MCTS作为一种树搜索运行,其中每个节点代表一个部分解决方案。在每个节点,算法基于外部反馈信号自适应地决定是扩展新的候选响应(变宽)还是重新访问并改进现有响应(变深)。这种动态策略能够根据问题特征高效分配推理时计算资源。
Experiments
在具有外部反馈机制的任务上进行评估,特别是编码任务。实证结果表明,AB-MCTS持续优于重复采样(纯宽度)和标准MCTS方法。自适应分支策略对于需要解决方案空间探索和迭代改进的任务特别有效。
Evaluation Notes
这是一项及时的工作,解决了推理时扩展中更宽与更深的关键问题。AB-MCTS框架提供了一个有原则的解决方案,并具有强大的实证结果。被ICLR 2025 Workshop和NeurIPS 2025 Spotlight接收,表明质量很高。作为2025年的论文,引用量预计会增长。鉴于近期对测试时计算扩展的兴趣(例如OpenAI o1),该论文特别相关。