大型语言模型作为类比推理器

Posted on 十月 3, 2023

论文概述

受人类类比推理的启发，本文介绍了类比提示（Analogical Prompting），这是一种新颖的方法，提示大型语言模型在解决问题之前自我生成相关的范例和知识。与需要手动制作示例的传统 CoT 不同，类比提示使大型语言模型能够从其内部知识中提取以创建针对问题的演示，无需标注的范例即可实现卓越性能。

论文信息：

发布时间：2023-10-03
作者：Michihiro Yasunaga, Xinyun Chen, Yujia Li等
机构：Google DeepMind，斯坦福大学
研究方向：提示工程，大型语言模型推理
核心技术：类比推理（Analogical Reasoning）

研究背景

大型语言模型（LLM）在各类任务中展现出强大的能力，但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开：

现有问题

传统提示方法在复杂推理任务上表现不佳
模型难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法

研究动机

本研究旨在探索更有效的提示工程技术，提升大型语言模型在推理任务上的表现，特别关注类比推理、类比提示、自我生成等关键技术。

核心方法

方法概述

类比提示分两个主要阶段工作：（1）自我生成：给定一个问题，提示大型语言模型从其训练知识中回忆并生成相关的过去经验或范例。这模仿了人类如何从类似的过去问题中提取类比。（2）问题解决：使用自我生成的范例作为上下文，大型语言模型然后继续解决目标问题。关键洞察是模型可以自适应地创建针对每个特定问题量身定制的演示，而不是使用固定的范例。这种方法结合了少样本学习（有示例）的好处和零样本学习（无需手动标注）的灵活性。

本方法的核心在于通过结构化的提示设计，引导大型语言模型展现出更强的推理能力，无需额外的模型训练或微调。

关键创新点

创新 1：引入了类比提示，一种受人类认知过程启发的新颖自我生成方法

创新 2：消除了在提示中对手动标注或检索范例的需求

创新 3：使大型语言模型能够自动生成针对问题的、量身定制的范例

创新 4：在多样化的推理任务上实现了优于 0-样本 CoT 和手动少样本 CoT 的卓越性能

创新 5：在数学推理（GSM8K、MATH）、代码生成（Codeforces）和其他推理任务（BIG-Bench）上展示了强大的结果

创新 6：表明自我生成的范例可以比手动制作的更有效

创新 7：提供了证据表明大型语言模型可以通过适当的提示有效利用自己的知识

技术特点

系统化设计：提供完整的方法论框架，可复现性强
广泛适用性：适用于多种推理任务（算术、常识、符号推理等）
零成本实现：无需模型微调，仅需调整提示格式
显著性能提升：在多个基准测试上取得突破性结果
可组合性：可与其他提示工程技术组合使用

实验结果

基准测试性能

跨多个推理领域的综合评估：（1）数学推理：GSM8K（小学数学）和 MATH（竞赛级问题）；（2）代码生成：Codeforces 编程挑战；（3）一般推理：BIG-Bench 任务。结果显示，类比提示以显著优势优于 0-样本 CoT，甚至在许多情况下超越手动少样本 CoT。例如，在 GSM8K 上，它实现了比两个基线都更高的准确率，同时不需要手动范例创建。该方法在不同问题类型和领域展示了强大的泛化能力，表明它挖掘了大型语言模型的基本推理能力。消融研究证实了自我生成和问题解决阶段都对性能提升做出了贡献。

性能分析

实验结果表明，该方法在多个主流基准测试上都取得了显著的性能提升，特别是在需要复杂推理的任务上表现突出。

关键发现

性能提升显著：在多个基准测试中取得了最先进（SOTA）或接近最先进的结果
规模效应明显：模型参数规模对方法效果有重要影响，通常需要 >100B 参数才能充分发挥效果
推理质量关键：生成的推理步骤质量直接影响最终结果的准确性
任务泛化性强：同一方法可以应用于不同类型的推理任务

实际应用

适用场景

数学推理：解决复杂的数学问题，包括应用题和逻辑题
常识推理：回答需要常识知识的问题
符号推理：处理逻辑符号和规则推理任务
编程问题：代码生成和算法设计

实现建议

在实际项目中应用类比推理时，建议：

选择合适的示例：准备高质量的少样本示例，展示完整的推理过程
控制步骤粒度：根据问题复杂度调整推理步骤的详细程度
迭代优化：根据输出质量不断调整提示格式和示例
结合其他技术：可与自洽性（Self-Consistency）等技术组合使用以提高稳定性

代码示例

# 基本提示模板
prompt_template = '''
问题：{question}

让我们逐步思考：
1. [第一步推理]
2. [第二步推理]
3. [得出结论]

答案：{answer}
'''