从标注数据自动增强和选择思维链提示

Posted on 二月 24, 2023

论文概述

Automate-CoT解决了手动思维链提示工程的挑战，通过从标注的训练数据自动生成和选择高质量的理性推理链。它使用机器生成的理性推理配合方差减少的策略梯度优化来选择最优的提示组合，消除了对人工标注推理链的需求，同时达到最先进的性能。

论文信息：

发布时间：2023-02-24
作者：KaShun Shum, Shizhe Diao, Tong Zhang
机构：Hong Kong University of Science and Technology, University of Illinois Urbana-Champaign
研究方向：提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术：自动思维链 (Automatic CoT)

研究背景

思维链提示在推理任务上表现出色，但手工制作高质量的推理链需要大量专业知识和时间。本研究针对以下问题展开：

现有问题

手工编写推理链需要大量人工标注工作
推理链的质量直接影响最终性能
缺乏自动化的推理链生成和选择方法

研究动机

本研究旨在探索自动化的思维链提示工程方法，通过从标注数据自动生成和选择推理链，降低人工成本并提升性能，特别关注思维链 (chain-of-thought)、自动提示工程 (automatic-prompt-engineering)、Automate-CoT等关键技术。

核心方法

方法概述

Automate-CoT在三个主要阶段运行：(1) 理性推理链生成：使用大型语言模型为每个训练样本生成多个候选理性推理链，通过答案正确性过滤，构建高质量机器生成理性推理的池；(2) 推理链剪枝：根据标签一致性和其他质量指标删除低质量推理链；(3) 提示选择：采用方差减少的策略梯度策略以黑盒方式估计每个理性推理链的重要性，并为提示选择最优组合。策略梯度方法将提示选择视为强化学习问题，允许系统在不访问模型内部的情况下找到有效的组合。这个自动化过程只需要标注数据（问题和答案），无需人工标注的推理步骤。

本方法的核心在于通过自动化减少对人工标注的依赖，同时保持或提升性能。

关键创新点

创新 1：引入Automate-CoT框架，从标注数据自动进行思维链提示工程

创新 2：通过从大型语言模型采样并按正确性过滤来自动生成理性推理链

创新 3：开发方差减少的策略梯度策略用于最优提示选择

创新 4：消除思维链提示中对人工标注推理链的需求

创新 5：在算术推理上达到最先进结果（+2.7%提升）

创新 6：在常识推理上显著改进（+3.4%）和符号推理（+3.2%）

创新 7：在非推理任务上也有效（+2.5%提升）

创新 8：创建机器生成理性推理的候选池用于黑盒优化

创新 9：使思维链技术能够快速适应有标注数据的新任务

技术特点

全自动化：无需人工标注推理链
黑盒优化：使用策略梯度进行提示选择
质量保证：通过答案验证确保推理链质量
广泛适用：适用于多种推理和非推理任务
快速适应：可快速为新任务生成提示

实验结果

Benchmark 性能

在多个推理领域进行了全面评估：(1) 算术推理：GSM8K、SVAMP、MultiArith - 相比基线平均提升+2.7%；(2) 常识推理：CommonsenseQA、StrategyQA - 提升+3.4%；(3) 符号推理：Date Understanding、Shuffled Objects - 提升+3.2%；(4) 非推理任务：情感分析、自然语言推理 - 提升+2.5%。实验使用多个大型语言模型包括GPT-3变体来验证泛化性。消融研究证实了自动生成和选择性组合两个组件的重要性。与人工制作的思维链提示相比，Automate-CoT在不需要手动标注工作的情况下达到可比或更优的性能。

性能分析

实验结果表明，该方法在多个主流基准测试上都取得了显著的性能提升，特别是在算术、常识和符号推理任务上表现突出。

关键发现

自动化有效：自动生成的推理链可以达到甚至超过人工标注的效果
选择关键：策略梯度优化的提示选择显著提升性能
泛化性强：方法适用于不同类型的任务
成本降低：大幅减少人工标注成本

实际应用

适用场景

新任务快速部署：有标注数据但缺少推理链标注
成本敏感项目：需要降低人工标注成本
大规模应用：需要为多个任务生成提示
持续优化：需要根据新数据自动更新提示

实现建议

在实际项目中应用自动思维链时，建议：

准备标注数据：确保有足够的问题-答案对
生成多样性：为每个样本生成多个候选推理链
质量过滤：严格过滤错误的推理链
优化选择：使用策略梯度找到最佳提示组合

代码示例

# Automate-CoT实现框架
class AutomateCoT:
    def __init__(self, model, train_data):
        self.model = model
        self.train_data = train_data

    def generate_rationales(self, question, num_samples=5):
        """为问题生成多个候选推理链"""
        rationales = []
        for _ in range(num_samples):
            prompt = f"问题: {question}\n让我们逐步思考:\n"
            rationale = self.model.generate(prompt, temperature=0.7)
            rationales.append(rationale)
        return rationales

    def filter_by_correctness(self, question, rationales, correct_answer):
        """过滤得到正确答案的推理链"""
        valid_rationales = []
        for rationale in rationales:
            answer = extract_answer(rationale)
            if answer == correct_answer:
                valid_rationales.append(rationale)
        return valid_rationales

    def select_prompts(self, rationale_pool, val_data):
        """使用策略梯度选择最优提示组合"""
        # 策略梯度优化
        best_prompts = policy_gradient_optimization(
            rationale_pool, val_data, self.model
        )
        return best_prompts