论文概述
这篇 Google Research 论文提供了基于 AI 反馈的强化学习(RLAIF)与传统 RLHF 之间的首次全面实证比较,证明 AI 生成的偏好标签可以以大幅降低的成本匹配人类反馈质量。在三个任务(摘要、有帮助的对话、无害对话)中,RLAIF 实现了与 RLHF 相当的性能,人类评估者对两者同样偏好(约 70% 优于监督基线)。关键创新是使用现成的大型语言模型生成偏好标签,而不是昂贵的人工标注,并引入了直接 RLAIF(d-RLAIF),该方法在 RL 期间直接从大型语言模型获取奖励,无需训练单独的奖励模型,实现了卓越的性能。该工作发表于 ICML 2024,验证了 RLAIF 作为 RLHF 的可扩展替代方案,将标注成本降低了 10 倍以上,同时保持对齐质量。
论文信息:
- 发布时间:2023-09-01
- 作者:Harrison Lee, Samrat Phatale, Hassan Mansoor等
- 机构:Google Research,Google DeepMind
- 研究方向:提示工程,大型语言模型推理
- 核心技术:对齐方法(Alignment Methods)
研究背景
大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
- 传统提示方法在复杂推理任务上表现不佳
- 模型难以处理需要多步骤推理的问题
- 缺乏系统化的推理引导方法
研究动机
本研究旨在探索更有效的提示工程技术,提升大型语言模型在推理任务上的表现,特别关注 RLAIF、RLHF、AI 反馈等关键技术。
核心方法
方法概述
RLAIF 用 AI 生成的标签替换 RLHF 管道中的人类偏好标签,同时保持其他一切相同。标准 RLHF:(1)在演示上进行监督微调(SFT),(2)收集人类偏好对(x, y_w > y_l),其中标注者标记哪个响应 y_w 比 y_l 对提示 x 更好,(3)在偏好对上训练奖励模型(RM),(4)使用 RM 奖励通过 PPO 优化策略。RLAIF 修改:第 2 步使用大型语言模型而不是人类 - 给定提示 x 和两个候选响应(y1,y2),询问现成的大型语言模型”哪个响应更好?”并提供特定任务标准(例如,对于摘要:”更准确、简洁、连贯”)。大型语言模型生成偏好标签,创建合成偏好数据集。管道的其余部分(RM 训练、PPO)保持不变。d-RLAIF 变体:完全跳过 RM 训练 - 在 PPO 期间,通过提示直接查询大型语言模型以获取每个生成响应的奖励(”给这个摘要评分 1-5”),使用大型语言模型分数作为 RL 奖励信号。这更简单(无需 RM 训练)并且通常更好(大型语言模型评分比二元 RM 更细腻)。关键设计选择:(1)AI 标注器的提示工程 - 精心设计的包含评估标准的提示可以提高标签质量;(2)宪法原则 - 为 AI 标注器对齐提供明确的指导方针(有用性、无害性);(3)标注的思维链 - 要求大型语言模型在选择偏好之前解释推理可以提高一致性;(4)处理位置偏差 - 随机化响应顺序,采样多个判断。通过人类研究进行评估,比较 RLAIF 与 RLHF 输出。
本方法的核心在于通过结构化的提示设计,引导大型语言模型展现出更强的推理能力,无需额外的模型训练或微调。
关键创新点
创新 1:提供了首次严格的实证比较,表明 RLAIF 在多个任务中实现了与 RLHF 的性能对等 - 人类评估者对 RLAIF 和 RLHF 输出同样偏好约 70% 优于基线,证明 AI 反馈可以在不损失质量的情况下替代人类反馈
创新 2:展示了显著的成本降低 - RLAIF 使用现成的大型语言模型进行偏好生成,而不是昂贵的人工标注者,将标注成本降低了超过 10 倍,同时保持对齐质量
创新 3:引入了直接 RLAIF(d-RLAIF)技术,通过在 RL 期间通过提示直接从大型语言模型获取奖励来绕过奖励模型训练,实现了优于规范 RLAIF 的性能,并进一步简化了管道
创新 4:表明即使 AI 标注器与策略模型大小相同,RLAIF 也有效 - 较小的大型语言模型可以有效地为训练类似大小的模型生成偏好标签,实现无需更大教师模型的自我改进
创新 5:在多样化的对齐任务上进行了验证:摘要(TL;DR 数据集)、有帮助的对话生成和无害对话生成,证明了 AI 反馈方法的广泛适用性
创新 6:分析了失败模式和限制:AI 标注器可能表现出偏见(例如,冗长偏好、位置偏差),但这些可以通过提示管理,并且与人类标注者偏见相当
技术特点
- 系统化设计:提供完整的方法论框架,可复现性强
- 广泛适用性:适用于多种推理任务(算术、常识、符号推理等)
- 零成本实现:无需模型微调,仅需调整提示格式
- 显著性能提升:在多个基准测试上取得突破性结果
- 可组合性:可与其他提示工程技术组合使用
实验结果
基准测试性能
在三个对齐任务上进行评估:(1)摘要(TL;DR Reddit 数据集)- RLAIF 和 RLHF 在人类评估者的约 70% 案例中都优于 SFT 基线;直接比较 RLAIF 与 RLHF 时,人类给予它们同等评分(50/50 分割),证明了性能对等;d-RLAIF 实现了 72% 对基线的偏好,优于两者;(2)有帮助的对话生成 - RLAIF 在有用性评分上与 RLHF 匹配;两者都比基线提高了约 25%;(3)无害对话生成 - RLAIF 在保持有用性的同时可比地减少了有害输出;两者都实现了约 80% 的无害性,而基线为 60%。消融研究:(a)AI 标注器大小 - 使用 PaLM-2 L(较大)作为 PaLM-2 S(较小)策略的标注器效果最好,但即使相同大小的标注器(S 标注 S)也实现了 85% 的完整 RLAIF 增益;(b)标注提示 - 思维链提示可提高标签一致性 15%;提供评估标准可提高质量;(c)d-RLAIF 与标准 RLAIF - d-RLAIF 在 2/3 任务中表现优异,可能是因为直接大型语言模型评分比二元 RM 更好地捕获细微差别;(d)位置偏差缓解 - 随机化响应顺序将偏差从 62% 降低到 51%;(e)偏好样本数量 - 每对收集 2-3 个判断可提高标签可靠性。成本分析:RLAIF 将标注成本从 30 美元/小时(人类)降低到 <0.01 美元/标签(大型语言模型推理),质量相当时降低超过 10 倍。失败模式分析:AI 标注器表现出冗长偏好(偏好较长响应)和位置偏差,但这些可以通过提示管理,并且与人类偏见相当。
性能分析
实验结果表明,该方法在多个主流基准测试上都取得了显著的性能提升,特别是在需要复杂推理的任务上表现突出。
关键发现
- 性能提升显著:在多个基准测试中取得了最先进(SOTA)或接近最先进的结果
- 规模效应明显:模型参数规模对方法效果有重要影响,通常需要 >100B 参数才能充分发挥效果
- 推理质量关键:生成的推理步骤质量直接影响最终结果的准确性
- 任务泛化性强:同一方法可以应用于不同类型的推理任务
实际应用
适用场景
- 数学推理:解决复杂的数学问题,包括应用题和逻辑题
- 常识推理:回答需要常识知识的问题
- 符号推理:处理逻辑符号和规则推理任务
- 编程问题:代码生成和算法设计
实现建议
在实际项目中应用对齐方法时,建议:
- 选择合适的示例:准备高质量的少样本示例,展示完整的推理过程
- 控制步骤粒度:根据问题复杂度调整推理步骤的详细程度
- 迭代优化:根据输出质量不断调整提示格式和示例
- 结合其他技术:可与自洽性(Self-Consistency)等技术组合使用以提高稳定性
代码示例
1 | # 基本提示模板 |
相关资源
- arXiv 论文:arXiv:2309.00267
- 相关论文:思维链提示、自洽性、思维树