宪法AI：基于AI反馈实现无害性

论文概述宪法AI（CAI）是Anthropic提出的一种突破性对齐方法，通过自我改进和最少的人工监督来训练无害的AI助手。该方法使用”基于AI反馈的强化学习”（RLAIF）而非人工标注来判断有害性，由一组原则（即”宪法”）进行指导。CAI结合了监督学习阶段（模型批评和修订自己的输出）和强化学习阶段（AI评估训练偏好模型）。这种方法产生了无害但不回避的助手，能够通过解释反对意见来深思熟虑地处理有害查询，在显著降低人工标注成本的同时实现了卓越的对齐效果。论文信息：发布时间：2022-12-15 作者：Yuntao Bai, Saurav Kadavath, Sandipan Kundu等机构：Anthropic 研究方向：提示工程, 大型语言模型推理核心技术：宪法AI对齐研究背景大型语言模型（LLM）在各类任务中展现出强大的能力，但如何确保模型输出的安全性和对齐性仍是一个重...

阅读全文