论文概述宪法AI(CAI)是Anthropic提出的一种突破性对齐方法,通过自我改进和最少的人工监督来训练无害的AI助手。该方法使用”基于AI反馈的强化学习”(RLAIF)而非人工标注来判断有害性,由一组原则(即”宪法”)进行指导。CAI结合了监督学习阶段(模型批评和修订自己的输出)和强化学习阶段(AI评估训练偏好模型)。这种方法产生了无害但不回避的助手,能够通过解释反对意见来深思熟虑地处理有害查询,在显著降低人工标注成本的同时实现了卓越的对齐效果。
论文信息:
发布时间:2022-12-15
作者:Yuntao Bai, Saurav Kadavath, Sandipan Kundu等
机构:Anthropic
研究方向:提示工程, 大型语言模型推理
核心技术:宪法AI对齐
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何确保模型输出的安全性和对齐性仍是一个重...