论文概述Self-Refine是来自CMU、AI2和顶级研究机构的一个有影响力的迭代优化框架,使大型语言模型能够通过自我生成的反馈自主改进其输出。关键洞察是,就像人类一样,大型语言模型很少在第一次尝试时产生最佳输出,但可以批评和优化自己的工作。三步过程 - (1) 生成初始输出,(2) 提供自我反馈,(3) 基于反馈进行优化 - 不需要额外的训练、监督数据或强化学习。在7个不同任务(对话、数学推理、代码生成、情感反转、首字母缩略词生成、约束生成、评论改写)上使用GPT-3.5、ChatGPT和GPT-4进行评估,Self-Refine平均提高约20%的性能,人类强烈偏好其输出。该成果发表于NeurIPS 2023,影响了众多关于大型语言模型自我改进和批评的后续工作。
论文信息:
发布时间:2023-03-30
作者:Aman Madaan, Niket Tandon, Prakha...