LLM提示对决优化器:高效的无标注提示优化方法
ArXiv ID: 2510.13907作者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang…发布日期: 2024-10-14分类: prompt-engineering评分: 3.8/5.0
摘要本文提出了提示对决优化器(PDO),这是一个样本高效的无标注提示优化框架。PDO将提示优化问题建模为对决老虎机(Dueling Bandit)问题,通过LLM评判器提供的成对偏好反馈进行优化。结合Double Thompson Sampling和Top-Performer引导变异策略,PDO在无需真实标注数据的情况下,在BIG-bench Hard和MS MARCO等基准上持续优于基线方法。
🎯 PDO:让提示优化摆脱标注数据的束缚核心问题...