LLM提示对决优化器：高效的无标注提示优化方法

Posted on 十月 14, 2024

LLM提示对决优化器：高效的无标注提示优化方法 ArXiv ID: 2510.13907作者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang…发布日期: 2024-10-14分类: prompt-engineering评分: 3.8/5.0 摘要本文提出了提示对决优化器（PDO），这是一个样本高效的无标注提示优化框架。PDO将提示优化问题建模为对决老虎机（Dueling Bandit）问题，通过LLM评判器提供的成对偏好反馈进行优化。结合Double Thompson Sampling和Top-Performer引导变异策略，PDO在无需真实标注数据的情况下，在BIG-bench Hard和MS MARCO等基准上持续优于基线方法。 🎯 PDO：让提示优化摆脱标注数据的束缚核心问题...

阅读全文