论文概述这篇综述性论文系统地回顾了检索增强生成(RAG)系统在大语言模型时代的评估方法和框架,为这一快速发展的领域提供了全面的技术图谱。论文深入分析了RAG评估的多个维度,包括系统性能、事实准确性、安全性和计算效率等核心指标,系统性地回顾了传统评估方法,并详细探讨了针对LLM驱动的RAG系统的新兴评估技术。此外,还编译和分类了大量RAG专用数据集,为研究者选择合适的评估基准提供了宝贵参考。
论文信息:
发布时间:2025-04-21
作者:Aoran Gan, Hao Yu, Kai Zhang, Qi Liu, Wenyu Yan, Zhenya Huang, Shiwei Tong, Guoping Hu
研究方向:上下文工程 (Context Engineering), 检索增强生成 (Retrieval-Augmented Generation), 评估方法 (Evalua...