MMLU-Pro: 更强大的多任务语言理解评估基准

MMLU-Pro:当大模型在原版MMLU上刷到90分时,你需要一张更难的试卷核心观点:10选项设计不是简单的”加大难度”,而是精准打击了大模型的幸运猜测和浅层模式识别,强制模型展示真实的推理能力。 GPT-4在原版MMLU上88%,Claude-3 Opus 86%,Gemini-Pro 84%——当顶尖模型都在85%以上徘徊时,这个基准已经失去了区分度。MMLU-Pro用10选项和推理导向的问题设计,让这些模型的分数直接腰斩到70%左右。 这不是为了难为模型,而是为了看清模型真正会什么、不会什么。 4选项到10选项:不只是数量变化原版MMLU的4选项意味着什么?即使完全瞎猜,期望得分25%。一个模型如果在某个领域只有模糊印象,通过排除法+合理推测,很容易把准确率提升到40-50%。 这在实际应用中是个严重问题:你以为模型”基本掌握”了某个知识领域,实际上它只是”略懂皮毛”。 MML...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero