Infinity-Instruct: 大规模高质量指令微调数据集

核心观点:智源的Infinity-Instruct用745万条指令证明了一个反直觉的事实——你不需要全部数据,140万条核心样本就能达到95.7%的性能,关键在于数据的”能力覆盖密度”。 规模不是目的,能力覆盖才是745万条指令听起来很多,但在指令微调领域这只能算中等规模。真正让Infinity-Instruct与众不同的是它的能力标签体系(ability_tag)——每条数据都被明确标注了对应的能力维度,比如”数学推理”、”代码生成”、”概念解释”。 这个设计回答了一个核心问题:怎么知道数据集是否”覆盖全面”?传统方法是堆数据量,期望大力出奇迹。而Infinity-Instruct的approach是先定义能力矩阵,然后针对性地生成数据填补空白。这也是为什么他们能用1/5的数据量达到接近完整版的效果。 对比其他指令数据集: Alpaca 52K:规模太小,能力覆盖有明显...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero