Infinity-Instruct: 大规模高质量指令微调数据集

核心观点:智源的Infinity-Instruct用745万条指令证明了一个反直觉的事实——你不需要全部数据,140万条核心样本就能达到95.7%的性能,关键在于数据的”能力覆盖密度”。 规模不是目的,能力覆盖才是745万条指令听起来很多,但在指令微调领域这只能算中等规模。真正让Infinity-Instruct与众不同的是它的能力标签体系(ability_tag)——每条数据都被明确标注了对应的能力维度,比如”数学推理”、”代码生成”、”概念解释”。 这个设计回答了一个核心问题:怎么知道数据集是否”覆盖全面”?传统方法是堆数据量,期望大力出奇迹。而Infinity-Instruct的approach是先定义能力矩阵,然后针对性地生成数据填补空白。这也是为什么他们能用1/5的数据量达到接近完整版的效果。 对比其他指令数据集: Alpaca 52K:规模太小,能力覆盖有明显...

阅读全文

Orca-AgentInstruct: 微软百万级合成指令数据集

AgentInstruct:当AI学会自己批改作业核心观点:微软用多代理协作重新定义了合成数据的质量上限,这不是简单的”让GPT生成训练数据”,而是一套完整的AI自我进化系统。 105万条指令数据,成本几乎为零,质量接近人工标注——微软Orca-AgentInstruct的数据让人重新思考:我们真的还需要花大价钱雇人标数据吗? 为什么AgentInstruct不是”又一个合成数据集”市面上合成数据集多如牛毛,但大多数都是”prompt engineering的产物”:写个好prompt,调用GPT-4,批量生成,完事。这种做法有个致命问题——垃圾进,垃圾出。 AgentInstruct的野心更大:它想让AI学会自己质检、自己迭代、自己优化。 三个代理角色分工明确: 内容转换代理:把网络上的非结构化知识提取成结构化信息(相当于AI版的知识图谱工程师) 种子指令生成代理:基于知识生成多...

阅读全文

Self-Instruct: 开创性的自生成指令数据集

Self-Instruct:点燃开源大模型革命的火种核心观点:Self-Instruct的价值不在82K条数据,而在于证明了”AI可以自己生成训练数据”这条路走得通——它直接催生了Alpaca、Vicuna等一系列开源模型,改变了大模型领域的权力格局。 2022年12月,华盛顿大学发布Self-Instruct论文时,很少人意识到这会成为改变大模型历史的里程碑。3个月后,斯坦福用同样的方法生成52K数据训练出Alpaca,证明了”穷人也能玩大模型”。 从此,大模型不再是OpenAI、Google的专利。 Self-Instruct到底做对了什么在Self-Instruct之前,训练指令遵循模型有三条路: OpenAI的路:雇佣大量标注员+RLHF(成本:数百万美元) Google的路:用内部数据+模板生成FLAN数据集(需要大公司资源) 学术界的路:精心设计少量高质量数据(覆盖面有...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero