Infinity-Instruct: 大规模高质量指令微调数据集

核心观点:智源的Infinity-Instruct用745万条指令证明了一个反直觉的事实——你不需要全部数据,140万条核心样本就能达到95.7%的性能,关键在于数据的”能力覆盖密度”。 规模不是目的,能力覆盖才是745万条指令听起来很多,但在指令微调领域这只能算中等规模。真正让Infinity-Instruct与众不同的是它的能力标签体系(ability_tag)——每条数据都被明确标注了对应的能力维度,比如”数学推理”、”代码生成”、”概念解释”。 这个设计回答了一个核心问题:怎么知道数据集是否”覆盖全面”?传统方法是堆数据量,期望大力出奇迹。而Infinity-Instruct的approach是先定义能力矩阵,然后针对性地生成数据填补空白。这也是为什么他们能用1/5的数据量达到接近完整版的效果。 对比其他指令数据集: Alpaca 52K:规模太小,能力覆盖有明显...

阅读全文

Orca-AgentInstruct: 微软百万级合成指令数据集

AgentInstruct:当AI学会自己批改作业核心观点:微软用多代理协作重新定义了合成数据的质量上限,这不是简单的”让GPT生成训练数据”,而是一套完整的AI自我进化系统。 105万条指令数据,成本几乎为零,质量接近人工标注——微软Orca-AgentInstruct的数据让人重新思考:我们真的还需要花大价钱雇人标数据吗? 为什么AgentInstruct不是”又一个合成数据集”市面上合成数据集多如牛毛,但大多数都是”prompt engineering的产物”:写个好prompt,调用GPT-4,批量生成,完事。这种做法有个致命问题——垃圾进,垃圾出。 AgentInstruct的野心更大:它想让AI学会自己质检、自己迭代、自己优化。 三个代理角色分工明确: 内容转换代理:把网络上的非结构化知识提取成结构化信息(相当于AI版的知识图谱工程师) 种子指令生成代理:基于知识生成多...

阅读全文

Cosmopedia: 大规模合成文本数据集 - 用于小语言模型研究

核心观点:Cosmopedia不是”用大模型生成训练数据”的简单实践,它是对”小模型能否通过精心策划的合成数据达到大模型性能”这个命题的系统性验证。答案是肯定的,但前提是数据设计要足够聪明。 小模型复兴:不是开倒车在7B、13B甚至70B参数成为主流的今天,HuggingFace投入资源研究1-3B的小模型,这不是技术倒退,而是实用主义的回归。 现实是: 绝大多数实际应用不需要70B模型的能力 边缘设备、移动端、实时场景无法承受大模型的计算成本 推理成本是服务化LLM的最大成本来源 Phi-1.5(1.3B参数)证明了小模型的可能性——在特定任务上接近GPT-3.5的性能。关键是什么?不是模型架构,而是训练数据。Cosmopedia正是这个洞察的产物。 1660万条数据的”课程设计”Cosmopedia的8个子集不是随机划分,而是精心设计的能力培养路径: 数学推理(auto_ma...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero