核心观点:Cosmopedia不是”用大模型生成训练数据”的简单实践,它是对”小模型能否通过精心策划的合成数据达到大模型性能”这个命题的系统性验证。答案是肯定的,但前提是数据设计要足够聪明。
小模型复兴:不是开倒车在7B、13B甚至70B参数成为主流的今天,HuggingFace投入资源研究1-3B的小模型,这不是技术倒退,而是实用主义的回归。
现实是:
绝大多数实际应用不需要70B模型的能力
边缘设备、移动端、实时场景无法承受大模型的计算成本
推理成本是服务化LLM的最大成本来源
Phi-1.5(1.3B参数)证明了小模型的可能性——在特定任务上接近GPT-3.5的性能。关键是什么?不是模型架构,而是训练数据。Cosmopedia正是这个洞察的产物。
1660万条数据的”课程设计”Cosmopedia的8个子集不是随机划分,而是精心设计的能力培养路径:
数学推理(auto_ma...