Cosmopedia：最大的开源合成数据集，25B token助力小模型训练

Posted on 三月 20, 2024

引领合成数据新纪元：Cosmopedia的诞生在大语言模型训练领域，数据始终是核心瓶颈。Hugging Face于2024年3月发布的Cosmopedia，以超过300万个文件、250亿token的规模，成为目前最大的开源合成数据集。这不仅是一个里程碑式的成果，更代表了合成数据生成技术从理论到实践的重大突破。数据规模与多样性：前所未有的覆盖面Cosmopedia的规模令人震撼：文件数量：超过3000万个合成文本文件 Token总量：250亿token，相当于中等规模预训练语料库内容类型：涵盖合成教科书、博客文章、故事、WikiHow风格文章主题覆盖：横跨112个不同主题领域这种规模和多样性使其成为预训练小型语言模型的理想数据源。与传统的网络爬虫数据相比，Cosmopedia的内容更加结构化、高质量，且完全避免了版权和隐私问题。生成方法论：从多源数据到高质量合成Cosm...

阅读全文