FineVision: 2400万样本的开源多模态视觉-语言数据集

核心观点:FineVision用1%的基准污染率击穿了VLM(视觉-语言模型)数据集的最大痛点——数据泄露导致的虚假性能。这个数据集证明,开源VLM完全有可能在公平评估下超越闭源模型。 基准污染:行业的脏秘密训练数据包含测试集样本,是AI领域最严重的数据泄露问题。但在多模态领域,这个问题被系统性地忽视了——因为几乎所有大规模数据集都没有做严格的污染检测。 结果是什么?论文里报告的性能数字有相当一部分是记忆而非理解。模型在MMMU、ChartQA等基准上的高分,可能只是因为训练时见过相似甚至相同的图文对。 FineVision的核心突破是1%的基准污染率——这是通过对11个主流VLM基准进行逐一检测和过滤实现的。这意味着: 用FineVision训练的模型,性能提升是真实的 基准测试结果可以信任,不是数据泄露的假象 研究对比是公平的,不同模型站在同一起跑线 对比:LAION-5B等...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero