GPT-5 Pro - OpenAI 大型语言模型模型概述GPT-5 Pro 是 OpenAI 公司于 2025 年 10月发布的大型语言模型。 具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 GPT-5 Pro 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Extended reasoning for comprehensive answers:提供强大的AI能力支持
88.4% on GPQA without tools (state:of-the-art)
Optimized for finance, legal, and...
Liquid AI LFM2-Audio-1.5B - 端到端音频基础模型
Liquid AI LFM2-Audio-1.5B - 端到端音频基础模型
厂商: Liquid AI发布日期: 2025-10-01模型类型: 音频基础模型模态: 音频、文本参数规模: 1.5B许可证: Apache 2.0 (有商业使用条款)评分: 4.4/5.0
概述Liquid AI LFM2-Audio-1.5B 是 Liquid AI 于 2025 年 10 月 1 日发布的端到端音频基础模型,也是 LFM2 系列的首个音频模型。该模型专为低延迟设计,响应延迟低于 100 毫秒,仅使用 1.5B 参数就实现了出色的音频理解和生成能力。LFM2-Audio 特别适合部署在边缘设备上,包括智能手机、笔记本电脑、车载系统和可穿戴设备。
LFM2-Audio 的发布标志着 Liquid AI 在多模态模型领域的重要扩展,继 LFM2 (文本)、LFM2-VL (视觉-...
Qwen3-VL 30B-A3B Instruct - 阿里巴巴 大型语言模型
Qwen3-VL 30B-A3B Instruct - 阿里巴巴 大型语言模型模型概述Qwen3-VL 30B-A3B Instruct 是 阿里巴巴 公司于 2025 年 9月发布的大型语言模型,拥有 30B active (A3B MoE) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen3-VL 30B-A3B Instruct 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 412.4K,获得了 208 个点赞,显示出强大的社区影响力和用户认可度。
核心特性
30B active (A3B MoE) 参数规模:采用大规模参数设计,在性能和效率之间...
Qwen3-VL 30B-A3B Thinking - 阿里巴巴 大型语言模型
Qwen3-VL 30B-A3B Thinking - 阿里巴巴 大型语言模型模型概述Qwen3-VL 30B-A3B Thinking 是 阿里巴巴 公司于 2025 年 9月发布的大型语言模型,拥有 30B active (A3B MoE) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen3-VL 30B-A3B Thinking 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 7.9K,获得了 103 个点赞,显示出强大的社区影响力和用户认可度。
核心特性
30B active (A3B MoE) 参数规模:采用大规模参数设计,在性能和效率之间取得...
Google Gemini 2.5 Flash - Google 高性能多模态语言模型
Google Gemini 2.5 Flash - Google 高性能多模态语言模型
厂商: Google DeepMind发布日期: 2025-09-25模型类型: 多模态语言模型模态: 文本、图像、视频、音频许可证: 专有商业模型 (Proprietary)评分: 4.5/5.0
概述Google Gemini 2.5 Flash 是 Google DeepMind 于 2025 年 9 月 25 日发布的最新多模态语言模型更新版本,是 Gemini 2.5 系列中专注于高速推理和成本效益的版本。该模型在保持 Gemini 2.5 Pro 级别能力的同时,大幅提升了响应速度和成本效率,特别适合需要大规模部署和实时响应的应用场景。
Gemini 2.5 Flash 在质量和效率方面都实现了显著改进,不仅延续了 Gemini 系列强大的多模态理解能力,还在推理速度、上下...
Tencent HunyuanImage 3.0 - 腾讯 大型语言模型
Tencent HunyuanImage 3.0 - 腾讯 大型语言模型模型概述Tencent HunyuanImage 3.0 是 腾讯 公司于 2025 年 9月发布的大型语言模型,拥有 83B (MoE, 64 experts, 13B active per token) 参数规模。 具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Tencent HunyuanImage 3.0 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 2.6K,获得了 853 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,Comparable to or surpassing leading closed-source models。
核心特性
83B (MoE, 64 experts, 13B active per token...
Qwen-Image-Edit-2509 - 阿里巴巴 大型语言模型
Qwen-Image-Edit-2509 - 阿里巴巴 大型语言模型模型概述Qwen-Image-Edit-2509 是 阿里巴巴 公司于 2025 年 9月发布的大型语言模型,拥有 undisclosed (diffusion model) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen-Image-Edit-2509 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 72.9K,获得了 546 个点赞,显示出强大的社区影响力和用户认可度。 Qwen-Image-Edit-2509 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。...
Qwen3-Omni 30B-A3B Instruct - 阿里巴巴 大型语言模型
Qwen3-Omni 30B-A3B Instruct - 阿里巴巴 大型语言模型模型概述Qwen3-Omni 30B-A3B Instruct 是 阿里巴巴 公司于 2025 年 9月发布的大型语言模型,拥有 30B active (A3B MoE) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色。 该模型支持商业使用,为企业部署提供了法律保障。 Qwen3-Omni 30B-A3B Instruct 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 293.6K,获得了 619 个点赞,显示出强大的社区影响力和用户认可度。 Qwen3-Omni 30B-A3B Instruct 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能...
xAI 发布 Grok 4 Fast: 性能比肩旗舰,成本降低 98%%
概述2025年9月19日,xAI 发布了 Grok 4 Fast,这是一个针对成本优化的推理模型,在保持与旗舰模型 Grok 4 相当性能的同时,将成本降低了 98%。通过平均减少 40% 的思考 token 使用量,Grok 4 Fast 在 LMArena 的文本竞技场中排名第 8,与 Grok 4 并驾齐驱,同时提供了业界最具竞争力的性价比。
核心优势极致的成本效率Grok 4 Fast 最大的突破在于其卓越的成本效率:
价格降低 98%: 相比 Grok 4,在前沿基准测试中达到相同性能所需的成本降低了 98%
思考 token 减少 40%: 平均使用的思考 token 比 Grok 4 少 40%
Token 使用量优化: 在 Artificial Analysis Intelligence Index 中使用了 6100 万 tokens,显著少于 Gemini 2....
Magistral Small 1.2 2509 - Mistral AI 大型语言模型
Magistral Small 1.2 2509 - Mistral AI 大型语言模型模型概述Magistral Small 1.2 2509 是 Mistral AI 公司于 2025 年 9月发布的大型语言模型,拥有 24B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Magistral Small 1.2 2509 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 24.7K,获得了 235 个点赞,显示出强大的社区影响力和用户认可度。
核心特性
24B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Smal...
Intern-S1 - InternLM (Shanghai AI Lab) 大型语言模型
Intern-S1 - InternLM (Shanghai AI Lab) 大型语言模型模型概述Intern-S1 是 InternLM (Shanghai AI Lab) 公司于 2025 年 8月发布的大型语言模型,拥有 235B total (28B activated, MoE) + 6B vision encoder 参数规模。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Intern-S1 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 Intern-S1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...
GPT-5 - OpenAI 大型语言模型
GPT-5 - OpenAI 大型语言模型模型概述GPT-5 是 OpenAI 公司于 2025 年 8月发布的大型语言模型。 具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 GPT-5 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Unified system:smart efficient model + GPT-5 thinking reasoning model + real-time router
State-of-the-art across all domains:coding, math, writing, he...
Google 发布 Gemini 2.5 Deep Think: 并行思考推理模型,编程能力超越竞品
概述2025年8月1日,Google 正式发布了 Gemini 2.5 Deep Think,这是一个增强推理模式,使用前沿的并行思考和强化学习技术,显著提升了 Gemini 在解决复杂问题方面的能力。该模型在 5月20日的 Google I/O 大会上首次预览,并在两个多月后向 Google AI Ultra 订阅用户正式开放。
Gemini 2.5 Deep Think 的核心创新在于其「并行思考」方法,允许模型同时探索多个想法,在给出答案前进行修订和组合。这种方法使其在编程竞赛(LiveCodeBench V6: 87.6%)和数学奥林匹克(IMO 2025: Bronze 级别 60.7%)等基准测试中取得了业界领先的成绩。
核心技术创新并行思考机制Gemini 2.5 Deep Think 最大的突破在于其独特的并行思考方法:
同时探索多个假设: 模型可以并行探...
xAI 发布 Grok 4: 首个在「人类最后考试」中突破 50%% 的 AI 模型
概述2025年7月10日,埃隆·马斯克旗下的 xAI 公司发布了其旗舰 AI 模型 Grok 4,这是一个在多个前沿基准测试中创造新纪录的突破性模型。Grok 4 成为首个在「人类最后考试」(Humanity’s Last Exam)中突破 50% 准确率的 AI 模型,标志着人工智能在解决博士级别复杂问题方面迈出了历史性的一步。
核心突破「人类最后考试」历史性突破「人类最后考试」是一个包含 2,500 道精心策划的博士级别问题的基准测试,涵盖数学、物理、化学、语言学和工程学等领域。这个基准被设计为「同类中最后一个封闭式学术基准」,旨在测试 AI 在人类知识巅峰领域的能力。
Grok 4 Heavy 的表现:
Humanity’s Last Exam: 50.7%(首个突破 50% 的模型)
带工具使用: 44.4%(使用多个 AI 智能体协作)
相比之下,竞争对手的表现:
G...
Voxtral Small 24B 2507 - Mistral AI 大型语言模型
Voxtral Small 24B 2507 - Mistral AI 大型语言模型模型概述Voxtral Small 24B 2507 是 Mistral AI 公司于 2025 年 7月发布的大型语言模型,拥有 24B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Voxtral Small 24B 2507 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 40.0K,获得了 412 个点赞,显示出强大的社区影响力和用户认可度。 Voxtral Small 24B 2507 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布...
Mistral Small 3.2 24B Instruct 2506 - Mistral AI 大型语言模型
Mistral Small 3.2 24B Instruct 2506 - Mistral AI 大型语言模型模型概述Mistral Small 3.2 24B Instruct 2506 是 Mistral AI 公司于 2025 年 6月发布的大型语言模型,拥有 24B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mistral Small 3.2 24B Instruct 2506 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 726.8K,获得了 476 个点赞,显示出强大的社区影响力和用户认可度。
核心特性
24B 参数规...
Lingshu-7B - 阿里巴巴 大型语言模型
Lingshu-7B - 阿里巴巴 大型语言模型模型概述Lingshu-7B 是 阿里巴巴 公司于 2025 年 6月发布的大型语言模型,拥有 7B (also 32B variant available) 参数规模。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 Lingshu-7B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 Lingshu-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B (also ...
Gemma 3n E4B IT - 谷歌 大型语言模型
Gemma 3n E4B IT - 谷歌 大型语言模型模型概述Gemma 3n E4B IT 是 谷歌 公司于 2025 年 6月发布的大型语言模型,拥有 E4B (4B effective, 8B raw with MatFormer) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型支持商业使用,为企业部署提供了法律保障。 Gemma 3n E4B IT 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 699.2K,获得了 794 个点赞,显示出强大的社区影响力和用户认可度。 Gemma 3n E4B IT 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代...
Llama 4 Scout - Meta 大型语言模型
Llama 4 Scout - Meta 大型语言模型模型概述Llama 4 Scout 是 Meta 公司于 2025 年 4月发布的大型语言模型,拥有 17B active (16 experts, MoE) 参数规模。作为基座模型,它为下游任务提供了强大的基础能力。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama 4 Scout 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
17B active (16 experts, MoE) 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
First open:wei...
Gemma 3 27B IT - 谷歌 大型语言模型
Gemma 3 27B IT - 谷歌 大型语言模型模型概述Gemma 3 27B IT 是 谷歌 公司于 2025 年 3月发布的大型语言模型,拥有 27B 参数规模。 该模型支持商业使用,为企业部署提供了法律保障。 Gemma 3 27B IT 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 1.2M,获得了 1,639 个点赞,显示出强大的社区影响力和用户认可度。 Gemma 3 27B IT 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
27B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Multimodal:te...
自动提示工程综述:优化视角
A Survey of Automatic Prompt Engineering: An Optimization Perspective
ArXiv ID: 2502.11560作者: Wenwu Li, Xiangfeng Wang, Wenhao Li, Bo Jin发布日期: 2025-02-17
摘要基础模型的兴起使研究焦点从资源密集型的微调转向提示工程——一种通过输入设计而非权重更新来引导模型行为的范式。本综述首次从统一的优化视角对自动提示工程进行了全面考察。我们将提示优化形式化为离散、连续和混合提示空间上的最大化问题,考察了基于基础模型的优化、进化方法、基于梯度的优化和强化学习方法。通过分析优化变量(指令、软提示、样例)、任务特定目标和计算框架,我们在理论形式化与跨文本、视觉和多模态领域的实际实现之间架起桥梁。虽然手动提示工程在可扩展性、适应性和跨模态对齐方面存在局限...
xAI Grok 3 - xAI 推理语言模型
xAI Grok 3 - xAI 推理语言模型
厂商: xAI (Elon Musk)发布日期: 2025-02-17模型类型: 推理语言模型模态: 文本、图像许可证: 专有商业模型 (Proprietary)评分: 4.2/5.0
概述xAI Grok 3 是由 Elon Musk 创立的 xAI 公司于 2025 年 2 月 17 日正式发布的最新旗舰 AI 模型。该模型被誉为”推理代理时代”的里程碑,在强大的预训练知识基础上融合了卓越的推理能力。Grok 3 在 Colossus 超级集群上训练,使用的计算量是此前最先进模型的 10 倍,展现了 xAI 在 AI 基础设施方面的雄心。
Grok 3 的发布标志着 xAI 在与 OpenAI、Anthropic、Google 等巨头的竞争中迈出了重要一步。该模型不仅在多个基准测试中展现出色表现,还通过与 X 平台(原 ...
Janus-Pro-7B - DeepSeek 大型语言模型
Janus-Pro-7B - DeepSeek 大型语言模型模型概述Janus-Pro-7B 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型,拥有 7B 参数规模。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 Janus-Pro-7B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 78.7K,获得了 3,508 个点赞,显示出强大的社区影响力和用户认可度。 Janus-Pro-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数设计,在性能和效率之间取得...
Gemini 2.0 Flash - 谷歌 大型语言模型
Gemini 2.0 Flash - 谷歌 大型语言模型模型概述Gemini 2.0 Flash 是 谷歌 公司于 2024 年 12月发布的大型语言模型。 该模型支持商业使用,为企业部署提供了法律保障。 Gemini 2.0 Flash 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Native multimodal input:images, video, audio, and text
Native multimodal output:text, images, and steerable TTS audio
Designed for agentic AI ...
GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型
GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型模型概述GPT-4o (GPT-4 Omni) 是 OpenAI 公司于 2024 年 5月发布的大型语言模型。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色。 该模型支持商业使用,为企业部署提供了法律保障。 在性能方面,Matches GPT-4 Turbo performance on text in English and code。 GPT-4o (GPT-4 Omni) 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Native multim...
VideoLLaMA3 7B - 阿里巴巴 大型语言模型
VideoLLaMA3 7B - 阿里巴巴 大型语言模型模型概述VideoLLaMA3 7B 是 阿里巴巴 公司于 2024 年 1月发布的大型语言模型,拥有 8.04B 参数规模。 在代码生成和理解方面表现出色。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 VideoLLaMA3 7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
8.04B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Vision:centric multimodal design
...
Multimodal-Mind2Web:让AI理解网页的多模态数据集
赋能Web智能体:多模态理解网页的革命性数据集在人工智能快速发展的今天,我们距离通用网页智能体(Web Agent)的目标越来越近。俄亥俄州立大学NLP团队发布的Multimodal-Mind2Web数据集,为这一目标提供了关键支撑。这个包含14,193个网页任务样本的多模态数据集,首次将网页截图与HTML文档完美对齐,让AI真正”看懂”网页。
数据集核心特性规模与结构
总样本数:14,193行动作记录
总任务数:2,022个复杂网页任务
数据大小:13.6 GB
模态类型:图像(网页截图)+ 文本(HTML + 自然语言指令)
数据划分策略Multimodal-Mind2Web采用了三种不同的测试集划分方式,全面评估模型的泛化能力:
Task Split(任务划分)
训练集:7,775个动作(1,009个任务)
测试集:1,339个动作(177个任务)
目的:测试模型对新任...
Public Multimodal Dataset (PMD):Meta开源的7000万图文对数据集
多模态预训练的基石:Meta的7000万图文对开源数据集在多模态AI发展历程中,高质量的图文配对数据始终是核心瓶颈。Meta AI(原Facebook AI Research)于2022年发布的Public Multimodal Dataset(PMD),以7000万图文对、6800万唯一图像的规模,成为多模态预训练领域的重要里程碑。这个数据集不仅为FLAVA等突破性模型提供了训练基础,更为整个AI社区树立了大规模多模态数据集的标杆。
数据集概览:规模与构成核心统计数据
图文对总数:7000万对
唯一图像数:6800万张
来源数据集:8个高质量公开数据集
主要语言:英语
许可证:CC-BY-4.0(需遵守各子数据集许可)
数据来源组成PMD的独特之处在于它是一个精心策划的数据集集合,而非单一来源:
Conceptual Captions - 高质量的图像描述数据
Concept...