LFM2-8B-A1B - Liquid AI 大型语言模型

Posted on 十月 7, 2025

LFM2-8B-A1B - Liquid AI 大型语言模型模型概述LFM2-8B-A1B 是 Liquid AI 公司于 2025 年 10月发布的大型语言模型，拥有 8.3B total (1.5B active per token, MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型支持商业使用，为企业部署提供了法律保障。 LFM2-8B-A1B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 2.4K，获得了 152 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 32K tokens 的超长上下文窗口。 LFM2-8B-A1B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语...

GPT-5 Pro - OpenAI 大型语言模型

Posted on 十月 6, 2025

GPT-5 Pro - OpenAI 大型语言模型模型概述GPT-5 Pro 是 OpenAI 公司于 2025 年 10月发布的大型语言模型。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 GPT-5 Pro 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Extended reasoning for comprehensive answers：提供强大的AI能力支持 88.4% on GPQA without tools (state：of-the-art) Optimized for finance, legal, and...

Ling-1T - inclusionAI 大型语言模型

Posted on 十月 2, 2025

Ling-1T - inclusionAI 大型语言模型模型概述Ling-1T 是 inclusionAI 公司于 2025 年 10月发布的大型语言模型，拥有 1T total (~50B active per token, MoE 1/32 activation ratio) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Ling-1T 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 715，获得了 197 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 128K tokens 的超长上下文窗口，State-of-the-art on complex reasoning benchmarks。核心特性 1T total (~50B active p...

IBM Granite 4.0 H-Small - IBM 大型语言模型

Posted on 十月 2, 2025

IBM Granite 4.0 H-Small - IBM 大型语言模型模型概述IBM Granite 4.0 H-Small 是 IBM 公司于 2025 年 10月发布的大型语言模型，拥有 32.2B (MoE Hybrid) 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 IBM Granite 4.0 H-Small 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 22.1K，获得了 241 个点赞，显示出强大的社区影响力和用户认可度。核心特性 32.2B (MoE Hybrid) 参数规模：采用大...

Liquid AI LFM2-Audio-1.5B - 端到端音频基础模型

Posted on 十月 1, 2025

Liquid AI LFM2-Audio-1.5B - 端到端音频基础模型厂商: Liquid AI发布日期: 2025-10-01模型类型: 音频基础模型模态: 音频、文本参数规模: 1.5B许可证: Apache 2.0 (有商业使用条款)评分: 4.4/5.0 概述Liquid AI LFM2-Audio-1.5B 是 Liquid AI 于 2025 年 10 月 1 日发布的端到端音频基础模型,也是 LFM2 系列的首个音频模型。该模型专为低延迟设计,响应延迟低于 100 毫秒,仅使用 1.5B 参数就实现了出色的音频理解和生成能力。LFM2-Audio 特别适合部署在边缘设备上,包括智能手机、笔记本电脑、车载系统和可穿戴设备。 LFM2-Audio 的发布标志着 Liquid AI 在多模态模型领域的重要扩展,继 LFM2 (文本)、LFM2-VL (视觉-...

Qwen3-VL 30B-A3B Thinking - 阿里巴巴大型语言模型

Posted on 九月 30, 2025

Qwen3-VL 30B-A3B Thinking - 阿里巴巴大型语言模型模型概述Qwen3-VL 30B-A3B Thinking 是阿里巴巴公司于 2025 年 9月发布的大型语言模型，拥有 30B active (A3B MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen3-VL 30B-A3B Thinking 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 7.9K，获得了 103 个点赞，显示出强大的社区影响力和用户认可度。核心特性 30B active (A3B MoE) 参数规模：采用大规模参数设计，在性能和效率之间取得...

Qwen3-VL 30B-A3B Instruct - 阿里巴巴大型语言模型

Posted on 九月 30, 2025

Qwen3-VL 30B-A3B Instruct - 阿里巴巴大型语言模型模型概述Qwen3-VL 30B-A3B Instruct 是阿里巴巴公司于 2025 年 9月发布的大型语言模型，拥有 30B active (A3B MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen3-VL 30B-A3B Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 412.4K，获得了 208 个点赞，显示出强大的社区影响力和用户认可度。核心特性 30B active (A3B MoE) 参数规模：采用大规模参数设计，在性能和效率之间...

Claude Sonnet 4.5 - Anthropic 大型语言模型

Posted on 九月 29, 2025

Claude Sonnet 4.5 - Anthropic 大型语言模型模型概述Claude Sonnet 4.5 是 Anthropic 公司于 2025 年 9月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude Sonnet 4.5 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 World’s best coding model：77.2% on SWE-bench Verified World’s best agent model：61.4% on OSWor...

DeepSeek-V3.2-Exp - DeepSeek 大型语言模型

Posted on 九月 29, 2025

DeepSeek-V3.2-Exp - DeepSeek 大型语言模型模型概述DeepSeek-V3.2-Exp 是 DeepSeek 公司于 2025 年 9月发布的大型语言模型，拥有 685B (MoE with DeepSeek Sparse Attention) 参数规模。在代码生成和理解方面表现出色。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-V3.2-Exp 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 42.9K，获得了 607 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-V3.2-Exp 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成...

GLM-4.6 - 智谱AI 大型语言模型

Posted on 九月 29, 2025

GLM-4.6 - 智谱AI 大型语言模型模型概述GLM-4.6 是智谱AI 公司于 2025 年 9月发布的大型语言模型，拥有 356.8B total (MoE) 参数规模。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 GLM-4.6 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 24.6K，获得了 672 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Competitive with DeepSeek-V3.1-Terminus and Claude Sonnet 4。 GLM-4.6 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是...

Google Gemini 2.5 Flash - Google 高性能多模态语言模型

Posted on 九月 25, 2025

Google Gemini 2.5 Flash - Google 高性能多模态语言模型厂商: Google DeepMind发布日期: 2025-09-25模型类型: 多模态语言模型模态: 文本、图像、视频、音频许可证: 专有商业模型 (Proprietary)评分: 4.5/5.0 概述Google Gemini 2.5 Flash 是 Google DeepMind 于 2025 年 9 月 25 日发布的最新多模态语言模型更新版本,是 Gemini 2.5 系列中专注于高速推理和成本效益的版本。该模型在保持 Gemini 2.5 Pro 级别能力的同时,大幅提升了响应速度和成本效率,特别适合需要大规模部署和实时响应的应用场景。 Gemini 2.5 Flash 在质量和效率方面都实现了显著改进,不仅延续了 Gemini 系列强大的多模态理解能力,还在推理速度、上下...

Tencent HunyuanImage 3.0 - 腾讯大型语言模型

Posted on 九月 25, 2025

Tencent HunyuanImage 3.0 - 腾讯大型语言模型模型概述Tencent HunyuanImage 3.0 是腾讯公司于 2025 年 9月发布的大型语言模型，拥有 83B (MoE, 64 experts, 13B active per token) 参数规模。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Tencent HunyuanImage 3.0 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 2.6K，获得了 853 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Comparable to or surpassing leading closed-source models。核心特性 83B (MoE, 64 experts, 13B active per token...

DeepSeek-V3.1-Terminus - DeepSeek 大型语言模型

Posted on 九月 22, 2025

DeepSeek-V3.1-Terminus - DeepSeek 大型语言模型模型概述DeepSeek-V3.1-Terminus 是 DeepSeek 公司于 2025 年 9月发布的大型语言模型，拥有 685B total (MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-V3.1-Terminus 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 20.7K，获得了 314 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-V3.1-Terminus 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表...

Qwen-Image-Edit-2509 - 阿里巴巴大型语言模型

Posted on 九月 22, 2025

Qwen-Image-Edit-2509 - 阿里巴巴大型语言模型模型概述Qwen-Image-Edit-2509 是阿里巴巴公司于 2025 年 9月发布的大型语言模型，拥有 undisclosed (diffusion model) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen-Image-Edit-2509 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 72.9K，获得了 546 个点赞，显示出强大的社区影响力和用户认可度。 Qwen-Image-Edit-2509 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。...

Qwen3-Omni 30B-A3B Instruct - 阿里巴巴大型语言模型

Posted on 九月 20, 2025

Qwen3-Omni 30B-A3B Instruct - 阿里巴巴大型语言模型模型概述Qwen3-Omni 30B-A3B Instruct 是阿里巴巴公司于 2025 年 9月发布的大型语言模型，拥有 30B active (A3B MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色。该模型支持商业使用，为企业部署提供了法律保障。 Qwen3-Omni 30B-A3B Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 293.6K，获得了 619 个点赞，显示出强大的社区影响力和用户认可度。 Qwen3-Omni 30B-A3B Instruct 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能...

Magistral Small 1.2 2509 - Mistral AI 大型语言模型

Posted on 九月 12, 2025

Magistral Small 1.2 2509 - Mistral AI 大型语言模型模型概述Magistral Small 1.2 2509 是 Mistral AI 公司于 2025 年 9月发布的大型语言模型，拥有 24B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Magistral Small 1.2 2509 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 24.7K，获得了 235 个点赞，显示出强大的社区影响力和用户认可度。核心特性 24B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Smal...

S1-Base-671B - ScienceOne AI 大型语言模型

Posted on 九月 1, 2025

S1-Base-671B - ScienceOne AI 大型语言模型模型概述S1-Base-671B 是 ScienceOne AI 公司于 2025 年 9月发布的大型语言模型，拥有 671B (Heterogeneous Mixture-of-Experts) 参数规模。具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 S1-Base-671B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 S1-Base-671B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工...

Microsoft MAI-1-Preview - 微软大型语言模型

Posted on 八月 28, 2025

Microsoft MAI-1-Preview - 微软大型语言模型模型概述Microsoft MAI-1-Preview 是微软公司于 2025 年 8月发布的大型语言模型，拥有 undisclosed (Mixture-of-Experts) 参数规模。作为基座模型，它为下游任务提供了强大的基础能力。该模型支持商业使用，为企业部署提供了法律保障。 Microsoft MAI-1-Preview 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 undisclosed (Mixture-of-Experts) 参数规模：采用大规模参数设计，在性能和效率之间取...

Microsoft MAI-Voice-1 - 微软大型语言模型

Posted on 八月 28, 2025

Microsoft MAI-Voice-1 - 微软大型语言模型模型概述Microsoft MAI-Voice-1 是微软公司于 2025 年 8月发布的大型语言模型。该模型支持商业使用，为企业部署提供了法律保障。 Microsoft MAI-Voice-1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Ultra-fast generation：1 minute of audio in <1 second on single GPU Highly expressive and natural speech synthesis：提供强大的AI能力支持...

NVIDIA Nemotron Nano 9B v2 - 英伟达大型语言模型

Posted on 八月 18, 2025

NVIDIA Nemotron Nano 9B v2 - 英伟达大型语言模型模型概述NVIDIA Nemotron Nano 9B v2 是英伟达公司于 2025 年 8月发布的大型语言模型，拥有 9B (pruned from 12B base) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 NVIDIA Nemotron Nano 9B v2 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 NVIDIA Nemotron Nano 9B v2 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型...

Intern-S1 - InternLM (Shanghai AI Lab) 大型语言模型

Posted on 八月 15, 2025

Intern-S1 - InternLM (Shanghai AI Lab) 大型语言模型模型概述Intern-S1 是 InternLM (Shanghai AI Lab) 公司于 2025 年 8月发布的大型语言模型，拥有 235B total (28B activated, MoE) + 6B vision encoder 参数规模。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Intern-S1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 Intern-S1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...

GPT-5 - OpenAI 大型语言模型

Posted on 八月 7, 2025

GPT-5 - OpenAI 大型语言模型模型概述GPT-5 是 OpenAI 公司于 2025 年 8月发布的大型语言模型。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 GPT-5 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Unified system：smart efficient model + GPT-5 thinking reasoning model + real-time router State-of-the-art across all domains：coding, math, writing, he...

Voxtral Small 24B 2507 - Mistral AI 大型语言模型

Posted on 七月 1, 2025

Voxtral Small 24B 2507 - Mistral AI 大型语言模型模型概述Voxtral Small 24B 2507 是 Mistral AI 公司于 2025 年 7月发布的大型语言模型，拥有 24B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Voxtral Small 24B 2507 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 40.0K，获得了 412 个点赞，显示出强大的社区影响力和用户认可度。 Voxtral Small 24B 2507 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布...

Mistral Small 3.2 24B Instruct 2506 - Mistral AI 大型语言模型

Posted on 六月 19, 2025

Mistral Small 3.2 24B Instruct 2506 - Mistral AI 大型语言模型模型概述Mistral Small 3.2 24B Instruct 2506 是 Mistral AI 公司于 2025 年 6月发布的大型语言模型，拥有 24B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral Small 3.2 24B Instruct 2506 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 726.8K，获得了 476 个点赞，显示出强大的社区影响力和用户认可度。核心特性 24B 参数规...

Lingshu-7B - 阿里巴巴大型语言模型

Posted on 六月 15, 2025

Lingshu-7B - 阿里巴巴大型语言模型模型概述Lingshu-7B 是阿里巴巴公司于 2025 年 6月发布的大型语言模型，拥有 7B (also 32B variant available) 参数规模。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Lingshu-7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 Lingshu-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B (also ...

Gemma 3n E4B IT - 谷歌大型语言模型

Posted on 六月 3, 2025

Gemma 3n E4B IT - 谷歌大型语言模型模型概述Gemma 3n E4B IT 是谷歌公司于 2025 年 6月发布的大型语言模型，拥有 E4B (4B effective, 8B raw with MatFormer) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型支持商业使用，为企业部署提供了法律保障。 Gemma 3n E4B IT 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 699.2K，获得了 794 个点赞，显示出强大的社区影响力和用户认可度。 Gemma 3n E4B IT 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代...

DeepSeek-R1-0528 - DeepSeek 大型语言模型

Posted on 五月 28, 2025

DeepSeek-R1-0528 - DeepSeek 大型语言模型模型概述DeepSeek-R1-0528 是 DeepSeek 公司于 2025 年 5月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-R1-0528 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 599.4K，获得了 2,377 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-R1-0528 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领...

Claude Opus 4 - Anthropic 大型语言模型

Posted on 五月 22, 2025

Claude Opus 4 - Anthropic 大型语言模型模型概述Claude Opus 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude Opus 4 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 World’s best coding model at release：72.5% on SWE-bench 43.2% on Terminal：bench Hybrid dual-mode：near-ins...

Claude Sonnet 4 - Anthropic 大型语言模型

Posted on 五月 22, 2025

Claude Sonnet 4 - Anthropic 大型语言模型模型概述Claude Sonnet 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude Sonnet 4 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Significant upgrade from Claude Sonnet 3.7：提供强大的AI能力支持 Superior coding and reasoning capabilities：提...

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型

Posted on 四月 30, 2025

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型模型概述DeepSeek-Prover-V2-671B 是 DeepSeek 公司于 2025 年 4月发布的大型语言模型，拥有 671B (MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-Prover-V2-671B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 1.6K，获得了 811 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-Prover-V2-671B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...

Qwen3-0.6B - 阿里巴巴大型语言模型

Posted on 四月 27, 2025

Qwen3-0.6B - 阿里巴巴大型语言模型模型概述Qwen3-0.6B 是阿里巴巴公司于 2025 年 4月发布的大型语言模型，拥有 0.6B (751.6M total) 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen3-0.6B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 19.5M，获得了 695 个点赞，显示出强大的社区影响力和用户认可度。核心特性 0.6B (751.6M total) 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Unique think...

Llama 4 Scout - Meta 大型语言模型

Posted on 四月 5, 2025

Llama 4 Scout - Meta 大型语言模型模型概述Llama 4 Scout 是 Meta 公司于 2025 年 4月发布的大型语言模型，拥有 17B active (16 experts, MoE) 参数规模。作为基座模型，它为下游任务提供了强大的基础能力。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama 4 Scout 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 17B active (16 experts, MoE) 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 First open：wei...

Gemma 3 27B IT - 谷歌大型语言模型

Posted on 三月 1, 2025

Gemma 3 27B IT - 谷歌大型语言模型模型概述Gemma 3 27B IT 是谷歌公司于 2025 年 3月发布的大型语言模型，拥有 27B 参数规模。该模型支持商业使用，为企业部署提供了法律保障。 Gemma 3 27B IT 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 1.2M，获得了 1,639 个点赞，显示出强大的社区影响力和用户认可度。 Gemma 3 27B IT 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 27B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Multimodal：te...

xAI Grok 3 - xAI 推理语言模型

Posted on 二月 17, 2025

xAI Grok 3 - xAI 推理语言模型厂商: xAI (Elon Musk)发布日期: 2025-02-17模型类型: 推理语言模型模态: 文本、图像许可证: 专有商业模型 (Proprietary)评分: 4.2/5.0 概述xAI Grok 3 是由 Elon Musk 创立的 xAI 公司于 2025 年 2 月 17 日正式发布的最新旗舰 AI 模型。该模型被誉为”推理代理时代”的里程碑,在强大的预训练知识基础上融合了卓越的推理能力。Grok 3 在 Colossus 超级集群上训练,使用的计算量是此前最先进模型的 10 倍,展现了 xAI 在 AI 基础设施方面的雄心。 Grok 3 的发布标志着 xAI 在与 OpenAI、Anthropic、Google 等巨头的竞争中迈出了重要一步。该模型不仅在多个基准测试中展现出色表现,还通过与 X 平台(原 ...

Phi-4-mini-instruct 3.8B - 微软大型语言模型

Posted on 二月 1, 2025

Phi-4-mini-instruct 3.8B - 微软大型语言模型模型概述Phi-4-mini-instruct 3.8B 是微软公司于 2025 年 2月发布的大型语言模型，拥有 3.8B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Phi-4-mini-instruct 3.8B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Competitive with 7-8B models。核心特性 3.8B 参数规模：采用大规模参数设计，在性能和效率...

Mistral Small 24B Instruct 2501 - Mistral AI 大型语言模型

Posted on 一月 28, 2025

Mistral Small 24B Instruct 2501 - Mistral AI 大型语言模型模型概述Mistral Small 24B Instruct 2501 是 Mistral AI 公司于 2025 年 1月发布的大型语言模型，拥有 24B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral Small 24B Instruct 2501 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 765.1K，获得了 946 个点赞，显示出强大的社区影响力和用户认可度。核心特性 24B 参数规模：采用大规模参数设计，...

Janus-Pro-7B - DeepSeek 大型语言模型

Posted on 一月 26, 2025

Janus-Pro-7B - DeepSeek 大型语言模型模型概述Janus-Pro-7B 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型，拥有 7B 参数规模。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Janus-Pro-7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 78.7K，获得了 3,508 个点赞，显示出强大的社区影响力和用户认可度。 Janus-Pro-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得...

DeepSeek-R1 - DeepSeek 大型语言模型

Posted on 一月 20, 2025

DeepSeek-R1 - DeepSeek 大型语言模型模型概述DeepSeek-R1 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-R1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 548.2K，获得了 12,773 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-R1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特...

SmolLM3 3B - Hugging Face 大型语言模型

Posted on 一月 15, 2025

SmolLM3 3B - Hugging Face 大型语言模型模型概述SmolLM3 3B 是 Hugging Face 公司于 2025 年 1月发布的大型语言模型，拥有 3B (3.08B) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 SmolLM3 3B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 SmolLM3 3B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型...

METAGENE-1 - Meta 大型语言模型

Posted on 一月 6, 2025

METAGENE-1 - Meta 大型语言模型模型概述METAGENE-1 是 Meta 公司于 2025 年 1月发布的大型语言模型，拥有 7B 参数规模。 METAGENE-1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 METAGENE-1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 7B parameters for metagenomic analysis：提供强大的...

DeepSeek-V3 - DeepSeek 大型语言模型

Posted on 十二月 25, 2024

DeepSeek-V3 - DeepSeek 大型语言模型模型概述DeepSeek-V3 是 DeepSeek 公司于 2024 年 12月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-V3 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 247.1K，获得了 3,977 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，GPT-4 class capabilities。 DeepSeek-V3 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客...

Gemini 2.0 Flash - 谷歌大型语言模型

Posted on 十二月 19, 2024

Gemini 2.0 Flash - 谷歌大型语言模型模型概述Gemini 2.0 Flash 是谷歌公司于 2024 年 12月发布的大型语言模型。该模型支持商业使用，为企业部署提供了法律保障。 Gemini 2.0 Flash 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Native multimodal input：images, video, audio, and text Native multimodal output：text, images, and steerable TTS audio Designed for agentic AI ...

Llama 3.3 70B Instruct - Meta 大型语言模型

Posted on 十一月 26, 2024

Llama 3.3 70B Instruct - Meta 大型语言模型模型概述Llama 3.3 70B Instruct 是 Meta 公司于 2024 年 11月发布的大型语言模型，拥有 70B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama 3.3 70B Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 588.9K，获得了 2,526 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 128K tokens 的超长上下文窗口，Competitive with 405B models。核心特性 70B 参数规模：采用大规模参数设计，在性能和效率之间...

ChemDFM-v1.5 8B - OpenDFM 大型语言模型

Posted on 十一月 9, 2024

ChemDFM-v1.5 8B - OpenDFM 大型语言模型模型概述ChemDFM-v1.5 8B 是 OpenDFM 公司于 2024 年 11月发布的大型语言模型，拥有 8B 参数规模。 ChemDFM-v1.5 8B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Comparable or higher than GPT-4 on chemistry tasks。 ChemDFM-v1.5 8B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜...

LFM2 1.2B - Liquid AI 大型语言模型

Posted on 十月 1, 2024

LFM2 1.2B - Liquid AI 大型语言模型模型概述LFM2 1.2B 是 Liquid AI 公司于 2024 年 10月发布的大型语言模型，拥有 1.2B (1.17B) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色。该模型支持商业使用，为企业部署提供了法律保障。 LFM2 1.2B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Outperforms similar-sized models on knowledge, math, instruction-following。核心特性 1.2B (1.17B) 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Hybri...

Qwen2.5-7B-Instruct - 阿里巴巴大型语言模型

Posted on 九月 16, 2024

Qwen2.5-7B-Instruct - 阿里巴巴大型语言模型模型概述Qwen2.5-7B-Instruct 是阿里巴巴公司于 2024 年 9月发布的大型语言模型，拥有 7B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen2.5-7B-Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 5.2M，获得了 816 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 128K tokens 的超长上下文窗口。核心特性 7B 参数规模：采用大规模参数设计，在性能和...

Pharia-1-LLM 7B Control - Aleph Alpha 大型语言模型

Posted on 九月 15, 2024

Pharia-1-LLM 7B Control - Aleph Alpha 大型语言模型模型概述Pharia-1-LLM 7B Control 是 Aleph Alpha 公司于 2024 年 9月发布的大型语言模型，拥有 7B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。 Pharia-1-LLM 7B Control 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 Pharia-1-LLM 7B Control 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域...

OpenAI o1-mini - OpenAI 大型语言模型

Posted on 九月 12, 2024

OpenAI o1-mini - OpenAI 大型语言模型模型概述OpenAI o1-mini 是 OpenAI 公司于 2024 年 9月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 OpenAI o1-mini 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 80% cheaper than o1：preview Faster inference speed for cost：effective reasoning Specialized for STEM：math an...

OpenAI o1-preview - OpenAI 大型语言模型

Posted on 九月 12, 2024

OpenAI o1-preview - OpenAI 大型语言模型模型概述OpenAI o1-preview 是 OpenAI 公司于 2024 年 9月发布的大型语言模型。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 OpenAI o1-preview 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Advanced chain：of-thought reasoning before answering PhD：level performance on physics, chemistry, and biology benc...

Prithvi-WxC 2.3B - IBM 大型语言模型

Posted on 九月 1, 2024

Prithvi-WxC 2.3B - IBM 大型语言模型模型概述Prithvi-WxC 2.3B 是 IBM 公司于 2024 年 9月发布的大型语言模型，拥有 2.3B 参数规模。该模型支持商业使用，为企业部署提供了法律保障。 Prithvi-WxC 2.3B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 Prithvi-WxC 2.3B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 2.3B 参数规模：采用大规模参数设计，在性能和效率之间取...

InkubaLM 0.4B - Lelapa AI 大型语言模型

Posted on 八月 15, 2024

InkubaLM 0.4B - Lelapa AI 大型语言模型模型概述InkubaLM 0.4B 是 Lelapa AI 公司于 2024 年 8月发布的大型语言模型，拥有 0.4B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。 InkubaLM 0.4B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Comparable to larger models on domain tasks。 InkubaLM 0.4B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创...

EvoLLM-JP 10B - Sakana AI 大型语言模型

Posted on 八月 1, 2024

EvoLLM-JP 10B - Sakana AI 大型语言模型模型概述EvoLLM-JP 10B 是 Sakana AI 公司于 2024 年 8月发布的大型语言模型，拥有 9.86B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。 EvoLLM-JP 10B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 9.86B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Evolutionary Model Merge methodology：提供强大的AI能力支持 Merged from 3 base models (Shisa...

Llama 3.1 405B Instruct - Meta 大型语言模型

Posted on 七月 16, 2024

Llama 3.1 405B Instruct - Meta 大型语言模型模型概述Llama 3.1 405B Instruct 是 Meta 公司于 2024 年 7月发布的大型语言模型，拥有 405B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama 3.1 405B Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 799.5K，获得了 580 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 128K tokens 的超长上下文窗口，Competitive with GPT-4 class models。核心特性 40...

SeaLLMs-v3 7B - SeaLLMs 大型语言模型

Posted on 七月 15, 2024

SeaLLMs-v3 7B - SeaLLMs 大型语言模型模型概述SeaLLMs-v3 7B 是 SeaLLMs 公司于 2024 年 7月发布的大型语言模型，拥有 7.62B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 SeaLLMs-v3 7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 SeaLLMs-v3 7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成...

Gemma-2-27B - Gemma 2 27B flagship model

Posted on 六月 27, 2024

Gemma-2-27B - Gemma 2 27B flagship model模型概述Gemma-2-27B 是谷歌公司于 2024 年 6月发布的大型语言模型，拥有 27B 参数规模。 Gemma-2-27B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 27B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Gemma-2-27B 属于 Gemma 系列模型。该系列通常...

Gemma-2-9B - Gemma 2 9B with improved architecture

Posted on 六月 27, 2024

Gemma-2-9B - Gemma 2 9B with improved architecture模型概述Gemma-2-9B 是谷歌公司于 2024 年 6月发布的大型语言模型，拥有 9B 参数规模。 Gemma-2-9B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 9B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Gemma-2-9B 属于 Gemma 系列模型。...

Claude 3.5 Sonnet - Anthropic 大型语言模型

Posted on 六月 21, 2024

Claude 3.5 Sonnet - Anthropic 大型语言模型模型概述Claude 3.5 Sonnet 是 Anthropic 公司于 2024 年 6月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude 3.5 Sonnet 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Industry：leading performance across reasoning, knowledge, and coding Solved 64% of problems i...

DeepSeek-Coder-V2 - DeepSeek Coder V2 with MoE for code generation

Posted on 六月 17, 2024

DeepSeek-Coder-V2 - DeepSeek Coder V2 with MoE for code generation模型概述DeepSeek-Coder-V2 是 DeepSeek 公司于 2024 年 6月发布的大型语言模型，拥有 236B 参数规模。 DeepSeek-Coder-V2 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 236B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持...

Qwen2-0.5B - Qwen2 0.5B ultra-lightweight model

Posted on 六月 7, 2024

Qwen2-0.5B - Qwen2 0.5B ultra-lightweight model模型概述Qwen2-0.5B 是阿里巴巴公司于 2024 年 6月发布的大型语言模型，拥有 0.5B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen2-0.5B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 0.5B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Apache 2.0 开源许可：完全商业友好，无使用限制，支持二次开发完全开源...

Qwen2-1.5B - Qwen2 1.5B lightweight model

Posted on 六月 7, 2024

Qwen2-1.5B - Qwen2 1.5B lightweight model模型概述Qwen2-1.5B 是阿里巴巴公司于 2024 年 6月发布的大型语言模型，拥有 1.5B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen2-1.5B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 1.5B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Apache 2.0 开源许可：完全商业友好，无使用限制，支持二次开发完全开源：模型权重和...

Qwen2-72B - Qwen2 72B flagship model

Posted on 六月 7, 2024

Qwen2-72B - Qwen2 72B flagship model模型概述Qwen2-72B 是阿里巴巴公司于 2024 年 6月发布的大型语言模型，拥有 72B 参数规模。 Qwen2-72B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 72B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen2-72B 属于 Qwen 系列模型。该系列通常包含多个不同规模的...

Qwen2-7B - Qwen2 7B with improved 多语言支持 capabilities

Posted on 六月 7, 2024

Qwen2-7B - Qwen2 7B with improved 多语言支持 capabilities模型概述Qwen2-7B 是阿里巴巴公司于 2024 年 6月发布的大型语言模型，拥有 7B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen2-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Apache 2.0 开源许可：完全商业友好，无使用限制，支持二次开发完全开源：模型...

AIFS 1.0 - ECMWF 大型语言模型

Posted on 六月 1, 2024

AIFS 1.0 - ECMWF 大型语言模型模型概述AIFS 1.0 是 ECMWF 公司于 2024 年 6月发布的大型语言模型。该模型支持商业使用，为企业部署提供了法律保障。 AIFS 1.0 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 First operational AI weather forecasting system：提供强大的AI能力支持 GNN + sliding window transformer architecture：提供强大的AI能力支持 ERA5 reanalysis training (1979：2022) 商业部署友好...

GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型

Posted on 五月 13, 2024

GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型模型概述GPT-4o (GPT-4 Omni) 是 OpenAI 公司于 2024 年 5月发布的大型语言模型。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色。该模型支持商业使用，为企业部署提供了法律保障。在性能方面，Matches GPT-4 Turbo performance on text in English and code。 GPT-4o (GPT-4 Omni) 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Native multim...

DeepSeek-V2 - DeepSeek-V2 with Mixture of Experts architecture

Posted on 五月 6, 2024

DeepSeek-V2 - DeepSeek-V2 with Mixture of Experts architecture模型概述DeepSeek-V2 是 DeepSeek 公司于 2024 年 5月发布的大型语言模型，拥有 236B 参数规模。 DeepSeek-V2 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 236B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型D...

BioMedLM - Stanford CRFM / MosaicML 大型语言模型

Posted on 三月 15, 2024

BioMedLM - Stanford CRFM / MosaicML 大型语言模型模型概述BioMedLM 是 Stanford CRFM / MosaicML 公司于 2024 年 3月发布的大型语言模型，拥有 2.7B 参数规模。 BioMedLM 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 BioMedLM 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 2.7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平...

SaulLM-7B (Saul-7B-Base) - Mistral AI 大型语言模型

Posted on 三月 6, 2024

SaulLM-7B (Saul-7B-Base) - Mistral AI 大型语言模型模型概述SaulLM-7B (Saul-7B-Base) 是 Mistral AI 公司于 2024 年 3月发布的大型语言模型，拥有 7.24B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 SaulLM-7B (Saul-7B-Base) 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 SaulLM-7B (Saul-7B-Base) 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模...

Gemma-2B - Google's first 开源 lightweight model

Posted on 二月 21, 2024

Gemma-2B - Google’s first 开源 lightweight model模型概述Gemma-2B 是谷歌公司于 2024 年 2月发布的大型语言模型，拥有 2B 参数规模。 Gemma-2B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 2B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Gemma-2B 属于 Gemma 系列模型。该系列通常包含多个不...

Gemma-7B - Google's Gemma 7B model

Posted on 二月 21, 2024

Gemma-7B - Google’s Gemma 7B model模型概述Gemma-7B 是谷歌公司于 2024 年 2月发布的大型语言模型，拥有 7B 参数规模。 Gemma-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Gemma-7B 属于 Gemma 系列模型。该系列通常包含多个不同规模的版本：小型版...

Qwen1.5-14B - Qwen1.5 14B model

Posted on 二月 5, 2024

Qwen1.5-14B - Qwen1.5 14B model模型概述Qwen1.5-14B 是阿里巴巴公司于 2024 年 2月发布的大型语言模型，拥有 14B 参数规模。 Qwen1.5-14B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 14B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen1.5-14B 属于 Qwen 系列模型。该系列通常包含多个不同规模...

Qwen1.5-0.5B - Qwen1.5 0.5B ultra-lightweight model

Posted on 二月 5, 2024

Qwen1.5-0.5B - Qwen1.5 0.5B ultra-lightweight model模型概述Qwen1.5-0.5B 是阿里巴巴公司于 2024 年 2月发布的大型语言模型，拥有 0.5B 参数规模。 Qwen1.5-0.5B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 0.5B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen1.5-0.5B 属...

Qwen1.5-1.8B - Qwen1.5 1.8B lightweight model

Posted on 二月 5, 2024

Qwen1.5-1.8B - Qwen1.5 1.8B lightweight model模型概述Qwen1.5-1.8B 是阿里巴巴公司于 2024 年 2月发布的大型语言模型，拥有 1.8B 参数规模。 Qwen1.5-1.8B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 1.8B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen1.5-1.8B 属于 Qwen...

Qwen1.5-72B - Qwen1.5 72B flagship model

Posted on 二月 5, 2024

Qwen1.5-72B - Qwen1.5 72B flagship model模型概述Qwen1.5-72B 是阿里巴巴公司于 2024 年 2月发布的大型语言模型，拥有 72B 参数规模。 Qwen1.5-72B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 72B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen1.5-72B 属于 Qwen 系列模型。该系列通...

Qwen1.5-7B - Qwen1.5 7B model with strong Chinese capabilities

Posted on 二月 5, 2024

Qwen1.5-7B - Qwen1.5 7B model with strong Chinese capabilities模型概述Qwen1.5-7B 是阿里巴巴公司于 2024 年 2月发布的大型语言模型，拥有 7B 参数规模。 Qwen1.5-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen1.5-7B ...

VideoLLaMA3 7B - 阿里巴巴大型语言模型

Posted on 一月 22, 2024

VideoLLaMA3 7B - 阿里巴巴大型语言模型模型概述VideoLLaMA3 7B 是阿里巴巴公司于 2024 年 1月发布的大型语言模型，拥有 8.04B 参数规模。在代码生成和理解方面表现出色。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 VideoLLaMA3 7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 8.04B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Vision：centric multimodal design ...

Airavata 7B - AI4Bharat 大型语言模型

Posted on 一月 15, 2024

Airavata 7B - AI4Bharat 大型语言模型模型概述Airavata 7B 是 AI4Bharat 公司于 2024 年 1月发布的大型语言模型，拥有 6.87B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Airavata 7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 6.87B 参数规模：采用大规模参数设计，在性能...

StripedHyena-Hessian-7B - Together AI / hessian.AI 大型语言模型

Posted on 十二月 15, 2023

StripedHyena-Hessian-7B - Together AI / hessian.AI 大型语言模型模型概述StripedHyena-Hessian-7B 是 Together AI / hessian.AI 公司于 2023 年 12月发布的大型语言模型，拥有 7.65B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 StripedHyena-Hessian-7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 StripedHyena-Hessian-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理...

Mistral-7B-Instruct-v0.2 - Mistral 7B v0.2 with improved 指令微调ion following

Posted on 十二月 11, 2023

Mistral-7B-Instruct-v0.2 - Mistral 7B v0.2 with improved 指令微调ion following模型概述Mistral-7B-Instruct-v0.2 是 Mistral AI 公司于 2023 年 12月发布的大型语言模型，拥有 7B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral-7B-Instruct-v0.2 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数...

Mixtral 8x7B Instruct v0.1 - Mistral AI 大型语言模型

Posted on 十二月 10, 2023

Mixtral 8x7B Instruct v0.1 - Mistral AI 大型语言模型模型概述Mixtral 8x7B Instruct v0.1 是 Mistral AI 公司于 2023 年 12月发布的大型语言模型，拥有 46.7B total (8x7B MoE) 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mixtral 8x7B Instruct v0.1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 288.3K，获得了 4,569 个点赞，显示出强大的社区影响力和用户认可度。核心特性 46.7B total ...

DeepSeek-Coder-33B - DeepSeek Coder 33B for advanced code tasks

Posted on 十一月 2, 2023

DeepSeek-Coder-33B - DeepSeek Coder 33B for advanced code tasks模型概述DeepSeek-Coder-33B 是 DeepSeek 公司于 2023 年 11月发布的大型语言模型，拥有 33B 参数规模。 DeepSeek-Coder-33B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 33B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流...

DeepSeek-Coder-6.7B - DeepSeek Coder 6.7B for code generation

Posted on 十一月 2, 2023

DeepSeek-Coder-6.7B - DeepSeek Coder 6.7B for code generation模型概述DeepSeek-Coder-6.7B 是 DeepSeek 公司于 2023 年 11月发布的大型语言模型，拥有 6.7B 参数规模。 DeepSeek-Coder-6.7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 6.7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持...

Mistral-7B-v0.1 - First Mistral model proving small models can achieve high performance

Posted on 九月 27, 2023

Mistral-7B-v0.1 - First Mistral model proving small models can achieve high performance模型概述Mistral-7B-v0.1 是 Mistral AI 公司于 2023 年 9月发布的大型语言模型，拥有 7B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral-7B-v0.1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能...

Mistral-7B-Instruct-v0.1 - Mistral 7B v0.1 fine-tuned for 指令微调ion following

Posted on 九月 27, 2023

Mistral-7B-Instruct-v0.1 - Mistral 7B v0.1 fine-tuned for 指令微调ion following模型概述Mistral-7B-Instruct-v0.1 是 Mistral AI 公司于 2023 年 9月发布的大型语言模型，拥有 7B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral-7B-Instruct-v0.1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数...

CodeLlama-34B - Code Llama 34B 基座模型 for code synthesis

Posted on 八月 24, 2023

CodeLlama-34B - Code Llama 34B 基座模型 for code synthesis模型概述CodeLlama-34B 是 Meta 公司于 2023 年 8月发布的大型语言模型，拥有 34B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 CodeLlama-34B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 34B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提...

CodeLlama-13B - Code Llama 13B 基座模型 for code synthesis

Posted on 八月 24, 2023

CodeLlama-13B - Code Llama 13B 基座模型 for code synthesis模型概述CodeLlama-13B 是 Meta 公司于 2023 年 8月发布的大型语言模型，拥有 13B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 CodeLlama-13B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 13B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提...

CodeLlama-7B - Code Llama 7B 基座模型 for code synthesis

Posted on 八月 24, 2023

CodeLlama-7B - Code Llama 7B 基座模型 for code synthesis模型概述CodeLlama-7B 是 Meta 公司于 2023 年 8月发布的大型语言模型，拥有 7B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 CodeLlama-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的AP...

Llama-2-13B-Chat - Llama 2 13B fine-tuned for dialogue

Posted on 七月 18, 2023

Llama-2-13B-Chat - Llama 2 13B fine-tuned for dialogue模型概述Llama-2-13B-Chat 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 13B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-13B-Chat 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 13B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理 ...

Llama-2-13B - Meta's Llama 2 13B 基座模型

Posted on 七月 18, 2023

Llama-2-13B - Meta’s Llama 2 13B 基座模型模型概述Llama-2-13B 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 13B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-13B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 13B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架 ...

Llama-2-7B-Chat - Llama 2 7B fine-tuned for dialogue with RLHF

Posted on 七月 18, 2023

Llama-2-7B-Chat - Llama 2 7B fine-tuned for dialogue with RLHF模型概述Llama-2-7B-Chat 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 7B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-7B-Chat 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批...

Llama-2-70B-Chat - Llama 2 70B fine-tuned for dialogue

Posted on 七月 18, 2023

Llama-2-70B-Chat - Llama 2 70B fine-tuned for dialogue模型概述Llama-2-70B-Chat 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 70B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-70B-Chat 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 70B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理 ...

Llama-2-7B - Meta's Llama 2 7B 基座模型, the first truly commercial-ready 开源 LLM

Posted on 七月 18, 2023

Llama-2-7B - Meta’s Llama 2 7B 基座模型, the first truly commercial-ready 开源 LLM模型概述Llama-2-7B 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 7B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速...

Llama-2-70B - Meta's Llama 2 70B 基座模型 with Grouped-Query Attention

Posted on 七月 18, 2023

Llama-2-70B - Meta’s Llama 2 70B 基座模型 with Grouped-Query Attention模型概述Llama-2-70B 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 70B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-70B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 70B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处...