DeepSeek-V3.2-Exp - DeepSeek 大型语言模型

DeepSeek-V3.2-Exp - DeepSeek 大型语言模型模型概述DeepSeek-V3.2-Exp 是 DeepSeek 公司于 2025 年 9月发布的大型语言模型,拥有 685B (MoE with DeepSeek Sparse Attention) 参数规模。 在代码生成和理解方面表现出色。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-V3.2-Exp 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 42.9K,获得了 607 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-V3.2-Exp 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成...

阅读全文

DeepSeek-V3.1-Terminus - DeepSeek 大型语言模型

DeepSeek-V3.1-Terminus - DeepSeek 大型语言模型模型概述DeepSeek-V3.1-Terminus 是 DeepSeek 公司于 2025 年 9月发布的大型语言模型,拥有 685B total (MoE) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-V3.1-Terminus 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 20.7K,获得了 314 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-V3.1-Terminus 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表...

阅读全文

DeepSeek-R1-0528 - DeepSeek 大型语言模型

DeepSeek-R1-0528 - DeepSeek 大型语言模型模型概述DeepSeek-R1-0528 是 DeepSeek 公司于 2025 年 5月发布的大型语言模型,拥有 671B total (MoE) 参数规模。 具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-R1-0528 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 599.4K,获得了 2,377 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-R1-0528 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领...

阅读全文

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型模型概述DeepSeek-Prover-V2-671B 是 DeepSeek 公司于 2025 年 4月发布的大型语言模型,拥有 671B (MoE) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-Prover-V2-671B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 1.6K,获得了 811 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-Prover-V2-671B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...

阅读全文

Janus-Pro-7B - DeepSeek 大型语言模型

Janus-Pro-7B - DeepSeek 大型语言模型模型概述Janus-Pro-7B 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型,拥有 7B 参数规模。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 Janus-Pro-7B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 78.7K,获得了 3,508 个点赞,显示出强大的社区影响力和用户认可度。 Janus-Pro-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 7B 参数规模:采用大规模参数设计,在性能和效率之间取得...

阅读全文

DeepSeek-R1 - DeepSeek 大型语言模型

DeepSeek-R1 - DeepSeek 大型语言模型模型概述DeepSeek-R1 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型,拥有 671B total (MoE) 参数规模。 具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-R1 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 548.2K,获得了 12,773 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-R1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特...

阅读全文

DeepSeek-V3 - DeepSeek 大型语言模型

DeepSeek-V3 - DeepSeek 大型语言模型模型概述DeepSeek-V3 是 DeepSeek 公司于 2024 年 12月发布的大型语言模型,拥有 671B total (MoE) 参数规模。 具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-V3 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 247.1K,获得了 3,977 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,GPT-4 class capabilities。 DeepSeek-V3 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客...

阅读全文

DeepSeek-Coder-V2 - DeepSeek Coder V2 with MoE for code generation

DeepSeek-Coder-V2 - DeepSeek Coder V2 with MoE for code generation模型概述DeepSeek-Coder-V2 是 DeepSeek 公司于 2024 年 6月发布的大型语言模型,拥有 236B 参数规模。 DeepSeek-Coder-V2 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 236B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持...

阅读全文

DeepSeek-V2 - DeepSeek-V2 with Mixture of Experts architecture

DeepSeek-V2 - DeepSeek-V2 with Mixture of Experts architecture模型概述DeepSeek-V2 是 DeepSeek 公司于 2024 年 5月发布的大型语言模型,拥有 236B 参数规模。 DeepSeek-V2 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 236B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持主流深度学习框架 同系列模型D...

阅读全文

DeepSeek-Coder-33B - DeepSeek Coder 33B for advanced code tasks

DeepSeek-Coder-33B - DeepSeek Coder 33B for advanced code tasks模型概述DeepSeek-Coder-33B 是 DeepSeek 公司于 2023 年 11月发布的大型语言模型,拥有 33B 参数规模。 DeepSeek-Coder-33B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 33B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持主流...

阅读全文

DeepSeek-Coder-6.7B - DeepSeek Coder 6.7B for code generation

DeepSeek-Coder-6.7B - DeepSeek Coder 6.7B for code generation模型概述DeepSeek-Coder-6.7B 是 DeepSeek 公司于 2023 年 11月发布的大型语言模型,拥有 6.7B 参数规模。 DeepSeek-Coder-6.7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 6.7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero