Gemma-2-27B - Gemma 2 27B flagship model

Gemma-2-27B - Gemma 2 27B flagship model模型概述Gemma-2-27B 是 谷歌 公司于 2024 年 6月发布的大型语言模型,拥有 27B 参数规模。 Gemma-2-27B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 27B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持主流深度学习框架 同系列模型Gemma-2-27B 属于 Gemma 系列模型。该系列通常...

阅读全文

Claude 3.5 Sonnet - Anthropic 大型语言模型

Claude 3.5 Sonnet - Anthropic 大型语言模型模型概述Claude 3.5 Sonnet 是 Anthropic 公司于 2024 年 6月发布的大型语言模型。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Claude 3.5 Sonnet 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 Industry:leading performance across reasoning, knowledge, and coding Solved 64% of problems i...

阅读全文

优化多阶段语言模型程序的指令与示例

优化多阶段语言模型程序的指令与示例论文概述本文是一篇关于大语言模型的研究论文,由 Krista Opsahl-Ong 等7位研究者共同完成。 本文解决了优化复杂多阶段语言模型程序的挑战,在这些程序中多个语言模型调用被串联在一起。现有方法孤立地优化单个提示,而本研究引入了 MIPRO 算法,可以联合优化程序中所有模块的自由格式指令和少样本示例。MIPRO 对优化问题进行因式分解,并引入了用于提出任务驱动指令和跨模块信用分配的新颖策略。使用一流的开源模型(Llama-3-8B),MIPRO 在七个不同多阶段语言模型程序中的五个上优于基线优化器,准确率最高提升13%。 研究目标本研究的主要目标包括: 引入 MIPRO 算法用于端到端优化多阶段语言模型程序 联合优化指令和示例而非分别处理 开发了程序感知和数据感知技术用于提出有效指令 研究背景当前挑战 参数优化:如何自动化地优化模型参数和...

阅读全文

DeepSeek-Coder-V2 - DeepSeek Coder V2 with MoE for code generation

DeepSeek-Coder-V2 - DeepSeek Coder V2 with MoE for code generation模型概述DeepSeek-Coder-V2 是 DeepSeek 公司于 2024 年 6月发布的大型语言模型,拥有 236B 参数规模。 DeepSeek-Coder-V2 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 236B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持...

阅读全文

通过自动化过程监督改进语言模型的数学推理能力

通过自动化过程监督改进语言模型的数学推理能力论文概述本文是一篇关于推理能力的研究论文,由 Liangchen Luo 等11位研究者共同完成。 这篇 Google Research 论文介绍了 OmegaPRM,一种新颖的蒙特卡洛树搜索(MCTS)算法,无需人工标注即可自动收集高质量的过程监督数据用于训练过程奖励模型(PRM)。与仅验证最终答案的结果奖励模型不同,OmegaPRM 通过使用分治算法识别推理链中的第一个错误来提供步骤级监督。收集了超过150万个过程监督标注后,生成的 PRM 显著改进了数学推理:Gemini Pro 在 MATH500 上的准确率从51%提升到69.4%(18.4个百分点),Gemma2 27B 在 MATH500 上从42.3%提升到58.2%。该工作发表于2024年6月,证明自动化过程监督可以以极低的成本匹配或超越人工标注质量,使过程奖励模型能够大规...

阅读全文

Qwen2-0.5B - Qwen2 0.5B ultra-lightweight model

Qwen2-0.5B - Qwen2 0.5B ultra-lightweight model模型概述Qwen2-0.5B 是 阿里巴巴 公司于 2024 年 6月发布的大型语言模型,拥有 0.5B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen2-0.5B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 0.5B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 Apache 2.0 开源许可:完全商业友好,无使用限制,支持二次开发 完全开源...

阅读全文

Qwen2-72B - Qwen2 72B flagship model

Qwen2-72B - Qwen2 72B flagship model模型概述Qwen2-72B 是 阿里巴巴 公司于 2024 年 6月发布的大型语言模型,拥有 72B 参数规模。 Qwen2-72B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 72B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持主流深度学习框架 同系列模型Qwen2-72B 属于 Qwen 系列模型。该系列通常包含多个不同规模的...

阅读全文

Qwen2-1.5B - Qwen2 1.5B lightweight model

Qwen2-1.5B - Qwen2 1.5B lightweight model模型概述Qwen2-1.5B 是 阿里巴巴 公司于 2024 年 6月发布的大型语言模型,拥有 1.5B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen2-1.5B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 1.5B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 Apache 2.0 开源许可:完全商业友好,无使用限制,支持二次开发 完全开源:模型权重和...

阅读全文

Qwen2-7B - Qwen2 7B with improved 多语言支持 capabilities

Qwen2-7B - Qwen2 7B with improved 多语言支持 capabilities模型概述Qwen2-7B 是 阿里巴巴 公司于 2024 年 6月发布的大型语言模型,拥有 7B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen2-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 Apache 2.0 开源许可:完全商业友好,无使用限制,支持二次开发 完全开源:模型...

阅读全文

AIFS 1.0 - ECMWF 大型语言模型

AIFS 1.0 - ECMWF 大型语言模型模型概述AIFS 1.0 是 ECMWF 公司于 2024 年 6月发布的大型语言模型。 该模型支持商业使用,为企业部署提供了法律保障。 AIFS 1.0 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 First operational AI weather forecasting system:提供强大的AI能力支持 GNN + sliding window transformer architecture:提供强大的AI能力支持 ERA5 reanalysis training (1979:2022) 商业部署友好...

阅读全文

GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型

GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型模型概述GPT-4o (GPT-4 Omni) 是 OpenAI 公司于 2024 年 5月发布的大型语言模型。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色。 该模型支持商业使用,为企业部署提供了法律保障。 在性能方面,Matches GPT-4 Turbo performance on text in English and code。 GPT-4o (GPT-4 Omni) 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 Native multim...

阅读全文

vAttention:无需PagedAttention的动态内存管理

AbstractPagedAttention是LLM服务系统中广受欢迎的动态内存分配方法。它通过按需分配GPU内存来缓解KV缓存碎片问题——这一现象曾严重限制了早期系统的批处理大小(进而影响吞吐量)。然而,为了在运行时分配物理内存,PagedAttention最终改变了KV缓存的虚拟内存布局,从连续变为非连续。这种设计导致了不可忽视的编程和性能开销。本文提出vAttention,一种无需PagedAttention即可实现高效动态内存管理的新方法,在保持KV缓存连续性的同时,达到甚至超越PagedAttention的性能。 Key Contributions 揭示PagedAttention的隐性成本:通过详细分析,首次系统性地量化了PagedAttention的性能开销,包括非连续内存访问、复杂索引计算、编程复杂度等,在实际workload中可导致11%的吞吐量下降 保持虚拟内存连...

阅读全文

QServe:用于高效LLM服务的W4A8KV4量化与系统协同设计

Abstract量化可以加速大语言模型(LLM)推理。在INT8量化之外,研究社区正在积极探索更低精度,如INT4。然而,最先进的INT4量化技术仅能加速低批量、边缘LLM推理,无法在大批量、基于云的LLM服务中提供性能提升。我们发现了一个关键问题:现有的INT4量化方法在GPU上对权重或部分和进行反量化时存在显著的运行时开销(20-90%)。为了解决这一挑战,我们引入了QoQ,一种W4A8KV4量化算法,采用4位权重、8位激活和4位KV缓存。QoQ代表quattuor-octo-quattuor,在拉丁语中表示4-8-4。QoQ通过QServe推理库实现,并取得了可测量的加速。 Key Contributions QoQ (quattuor-octo-quattuor):结合4位权重、8位激活、4位KV缓存的新型W4A8KV4量化算法 渐进量化技术,在W4A8 GEMM中实现低反量...

阅读全文

DeepSeek-V2 - DeepSeek-V2 with Mixture of Experts architecture

DeepSeek-V2 - DeepSeek-V2 with Mixture of Experts architecture模型概述DeepSeek-V2 是 DeepSeek 公司于 2024 年 5月发布的大型语言模型,拥有 236B 参数规模。 DeepSeek-V2 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 236B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持主流深度学习框架 同系列模型D...

阅读全文

长上下文LLM在长上下文学习中的挑战

长上下文LLM在长上下文学习中的挑战论文信息 标题: Long-context LLMs Struggle with Long In-context Learning 作者: Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen 发布日期: 2024-04-02 ArXiv链接: https://arxiv.org/abs/2404.02060 核心概述大型语言模型(LLM)在处理长序列方面取得了重大进展。一些模型如Gemini甚至声称能够处理数百万token。然而,它们的性能评估主要局限于困惑度和合成任务等指标,这些指标可能无法完全捕捉它们在更具挑战性的真实场景中的真实能力。 本文提出了LongICLBench,一个全面的基准测试套件,专门评估长上下文LLM在实际长上下文学习任务中的表现。基准包含多个领域的真实任务,如文档问...

阅读全文

Cosmopedia:最大的开源合成数据集,25B token助力小模型训练

引领合成数据新纪元:Cosmopedia的诞生在大语言模型训练领域,数据始终是核心瓶颈。Hugging Face于2024年3月发布的Cosmopedia,以超过300万个文件、250亿token的规模,成为目前最大的开源合成数据集。这不仅是一个里程碑式的成果,更代表了合成数据生成技术从理论到实践的重大突破。 数据规模与多样性:前所未有的覆盖面Cosmopedia的规模令人震撼: 文件数量:超过3000万个合成文本文件 Token总量:250亿token,相当于中等规模预训练语料库 内容类型:涵盖合成教科书、博客文章、故事、WikiHow风格文章 主题覆盖:横跨112个不同主题领域 这种规模和多样性使其成为预训练小型语言模型的理想数据源。与传统的网络爬虫数据相比,Cosmopedia的内容更加结构化、高质量,且完全避免了版权和隐私问题。 生成方法论:从多源数据到高质量合成Cosm...

阅读全文

BioMedLM - Stanford CRFM / MosaicML 大型语言模型

BioMedLM - Stanford CRFM / MosaicML 大型语言模型模型概述BioMedLM 是 Stanford CRFM / MosaicML 公司于 2024 年 3月发布的大型语言模型,拥有 2.7B 参数规模。 BioMedLM 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 BioMedLM 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 2.7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平...

阅读全文

SaulLM-7B (Saul-7B-Base) - Mistral AI 大型语言模型

SaulLM-7B (Saul-7B-Base) - Mistral AI 大型语言模型模型概述SaulLM-7B (Saul-7B-Base) 是 Mistral AI 公司于 2024 年 3月发布的大型语言模型,拥有 7.24B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 SaulLM-7B (Saul-7B-Base) 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 SaulLM-7B (Saul-7B-Base) 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模...

阅读全文

Gemma-2B - Google's first 开源 lightweight model

Gemma-2B - Google’s first 开源 lightweight model模型概述Gemma-2B 是 谷歌 公司于 2024 年 2月发布的大型语言模型,拥有 2B 参数规模。 Gemma-2B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 2B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持主流深度学习框架 同系列模型Gemma-2B 属于 Gemma 系列模型。该系列通常包含多个不...

阅读全文

Gemma-7B - Google's Gemma 7B model

Gemma-7B - Google’s Gemma 7B model模型概述Gemma-7B 是 谷歌 公司于 2024 年 2月发布的大型语言模型,拥有 7B 参数规模。 Gemma-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持主流深度学习框架 同系列模型Gemma-7B 属于 Gemma 系列模型。该系列通常包含多个不同规模的版本: 小型版...

阅读全文

无需提示的链式思维推理

Chain-of-Thought Reasoning Without Prompting ArXiv ID: 2402.10200作者: Xuezhi Wang, Denny Zhou发布日期: 2024-02-15 摘要大语言模型(LLM)能否在没有链式思维(CoT)等提示技术的情况下有效推理?本文揭示了一个令人惊讶的发现:CoT推理路径本质上就存在于大语言模型中,只需改变解码过程就能引出,无需任何提示。与选择最可能下一个标记的标准贪婪解码不同,我们研究了top-k序列中的替代标记。我们的实验表明,这些替代路径经常包含CoT风格的推理,即使模型没有被明确提示进行逐步推理。我们展示了替代序列中CoT路径的存在与模型置信度相关,并且模型通常具有在默认贪婪输出中未表达的内在推理能力。这一发现具有重要意义:它表明大语言模型拥有可通过解码策略而非提示工程访问的潜在推理能力,并提供了一种在没...

阅读全文

PROMST:多步骤任务中的提示优化——整合人类反馈与启发式采样

PROMST:多步骤任务中的提示优化——整合人类反馈与启发式采样论文概述本文是一篇关于提示工程的优化方法论文,由 Yongchao Chen 等6位研究者共同完成。 PROMST 解决了多步骤智能体任务提示优化的独特挑战,在这些任务中,提示更加复杂,单个步骤的影响难以评估,且用户偏好各异。与单步骤任务优化器不同,PROMST 融合了人类设计的反馈规则(自评规则)以自动提供直接的改进建议,并使用学习到的启发式模型来高效预测提示性能以进行采样。该方法在11个代表性多步骤任务上显著优于人工设计的提示和其他优化方法,在五种不同的大语言模型上平均提升10.6%-29.3%。 研究目标本研究的主要目标包括: 引入专门为多步骤任务提示优化设计的 PROMST 框架 开发自评规则机制,将人类反馈规则融入自动化优化 实现对比过滤,使用学习到的启发式方法高效采样高质量提示候选 研究背景当前挑战 提示...

阅读全文

从错误中进行上下文原理学习

从错误中进行上下文原理学习论文概述本文是一篇关于大型语言模型 (LLM)的研究论文,由 Tianjun Zhang 等8位研究者共同完成。 LEAP(学习原理)引入了一种新颖的上下文学习 (In-Context Learning)范式,从错误中学习而非仅从正确示例学习。通过有意诱导错误、反思错误并推导出明确的任务特定原理,LEAP 显著提升了大型语言模型 (LLM)在推理任务上的性能。这种方法模仿了人类学习,即我们往往从错误中学到的比从成功中学到的更多。 研究目标本研究的主要目标包括: 引入 LEAP,一种从诱导错误中学习显式原理的新型上下文学习 (In-Context Learning)范式 证明从错误中学习比仅从正确示例学习更有效 提出三阶段流程:诱导错误、推导原理、将原理应用于新查询 研究背景当前挑战 推理能力不足:模型在复杂推理任务上表现欠佳 多步推理困难:难以处理需要多...

阅读全文

基于意图的提示校准:通过合成边界案例增强提示优化

论文概述基于意图的提示校准引入了一种新的自动提示工程方法,解决了需要高质量基准数据集的挑战,而这些数据集在许多现实用例中难以获取且成本高昂。该方法使用迭代校准过程,联合生成边界用例的合成数据并根据此生成的数据集优化提示。通过在优化过程中创建边界案例而非预先需要大量标注数据,系统可以优化提示以更好地与用户意图对齐。该方法在有限数量的标注样本下优于最先进的方法,展示了强大的实用价值。 论文信息: 发布时间:2024-02-05 作者:Elad Levi, Eli Brosh, Matan Friedmann 机构:IBM Research 研究方向:提示工程, 大型语言模型推理 核心技术:提示优化 研究背景自动提示工程通常需要大量高质量的标注数据,这在实际应用中往往难以获取。本研究针对以下问题展开: 现有问题 自动提示优化需要大量高质量基准数据 标注数据获取成本高昂且耗时 现有方法难...

阅读全文

大语言模型提示工程系统性综述:技术与应用

大语言模型提示工程系统性综述:技术与应用论文概述本文是一篇关于提示工程的综述性研究论文,由 Pranab Sahoo 等6位研究者共同完成。 This 综合性 综述 provides a structured overview of recent advancements in 提示工程 for 大语言模型 (大语言模型s) and vision-language models (VLMs). It addresses the gap in 系统性 organization by categorizing approaches by application area, providing detailed summaries of prompting methodologies, models, datasets, and creating a taxonomy of techniq...

阅读全文

Qwen1.5-0.5B - Qwen1.5 0.5B ultra-lightweight model

Qwen1.5-0.5B - Qwen1.5 0.5B ultra-lightweight model模型概述Qwen1.5-0.5B 是 阿里巴巴 公司于 2024 年 2月发布的大型语言模型,拥有 0.5B 参数规模。 Qwen1.5-0.5B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 0.5B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持主流深度学习框架 同系列模型Qwen1.5-0.5B 属...

阅读全文

Qwen1.5-72B - Qwen1.5 72B flagship model

Qwen1.5-72B - Qwen1.5 72B flagship model模型概述Qwen1.5-72B 是 阿里巴巴 公司于 2024 年 2月发布的大型语言模型,拥有 72B 参数规模。 Qwen1.5-72B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 72B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持主流深度学习框架 同系列模型Qwen1.5-72B 属于 Qwen 系列模型。该系列通...

阅读全文

Qwen1.5-14B - Qwen1.5 14B model

Qwen1.5-14B - Qwen1.5 14B model模型概述Qwen1.5-14B 是 阿里巴巴 公司于 2024 年 2月发布的大型语言模型,拥有 14B 参数规模。 Qwen1.5-14B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 14B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持主流深度学习框架 同系列模型Qwen1.5-14B 属于 Qwen 系列模型。该系列通常包含多个不同规模...

阅读全文

Qwen1.5-1.8B - Qwen1.5 1.8B lightweight model

Qwen1.5-1.8B - Qwen1.5 1.8B lightweight model模型概述Qwen1.5-1.8B 是 阿里巴巴 公司于 2024 年 2月发布的大型语言模型,拥有 1.8B 参数规模。 Qwen1.5-1.8B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 1.8B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持主流深度学习框架 同系列模型Qwen1.5-1.8B 属于 Qwen...

阅读全文

Qwen1.5-7B - Qwen1.5 7B model with strong Chinese capabilities

Qwen1.5-7B - Qwen1.5 7B model with strong Chinese capabilities模型概述Qwen1.5-7B 是 阿里巴巴 公司于 2024 年 2月发布的大型语言模型,拥有 7B 参数规模。 Qwen1.5-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持主流深度学习框架 同系列模型Qwen1.5-7B ...

阅读全文

大型语言模型是好的提示优化器吗?

论文概述这项批判性研究调查了基于大型语言模型的自动提示优化背后的实际机制,揭示了大型语言模型优化器运作方式的重大局限性。与假设大型语言模型真正反思错误并相应改进提示的假设相反,研究发现:(1)大型语言模型优化器难以识别错误的真正原因,往往受先验知识偏见影响而非实际分析错误;(2)即使反思在语义上有效,大型语言模型也经常由于目标模型行为的不可预测性而无法在单次优化步骤中生成适当的提示。基于这些观察,作者提出向”自动行为优化”范式转变,以更可控的方式直接优化目标模型行为。 论文信息: 发布时间:2024-02-03 作者:Ruotian Ma, Xiaolei Wang, Xin Zhou等 机构:复旦大学, Google 研究方向:提示工程, 大型语言模型推理 核心技术:提示优化分析 研究背景自动提示优化被认为是提升大型语言模型性能的重要方向,但其实际工作机制和局限性尚未得到充分研...

阅读全文

元提示:通过任务无关的脚手架增强语言模型

论文概述这项斯坦福大学/OpenAI的合作研究引入了元提示,一种有效的脚手架技术,将单个语言模型转变为多方面的指挥者。该方法使用高层指令引导语言模型将复杂任务分解为较小的子任务,每个子任务由同一语言模型的不同”专家”实例处理,每个实例在特定的定制指令下运行。 论文信息: 发布时间:2024-01-23 作者:Mirac Suzgun, Adam Tauman Kalai 机构:斯坦福大学, OpenAI 研究方向:提示工程, 大型语言模型推理 核心技术:元提示 研究背景大型语言模型在各类任务中展现出强大的能力,但在处理复杂任务时,单一提示往往难以充分发挥模型潜力。本研究针对以下问题展开: 现有问题 单一提示难以处理复杂的多步骤任务 缺乏系统化的任务分解和协调机制 现有方法需要针对特定任务设计专门的脚手架 研究动机本研究旨在开发一种任务无关的脚手架技术,通过元提示使单个...

阅读全文

VideoLLaMA3 7B - 阿里巴巴 大型语言模型

VideoLLaMA3 7B - 阿里巴巴 大型语言模型模型概述VideoLLaMA3 7B 是 阿里巴巴 公司于 2024 年 1月发布的大型语言模型,拥有 8.04B 参数规模。 在代码生成和理解方面表现出色。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 VideoLLaMA3 7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 8.04B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 Vision:centric multimodal design ...

阅读全文

PRewrite:基于强化学习的提示重写

论文概述PRewrite针对人工提示工程耗时且效果不佳的问题,引入了一种基于强化学习的自动化工具,能够将草稿提示重写为高效提示。与人工试错或僵化的基于模板的方法不同,PRewrite使用强化学习在大型动作空间中实现端到端优化,生成人类可读且自我解释的提示。从人工起草的初始提示开始使重写过程更加引导化和高效。在多样化数据集上的实验表明,PRewrite生成的提示不仅优于专业制作的提示,还超越了其他自动化方法生成的提示。 论文信息: 发布时间:2024-01-16 作者:Weize Kong, Spurthi Amba Hombaiah, Mingyang Zhang等 机构:Google, 密歇根大学 研究方向:提示工程, 大型语言模型推理 核心技术:提示优化 研究背景大型语言模型在各类任务中展现出强大的能力,但提示工程仍然是一个耗时且需要专业知识的过程。本研究针对以下问题展开: ...

阅读全文

Multimodal-Mind2Web:让AI理解网页的多模态数据集

赋能Web智能体:多模态理解网页的革命性数据集在人工智能快速发展的今天,我们距离通用网页智能体(Web Agent)的目标越来越近。俄亥俄州立大学NLP团队发布的Multimodal-Mind2Web数据集,为这一目标提供了关键支撑。这个包含14,193个网页任务样本的多模态数据集,首次将网页截图与HTML文档完美对齐,让AI真正”看懂”网页。 数据集核心特性规模与结构 总样本数:14,193行动作记录 总任务数:2,022个复杂网页任务 数据大小:13.6 GB 模态类型:图像(网页截图)+ 文本(HTML + 自然语言指令) 数据划分策略Multimodal-Mind2Web采用了三种不同的测试集划分方式,全面评估模型的泛化能力: Task Split(任务划分) 训练集:7,775个动作(1,009个任务) 测试集:1,339个动作(177个任务) 目的:测试模型对新任...

阅读全文

Airavata 7B - AI4Bharat 大型语言模型

Airavata 7B - AI4Bharat 大型语言模型模型概述Airavata 7B 是 AI4Bharat 公司于 2024 年 1月发布的大型语言模型,拥有 6.87B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Airavata 7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 6.87B 参数规模:采用大规模参数设计,在性能...

阅读全文

StripedHyena-Hessian-7B - Together AI / hessian.AI 大型语言模型

StripedHyena-Hessian-7B - Together AI / hessian.AI 大型语言模型模型概述StripedHyena-Hessian-7B 是 Together AI / hessian.AI 公司于 2023 年 12月发布的大型语言模型,拥有 7.65B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 StripedHyena-Hessian-7B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 StripedHyena-Hessian-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理...

阅读全文

Mistral-7B-Instruct-v0.2 - Mistral 7B v0.2 with improved 指令微调ion following

Mistral-7B-Instruct-v0.2 - Mistral 7B v0.2 with improved 指令微调ion following模型概述Mistral-7B-Instruct-v0.2 是 Mistral AI 公司于 2023 年 12月发布的大型语言模型,拥有 7B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mistral-7B-Instruct-v0.2 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 7B 参数规模:采用大规模参数...

阅读全文

Mixtral 8x7B Instruct v0.1 - Mistral AI 大型语言模型

Mixtral 8x7B Instruct v0.1 - Mistral AI 大型语言模型模型概述Mixtral 8x7B Instruct v0.1 是 Mistral AI 公司于 2023 年 12月发布的大型语言模型,拥有 46.7B total (8x7B MoE) 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mixtral 8x7B Instruct v0.1 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 288.3K,获得了 4,569 个点赞,显示出强大的社区影响力和用户认可度。 核心特性 46.7B total ...

阅读全文

AI 系统的元提示

论文概述这项来自清华大学的工作引入了元提示(Meta Prompting, MP),这是一个具有理论基础的框架,通过关注任务的形式结构而非特定内容的示例来提升大型语言模型推理。基于类型理论和范畴论,MP 提供了指导推理过程的结构化模板,仅使用单个零样本元提示就实现了最先进的结果。 论文信息: 发布时间:2023-11-20 作者:Yifan Zhang, Yang Yuan, Andrew Chi-Chih Yao 机构:未知 研究方向:提示工程,大型语言模型推理 核心技术:元提示(Meta-Prompting) 研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开: 现有问题 传统提示方法在复杂推理任务上表现不佳 模型难以处理需要多步骤推理的问题 缺乏系统化的推理引导方法 研究动机本研究旨在探索更有效的...

阅读全文

提示工程一个提示工程师

论文概述这项工作通过构建元提示来研究”提示工程一个提示工程师”,这些元提示更有效地引导大型语言模型执行自动提示工程。提出的 PE2 方法引入了关键组件,如逐步推理模板和上下文规范,以及优化概念的语言化对应物(批量大小、步长、动量),以改进自动提示工程性能。 论文信息: 发布时间:2023-11-09 作者:Qinyuan Ye, Maxamed Axmed, Reid Pryzant等 机构:未知 研究方向:提示工程,大型语言模型推理 核心技术:元提示(Meta-Prompting) 研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开: 现有问题 传统提示方法在复杂推理任务上表现不佳 模型难以处理需要多步骤推理的问题 缺乏系统化的推理引导方法 研究动机本研究旨在探索更有效的提示工程技术,提升大型语言模型...

阅读全文

DeepSeek-Coder-33B - DeepSeek Coder 33B for advanced code tasks

DeepSeek-Coder-33B - DeepSeek Coder 33B for advanced code tasks模型概述DeepSeek-Coder-33B 是 DeepSeek 公司于 2023 年 11月发布的大型语言模型,拥有 33B 参数规模。 DeepSeek-Coder-33B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 33B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持主流...

阅读全文

DeepSeek-Coder-6.7B - DeepSeek Coder 6.7B for code generation

DeepSeek-Coder-6.7B - DeepSeek Coder 6.7B for code generation模型概述DeepSeek-Coder-6.7B 是 DeepSeek 公司于 2023 年 11月发布的大型语言模型,拥有 6.7B 参数规模。 DeepSeek-Coder-6.7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 6.7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持...

阅读全文

大型语言模型作为类比推理器

论文概述受人类类比推理的启发,本文介绍了类比提示(Analogical Prompting),这是一种新颖的方法,提示大型语言模型在解决问题之前自我生成相关的范例和知识。与需要手动制作示例的传统 CoT 不同,类比提示使大型语言模型能够从其内部知识中提取以创建针对问题的演示,无需标注的范例即可实现卓越性能。 论文信息: 发布时间:2023-10-03 作者:Michihiro Yasunaga, Xinyun Chen, Yujia Li等 机构:Google DeepMind,斯坦福大学 研究方向:提示工程,大型语言模型推理 核心技术:类比推理(Analogical Reasoning) 研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开: 现有问题 传统提示方法在复杂推理任务上表现不佳 模型难以处理需...

阅读全文

Mistral-7B-Instruct-v0.1 - Mistral 7B v0.1 fine-tuned for 指令微调ion following

Mistral-7B-Instruct-v0.1 - Mistral 7B v0.1 fine-tuned for 指令微调ion following模型概述Mistral-7B-Instruct-v0.1 是 Mistral AI 公司于 2023 年 9月发布的大型语言模型,拥有 7B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mistral-7B-Instruct-v0.1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 7B 参数规模:采用大规模参数...

阅读全文

Mistral-7B-v0.1 - First Mistral model proving small models can achieve high performance

Mistral-7B-v0.1 - First Mistral model proving small models can achieve high performance模型概述Mistral-7B-v0.1 是 Mistral AI 公司于 2023 年 9月发布的大型语言模型,拥有 7B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mistral-7B-v0.1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 7B 参数规模:采用大规模参数设计,在性能...

阅读全文

大型语言模型作为优化器

论文概述这篇里程碑式论文介绍了通过提示优化(Optimization by PROmpting, OPRO),这是一种利用大型语言模型作为各种任务优化器的突破性范式。与传统的基于导数的优化不同,OPRO 使用自然语言描述优化任务,并根据先前评估的候选项迭代生成新解决方案。该方法在提示优化上展示了显著的有效性,其中 OPRO 优化的提示在 GSM8K 上优于人工设计的提示最多 8%,在 Big-Bench Hard 任务上优于最多 50%。这项工作在 Hugging Face 上获得了 77 个点赞,表明了强大的社区认可。 论文信息: 发布时间:2023-09-07 作者:Chengrun Yang, Xuezhi Wang, Yifeng Lu等 机构:Google DeepMind 研究方向:提示工程,大型语言模型推理 核心技术:提示优化(Prompt Optimization)...

阅读全文

RLAIF 对比 RLHF:使用 AI 反馈扩展人类反馈强化学习

论文概述这篇 Google Research 论文提供了基于 AI 反馈的强化学习(RLAIF)与传统 RLHF 之间的首次全面实证比较,证明 AI 生成的偏好标签可以以大幅降低的成本匹配人类反馈质量。在三个任务(摘要、有帮助的对话、无害对话)中,RLAIF 实现了与 RLHF 相当的性能,人类评估者对两者同样偏好(约 70% 优于监督基线)。关键创新是使用现成的大型语言模型生成偏好标签,而不是昂贵的人工标注,并引入了直接 RLAIF(d-RLAIF),该方法在 RL 期间直接从大型语言模型获取奖励,无需训练单独的奖励模型,实现了卓越的性能。该工作发表于 ICML 2024,验证了 RLAIF 作为 RLHF 的可扩展替代方案,将标注成本降低了 10 倍以上,同时保持对齐质量。 论文信息: 发布时间:2023-09-01 作者:Harrison Lee, Samrat Phatal...

阅读全文

CodeLlama-13B - Code Llama 13B 基座模型 for code synthesis

CodeLlama-13B - Code Llama 13B 基座模型 for code synthesis模型概述CodeLlama-13B 是 Meta 公司于 2023 年 8月发布的大型语言模型,拥有 13B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 CodeLlama-13B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 13B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提...

阅读全文

CodeLlama-34B - Code Llama 34B 基座模型 for code synthesis

CodeLlama-34B - Code Llama 34B 基座模型 for code synthesis模型概述CodeLlama-34B 是 Meta 公司于 2023 年 8月发布的大型语言模型,拥有 34B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 CodeLlama-34B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 34B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提...

阅读全文

CodeLlama-7B - Code Llama 7B 基座模型 for code synthesis

CodeLlama-7B - Code Llama 7B 基座模型 for code synthesis模型概述CodeLlama-7B 是 Meta 公司于 2023 年 8月发布的大型语言模型,拥有 7B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 CodeLlama-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的AP...

阅读全文

思维图谱:用大型语言模型解决复杂问题

论文概述思维图谱(Graph of Thoughts, GoT)是一个突破性框架,将大型语言模型推理从链式(CoT)和树式(ToT)结构扩展到任意图结构。GoT 允许大型语言模型将生成的信息建模为图,其中信息单元(”大型语言模型思维”)是顶点,边表示依赖关系。这种灵活的结构能够处理需要复杂信息聚合、回溯和循环依赖的问题。实验表明,GoT 显著优于现有方法,在排序任务上实现了 62% 的质量改进,同时相比 ToT 降低了超过 31% 的成本。 论文信息: 发布时间:2023-08-18 作者:Maciej Besta, Nils Blach, Ales Kubicek等 机构:苏黎世联邦理工学院,雅盖隆大学 研究方向:提示工程,大型语言模型推理 核心技术:思维图谱(Graph of Thoughts) 研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进...

阅读全文

思维骨架:提示大型语言模型进行高效并行生成

论文概述思维骨架(Skeleton-of-Thought, SoT)是清华大学和微软研究院提出的一种创新推理优化技术,通过并行解码减少大型语言模型的生成延迟。受人类思维过程的启发——我们在详细阐述之前首先概述想法——SoT 提示大型语言模型首先生成答案的高层骨架(大纲),然后通过批量解码或并行 API 调用并行完成每个骨架点。在包括 GPT-4、LLaMA 和 Vicuna 在内的 12 个大型语言模型和多样化问题类型上进行评估,SoT 实现了高达 2.39 倍的加速,同时保持或提高答案质量。该论文发表于 ICLR 2024,SoT 展示了一种以数据为中心的推理效率方法,将大型语言模型视为黑盒,并适用于任何现成的模型,包括基于 API 的服务。 论文信息: 发布时间:2023-07-28 作者:Xuefei Ning, Zinan Lin, Zixuan Zhou等 机构:清华大学...

阅读全文

视觉-语言基础模型的提示工程系统综述

论文概述这篇来自牛津大学等机构的综合性综述系统地考察了三种主要类型的视觉-语言基础模型的提示工程技术:多模态到文本生成(如 Flamingo)、图像-文本匹配(如 CLIP)和文本到图像生成(如 Stable Diffusion)。该工作首次系统地概述了视觉领域的提示方法、应用和责任考虑。 论文信息: 发布时间:2023-07-24 作者:Jindong Gu, Zhen Han, Shuo Chen等 机构:未知 研究方向:提示工程,大型语言模型推理 核心技术:视觉提示(Visual Prompting) 研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开: 现有问题 传统提示方法在复杂推理任务上表现不佳 模型难以处理需要多步骤推理的问题 缺乏系统化的推理引导方法 研究动机本研究旨在探索更有效的提示工...

阅读全文

Llama-2-13B - Meta's Llama 2 13B 基座模型

Llama-2-13B - Meta’s Llama 2 13B 基座模型模型概述Llama-2-13B 是 Meta 公司于 2023 年 7月发布的大型语言模型,拥有 13B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama-2-13B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 13B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 易于集成:提供标准的API接口,支持主流深度学习框架 ...

阅读全文

Llama-2-70B-Chat - Llama 2 70B fine-tuned for dialogue

Llama-2-70B-Chat - Llama 2 70B fine-tuned for dialogue模型概述Llama-2-70B-Chat 是 Meta 公司于 2023 年 7月发布的大型语言模型,拥有 70B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama-2-70B-Chat 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 70B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 ...

阅读全文

Llama-2-13B-Chat - Llama 2 13B fine-tuned for dialogue

Llama-2-13B-Chat - Llama 2 13B fine-tuned for dialogue模型概述Llama-2-13B-Chat 是 Meta 公司于 2023 年 7月发布的大型语言模型,拥有 13B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama-2-13B-Chat 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 13B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处理 ...

阅读全文

Llama-2-70B - Meta's Llama 2 70B 基座模型 with Grouped-Query Attention

Llama-2-70B - Meta’s Llama 2 70B 基座模型 with Grouped-Query Attention模型概述Llama-2-70B 是 Meta 公司于 2023 年 7月发布的大型语言模型,拥有 70B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama-2-70B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 70B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批量处...

阅读全文

Llama-2-7B-Chat - Llama 2 7B fine-tuned for dialogue with RLHF

Llama-2-7B-Chat - Llama 2 7B fine-tuned for dialogue with RLHF模型概述Llama-2-7B-Chat 是 Meta 公司于 2023 年 7月发布的大型语言模型,拥有 7B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama-2-7B-Chat 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速推理和批...

阅读全文

Llama-2-7B - Meta's Llama 2 7B 基座模型, the first truly commercial-ready 开源 LLM

Llama-2-7B - Meta’s Llama 2 7B 基座模型, the first truly commercial-ready 开源 LLM模型概述Llama-2-7B 是 Meta 公司于 2023 年 7月发布的大型语言模型,拥有 7B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama-2-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。 核心特性 7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡 完全开源:模型权重和代码完全开放,便于研究和定制化开发 高效推理:采用优化的模型架构,支持快速...

阅读全文

提示空间:优化大型语言模型的少样本推理成功

论文概述本文提出了提示空间(Prompt Space),这是一种提供稳健理论框架来选择有效提示的新方法。它利用文本嵌入和矩阵分解来获取基向量,并构建一个用于表示所有提示的空间。提示空间在十个推理基准测试上显著优于最先进的范式,甚至在不使用思维链或”让我们逐步思考”提示的情况下也是如此。 论文信息: 发布时间:2023-06-06 作者:Fobo Shi, Peijun Qing, Dong Yang等 机构:未知 研究方向:提示工程,大型语言模型推理 核心技术:提示空间(Prompt Space) 研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开: 现有问题 传统提示方法在复杂推理任务上表现不佳 模型难以处理需要多步骤推理的问题 缺乏系统化的推理引导方法 研究动机本研究旨在探索更有效的提示工程技术,提...

阅读全文

通用自适应提示

论文概述通用自适应提示(Universal Self-Adaptive Prompting, USP)通过实现自动提示设计的有效零样本学习来解决 Transformers 的架构限制。与依赖”一个提示适用所有”策略的传统方法不同,USP 对任务进行分类,并选择任务适当的查询和模型生成的响应作为伪示例,以完全自动化的方式将上下文学习泛化到零样本设置。 论文信息: 发布时间:2023-05-24 作者:Xingchen Wan, Ruoxi Sun, Hootan Nakhost等 机构:Google Research 研究方向:提示工程,大型语言模型推理 核心技术:零样本学习(Zero Shot Learning) 研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开: 现有问题 传统提示方法在复杂推理任务上...

阅读全文

QLoRA:量化大型语言模型的高效微调

论文概述QLoRA 是华盛顿大学提出的一项里程碑式量化微调技术,能够在消费级硬件上高效微调大规模语言模型。关键创新在于结合了三项技术:(1)针对正态分布权重优化的 4 位 NormalFloat(NF4)量化,(2)双重量化以减少量化常数的内存占用,(3)使用 NVIDIA 统一内存的分页优化器来处理内存峰值。QLoRA 能够在单个 48GB GPU 上微调 650 亿参数模型,同时保持完整的 16 位微调性能。生成的 Guanaco 模型系列在 Vicuna 基准测试上达到了 ChatGPT 性能的 99.3%。该论文发表于 NeurIPS 2023,获得超过 2,800 次引用,QLoRA 已成为可访问的大型语言模型微调的事实标准,也是 bitsandbytes 库的基础。 论文信息: 发布时间:2023-05-23 作者:Tim Dettmers, Artidoro Pagn...

阅读全文

思维树:大型语言模型的审慎问题解决

论文概述思维树(Tree of Thoughts, ToT)是一个突破性框架,它通过允许语言模型通过树结构搜索探索多条推理路径,从而推广了思维链(Chain of Thought)方法。与 CoT 的线性逐token生成不同,ToT 允许大型语言模型通过考虑多条不同的推理路径、自我评估选择,以及在必要时回溯来进行审慎的决策制定,以做出全局性选择。这使得能够解决需要探索、战略性前瞻或初始决策起关键作用的复杂任务。 论文信息: 发布时间:2023-05-17 作者:Shunyu Yao, Dian Yu, Jeffrey Zhao等 机构:未知 研究方向:提示工程,大型语言模型推理 核心技术:思维树(Tree of Thoughts) 研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开: 现有问题 传统提示方...

阅读全文

PyTorch FSDP: 全分片数据并行的扩展经验

论文概述PyTorch FSDP(全分片数据并行,Fully Sharded Data Parallel)是PyTorch团队提供的工业级分布式训练解决方案,通过与PyTorch核心基础设施的深度协同设计,实现了全分片数据并行。系统在GPU之间分片模型参数、梯度和优化器状态,同时保持PyTorch编程接口。该系统已成为大规模模型训练的可访问解决方案,提供与DDP相当的性能,同时支持显著更大的模型。 论文信息: 发布时间:2023-04-21 作者:Yanli Zhao, Andrew Gu, Rohan Varma, Liang Luo等 机构:Meta (Facebook) AI 研究方向:分布式训练、模型扩展 核心技术:全分片数据并行 (Fully Sharded Data Parallel) 研究背景随着模型规模不断增长,分布式训练成为必需。本研究针对以下问题展开: 现有问...

阅读全文

Self-Refine: 通过自我反馈进行迭代优化

论文概述Self-Refine是来自CMU、AI2和顶级研究机构的一个有影响力的迭代优化框架,使大型语言模型能够通过自我生成的反馈自主改进其输出。关键洞察是,就像人类一样,大型语言模型很少在第一次尝试时产生最佳输出,但可以批评和优化自己的工作。三步过程 - (1) 生成初始输出,(2) 提供自我反馈,(3) 基于反馈进行优化 - 不需要额外的训练、监督数据或强化学习。在7个不同任务(对话、数学推理、代码生成、情感反转、首字母缩略词生成、约束生成、评论改写)上使用GPT-3.5、ChatGPT和GPT-4进行评估,Self-Refine平均提高约20%的性能,人类强烈偏好其输出。该成果发表于NeurIPS 2023,影响了众多关于大型语言模型自我改进和批评的后续工作。 论文信息: 发布时间:2023-03-30 作者:Aman Madaan, Niket Tandon, Prakha...

阅读全文

从标注数据自动增强和选择思维链提示

论文概述Automate-CoT解决了手动思维链提示工程的挑战,通过从标注的训练数据自动生成和选择高质量的理性推理链。它使用机器生成的理性推理配合方差减少的策略梯度优化来选择最优的提示组合,消除了对人工标注推理链的需求,同时达到最先进的性能。 论文信息: 发布时间:2023-02-24 作者:KaShun Shum, Shizhe Diao, Tong Zhang 机构:Hong Kong University of Science and Technology, University of Illinois Urbana-Champaign 研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning) 核心技术:自动思维链 (Automatic CoT) 研究背景思维链提示在推理任务上表现出色,但手工制作高质量的推理链需要大量...

阅读全文

提示模式目录:增强ChatGPT的提示工程

论文概述本文引入了一种基于模式的提示工程方法,提出了一个类似于软件设计模式的提示模式目录。这些模式为大型语言模型交互中的常见问题提供可重用的解决方案,提供了一个系统化的框架来记录、应用和组合提示,以改善输出质量和交互效果。 论文信息: 发布时间:2023-02-21 作者:Jules White, Quchen Fu, Sam Hays等 机构:范德堡大学 研究方向:提示工程, 大型语言模型推理 核心技术:提示模式 研究背景大型语言模型在各类任务中展现出强大的能力,但有效的提示工程仍然是一项需要专业知识和经验的技能。本研究针对以下问题展开: 现有问题 提示工程缺乏系统化的方法论 难以总结和传播有效的提示技巧 缺乏可重用的提示解决方案 研究动机本研究旨在借鉴软件工程中的设计模式思想,为提示工程建立系统化的模式目录,特别关注提示工程、提示模式、软件模式等关键技术。 核心方法方法概述...

阅读全文

大型语言模型是推理教师

论文概述本文提出了Fine-tune-CoT(思维链微调)方法,使用大型语言模型作为推理教师,使较小的模型具备复杂推理能力。通过从超大型教师模型生成推理样本来微调较小的模型,该方法将模型规模要求降低了几个数量级,同时实现了显著的推理能力。 论文信息: 发布时间:2022-12-20 作者:Namgyu Ho, Laura Schmid, Se-Young Yun 机构:KAIST 研究方向:提示工程, 大型语言模型推理 核心技术:知识蒸馏 研究背景大型语言模型在复杂推理任务上展现出强大的能力,但这些能力通常需要超过100B参数的模型才能涌现。本研究针对以下问题展开: 现有问题 复杂推理能力主要存在于超大规模模型中 小型模型在推理任务上表现不佳 缺乏将大模型推理能力迁移到小模型的有效方法 研究动机本研究旨在探索如何将大型语言模型的推理能力蒸馏到小型模型中,使得小型模型也能具备复杂...

阅读全文

宪法AI:基于AI反馈实现无害性

论文概述宪法AI(CAI)是Anthropic提出的一种突破性对齐方法,通过自我改进和最少的人工监督来训练无害的AI助手。该方法使用”基于AI反馈的强化学习”(RLAIF)而非人工标注来判断有害性,由一组原则(即”宪法”)进行指导。CAI结合了监督学习阶段(模型批评和修订自己的输出)和强化学习阶段(AI评估训练偏好模型)。这种方法产生了无害但不回避的助手,能够通过解释反对意见来深思熟虑地处理有害查询,在显著降低人工标注成本的同时实现了卓越的对齐效果。 论文信息: 发布时间:2022-12-15 作者:Yuntao Bai, Saurav Kadavath, Sandipan Kundu等 机构:Anthropic 研究方向:提示工程, 大型语言模型推理 核心技术:宪法AI对齐 研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何确保模型输出的安全性和对齐性仍是一个重...

阅读全文

SmoothQuant:用于大语言模型的准确高效训练后量化

Key Contributions 开创性的激活平滑技术,通过等价变换将量化难度从激活数学上迁移到权重 在OPT、BLOOM、GLM、MT-NLG、Llama、Falcon、Mistral和Mixtral模型上实现无需训练的W8A8量化,精度损失可忽略不计 展示了高达1.56倍的推理加速和2倍的内存减少,使530B参数LLM能够在单节点上服务 解决了阻止先前方法准确进行LLM激活INT8量化的激活离群值问题 使LLM中的所有矩阵乘法(包括注意力层和FFN层)都能量化为INT8,而不仅仅是权重 被工业界广泛采用:NVIDIA TensorRT-LLM(2023)、Microsoft ONNX Runtime(2024)、Amazon SageMaker(2023) MethodologySmoothQuant解决了LLM权重易于量化但激活具有极端离群值导致大量化误差的关键挑战。核心洞...

阅读全文

大型语言模型是人类级别的提示工程师

论文概述这项突破性工作引入了自动提示工程师(Automatic Prompt Engineer, APE)框架,能够自动为大型语言模型生成和选择指令。APE将指令视为程序,通过搜索LLM提议的候选指令进行优化,并在另一个LLM上评估零样本性能来选择最佳指令。该方法在24个NLP任务中的19个上超过了人工编写的提示,标志着自动化提示工程过程的重大进展。 论文信息: 发布时间:2022-11-03 作者:Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han等 机构:University of Montreal, University of Oxford, UC Berkeley等 研究方向:提示工程、LLM推理 核心技术:自动提示工程(APE) 研究背景提示工程通常需要大量人工尝试和专业知识,这限制了其应用范围和效率。本研究针对以下问题展开: ...

阅读全文

GPTQ:用于生成式预训练Transformer的准确训练后量化

Abstract生成式预训练Transformer模型,即GPT或OPT,通过在复杂语言建模任务中的突破性表现脱颖而出,但同时也因其极高的计算和存储成本而著称。具体来说,由于其庞大的规模,即使是大型高精度GPT模型的推理也可能需要多个高性能GPU,这限制了此类模型的可用性。虽然有新兴工作通过模型压缩来缓解这一压力,但现有压缩技术的适用性和性能受到GPT模型规模和复杂性的限制。在本文中,我们应对了这一挑战,并提出了GPTQ,一种基于近似二阶信息的新型一次性权重量化方法,既高度准确又高度高效。具体而言,GPTQ可以在大约四个GPU小时内量化具有1750亿参数的GPT模型,将位宽降至每个权重3或4位,相对于未压缩基线的精度下降可忽略不计。 Key Contributions GPTQ:基于近似二阶信息的新型一次性权重量化方法 能够在约4个GPU小时内量化1750亿参数模型 将每个权重降至3...

阅读全文

ReAct: 在语言模型中协同推理与行动

论文概述ReAct引入了一种范式,其中大型语言模型以交错的方式生成推理轨迹和特定任务的行动,在两种能力之间创造协同效应。推理轨迹帮助模型推导、跟踪和更新行动计划,同时处理异常情况,而行动允许它与外部源(如知识库或环境)交互以收集额外信息。这种方法克服了纯推理或纯行动方法的局限性,在可解释性和可信度方面取得了显著改进。 论文信息: 发布时间:2022-10-06 作者:Shunyu Yao, Jeffrey Zhao, Dian Yu等 机构:Princeton University, Google Research 研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning) 核心技术:推理与行动协同 (ReAct) 研究背景大型语言模型在各类任务中展现出强大的能力,但纯推理方法容易产生幻觉,而纯行动方法缺乏规划能力。本研究针对...

阅读全文

分解式提示:解决复杂任务的模块化方法

论文概述这项来自Allen AI的工作引入了分解式提示(Decomposed Prompting),一种通过提示将复杂任务分解为更简单子任务的模块化方法。每个子任务被委托给一个专门的基于提示的LLM库,允许进行优化、进一步分解,或用更有效的解决方案(包括训练模型或符号函数)替换。 论文信息: 发布时间:2022-10-05 作者:Tushar Khot, Harsh Trivedi, Matthew Finlayson等 机构:Allen Institute for AI 研究方向:提示工程、LLM推理 核心技术:任务分解(Task Decomposition) 研究背景大型语言模型在处理复杂任务时往往力不从心,单一提示难以涵盖所有必要的推理步骤。本研究针对以下问题展开: 现有问题 复杂任务难以用单一提示有效处理 不同子任务需要不同的专业知识和推理策略 缺乏系统化的任务分解和模块...

阅读全文

Public Multimodal Dataset (PMD):Meta开源的7000万图文对数据集

多模态预训练的基石:Meta的7000万图文对开源数据集在多模态AI发展历程中,高质量的图文配对数据始终是核心瓶颈。Meta AI(原Facebook AI Research)于2022年发布的Public Multimodal Dataset(PMD),以7000万图文对、6800万唯一图像的规模,成为多模态预训练领域的重要里程碑。这个数据集不仅为FLAVA等突破性模型提供了训练基础,更为整个AI社区树立了大规模多模态数据集的标杆。 数据集概览:规模与构成核心统计数据 图文对总数:7000万对 唯一图像数:6800万张 来源数据集:8个高质量公开数据集 主要语言:英语 许可证:CC-BY-4.0(需遵守各子数据集许可) 数据来源组成PMD的独特之处在于它是一个精心策划的数据集集合,而非单一来源: Conceptual Captions - 高质量的图像描述数据 Concept...

阅读全文

从简到繁提示使大型语言模型能够进行复杂推理

论文概述从简到繁提示 (Least-to-Most Prompting) 是一种创新的提示工程策略,通过将复杂问题分解为一系列更简单的子问题并顺序解决它们,实现了强大的组合泛化能力。受教育心理学”由简到繁”学习策略的启发,这种方法使大型语言模型能够解决比训练示例更复杂的问题。实验表明,使用GPT-3 code-davinci-002配合从简到繁提示,在SCAN组合泛化基准测试的任何分割上都能达到至少99%的准确率(仅用14个示例),而标准思维链提示只能达到16%。 论文信息: 发布时间:2022-05-21 作者:Denny Zhou, Nathanael Schärli, Le Hou等 机构:Google Research, Google Brain 研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning) 核心技术:从简...

阅读全文

自洽性改进语言模型中的思维链推理

论文概述本论文提出了自洽性 (Self-Consistency),这是一种新颖的解码策略,通过替换朴素的贪婪解码显著改进思维链提示。自洽性不是只采用贪婪路径,而是采样一组多样化的推理路径,并通过对采样路径进行边缘化来选择最一致的答案。这利用了一个直觉:复杂的推理问题通常允许多种不同的思考方式,但都导向唯一的正确答案,在多个推理基准测试中实现了显著的性能提升。 论文信息: 发布时间:2022-03-21 作者:Xuezhi Wang, Jason Wei, Dale Schuurmans等 机构:Google Research 研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning) 核心技术:自洽性 (Self-Consistency) 研究背景大型语言模型在思维链提示下展现出强大的推理能力,但单次生成的结果可能不稳定。本研...

阅读全文

思维链提示激发大型语言模型的推理能力

论文概述思维链 (Chain-of-Thought, CoT) 提示是一项突破性技术,通过生成中间推理步骤显著提高大型语言模型的推理能力。本论文展示了如何通过简单的少样本提示配合推理链,在算术、常识和符号推理任务上实现突破性性能,而无需任何模型微调。CoT已成为现代大型语言模型应用中的基础技术之一。 论文信息: 发布时间:2022-01-28 作者:Jason Wei, Xuezhi Wang, Dale Schuurmans等 机构:Google Research, Google Brain 研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning) 核心技术:思维链 (Chain-of-Thought) 研究背景大型语言模型在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开: ...

阅读全文

展示你的工作:使用语言模型草稿本进行中间计算

论文概述这项来自Google Research的开创性工作引入了”草稿本”(scratchpad)技术,通过训练transformer输出中间计算步骤,极大地提高了它们执行复杂多步骤计算的能力。通过要求语言模型”逐步”展示其工作过程,该方法使LM能够解决从长加法到执行任意程序等以前难以处理的任务。 论文信息: 发布时间:2021-11-30 作者:Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari等 机构:Google Research 研究方向:提示工程、LLM推理 核心技术:思维链(Chain-of-Thought) 研究背景语言模型在单步预测任务上表现出色,但在需要多步计算的复杂任务上遇到困难。本研究针对以下问题展开: 现有问题 语言模型难以执行需要多步骤的复杂计算 模型的中间推理过程不可见,难以调试和理解 长序列计算容易出错...

阅读全文

微调后的语言模型是零样本学习者(FLAN)

论文概述FLAN(Finetuned Language Model for Instruction Following,遵循指令的微调语言模型)是指令微调领域的开创性工作。这篇论文证明,通过自然语言指令描述的多任务微调可以显著提高在未见任务上的零样本性能。通过在60+个NLP任务上进行指令微调,FLAN 137B在25个评估任务中的20个上超过了零样本175B GPT-3。这项工作证明了指令微调是将语言模型转变为更通用任务执行器的强大范式。 论文信息: 发布时间:2021-09-03 作者:Jason Wei, Maarten Bosma, Vincent Y. Zhao等 机构:Google Research, Google Brain 研究方向:提示工程、LLM推理 核心技术:指令微调(Instruction Tuning) 研究背景大型语言模型(LLM)虽然强大,但在零样本...

阅读全文

在GPU集群上使用Megatron-LM高效训练大规模语言模型

论文概述Megatron-LM是来自NVIDIA、微软和顶尖大学的里程碑式分布式训练系统,能够在数千个GPU上高效训练万亿参数语言模型。其核心创新是三维并行(3D Parallelism) - 组合张量并行(节点内)、流水线并行(节点间)和数据并行,以高效地在GPU集群上分区大规模模型。Megatron在3,072个A100 GPU上训练1万亿参数模型时达到502 petaFLOPs,实现了理论峰值吞吐量的52%,并具有近乎完美的线性扩展性。新颖的交错流水线调度相比传统方法提升了10%以上的吞吐量。该工作发表于SC21(超级计算2021)并获得最佳论文奖,Megatron-LM已成为大规模LLM训练的事实标准,被GPT-3、Turing-NLG等众多研究项目采用。 论文信息: 发布时间:2021-04-09 作者:Deepak Narayanan, Mohammad Shoeybi...

阅读全文

ZeRO-Offload: 将十亿规模模型训练平民化

论文概述ZeRO-Offload是微软研究院提出的突破性内存优化技术,通过在单个GPU上实现130亿以上参数模型的训练,将十亿规模模型训练平民化 - 相比原生PyTorch提升了10倍。关键创新是战略性地将优化器状态和梯度卸载到CPU内存,同时将计算密集型的前向/反向传播保持在GPU上,使用NVIDIA统一内存实现自动CPU-GPU数据移动。ZeRO-Offload在V100上为100亿参数模型实现了40 TFlops吞吐量(相比PyTorch训练14亿参数模型的30 TFlops),可近线性扩展到128个GPU,并在与模型并行结合时可在单个DGX-2节点上训练700亿以上参数的模型。该技术于2021年在USENIX ATC发表,并集成到微软DeepSpeed中,使大规模模型训练对没有大规模GPU集群的研究人员和从业者来说变得触手可及。 论文信息: 发布时间:2021-0...

阅读全文

语言模型是少样本学习者(GPT-3)

论文概述GPT-3是一个拥有1750亿参数的自回归语言模型,比之前任何非稀疏语言模型大10倍。这篇突破性论文证明了足够大规模的语言模型可以仅通过文本交互(少样本示例)在各种NLP任务上实现强大性能,无需任何梯度更新或微调 (Fine-Tuning)。GPT-3引入了上下文学习 (In-Context Learning) 的概念,从根本上改变了我们对语言模型能力的理解,开启了大型语言模型时代。 论文信息: 发布时间:2020-05-28 作者:Tom B. Brown, Benjamin Mann, Nick Ryder等 机构:OpenAI 研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning) 核心技术:上下文学习 (In Context Learning) 研究背景大型语言模型在各类任务中展现出强大的能力,但传统方法通...

阅读全文

检索增强生成:用于知识密集型NLP任务

论文概述检索增强生成 (Retrieval-Augmented Generation, RAG) 是一个突破性的框架,它结合了预训练的参数化记忆(序列到序列模型)和非参数化记忆(维基百科的密集向量索引),专门用于知识密集型NLP任务。RAG模型使用预训练的神经检索器访问维基百科,然后将检索到的文档作为上下文传递给生成器,产生更具体、更多样化、更符合事实的输出。这项工作在开放域问答任务上达到了最先进水平,并证明了检索增强模型比纯参数化模型产生更可靠和可解释的输出。 论文信息: 发布时间:2020-05-22 作者:Patrick Lewis, Ethan Perez, Aleksandra Piktus等 机构:Facebook AI Research, University College London, New York University 研究方向:提示工程 (Prompt ...

阅读全文

RSD: 奖励引导的推测解码实现高效LLM推理

Abstract论文提出Reward-Guided Speculative Decoding (RSD),一种结合轻量级draft模型和强大target模型的高效推理框架。不同于传统推测解码严格保证无偏性,RSD引入可控偏置来优先选择高奖励输出。通过process reward model评估中间解码步骤,动态决定何时调用target模型,实现计算成本和输出质量的最佳平衡。在奥林匹克级别的推理任务上,相比标准解码方法FLOPs降低4.4倍,同时准确率提升+3.5(相比并行解码方法)。 Key Contributions 奖励引导的推测解码框架: 首次将process reward model引入推测解码,用奖励信号指导draft model生成 可控偏置策略: 不追求严格无偏,而是引入可控偏置优先高奖励输出,实现质量-效率平衡 动态target model调用: 基于中间步骤的rew...

阅读全文

FlashMLA-ETAP: 高效转置Attention流水线加速H20 GPU上的MLA推理

AbstractFlashMLA-ETAP提出了一种针对NVIDIA H20 GPU单实例部署场景优化的Multi-Head Latent Attention (MLA)推理框架。通过引入高效转置Attention流水线(ETAP),重构attention计算以减少冗余操作,并将KV context长度与WGMMA操作的M维度对齐,充分利用H20硬件特性。在64K序列长度、batch size 16的场景下,相比FlashMLA实现2.78倍加速,相比FlashAttention-3和FlashInfer分别实现5.24倍和4.94倍提升。同时保持数值稳定性,RMSE比FlashMLA低15.2倍。 Key Contributions Efficient Transpose Attention Pipeline (ETAP): 通过转置重构attention计算,减少冗余操作并优化硬...

阅读全文

SageAttention3: 基于微缩放FP4的Attention推理加速与8-bit训练探索

AbstractSageAttention3是针对新一代Blackwell GPU的FP4 Tensor Cores设计的高效attention加速方案。该论文提出了针对推理场景的FP4量化attention机制,并首次探索了训练阶段的低bit attention。在RTX5090上实现了1038 TOPS的性能,相比最快的FlashAttention实现提升5倍。此外,论文还开发了准确高效的8-bit attention用于前向和反向传播,在微调任务中实现无损性能,但在预训练中收敛较慢。 Key Contributions FP4 Attention推理加速: 针对Blackwell GPU的FP4 Tensor Cores设计优化的attention计算方案,实现5倍性能提升 即插即用设计: 提供plug-and-play接口,可无缝集成到各类LLM推理框架中 8-bit训练探索...

阅读全文

KVLinC: 结合Hadamard旋转和线性校正的KV Cache量化

AbstractKVLinC提出了一种缓解KV cache量化中attention误差的框架。通过结合两种关键技术:1) Hadamard旋转以降低value量化误差,2) 轻量级线性校正适配器显式补偿量化key引入的误差。该方法在LLaMA、Qwen2.5和Qwen3模型家族上进行评估,实现了相比Flash Attention基线高达2.55倍的推理加速,同时保持模型性能。设计了定制化attention kernel以最大化效率收益。 Key Contributions Hadamard旋转优化Value量化: 对value cache应用Hadamard变换,均匀化数据分布以降低量化误差 线性校正适配器: 引入轻量级线性校正模块显式补偿量化key带来的误差 Key-Value分治策略: 针对key和value的不同特性采用不同的量化和误差缓解策略 定制Attention Kern...

阅读全文

VecInfer: 基于向量量化的2-bit KV Cache高效LLM推理

AbstractVecInfer针对LLM推理中的KV Cache内存瓶颈问题,提出了一种基于向量量化的激进压缩方案。通过smooth和Hadamard变换抑制key cache中的outlier,实现了对数据分布的全面覆盖。仅使用2-bit量化即可达到与全精度相当的性能,并设计了优化的CUDA kernel最小化内存访问开销。在Llama-3.1-8B模型上,大batch场景下self-attention计算获得2.7倍加速,单batch端到端延迟在196k序列长度下降低8.3倍。 Key Contributions Outlier抑制的向量量化: 通过smooth和Hadamard变换抑制key cache outliers,实现更有效的2-bit向量量化 2-bit极限压缩: 在仅2-bit量化的情况下实现与全精度相当的性能,8倍内存压缩比 优化CUDA kernel: 定制化...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero