GReaTer: 梯度 over 推理 Makes Smaller Language Models Strong Prompt Optimizers论文概述本文是一篇关于提示工程的研究论文,由 Sarkar Snigdha Sarathi Das 等6位研究者共同完成。
GReaTer introduces a novel prompt 优化technique that directly incorporates gradient information over task-specific 推理, enabling open-source lightweight language models to self-optimize prompts without dependence on costly closed-source 大型语言模型 (LLM)s. Unlike text ...
什么使上下文学习在数学推理中有效:理论分析
什么使上下文学习在数学推理中有效:理论分析论文概述本文是一篇关于推理能力的研究论文,由 Jiayu Liu 等6位研究者共同完成。
本文提供了首个关于上下文学习(In-Context Learning, ICL)在大语言模型数学推理中有效性的理论分析。虽然少样本示例有时会带来负面性能,其有效性仍不可靠,但这项工作证明了推理效能可以通过面向大语言模型的语义相似性和示例的推理稳定性来限定。基于这一理论基础,作者提出了 LMS3,一种示例选择方法,能够自适应地为不同大语言模型选择最相关的样本,并包含一种新颖的自动拒绝机制来过滤不合适的示例。该方法在多个数据集上实现了一致的改进,而现有方法在这些数据集上均已失败。
研究目标本研究的主要目标包括:
首次通过语义相似性和推理稳定性界定上下文学习推理效能的理论分析
证明理论框架适用于单样本和少样本场景
提出具有理论基础的 LMS3 示例选择方法
...
Llama 3.3 70B Instruct - Meta 大型语言模型
Llama 3.3 70B Instruct - Meta 大型语言模型模型概述Llama 3.3 70B Instruct 是 Meta 公司于 2024 年 11月发布的大型语言模型,拥有 70B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama 3.3 70B Instruct 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 588.9K,获得了 2,526 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,支持 128K tokens 的超长上下文窗口,Competitive with 405B models。
核心特性
70B 参数规模:采用大规模参数设计,在性能和效率之间...
Tulu 3: Allen AI的开源后训练数据全家桶
核心观点:后训练是当前LLM的核心竞争力,但多数开源项目只开放模型权重,训练数据和方法论仍然是黑箱。Allen AI的Tulu 3把后训练的全部秘密——数据、代码、方法论——一次性全部公开。
后训练的开源困境假设你拿到了一个不错的基座模型,想通过后训练让它变成一个好用的助手。你需要什么?
SFT数据:教模型按指令做事
偏好数据:教模型什么是好的回答
强化学习数据:在数学和代码等可验证任务上进一步优化
问题是,市面上大多数”开源”的对齐模型只公开了权重。你知道它表现好,但不知道是因为什么数据、什么配比、什么训练策略。想复现?几乎不可能。
Tulu 3彻底改变了这个局面。它不只是发布了数据集,而是发布了完整的后训练配方:数据集 + 数据混合策略 + 训练代码 + 评估工具。
SFT混合数据集:27.3万条的精细配比Tulu 3的SFT数据集不是简单地把公开数据集堆在一起。它是经过精心...
Squeezed Attention:基于语义聚类的长上下文LLM推理加速
Squeezed Attention:基于语义聚类的长上下文LLM推理加速
ArXiv ID: 2411.09688作者: Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Monishwaran Maheswaran, Sebastian Zhao, June Paik, Michael W. Mahoney, Kurt Keutzer, Amir Gholami机构: UC Berkeley, SqueezeAI Lab发布日期: 2024-11-14会议: ACL 2025
摘要长上下文LLM推理面临的核心挑战是注意力计算的二次复杂度问题。当上下文长度从8K扩展到128K时,KV缓存大小和注意力计算量呈指数级增长,导致推理延迟急剧上升。
Squeezed Attention提出了一种创新的语义压缩方案,通过离线K-means聚类将...
ChemDFM-v1.5 8B - OpenDFM 大型语言模型
ChemDFM-v1.5 8B - OpenDFM 大型语言模型模型概述ChemDFM-v1.5 8B 是 OpenDFM 公司于 2024 年 11月发布的大型语言模型,拥有 8B 参数规模。 ChemDFM-v1.5 8B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,Comparable or higher than GPT-4 on chemistry tasks。 ChemDFM-v1.5 8B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜...
SSSD:简单可扩展的投机解码技术
Abstract过去一年中,投机解码(Speculative Decoding)作为加速大语言模型推理的技术而广受欢迎。虽然已经提出了多种方法,但大多数在数据中心典型的批处理大小(≥8)下难以提供令人满意的性能,并且往往涉及复杂的部署流程。SSSD(Simply-Scalable Speculative Decoding)针对这些问题,提出了一种简单但高效的投机解码方案,专门优化了在大批处理场景下的性能。在continuous batching环境中,SSSD在短上下文生成场景下实现了4倍吞吐量提升且不增加延迟,在长上下文场景下同时改善延迟和吞吐量1.7-2倍。
Key Contributions
大批处理优化:首个专门针对数据中心典型批处理大小(≥8)优化的投机解码方法,解决了现有方案在大批量下性能急剧下降的问题
简化部署流程:相比现有复杂的投机解码方案,SSSD设计极简,易于集成...
在 Claude 开发者平台上引入高级工具使用功能
在 Claude 开发者平台上引入高级工具使用功能
来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2024 年 11 月 24 日类型: 产品功能发布阅读时间: 约 12 分钟
概述Anthropic 正式发布三项高级工具使用功能,使 Claude 能够动态发现、学习和执行工具。这些功能包括:工具搜索工具(Tool Search Tool)、程序化工具调用(Programmatic Tool Calling)和工具使用示例(Tool Use Examples)。这些功能使开发者能够构建更强大的 AI Agent,无缝集成数百个工具,同时保持高效的上下文窗口使用和准确性。核心突破包括:工具 token 消耗减少 85%,Opus 4 在 MCP 评估中从 49% 提升至 74%,Opus 4.5 从...
LEGO-GraphRAG: 图检索增强生成的模块化框架与设计空间探索
LEGO-GraphRAG: 图检索增强生成的模块化框架与设计空间探索论文概述本文是一篇关于图检索增强生成的研究论文,由 Yukun Cao 等5位研究者共同完成。
研究目标本研究的主要目标包括:
引入 LEGO-GraphRAG,一个模块化框架,将图检索增强生成分解为子图提取、路径过滤和路径精炼模块
提供系统性的算法分类和每个图检索增强生成模块的神经网络模型分类
识别影响图检索增强生成有效性的关键设计因素(图耦合度、计算成本)
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述该论文提出了一个模块化框架,将图检索增强生成的...
基于大语言模型的少样本上下文偏好学习
基于大语言模型的少样本上下文偏好学习论文信息
标题: ICPL: Few-shot In-context Preference Learning via LLMs
作者: Chao Yu, Qixin Tan, Hong Lu, Jiaxuan Gao, Xinting Yang, Yu Wang, Yi Wu, Eugene Vinitsky
发布日期: 2024-10-22
ArXiv链接: https://arxiv.org/abs/2410.17233
核心概述基于偏好的强化学习是处理难以明确定义奖励函数任务的有效方法,但传统偏好学习往往需要从零开始,效率极低。本文展示了大语言模型(LLM)具有原生的偏好学习能力,可以实现高效的样本效率偏好学习,从而解决这一挑战。
主要贡献研究提出了ICPL(In-Context Preference Learning)框架,利用LLM...
LLM提示对决优化器:高效的无标注提示优化方法
LLM提示对决优化器:高效的无标注提示优化方法
ArXiv ID: 2510.13907作者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang…发布日期: 2024-10-14分类: prompt-engineering评分: 3.8/5.0
摘要本文提出了提示对决优化器(PDO),这是一个样本高效的无标注提示优化框架。PDO将提示优化问题建模为对决老虎机(Dueling Bandit)问题,通过LLM评判器提供的成对偏好反馈进行优化。结合Double Thompson Sampling和Top-Performer引导变异策略,PDO在无需真实标注数据的情况下,在BIG-bench Hard和MS MARCO等基准上持续优于基线方法。
🎯 PDO:让提示优化摆脱标注数据的束缚核心问题...
过程奖励模型综述:从结果信号到大语言模型的过程监督
过程奖励模型综述:从结果信号到大语言模型的过程监督论文概述本文是一篇关于奖励模型的综述性研究论文,由 Congming Zheng 等3位研究者共同完成。
这篇综合性综述系统性地回顾了过程奖励模型(Process Reward Models,PRM),这是一种新兴范式,在步骤或轨迹级别而非仅在最终结果上评估和引导大语言模型推理。与仅评估最终答案的传统结果奖励模型(ORM)不同,过程奖励模型在整个推理过程中提供细粒度监督,能够更好地对齐复杂的多步骤任务。该综述涵盖了完整的过程奖励模型生命周期:(1) 通过人工标注、蒙特卡洛采样或大语言模型评判生成过程级监督数据,(2) 构建过程奖励模型架构(判别式 vs 生成式),(3) 将过程奖励模型应用于测试时扩展(通过最优N选择和搜索),(4) 在强化学习中使用过程奖励模型进行策略优化。该综述发表于2024年10月,及时地解决了在o1类推理模型时...
智能体上下文工程:自我进化的语言模型上下文系统
智能体上下文工程:自我进化的语言模型上下文系统
ArXiv ID: 2510.04618作者: Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong…发布日期: 2024-10-06分类: context-engineering评分: 4.2/5.0
摘要本文提出了智能体上下文工程(ACE)框架,将上下文从静态的提示文本转变为可进化的”执行手册”。ACE通过生成、反思和策展三个步骤,让语言模型能够从执行反馈中自主学习和优化上下文,无需人工标注。该方法有效解决了上下文崩溃和简洁性偏见问题,在智能体任务上实现+10.6%性能提升,在金融任务上提升+8.6%,展现了上下文工程的新范式。
🤖 ACE:让上下文自己进化的智能体系统核心创新想象一下,如果LLM的上下文提示能够像生物进化一样,从每次...
LFM2 1.2B - Liquid AI 大型语言模型
LFM2 1.2B - Liquid AI 大型语言模型模型概述LFM2 1.2B 是 Liquid AI 公司于 2024 年 10月发布的大型语言模型,拥有 1.2B (1.17B) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色。 该模型支持商业使用,为企业部署提供了法律保障。 LFM2 1.2B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,Outperforms similar-sized models on knowledge, math, instruction-following。
核心特性
1.2B (1.17B) 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Hybri...
Qwen2.5-7B-Instruct - 阿里巴巴 大型语言模型
Qwen2.5-7B-Instruct - 阿里巴巴 大型语言模型模型概述Qwen2.5-7B-Instruct 是 阿里巴巴 公司于 2024 年 9月发布的大型语言模型,拥有 7B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen2.5-7B-Instruct 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 5.2M,获得了 816 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,支持 128K tokens 的超长上下文窗口。
核心特性
7B 参数规模:采用大规模参数设计,在性能和...
Pharia-1-LLM 7B Control - Aleph Alpha 大型语言模型
Pharia-1-LLM 7B Control - Aleph Alpha 大型语言模型模型概述Pharia-1-LLM 7B Control 是 Aleph Alpha 公司于 2024 年 9月发布的大型语言模型,拥有 7B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 Pharia-1-LLM 7B Control 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 Pharia-1-LLM 7B Control 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域...
OpenAI o1-mini - OpenAI 大型语言模型
OpenAI o1-mini - OpenAI 大型语言模型模型概述OpenAI o1-mini 是 OpenAI 公司于 2024 年 9月发布的大型语言模型。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 OpenAI o1-mini 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
80% cheaper than o1:preview
Faster inference speed for cost:effective reasoning
Specialized for STEM:math an...
OpenAI o1-preview - OpenAI 大型语言模型
OpenAI o1-preview - OpenAI 大型语言模型模型概述OpenAI o1-preview 是 OpenAI 公司于 2024 年 9月发布的大型语言模型。 具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 OpenAI o1-preview 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Advanced chain:of-thought reasoning before answering
PhD:level performance on physics, chemistry, and biology benc...
Strategic Chain-of-Thought: 策略先行的推理范式
论文信息
标题: Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation
作者: Yu Wang, Shiwan Zhao, Zhihu Wang, Heyuan Huang, Ming Fan
机构: Harbin Institute of Technology, Tencent AI Lab
发表: arXiv preprint
链接: arXiv | PDF
核心贡献Strategic Chain-of-Thought (SCoT)提出在生成推理步骤前先让模型制定解题策略,通过两阶段prompt设计,在GSM8K上实现21.05%的性能提升。核心创新是将策略规划与执行分离,解决了传统CoT推理不稳定的问题。
问题与解决方案传统CoT的不稳定性核心...
Prithvi-WxC 2.3B - IBM 大型语言模型
Prithvi-WxC 2.3B - IBM 大型语言模型模型概述Prithvi-WxC 2.3B 是 IBM 公司于 2024 年 9月发布的大型语言模型,拥有 2.3B 参数规模。 该模型支持商业使用,为企业部署提供了法律保障。 Prithvi-WxC 2.3B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 Prithvi-WxC 2.3B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
2.3B 参数规模:采用大规模参数设计,在性能和效率之间取...
InkubaLM 0.4B - Lelapa AI 大型语言模型
InkubaLM 0.4B - Lelapa AI 大型语言模型模型概述InkubaLM 0.4B 是 Lelapa AI 公司于 2024 年 8月发布的大型语言模型,拥有 0.4B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 InkubaLM 0.4B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,Comparable to larger models on domain tasks。 InkubaLM 0.4B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创...
图检索增强生成综述
图检索增强生成综述
ArXiv ID: 2408.08921作者: Boci Peng, Yun Zhu, Yongchao Liu, Xiaohe Bo, Haizhou Shi…发布日期: 2024-08-15分类: context-engineering评分: 4.1/5.0
摘要本文提供了图检索增强生成(GraphRAG)方法的首个全面综述。将GraphRAG工作流形式化为三个阶段:基于图的索引(Graph-Based Indexing)、图引导检索(Graph-Guided Retrieval)和图增强生成(Graph-Enhanced Generation)。系统回顾了每个阶段的核心技术和训练方法,探讨了下游任务、应用领域和评估方法,并配套开源GitHub仓库供研究者参考。
📊 GraphRAG综述:首个系统性的图检索增强生成全景为什么需要GraphRAG?...
推理时计算扩展:比扩展模型参数更有效的优化策略
Abstract让大语言模型(LLM)能够通过使用更多推理时计算来改进输出,是构建能够在开放式自然语言任务上持续自我改进的通用agent的关键一步。本文研究了LLM推理时计算的扩展规律,重点回答一个问题:如果允许LLM使用固定但非平凡的推理时计算量,它能在挑战性提示上将性能提升多少?我们发现,在许多任务上,适当地扩展推理时计算可以比扩展模型参数更有效地提升性能。这一发现为LLM的发展开辟了新的方向——不是一味追求更大的模型,而是让模型学会如何更好地”思考”。
Key Contributions
推理时计算扩展定律:首次系统性地研究了LLM推理时计算的扩展规律,揭示了在固定模型参数下,增加推理时计算如何影响性能
与参数扩展的对比:通过大量实验证明,在许多任务上,扩展推理时计算比扩展模型参数更有效且成本更低
多种扩展策略对比:评估了best-of-N采样、beam search、sequ...
EvoLLM-JP 10B - Sakana AI 大型语言模型
EvoLLM-JP 10B - Sakana AI 大型语言模型模型概述EvoLLM-JP 10B 是 Sakana AI 公司于 2024 年 8月发布的大型语言模型,拥有 9.86B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 EvoLLM-JP 10B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
9.86B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Evolutionary Model Merge methodology:提供强大的AI能力支持
Merged from 3 base models (Shisa...
大语言模型在不同NLP任务中的提示工程方法综述
大语言模型在不同NLP任务中的提示工程方法综述论文概述本文是一篇关于提示工程的综述性研究论文,由 Shubham Vatsal 等2位研究者共同完成。
This 综合性 综述 examines 44 research papers covering 39 different prompting methods applied across 29 NLP tasks. The paper provides a 系统性 taxonomy of 提示工程 techniques and evaluates their performance across various datasets and 大语言模型s, offering practical guidance for researchers and practitioners in selecting appropriate prom...
Llama 3.1 405B Instruct - Meta 大型语言模型
Llama 3.1 405B Instruct - Meta 大型语言模型模型概述Llama 3.1 405B Instruct 是 Meta 公司于 2024 年 7月发布的大型语言模型,拥有 405B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama 3.1 405B Instruct 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 799.5K,获得了 580 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,支持 128K tokens 的超长上下文窗口,Competitive with GPT-4 class models。
核心特性
40...
大型语言模型推理: 综述
推理 with Large Language Models, a 综述论文概述本文是一篇关于推理能力的综述性研究论文,由 Aske Plaat 等6位研究者共同完成。
研究目标本研究的主要目标包括:
综合性 综述 of prompt-based 推理 with 大型语言模型 (LLM)s covering rapid field expansion
Introduces taxonomy identifying different ways to generate, evaluate, and control multi-step 推理
Provides in-depth coverage of core approaches: Chain-of-Thought, Tree of Thoughts, and related methods
研究背景当前挑战
性能优化:如何提升大型...
SeaLLMs-v3 7B - SeaLLMs 大型语言模型
SeaLLMs-v3 7B - SeaLLMs 大型语言模型模型概述SeaLLMs-v3 7B 是 SeaLLMs 公司于 2024 年 7月发布的大型语言模型,拥有 7.62B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 SeaLLMs-v3 7B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 SeaLLMs-v3 7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成...
受人类启发的情节记忆:实现无限上下文 LLM
受人类启发的情节记忆:实现无限上下文 LLM
ArXiv ID: 2407.09450作者: Zafeirios Fountas, Martin A Benfeghoul, Adnan Oomerjee, Fenia Christopoulou, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang机构: Huawei Noah’s Ark Lab, University College London发布日期: 2024-07-12
摘要大型语言模型(LLM)在处理长上下文时面临严重困难,限制了它们在长序列上保持连贯性和准确性的能力。相比之下,人类大脑擅长在跨越一生的广阔时间尺度上组织和检索情节性体验。本文提出 EM-LLM,一种将人类情节记忆和事件认知的关键方面集成到 LLM 中的新方法,无需微调即可处理百万 token 级别的输入。...
FlashAttention-3:通过异步和低精度实现快速准确的注意力机制
FlashAttention-3:通过异步和低精度实现快速准确的注意力机制
ArXiv ID: 2407.08608作者: Jay Shah, Ganesh Bikshandi, Ying Zhang, Vijay Thakkar, Pradeep Ramani, Tri Dao机构: Princeton University, NVIDIA发布日期: 2024-07-11硬件目标: NVIDIA H100 (Hopper) GPU
摘要注意力机制是 Transformer 架构的核心,也是大语言模型和长上下文应用的性能瓶颈。FlashAttention-2 在 H100 GPU 上仅实现了 35% 的利用率,远未充分发挥硬件潜力。
本文提出的 FlashAttention-3 通过三项关键技术,在 H100 GPU 上实现了75% 的硬件利用率(FP16 达 740 TFLOP...
Gemma-2-27B - Gemma 2 27B flagship model
Gemma-2-27B - Gemma 2 27B flagship model模型概述Gemma-2-27B 是 谷歌 公司于 2024 年 6月发布的大型语言模型,拥有 27B 参数规模。 Gemma-2-27B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
27B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Gemma-2-27B 属于 Gemma 系列模型。该系列通常...
Gemma-2-9B - Gemma 2 9B with improved architecture
Gemma-2-9B - Gemma 2 9B with improved architecture模型概述Gemma-2-9B 是 谷歌 公司于 2024 年 6月发布的大型语言模型,拥有 9B 参数规模。 Gemma-2-9B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
9B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Gemma-2-9B 属于 Gemma 系列模型。...
Claude 3.5 Sonnet - Anthropic 大型语言模型
Claude 3.5 Sonnet - Anthropic 大型语言模型模型概述Claude 3.5 Sonnet 是 Anthropic 公司于 2024 年 6月发布的大型语言模型。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Claude 3.5 Sonnet 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Industry:leading performance across reasoning, knowledge, and coding
Solved 64% of problems i...
DeepSeek-Coder-V2 - DeepSeek Coder V2 with MoE for code generation
DeepSeek-Coder-V2 - DeepSeek Coder V2 with MoE for code generation模型概述DeepSeek-Coder-V2 是 DeepSeek 公司于 2024 年 6月发布的大型语言模型,拥有 236B 参数规模。 DeepSeek-Coder-V2 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
236B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持...
优化多阶段语言模型程序的指令与示例
优化多阶段语言模型程序的指令与示例论文概述本文是一篇关于大语言模型的研究论文,由 Krista Opsahl-Ong 等7位研究者共同完成。
本文解决了优化复杂多阶段语言模型程序的挑战,在这些程序中多个语言模型调用被串联在一起。现有方法孤立地优化单个提示,而本研究引入了 MIPRO 算法,可以联合优化程序中所有模块的自由格式指令和少样本示例。MIPRO 对优化问题进行因式分解,并引入了用于提出任务驱动指令和跨模块信用分配的新颖策略。使用一流的开源模型(Llama-3-8B),MIPRO 在七个不同多阶段语言模型程序中的五个上优于基线优化器,准确率最高提升13%。
研究目标本研究的主要目标包括:
引入 MIPRO 算法用于端到端优化多阶段语言模型程序
联合优化指令和示例而非分别处理
开发了程序感知和数据感知技术用于提出有效指令
研究背景当前挑战
参数优化:如何自动化地优化模型参数和...
Chain of Preference Optimization: 用偏好学习蒸馏Tree-of-Thought推理能力
论文信息
标题: Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs
作者: Xuan Zhang, Chao Du, Tianyu Pang, Qian Liu, Wei Gao, Min Lin
机构: Sea AI Lab (SAIL), Nanyang Technological University
发表: NeurIPS 2024
链接: arXiv | GitHub | PDF
核心贡献CPO通过偏好优化将Tree-of-Thought的搜索能力蒸馏到Chain-of-Thought推理中,实现了在推理时无需树搜索开销的情况下,达到甚至超越ToT的性能。核心创新在于利用树搜索过程中的隐含偏好信息,训练模型对齐优质推理路径。
研究动机CoT的局限性Chain...
通过自动化过程监督改进语言模型的数学推理能力
通过自动化过程监督改进语言模型的数学推理能力论文概述本文是一篇关于推理能力的研究论文,由 Liangchen Luo 等11位研究者共同完成。
这篇 Google Research 论文介绍了 OmegaPRM,一种新颖的蒙特卡洛树搜索(MCTS)算法,无需人工标注即可自动收集高质量的过程监督数据用于训练过程奖励模型(PRM)。与仅验证最终答案的结果奖励模型不同,OmegaPRM 通过使用分治算法识别推理链中的第一个错误来提供步骤级监督。收集了超过150万个过程监督标注后,生成的 PRM 显著改进了数学推理:Gemini Pro 在 MATH500 上的准确率从51%提升到69.4%(18.4个百分点),Gemma2 27B 在 MATH500 上从42.3%提升到58.2%。该工作发表于2024年6月,证明自动化过程监督可以以极低的成本匹配或超越人工标注质量,使过程奖励模型能够大规...
Qwen2-0.5B - Qwen2 0.5B ultra-lightweight model
Qwen2-0.5B - Qwen2 0.5B ultra-lightweight model模型概述Qwen2-0.5B 是 阿里巴巴 公司于 2024 年 6月发布的大型语言模型,拥有 0.5B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen2-0.5B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
0.5B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Apache 2.0 开源许可:完全商业友好,无使用限制,支持二次开发
完全开源...
Qwen2-1.5B - Qwen2 1.5B lightweight model
Qwen2-1.5B - Qwen2 1.5B lightweight model模型概述Qwen2-1.5B 是 阿里巴巴 公司于 2024 年 6月发布的大型语言模型,拥有 1.5B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen2-1.5B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
1.5B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Apache 2.0 开源许可:完全商业友好,无使用限制,支持二次开发
完全开源:模型权重和...
Qwen2-72B - Qwen2 72B flagship model
Qwen2-72B - Qwen2 72B flagship model模型概述Qwen2-72B 是 阿里巴巴 公司于 2024 年 6月发布的大型语言模型,拥有 72B 参数规模。 Qwen2-72B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
72B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Qwen2-72B 属于 Qwen 系列模型。该系列通常包含多个不同规模的...
Qwen2-7B - Qwen2 7B with improved 多语言支持 capabilities
Qwen2-7B - Qwen2 7B with improved 多语言支持 capabilities模型概述Qwen2-7B 是 阿里巴巴 公司于 2024 年 6月发布的大型语言模型,拥有 7B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen2-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Apache 2.0 开源许可:完全商业友好,无使用限制,支持二次开发
完全开源:模型...
AIFS 1.0 - ECMWF 大型语言模型
AIFS 1.0 - ECMWF 大型语言模型模型概述AIFS 1.0 是 ECMWF 公司于 2024 年 6月发布的大型语言模型。 该模型支持商业使用,为企业部署提供了法律保障。 AIFS 1.0 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
First operational AI weather forecasting system:提供强大的AI能力支持
GNN + sliding window transformer architecture:提供强大的AI能力支持
ERA5 reanalysis training (1979:2022)
商业部署友好...
GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型
GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型模型概述GPT-4o (GPT-4 Omni) 是 OpenAI 公司于 2024 年 5月发布的大型语言模型。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色。 该模型支持商业使用,为企业部署提供了法律保障。 在性能方面,Matches GPT-4 Turbo performance on text in English and code。 GPT-4o (GPT-4 Omni) 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Native multim...
QServe:用于高效 LLM 服务的 W4A8KV4 量化与系统协同设计
QServe:用于高效 LLM 服务的 W4A8KV4 量化与系统协同设计
ArXiv ID: 2405.04532作者: Yujun Lin, Haotian Tang, Shang Yang, Zhekai Zhang, Guangxuan Xiao, Chuang Gan, Song Han机构: MIT Han Lab, NVIDIA, MIT-IBM Watson AI Lab发布日期: 2024-05-07
摘要量化可以加速大语言模型推理。在 INT8 量化之外,研究社区正在积极探索更低精度如 INT4。然而,现有 INT4 量化技术仅能加速低批量、边缘 LLM 推理,无法在大批量、基于云的 LLM 服务中提供性能提升。本文发现了一个关键问题:现有的 INT4 量化方法在 GPU 上对权重或部分和进行反量化时存在显著的运行时开销(20-90%)。为了解决这一挑战,本文...
vAttention:无需PagedAttention的动态内存管理
AbstractPagedAttention是LLM服务系统中广受欢迎的动态内存分配方法。它通过按需分配GPU内存来缓解KV缓存碎片问题——这一现象曾严重限制了早期系统的批处理大小(进而影响吞吐量)。然而,为了在运行时分配物理内存,PagedAttention最终改变了KV缓存的虚拟内存布局,从连续变为非连续。这种设计导致了不可忽视的编程和性能开销。本文提出vAttention,一种无需PagedAttention即可实现高效动态内存管理的新方法,在保持KV缓存连续性的同时,达到甚至超越PagedAttention的性能。
Key Contributions
揭示PagedAttention的隐性成本:通过详细分析,首次系统性地量化了PagedAttention的性能开销,包括非连续内存访问、复杂索引计算、编程复杂度等,在实际workload中可导致11%的吞吐量下降
保持虚拟内存连...
DeepSeek-V2 - DeepSeek-V2 with Mixture of Experts architecture
DeepSeek-V2 - DeepSeek-V2 with Mixture of Experts architecture模型概述DeepSeek-V2 是 DeepSeek 公司于 2024 年 5月发布的大型语言模型,拥有 236B 参数规模。 DeepSeek-V2 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
236B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型D...
DPO Meets PPO: Token级强化优化统一RLHF范式
DPO Meets PPO: Token级强化优化统一RLHF范式
ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng (Peking Univ) + Wei Xiong (Princeton) + Microsoft Research机构: Peking University, Princeton University, Microsoft Research发布日期: 2024-04-29 (最新更新: 2025-05-21)会议: ICML 2025代码: GitHub
核心创新这篇ICML 2025论文提出了Reinforced Token Optimization (RTO),首次成功将DPO和PPO两大RLHF范式统一。传统RLHF方法要么使用离线DPO(简单但性能有限),要么使用在线PPO(强大但复杂)...
长上下文 LLM 在长上下文学习中的挑战
长上下文 LLM 在长上下文学习中的挑战
ArXiv ID: 2404.02060作者: Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen机构: University of Waterloo, Tencent AI Lab发布日期: 2024-04-02基准: LongICLBench
摘要大型语言模型在处理长序列方面取得了重大进展,一些模型甚至声称能够处理数百万 token。然而,它们的性能评估主要局限于困惑度和合成任务等指标。本文提出 LongICLBench,一个全面的基准测试套件,专门评估长上下文 LLM 在实际长上下文学习任务中的表现。评估结果揭示了令人惊讶的发现:即使是声称支持超长上下文的模型,在实际长上下文学习任务中也表现不佳。性能随上下文长度增加显著下降,尤其是当有用信息分散在长文本中时。
问题背景长上...
Cosmopedia:最大的开源合成数据集,25B token助力小模型训练
引领合成数据新纪元:Cosmopedia的诞生在大语言模型训练领域,数据始终是核心瓶颈。Hugging Face于2024年3月发布的Cosmopedia,以超过300万个文件、250亿token的规模,成为目前最大的开源合成数据集。这不仅是一个里程碑式的成果,更代表了合成数据生成技术从理论到实践的重大突破。
数据规模与多样性:前所未有的覆盖面Cosmopedia的规模令人震撼:
文件数量:超过3000万个合成文本文件
Token总量:250亿token,相当于中等规模预训练语料库
内容类型:涵盖合成教科书、博客文章、故事、WikiHow风格文章
主题覆盖:横跨112个不同主题领域
这种规模和多样性使其成为预训练小型语言模型的理想数据源。与传统的网络爬虫数据相比,Cosmopedia的内容更加结构化、高质量,且完全避免了版权和隐私问题。
生成方法论:从多源数据到高质量合成Cosm...
BioMedLM - Stanford CRFM / MosaicML 大型语言模型
BioMedLM - Stanford CRFM / MosaicML 大型语言模型模型概述BioMedLM 是 Stanford CRFM / MosaicML 公司于 2024 年 3月发布的大型语言模型,拥有 2.7B 参数规模。 BioMedLM 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 BioMedLM 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
2.7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平...
SaulLM-7B (Saul-7B-Base) - Mistral AI 大型语言模型
SaulLM-7B (Saul-7B-Base) - Mistral AI 大型语言模型模型概述SaulLM-7B (Saul-7B-Base) 是 Mistral AI 公司于 2024 年 3月发布的大型语言模型,拥有 7.24B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 SaulLM-7B (Saul-7B-Base) 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 SaulLM-7B (Saul-7B-Base) 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模...
Gemma-2B - Google's first 开源 lightweight model
Gemma-2B - Google’s first 开源 lightweight model模型概述Gemma-2B 是 谷歌 公司于 2024 年 2月发布的大型语言模型,拥有 2B 参数规模。 Gemma-2B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
2B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Gemma-2B 属于 Gemma 系列模型。该系列通常包含多个不...
Gemma-7B - Google's Gemma 7B model
Gemma-7B - Google’s Gemma 7B model模型概述Gemma-7B 是 谷歌 公司于 2024 年 2月发布的大型语言模型,拥有 7B 参数规模。 Gemma-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Gemma-7B 属于 Gemma 系列模型。该系列通常包含多个不同规模的版本:
小型版...
InfICL: 用影响函数选择最优示例
论文信息
标题: In-Context Learning Demonstration Selection via Influence Analysis
作者: Vinay M.S., Minh-Hao Van, Xintao Wu
机构: University of Arkansas
发表: arXiv preprint
链接: arXiv | PDF
核心贡献InfICL利用影响函数(Influence Functions)分析训练样本对模型预测的影响,识别最有价值的ICL示例。相比随机选择或embedding相似度,InfICL能找到真正”有影响力”的示例,在多个数据集上提升2-5%准确率,且无需模型微调。
问题与背景示例选择的难题ICL性能的高度敏感性ICL效果严重依赖示例选择:
123# 相同任务,不同示例examples_A = [good_example_1, go...
无需提示的链式思维推理
Chain-of-Thought Reasoning Without Prompting
ArXiv ID: 2402.10200作者: Xuezhi Wang, Denny Zhou发布日期: 2024-02-15
摘要大语言模型(LLM)能否在没有链式思维(CoT)等提示技术的情况下有效推理?本文揭示了一个令人惊讶的发现:CoT推理路径本质上就存在于大语言模型中,只需改变解码过程就能引出,无需任何提示。与选择最可能下一个标记的标准贪婪解码不同,我们研究了top-k序列中的替代标记。我们的实验表明,这些替代路径经常包含CoT风格的推理,即使模型没有被明确提示进行逐步推理。我们展示了替代序列中CoT路径的存在与模型置信度相关,并且模型通常具有在默认贪婪输出中未表达的内在推理能力。这一发现具有重要意义:它表明大语言模型拥有可通过解码策略而非提示工程访问的潜在推理能力,并提供了一种在没...
CoT Reasoning Without Prompting: 解码即推理
论文信息
标题: Chain-of-Thought Reasoning Without Prompting
作者: Xuezhi Wang, Denny Zhou
机构: Google DeepMind
发表: arXiv preprint
链接: arXiv | PDF
核心贡献本文揭示CoT推理路径其实隐含在预训练模型中,无需特殊prompt即可通过改变解码策略触发。通过分析top-k候选token,发现CoT路径频繁出现在高概率分支中。这一发现挑战了”prompting是必需的”的传统观念,为理解模型的内在推理能力提供新视角。
核心洞察传统观点的挑战传统认知:CoT推理需要特殊的prompt触发:
12"Let's think step by step" → 模型生成推理无此prompt → 模型直接给答案...
PROMST:多步骤任务中的提示优化——整合人类反馈与启发式采样
PROMST:多步骤任务中的提示优化——整合人类反馈与启发式采样论文概述本文是一篇关于提示工程的优化方法论文,由 Yongchao Chen 等6位研究者共同完成。
PROMST 解决了多步骤智能体任务提示优化的独特挑战,在这些任务中,提示更加复杂,单个步骤的影响难以评估,且用户偏好各异。与单步骤任务优化器不同,PROMST 融合了人类设计的反馈规则(自评规则)以自动提供直接的改进建议,并使用学习到的启发式模型来高效预测提示性能以进行采样。该方法在11个代表性多步骤任务上显著优于人工设计的提示和其他优化方法,在五种不同的大语言模型上平均提升10.6%-29.3%。
研究目标本研究的主要目标包括:
引入专门为多步骤任务提示优化设计的 PROMST 框架
开发自评规则机制,将人类反馈规则融入自动化优化
实现对比过滤,使用学习到的启发式方法高效采样高质量提示候选
研究背景当前挑战
提示...
从错误中进行上下文原理学习
从错误中进行上下文原理学习论文概述本文是一篇关于大型语言模型 (LLM)的研究论文,由 Tianjun Zhang 等8位研究者共同完成。
LEAP(学习原理)引入了一种新颖的上下文学习 (In-Context Learning)范式,从错误中学习而非仅从正确示例学习。通过有意诱导错误、反思错误并推导出明确的任务特定原理,LEAP 显著提升了大型语言模型 (LLM)在推理任务上的性能。这种方法模仿了人类学习,即我们往往从错误中学到的比从成功中学到的更多。
研究目标本研究的主要目标包括:
引入 LEAP,一种从诱导错误中学习显式原理的新型上下文学习 (In-Context Learning)范式
证明从错误中学习比仅从正确示例学习更有效
提出三阶段流程:诱导错误、推导原理、将原理应用于新查询
研究背景当前挑战
推理能力不足:模型在复杂推理任务上表现欠佳
多步推理困难:难以处理需要多...
Qwen1.5-14B - Qwen1.5 14B model
Qwen1.5-14B - Qwen1.5 14B model模型概述Qwen1.5-14B 是 阿里巴巴 公司于 2024 年 2月发布的大型语言模型,拥有 14B 参数规模。 Qwen1.5-14B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
14B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Qwen1.5-14B 属于 Qwen 系列模型。该系列通常包含多个不同规模...
Qwen1.5-0.5B - Qwen1.5 0.5B ultra-lightweight model
Qwen1.5-0.5B - Qwen1.5 0.5B ultra-lightweight model模型概述Qwen1.5-0.5B 是 阿里巴巴 公司于 2024 年 2月发布的大型语言模型,拥有 0.5B 参数规模。 Qwen1.5-0.5B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
0.5B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Qwen1.5-0.5B 属...
Qwen1.5-1.8B - Qwen1.5 1.8B lightweight model
Qwen1.5-1.8B - Qwen1.5 1.8B lightweight model模型概述Qwen1.5-1.8B 是 阿里巴巴 公司于 2024 年 2月发布的大型语言模型,拥有 1.8B 参数规模。 Qwen1.5-1.8B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
1.8B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Qwen1.5-1.8B 属于 Qwen...
Qwen1.5-72B - Qwen1.5 72B flagship model
Qwen1.5-72B - Qwen1.5 72B flagship model模型概述Qwen1.5-72B 是 阿里巴巴 公司于 2024 年 2月发布的大型语言模型,拥有 72B 参数规模。 Qwen1.5-72B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
72B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Qwen1.5-72B 属于 Qwen 系列模型。该系列通...
Qwen1.5-7B - Qwen1.5 7B model with strong Chinese capabilities
Qwen1.5-7B - Qwen1.5 7B model with strong Chinese capabilities模型概述Qwen1.5-7B 是 阿里巴巴 公司于 2024 年 2月发布的大型语言模型,拥有 7B 参数规模。 Qwen1.5-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Qwen1.5-7B ...
基于意图的提示校准:通过合成边界案例增强提示优化
论文概述基于意图的提示校准引入了一种新的自动提示工程方法,解决了需要高质量基准数据集的挑战,而这些数据集在许多现实用例中难以获取且成本高昂。该方法使用迭代校准过程,联合生成边界用例的合成数据并根据此生成的数据集优化提示。通过在优化过程中创建边界案例而非预先需要大量标注数据,系统可以优化提示以更好地与用户意图对齐。该方法在有限数量的标注样本下优于最先进的方法,展示了强大的实用价值。
论文信息:
发布时间:2024-02-05
作者:Elad Levi, Eli Brosh, Matan Friedmann
机构:IBM Research
研究方向:提示工程, 大型语言模型推理
核心技术:提示优化
研究背景自动提示工程通常需要大量高质量的标注数据,这在实际应用中往往难以获取。本研究针对以下问题展开:
现有问题
自动提示优化需要大量高质量基准数据
标注数据获取成本高昂且耗时
现有方法难...
大语言模型提示工程系统性综述:技术与应用
大语言模型提示工程系统性综述:技术与应用论文概述本文是一篇关于提示工程的综述性研究论文,由 Pranab Sahoo 等6位研究者共同完成。
This 综合性 综述 provides a structured overview of recent advancements in 提示工程 for 大语言模型 (大语言模型s) and vision-language models (VLMs). It addresses the gap in 系统性 organization by categorizing approaches by application area, providing detailed summaries of prompting methodologies, models, datasets, and creating a taxonomy of techniq...
大型语言模型是好的提示优化器吗?
论文概述这项批判性研究调查了基于大型语言模型的自动提示优化背后的实际机制,揭示了大型语言模型优化器运作方式的重大局限性。与假设大型语言模型真正反思错误并相应改进提示的假设相反,研究发现:(1)大型语言模型优化器难以识别错误的真正原因,往往受先验知识偏见影响而非实际分析错误;(2)即使反思在语义上有效,大型语言模型也经常由于目标模型行为的不可预测性而无法在单次优化步骤中生成适当的提示。基于这些观察,作者提出向”自动行为优化”范式转变,以更可控的方式直接优化目标模型行为。
论文信息:
发布时间:2024-02-03
作者:Ruotian Ma, Xiaolei Wang, Xin Zhou等
机构:复旦大学, Google
研究方向:提示工程, 大型语言模型推理
核心技术:提示优化分析
研究背景自动提示优化被认为是提升大型语言模型性能的重要方向,但其实际工作机制和局限性尚未得到充分研...
元提示:通过任务无关的脚手架增强语言模型
论文概述这项斯坦福大学/OpenAI的合作研究引入了元提示,一种有效的脚手架技术,将单个语言模型转变为多方面的指挥者。该方法使用高层指令引导语言模型将复杂任务分解为较小的子任务,每个子任务由同一语言模型的不同”专家”实例处理,每个实例在特定的定制指令下运行。
论文信息:
发布时间:2024-01-23
作者:Mirac Suzgun, Adam Tauman Kalai
机构:斯坦福大学, OpenAI
研究方向:提示工程, 大型语言模型推理
核心技术:元提示
研究背景大型语言模型在各类任务中展现出强大的能力,但在处理复杂任务时,单一提示往往难以充分发挥模型潜力。本研究针对以下问题展开:
现有问题
单一提示难以处理复杂的多步骤任务
缺乏系统化的任务分解和协调机制
现有方法需要针对特定任务设计专门的脚手架
研究动机本研究旨在开发一种任务无关的脚手架技术,通过元提示使单个...
VideoLLaMA3 7B - 阿里巴巴 大型语言模型
VideoLLaMA3 7B - 阿里巴巴 大型语言模型模型概述VideoLLaMA3 7B 是 阿里巴巴 公司于 2024 年 1月发布的大型语言模型,拥有 8.04B 参数规模。 在代码生成和理解方面表现出色。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 VideoLLaMA3 7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
8.04B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Vision:centric multimodal design
...
PRewrite:基于强化学习的提示重写
论文概述PRewrite针对人工提示工程耗时且效果不佳的问题,引入了一种基于强化学习的自动化工具,能够将草稿提示重写为高效提示。与人工试错或僵化的基于模板的方法不同,PRewrite使用强化学习在大型动作空间中实现端到端优化,生成人类可读且自我解释的提示。从人工起草的初始提示开始使重写过程更加引导化和高效。在多样化数据集上的实验表明,PRewrite生成的提示不仅优于专业制作的提示,还超越了其他自动化方法生成的提示。
论文信息:
发布时间:2024-01-16
作者:Weize Kong, Spurthi Amba Hombaiah, Mingyang Zhang等
机构:Google, 密歇根大学
研究方向:提示工程, 大型语言模型推理
核心技术:提示优化
研究背景大型语言模型在各类任务中展现出强大的能力,但提示工程仍然是一个耗时且需要专业知识的过程。本研究针对以下问题展开:
...
Multimodal-Mind2Web:让AI理解网页的多模态数据集
赋能Web智能体:多模态理解网页的革命性数据集在人工智能快速发展的今天,我们距离通用网页智能体(Web Agent)的目标越来越近。俄亥俄州立大学NLP团队发布的Multimodal-Mind2Web数据集,为这一目标提供了关键支撑。这个包含14,193个网页任务样本的多模态数据集,首次将网页截图与HTML文档完美对齐,让AI真正”看懂”网页。
数据集核心特性规模与结构
总样本数:14,193行动作记录
总任务数:2,022个复杂网页任务
数据大小:13.6 GB
模态类型:图像(网页截图)+ 文本(HTML + 自然语言指令)
数据划分策略Multimodal-Mind2Web采用了三种不同的测试集划分方式,全面评估模型的泛化能力:
Task Split(任务划分)
训练集:7,775个动作(1,009个任务)
测试集:1,339个动作(177个任务)
目的:测试模型对新任...
Airavata 7B - AI4Bharat 大型语言模型
Airavata 7B - AI4Bharat 大型语言模型模型概述Airavata 7B 是 AI4Bharat 公司于 2024 年 1月发布的大型语言模型,拥有 6.87B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Airavata 7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
6.87B 参数规模:采用大规模参数设计,在性能...
StripedHyena-Hessian-7B - Together AI / hessian.AI 大型语言模型
StripedHyena-Hessian-7B - Together AI / hessian.AI 大型语言模型模型概述StripedHyena-Hessian-7B 是 Together AI / hessian.AI 公司于 2023 年 12月发布的大型语言模型,拥有 7.65B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 StripedHyena-Hessian-7B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 StripedHyena-Hessian-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理...
Mistral-7B-Instruct-v0.2 - Mistral 7B v0.2 with improved 指令微调ion following
Mistral-7B-Instruct-v0.2 - Mistral 7B v0.2 with improved 指令微调ion following模型概述Mistral-7B-Instruct-v0.2 是 Mistral AI 公司于 2023 年 12月发布的大型语言模型,拥有 7B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mistral-7B-Instruct-v0.2 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数...
Mixtral 8x7B Instruct v0.1 - Mistral AI 大型语言模型
Mixtral 8x7B Instruct v0.1 - Mistral AI 大型语言模型模型概述Mixtral 8x7B Instruct v0.1 是 Mistral AI 公司于 2023 年 12月发布的大型语言模型,拥有 46.7B total (8x7B MoE) 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mixtral 8x7B Instruct v0.1 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 288.3K,获得了 4,569 个点赞,显示出强大的社区影响力和用户认可度。
核心特性
46.7B total ...
AI 系统的元提示
论文概述这项来自清华大学的工作引入了元提示(Meta Prompting, MP),这是一个具有理论基础的框架,通过关注任务的形式结构而非特定内容的示例来提升大型语言模型推理。基于类型理论和范畴论,MP 提供了指导推理过程的结构化模板,仅使用单个零样本元提示就实现了最先进的结果。
论文信息:
发布时间:2023-11-20
作者:Yifan Zhang, Yang Yuan, Andrew Chi-Chih Yao
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:元提示(Meta-Prompting)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法
研究动机本研究旨在探索更有效的...
提示工程一个提示工程师
论文概述这项工作通过构建元提示来研究”提示工程一个提示工程师”,这些元提示更有效地引导大型语言模型执行自动提示工程。提出的 PE2 方法引入了关键组件,如逐步推理模板和上下文规范,以及优化概念的语言化对应物(批量大小、步长、动量),以改进自动提示工程性能。
论文信息:
发布时间:2023-11-09
作者:Qinyuan Ye, Maxamed Axmed, Reid Pryzant等
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:元提示(Meta-Prompting)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法
研究动机本研究旨在探索更有效的提示工程技术,提升大型语言模型...
DeepSeek-Coder-33B - DeepSeek Coder 33B for advanced code tasks
DeepSeek-Coder-33B - DeepSeek Coder 33B for advanced code tasks模型概述DeepSeek-Coder-33B 是 DeepSeek 公司于 2023 年 11月发布的大型语言模型,拥有 33B 参数规模。 DeepSeek-Coder-33B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
33B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流...
DeepSeek-Coder-6.7B - DeepSeek Coder 6.7B for code generation
DeepSeek-Coder-6.7B - DeepSeek Coder 6.7B for code generation模型概述DeepSeek-Coder-6.7B 是 DeepSeek 公司于 2023 年 11月发布的大型语言模型,拥有 6.7B 参数规模。 DeepSeek-Coder-6.7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
6.7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持...
大型语言模型作为类比推理器
论文概述受人类类比推理的启发,本文介绍了类比提示(Analogical Prompting),这是一种新颖的方法,提示大型语言模型在解决问题之前自我生成相关的范例和知识。与需要手动制作示例的传统 CoT 不同,类比提示使大型语言模型能够从其内部知识中提取以创建针对问题的演示,无需标注的范例即可实现卓越性能。
论文信息:
发布时间:2023-10-03
作者:Michihiro Yasunaga, Xinyun Chen, Yujia Li等
机构:Google DeepMind,斯坦福大学
研究方向:提示工程,大型语言模型推理
核心技术:类比推理(Analogical Reasoning)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需...
Mistral-7B-v0.1 - First Mistral model proving small models can achieve high performance
Mistral-7B-v0.1 - First Mistral model proving small models can achieve high performance模型概述Mistral-7B-v0.1 是 Mistral AI 公司于 2023 年 9月发布的大型语言模型,拥有 7B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mistral-7B-v0.1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数设计,在性能...
Mistral-7B-Instruct-v0.1 - Mistral 7B v0.1 fine-tuned for 指令微调ion following
Mistral-7B-Instruct-v0.1 - Mistral 7B v0.1 fine-tuned for 指令微调ion following模型概述Mistral-7B-Instruct-v0.1 是 Mistral AI 公司于 2023 年 9月发布的大型语言模型,拥有 7B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mistral-7B-Instruct-v0.1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数...
大型语言模型作为优化器
论文概述这篇里程碑式论文介绍了通过提示优化(Optimization by PROmpting, OPRO),这是一种利用大型语言模型作为各种任务优化器的突破性范式。与传统的基于导数的优化不同,OPRO 使用自然语言描述优化任务,并根据先前评估的候选项迭代生成新解决方案。该方法在提示优化上展示了显著的有效性,其中 OPRO 优化的提示在 GSM8K 上优于人工设计的提示最多 8%,在 Big-Bench Hard 任务上优于最多 50%。这项工作在 Hugging Face 上获得了 77 个点赞,表明了强大的社区认可。
论文信息:
发布时间:2023-09-07
作者:Chengrun Yang, Xuezhi Wang, Yifeng Lu等
机构:Google DeepMind
研究方向:提示工程,大型语言模型推理
核心技术:提示优化(Prompt Optimization)...
RLAIF 对比 RLHF:使用 AI 反馈扩展人类反馈强化学习
论文概述这篇 Google Research 论文提供了基于 AI 反馈的强化学习(RLAIF)与传统 RLHF 之间的首次全面实证比较,证明 AI 生成的偏好标签可以以大幅降低的成本匹配人类反馈质量。在三个任务(摘要、有帮助的对话、无害对话)中,RLAIF 实现了与 RLHF 相当的性能,人类评估者对两者同样偏好(约 70% 优于监督基线)。关键创新是使用现成的大型语言模型生成偏好标签,而不是昂贵的人工标注,并引入了直接 RLAIF(d-RLAIF),该方法在 RL 期间直接从大型语言模型获取奖励,无需训练单独的奖励模型,实现了卓越的性能。该工作发表于 ICML 2024,验证了 RLAIF 作为 RLHF 的可扩展替代方案,将标注成本降低了 10 倍以上,同时保持对齐质量。
论文信息:
发布时间:2023-09-01
作者:Harrison Lee, Samrat Phatal...
CodeLlama-34B - Code Llama 34B 基座模型 for code synthesis
CodeLlama-34B - Code Llama 34B 基座模型 for code synthesis模型概述CodeLlama-34B 是 Meta 公司于 2023 年 8月发布的大型语言模型,拥有 34B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 CodeLlama-34B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
34B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提...
CodeLlama-13B - Code Llama 13B 基座模型 for code synthesis
CodeLlama-13B - Code Llama 13B 基座模型 for code synthesis模型概述CodeLlama-13B 是 Meta 公司于 2023 年 8月发布的大型语言模型,拥有 13B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 CodeLlama-13B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
13B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提...
CodeLlama-7B - Code Llama 7B 基座模型 for code synthesis
CodeLlama-7B - Code Llama 7B 基座模型 for code synthesis模型概述CodeLlama-7B 是 Meta 公司于 2023 年 8月发布的大型语言模型,拥有 7B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 CodeLlama-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的AP...
思维图谱:用大型语言模型解决复杂问题
论文概述思维图谱(Graph of Thoughts, GoT)是一个突破性框架,将大型语言模型推理从链式(CoT)和树式(ToT)结构扩展到任意图结构。GoT 允许大型语言模型将生成的信息建模为图,其中信息单元(”大型语言模型思维”)是顶点,边表示依赖关系。这种灵活的结构能够处理需要复杂信息聚合、回溯和循环依赖的问题。实验表明,GoT 显著优于现有方法,在排序任务上实现了 62% 的质量改进,同时相比 ToT 降低了超过 31% 的成本。
论文信息:
发布时间:2023-08-18
作者:Maciej Besta, Nils Blach, Ales Kubicek等
机构:苏黎世联邦理工学院,雅盖隆大学
研究方向:提示工程,大型语言模型推理
核心技术:思维图谱(Graph of Thoughts)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进...
思维骨架:提示大型语言模型进行高效并行生成
论文概述思维骨架(Skeleton-of-Thought, SoT)是清华大学和微软研究院提出的一种创新推理优化技术,通过并行解码减少大型语言模型的生成延迟。受人类思维过程的启发——我们在详细阐述之前首先概述想法——SoT 提示大型语言模型首先生成答案的高层骨架(大纲),然后通过批量解码或并行 API 调用并行完成每个骨架点。在包括 GPT-4、LLaMA 和 Vicuna 在内的 12 个大型语言模型和多样化问题类型上进行评估,SoT 实现了高达 2.39 倍的加速,同时保持或提高答案质量。该论文发表于 ICLR 2024,SoT 展示了一种以数据为中心的推理效率方法,将大型语言模型视为黑盒,并适用于任何现成的模型,包括基于 API 的服务。
论文信息:
发布时间:2023-07-28
作者:Xuefei Ning, Zinan Lin, Zixuan Zhou等
机构:清华大学...
视觉-语言基础模型的提示工程系统综述
论文概述这篇来自牛津大学等机构的综合性综述系统地考察了三种主要类型的视觉-语言基础模型的提示工程技术:多模态到文本生成(如 Flamingo)、图像-文本匹配(如 CLIP)和文本到图像生成(如 Stable Diffusion)。该工作首次系统地概述了视觉领域的提示方法、应用和责任考虑。
论文信息:
发布时间:2023-07-24
作者:Jindong Gu, Zhen Han, Shuo Chen等
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:视觉提示(Visual Prompting)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法
研究动机本研究旨在探索更有效的提示工...
Llama-2-13B-Chat - Llama 2 13B fine-tuned for dialogue
Llama-2-13B-Chat - Llama 2 13B fine-tuned for dialogue模型概述Llama-2-13B-Chat 是 Meta 公司于 2023 年 7月发布的大型语言模型,拥有 13B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama-2-13B-Chat 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
13B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
...
Llama-2-13B - Meta's Llama 2 13B 基座模型
Llama-2-13B - Meta’s Llama 2 13B 基座模型模型概述Llama-2-13B 是 Meta 公司于 2023 年 7月发布的大型语言模型,拥有 13B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama-2-13B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
13B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
...
Llama-2-7B-Chat - Llama 2 7B fine-tuned for dialogue with RLHF
Llama-2-7B-Chat - Llama 2 7B fine-tuned for dialogue with RLHF模型概述Llama-2-7B-Chat 是 Meta 公司于 2023 年 7月发布的大型语言模型,拥有 7B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama-2-7B-Chat 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批...
Llama-2-70B-Chat - Llama 2 70B fine-tuned for dialogue
Llama-2-70B-Chat - Llama 2 70B fine-tuned for dialogue模型概述Llama-2-70B-Chat 是 Meta 公司于 2023 年 7月发布的大型语言模型,拥有 70B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama-2-70B-Chat 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
70B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
...
Llama-2-7B - Meta's Llama 2 7B 基座模型, the first truly commercial-ready 开源 LLM
Llama-2-7B - Meta’s Llama 2 7B 基座模型, the first truly commercial-ready 开源 LLM模型概述Llama-2-7B 是 Meta 公司于 2023 年 7月发布的大型语言模型,拥有 7B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama-2-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速...
Llama-2-70B - Meta's Llama 2 70B 基座模型 with Grouped-Query Attention
Llama-2-70B - Meta’s Llama 2 70B 基座模型 with Grouped-Query Attention模型概述Llama-2-70B 是 Meta 公司于 2023 年 7月发布的大型语言模型,拥有 70B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama-2-70B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
70B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处...
提示空间:优化大型语言模型的少样本推理成功
论文概述本文提出了提示空间(Prompt Space),这是一种提供稳健理论框架来选择有效提示的新方法。它利用文本嵌入和矩阵分解来获取基向量,并构建一个用于表示所有提示的空间。提示空间在十个推理基准测试上显著优于最先进的范式,甚至在不使用思维链或”让我们逐步思考”提示的情况下也是如此。
论文信息:
发布时间:2023-06-06
作者:Fobo Shi, Peijun Qing, Dong Yang等
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:提示空间(Prompt Space)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法
研究动机本研究旨在探索更有效的提示工程技术,提...
通用自适应提示
论文概述通用自适应提示(Universal Self-Adaptive Prompting, USP)通过实现自动提示设计的有效零样本学习来解决 Transformers 的架构限制。与依赖”一个提示适用所有”策略的传统方法不同,USP 对任务进行分类,并选择任务适当的查询和模型生成的响应作为伪示例,以完全自动化的方式将上下文学习泛化到零样本设置。
论文信息:
发布时间:2023-05-24
作者:Xingchen Wan, Ruoxi Sun, Hootan Nakhost等
机构:Google Research
研究方向:提示工程,大型语言模型推理
核心技术:零样本学习(Zero Shot Learning)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上...
QLoRA:量化大型语言模型的高效微调
论文概述QLoRA 是华盛顿大学提出的一项里程碑式量化微调技术,能够在消费级硬件上高效微调大规模语言模型。关键创新在于结合了三项技术:(1)针对正态分布权重优化的 4 位 NormalFloat(NF4)量化,(2)双重量化以减少量化常数的内存占用,(3)使用 NVIDIA 统一内存的分页优化器来处理内存峰值。QLoRA 能够在单个 48GB GPU 上微调 650 亿参数模型,同时保持完整的 16 位微调性能。生成的 Guanaco 模型系列在 Vicuna 基准测试上达到了 ChatGPT 性能的 99.3%。该论文发表于 NeurIPS 2023,获得超过 2,800 次引用,QLoRA 已成为可访问的大型语言模型微调的事实标准,也是 bitsandbytes 库的基础。
论文信息:
发布时间:2023-05-23
作者:Tim Dettmers, Artidoro Pagn...
思维树:大型语言模型的审慎问题解决
论文概述思维树(Tree of Thoughts, ToT)是一个突破性框架,它通过允许语言模型通过树结构搜索探索多条推理路径,从而推广了思维链(Chain of Thought)方法。与 CoT 的线性逐token生成不同,ToT 允许大型语言模型通过考虑多条不同的推理路径、自我评估选择,以及在必要时回溯来进行审慎的决策制定,以做出全局性选择。这使得能够解决需要探索、战略性前瞻或初始决策起关键作用的复杂任务。
论文信息:
发布时间:2023-05-17
作者:Shunyu Yao, Dian Yu, Jeffrey Zhao等
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:思维树(Tree of Thoughts)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方...
PyTorch FSDP: 全分片数据并行的扩展经验
论文概述PyTorch FSDP(全分片数据并行,Fully Sharded Data Parallel)是PyTorch团队提供的工业级分布式训练解决方案,通过与PyTorch核心基础设施的深度协同设计,实现了全分片数据并行。系统在GPU之间分片模型参数、梯度和优化器状态,同时保持PyTorch编程接口。该系统已成为大规模模型训练的可访问解决方案,提供与DDP相当的性能,同时支持显著更大的模型。
论文信息:
发布时间:2023-04-21
作者:Yanli Zhao, Andrew Gu, Rohan Varma, Liang Luo等
机构:Meta (Facebook) AI
研究方向:分布式训练、模型扩展
核心技术:全分片数据并行 (Fully Sharded Data Parallel)
研究背景随着模型规模不断增长,分布式训练成为必需。本研究针对以下问题展开:
现有问...