Discover latest generative AI models, prompt engineering papers, and MCP servers
Menu
Close
首页
data
training
models
inference
context
prompt
mcp
agents
关于
嗯,目前共计290篇文章
2024
12月 31, 2024
基于图结构的检索增强生成综述
12月 25, 2024
DeepSeek-V3 - DeepSeek 大型语言模型
12月 19, 2024
Gemini 2.0 Flash - 谷歌 大型语言模型
12月 12, 2024
GReaTer: 推理梯度让小型语言模型成为强大的提示优化器
12月 12, 2024
GReaTer: 推理上的梯度使小型语言模型成为强大的提示优化器
12月 11, 2024
什么使上下文学习在数学推理中有效:理论分析
11月 26, 2024
Llama 3.3 70B Instruct - Meta 大型语言模型
11月 14, 2024
Squeezed Attention:基于语义聚类的长上下文LLM推理加速
11月 09, 2024
ChemDFM-v1.5 8B - OpenDFM 大型语言模型
11月 08, 2024
SSSD:简单可扩展的投机解码技术
11月 06, 2024
LEGO-GraphRAG: 图检索增强生成的模块化框架与设计空间探索
10月 22, 2024
基于大语言模型的少样本上下文偏好学习
10月 14, 2024
LLM提示对决优化器:高效的无标注提示优化方法
10月 09, 2024
过程奖励模型综述:从结果信号到大语言模型的过程监督
10月 06, 2024
智能体上下文工程:自我进化的语言模型上下文系统
10月 01, 2024
LFM2 1.2B - Liquid AI 大型语言模型
9月 16, 2024
Qwen2.5-7B-Instruct - 阿里巴巴 大型语言模型
9月 15, 2024
Pharia-1-LLM 7B Control - Aleph Alpha 大型语言模型
9月 12, 2024
OpenAI o1-mini - OpenAI 大型语言模型
9月 12, 2024
OpenAI o1-preview - OpenAI 大型语言模型
9月 01, 2024
Prithvi-WxC 2.3B - IBM 大型语言模型
8月 15, 2024
InkubaLM 0.4B - Lelapa AI 大型语言模型
8月 15, 2024
图检索增强生成综述
8月 06, 2024
推理时计算扩展:比扩展模型参数更有效的优化策略
8月 01, 2024
EvoLLM-JP 10B - Sakana AI 大型语言模型
7月 17, 2024
大语言模型在不同NLP任务中的提示工程方法综述
7月 16, 2024
大型语言模型推理: 综述
7月 16, 2024
Llama 3.1 405B Instruct - Meta 大型语言模型
7月 15, 2024
SeaLLMs-v3 7B - SeaLLMs 大型语言模型
7月 12, 2024
受人类启发的情节记忆:实现无限上下文LLM
7月 11, 2024
FlashAttention-3:通过异步和低精度实现快速准确的注意力机制
6月 27, 2024
Gemma-2-9B - Gemma 2 9B with improved architecture
6月 27, 2024
Gemma-2-27B - Gemma 2 27B flagship model
6月 21, 2024
Claude 3.5 Sonnet - Anthropic 大型语言模型
6月 17, 2024
优化多阶段语言模型程序的指令与示例
6月 17, 2024
DeepSeek-Coder-V2 - DeepSeek Coder V2 with MoE for code generation
6月 10, 2024
通过自动化过程监督改进语言模型的数学推理能力
6月 07, 2024
Qwen2-0.5B - Qwen2 0.5B ultra-lightweight model
6月 07, 2024
Qwen2-72B - Qwen2 72B flagship model
6月 07, 2024
Qwen2-1.5B - Qwen2 1.5B lightweight model
6月 07, 2024
Qwen2-7B - Qwen2 7B with improved 多语言支持 capabilities
6月 01, 2024
AIFS 1.0 - ECMWF 大型语言模型
5月 13, 2024
GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型
5月 07, 2024
vAttention:无需PagedAttention的动态内存管理
5月 07, 2024
QServe:用于高效LLM服务的W4A8KV4量化与系统协同设计
5月 06, 2024
DeepSeek-V2 - DeepSeek-V2 with Mixture of Experts architecture
4月 02, 2024
长上下文LLM在长上下文学习中的挑战
3月 20, 2024
Cosmopedia:最大的开源合成数据集,25B token助力小模型训练
3月 15, 2024
BioMedLM - Stanford CRFM / MosaicML 大型语言模型
3月 06, 2024
SaulLM-7B (Saul-7B-Base) - Mistral AI 大型语言模型
2月 21, 2024
Gemma-2B - Google's first 开源 lightweight model
2月 21, 2024
Gemma-7B - Google's Gemma 7B model
2月 15, 2024
无需提示的链式思维推理
2月 13, 2024
PROMST:多步骤任务中的提示优化——整合人类反馈与启发式采样
2月 08, 2024
从错误中进行上下文原理学习
2月 05, 2024
基于意图的提示校准:通过合成边界案例增强提示优化
2月 05, 2024
大语言模型提示工程系统性综述:技术与应用
2月 05, 2024
Qwen1.5-0.5B - Qwen1.5 0.5B ultra-lightweight model
2月 05, 2024
Qwen1.5-72B - Qwen1.5 72B flagship model
2月 05, 2024
Qwen1.5-14B - Qwen1.5 14B model
2月 05, 2024
Qwen1.5-1.8B - Qwen1.5 1.8B lightweight model
2月 05, 2024
Qwen1.5-7B - Qwen1.5 7B model with strong Chinese capabilities
2月 03, 2024
大型语言模型是好的提示优化器吗?
1月 23, 2024
元提示:通过任务无关的脚手架增强语言模型
1月 22, 2024
VideoLLaMA3 7B - 阿里巴巴 大型语言模型
1月 16, 2024
PRewrite:基于强化学习的提示重写
1月 15, 2024
Multimodal-Mind2Web:让AI理解网页的多模态数据集
1月 15, 2024
Airavata 7B - AI4Bharat 大型语言模型