FlashInfer：大语言模型推理服务的高效可定制注意力引擎

Posted on 一月 2, 2025

FlashInfer：大语言模型推理服务的高效可定制注意力引擎 ArXiv ID: 2501.01005作者: Zihao Ye, Lequn Chen, Ruihang Lai, Wuwei Lin, Yineng Zhang, Stephanie Wang, Tianqi Chen, Baris Kasikci, Vinod Grover, Arvind Krishnamurthy, Luis Ceze机构: University of Washington, NVIDIA, OctoAI发布日期: 2025-01-02 摘要大语言模型(LLM)推理服务面临着关键的性能挑战：不同请求的KV缓存存储模式高度异构，导致内存访问效率低下。FlashInfer是一个创新的注意力计算引擎，专为解决这一挑战而设计。系统采用统一的块稀疏行(BSR)格式来管理KV缓存，使得系统能够高效处理各...

阅读全文

FlashInfer：高效可定制的LLM推理Attention引擎

Posted on 一月 2, 2025

AbstractTransformer架构及其核心的注意力机制是大语言模型（LLM）的基础。随着模型规模不断扩大，高效的GPU注意力内核对于实现高吞吐量和低延迟推理至关重要。多样化的LLM应用需求催生了对灵活且高性能注意力解决方案的需求。本文介绍FlashInfer：一个为LLM服务设计的可定制高效注意力引擎。FlashInfer通过块稀疏格式和可组合格式解决KV缓存存储的异构性问题，优化内存访问并减少冗余。它还提供可定制的注意力模板，通过即时编译（JIT）适应各种场景。此外，FlashInfer的负载均衡调度算法能够适应用户请求的动态性，同时保持与CUDAGraph的兼容性。FlashInfer已集成到SGLang、vLLM和MLC-Engine等主流LLM服务框架中。 Key Contributions 块稀疏格式和可组合格式：创新性地解决KV缓存存储异构性问题，优化内存访问模式...

阅读全文