突破记忆墙:长上下文代理LLM推理的优化路径论文信息
标题: Combating the Memory Walls: Optimization Pathways for Long-Context Agentic LLM Inference
作者: Haoran Wu, Can Xiao, Jiayi Nie, Xuan Guo, Binglei Lou, Jeffrey T. H. Wong, Zhiwen Mo, Cheng Zhang, Przemyslaw Forys, Wayne Luk, Hongxiang Fan, Jianyi Cheng, Timothy M. Jones, Rika Antonova, Robert Mullins, Aaron Zhao
发布日期: 2025-09-11
ArXiv链接: https://arxiv.org/abs/2509.095...
VecInfer: 基于向量量化的2-bit KV Cache高效LLM推理
AbstractVecInfer针对LLM推理中的KV Cache内存瓶颈问题,提出了一种基于向量量化的激进压缩方案。通过smooth和Hadamard变换抑制key cache中的outlier,实现了对数据分布的全面覆盖。仅使用2-bit量化即可达到与全精度相当的性能,并设计了优化的CUDA kernel最小化内存访问开销。在Llama-3.1-8B模型上,大batch场景下self-attention计算获得2.7倍加速,单batch端到端延迟在196k序列长度下降低8.3倍。
Key Contributions
Outlier抑制的向量量化: 通过smooth和Hadamard变换抑制key cache outliers,实现更有效的2-bit向量量化
2-bit极限压缩: 在仅2-bit量化的情况下实现与全精度相当的性能,8倍内存压缩比
优化CUDA kernel: 定制化...