QServe:用于高效LLM服务的W4A8KV4量化与系统协同设计

Abstract

量化可以加速大语言模型(LLM)推理。在INT8量化之外,研究社区正在积极探索更低精度,如INT4。然而,最先进的INT4量化技术仅能加速低批量、边缘LLM推理,无法在大批量、基于云的LLM服务中提供性能提升。我们发现了一个关键问题:现有的INT4量化方法在GPU上对权重或部分和进行反量化时存在显著的运行时开销(20-90%)。为了解决这一挑战,我们引入了QoQ,一种W4A8KV4量化算法,采用4位权重、8位激活和4位KV缓存。QoQ代表quattuor-octo-quattuor,在拉丁语中表示4-8-4。QoQ通过QServe推理库实现,并取得了可测量的加速。

Key Contributions

  • QoQ (quattuor-octo-quattuor):结合4位权重、8位激活、4位KV缓存的新型W4A8KV4量化算法
  • 渐进量化技术,在W4A8 GEMM中实现低反量化开销
  • SmoothAttention技术,减轻4位KV量化导致的精度下降
  • 计算感知的权重重排序和寄存器级并行,降低反量化延迟
  • 融合注意力优化,针对内存受限执行,充分利用KV4量化优势
  • Llama-3-8B在A100上加速1.2倍,在L40S上1.4倍;Qwen1.5-72B在A100上加速2.4倍,在L40S上3.5倍
  • QServe在L40S上实现比TensorRT-LLM在A100上更高的吞吐量,服务成本降低3倍

Methodology

QoQ算法引入了W4A8KV4量化的系统方法:(1)渐进量化通过精心构建量化方案,在W4A8 GEMM操作中实现低开销反量化,(2) SmoothAttention技术专门设计用于处理4位KV缓存量化,同时保持注意力质量,(3) QServe系统实现计算感知的权重重排序以优化内存访问模式,(4)利用寄存器级并行来隐藏反量化延迟,(5)融合注意力内核设计为内存受限,充分利用KV4量化优势。算法与系统的协同设计确保了实际加速。

Experiments

在Llama和Qwen模型家族上的广泛评估表明:(1) Llama-3-8B:在A100上相比TensorRT-LLM加速1.2倍,在L40S上加速1.4倍,(2) Qwen1.5-72B:在A100上加速2.4倍,在L40S上加速3.5倍,(3) QServe在L40S上实现比TensorRT-LLM在A100上更高的吞吐量,验证了成本效益,(4) LLM服务的美元成本降低3倍,(5)在基准测试中精度下降可忽略不计,(6)在以前INT4方法失败的大批量云服务场景中表现优异。

Evaluation Notes

QServe代表了服务工作负载中实用LLM量化的重大进步。关于云服务中反量化开销(20-90%)的关键洞察此前被忽视,而QoQ通过渐进量化提供的解决方案非常优雅。W4A8KV4方案动机充分:4位权重和KV缓存提供内存节省,而8位激活保持计算质量。SmoothAttention是应对KV量化挑战的巧妙解决方案。系统-算法协同设计堪称典范——计算感知重排序和寄存器级并行等优化技术显示了对GPU架构的深刻理解。结果令人印象深刻:在更便宜的L40S上实现比A100配合TensorRT-LLM更高的吞吐量,验证了技术方法和成本优势。3倍的成本降低对生产部署极具吸引力。集成到完整的推理库(QServe)并支持流行模型,使其立即具有实用性。这项工作有效地弥合了低位量化研究与实际服务需求之间的差距。

Impact Signals

  • 首个用于云LLM服务的实用W4A8KV4量化
  • 服务成本降低3倍,具有重大经济影响
  • 在更便宜的硬件(L40S vs A100)上超越TensorRT-LLM
  • 来自MIT-Han Lab,高效机器学习领域的领先团队
  • 完整的推理库,支持多种模型

Resources

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero