QServe：用于高效LLM服务的W4A8KV4量化与系统协同设计

Posted on 五月 7, 2024

Abstract

量化可以加速大语言模型(LLM)推理。在INT8量化之外，研究社区正在积极探索更低精度，如INT4。然而，最先进的INT4量化技术仅能加速低批量、边缘LLM推理，无法在大批量、基于云的LLM服务中提供性能提升。我们发现了一个关键问题：现有的INT4量化方法在GPU上对权重或部分和进行反量化时存在显著的运行时开销(20-90%)。为了解决这一挑战，我们引入了QoQ，一种W4A8KV4量化算法，采用4位权重、8位激活和4位KV缓存。QoQ代表quattuor-octo-quattuor，在拉丁语中表示4-8-4。QoQ通过QServe推理库实现，并取得了可测量的加速。

Key Contributions

QoQ (quattuor-octo-quattuor)：结合4位权重、8位激活、4位KV缓存的新型W4A8KV4量化算法
渐进量化技术，在W4A8 GEMM中实现低反量化开销
SmoothAttention技术，减轻4位KV量化导致的精度下降
计算感知的权重重排序和寄存器级并行，降低反量化延迟
融合注意力优化，针对内存受限执行，充分利用KV4量化优势
Llama-3-8B在A100上加速1.2倍，在L40S上1.4倍；Qwen1.5-72B在A100上加速2.4倍，在L40S上3.5倍
QServe在L40S上实现比TensorRT-LLM在A100上更高的吞吐量，服务成本降低3倍

Methodology

QoQ算法引入了W4A8KV4量化的系统方法：(1)渐进量化通过精心构建量化方案，在W4A8 GEMM操作中实现低开销反量化，(2) SmoothAttention技术专门设计用于处理4位KV缓存量化，同时保持注意力质量，(3) QServe系统实现计算感知的权重重排序以优化内存访问模式，(4)利用寄存器级并行来隐藏反量化延迟，(5)融合注意力内核设计为内存受限，充分利用KV4量化优势。算法与系统的协同设计确保了实际加速。

Experiments

在Llama和Qwen模型家族上的广泛评估表明：(1) Llama-3-8B：在A100上相比TensorRT-LLM加速1.2倍，在L40S上加速1.4倍，(2) Qwen1.5-72B：在A100上加速2.4倍，在L40S上加速3.5倍，(3) QServe在L40S上实现比TensorRT-LLM在A100上更高的吞吐量，验证了成本效益，(4) LLM服务的美元成本降低3倍，(5)在基准测试中精度下降可忽略不计，(6)在以前INT4方法失败的大批量云服务场景中表现优异。

Evaluation Notes

QServe代表了服务工作负载中实用LLM量化的重大进步。关于云服务中反量化开销(20-90%)的关键洞察此前被忽视，而QoQ通过渐进量化提供的解决方案非常优雅。W4A8KV4方案动机充分：4位权重和KV缓存提供内存节省，而8位激活保持计算质量。SmoothAttention是应对KV量化挑战的巧妙解决方案。系统-算法协同设计堪称典范——计算感知重排序和寄存器级并行等优化技术显示了对GPU架构的深刻理解。结果令人印象深刻：在更便宜的L40S上实现比A100配合TensorRT-LLM更高的吞吐量，验证了技术方法和成本优势。3倍的成本降低对生产部署极具吸引力。集成到完整的推理库(QServe)并支持流行模型，使其立即具有实用性。这项工作有效地弥合了低位量化研究与实际服务需求之间的差距。

Impact Signals

首个用于云LLM服务的实用W4A8KV4量化
服务成本降低3倍，具有重大经济影响
在更便宜的硬件(L40S vs A100)上超越TensorRT-LLM
来自MIT-Han Lab，高效机器学习领域的领先团队
完整的推理库，支持多种模型