Abstract大语言模型(LLM)在各类自然语言处理任务中展现了卓越能力。然而,其巨大的内存需求,特别是在长文本理解和生成过程中KV缓存的持续增长,给资源受限环境下的部署带来了重大挑战。量化技术作为一种在保留历史信息的同时减少内存消耗的解决方案应运而生。我们提出XQuant,一个训练免费且即插即用的框架,实现了超低等效比特位宽的KV缓存量化。XQuant引入了两项关键创新:计算开销可忽略的无数据校准方法,以及跨层KV缓存压缩技术,使量化比特位宽降至1.4比特以下。在TruthfulQA和LongBench上的大量实验表明,XQuant优于现有最先进方法(如KIVI-2bit和AsymKV-1.5bit),在实现更低比特位宽的同时保持卓越性能,在内存效率和模型精度之间建立了更好的权衡。
Key Contributions
超低比特量化突破:首次实现sub-1.4比特的KV缓存量化,相...
KVLinC: 结合Hadamard旋转和线性校正的KV Cache量化
AbstractKVLinC提出了一种缓解KV cache量化中attention误差的框架。通过结合两种关键技术:1) Hadamard旋转以降低value量化误差,2) 轻量级线性校正适配器显式补偿量化key引入的误差。该方法在LLaMA、Qwen2.5和Qwen3模型家族上进行评估,实现了相比Flash Attention基线高达2.55倍的推理加速,同时保持模型性能。设计了定制化attention kernel以最大化效率收益。
Key Contributions
Hadamard旋转优化Value量化: 对value cache应用Hadamard变换,均匀化数据分布以降低量化误差
线性校正适配器: 引入轻量级线性校正模块显式补偿量化key带来的误差
Key-Value分治策略: 针对key和value的不同特性采用不同的量化和误差缓解策略
定制Attention Kern...
VecInfer: 基于向量量化的2-bit KV Cache高效LLM推理
AbstractVecInfer针对LLM推理中的KV Cache内存瓶颈问题,提出了一种基于向量量化的激进压缩方案。通过smooth和Hadamard变换抑制key cache中的outlier,实现了对数据分布的全面覆盖。仅使用2-bit量化即可达到与全精度相当的性能,并设计了优化的CUDA kernel最小化内存访问开销。在Llama-3.1-8B模型上,大batch场景下self-attention计算获得2.7倍加速,单batch端到端延迟在196k序列长度下降低8.3倍。
Key Contributions
Outlier抑制的向量量化: 通过smooth和Hadamard变换抑制key cache outliers,实现更有效的2-bit向量量化
2-bit极限压缩: 在仅2-bit量化的情况下实现与全精度相当的性能,8倍内存压缩比
优化CUDA kernel: 定制化...