Abstract量化可以加速大语言模型(LLM)推理。在INT8量化之外,研究社区正在积极探索更低精度,如INT4。然而,最先进的INT4量化技术仅能加速低批量、边缘LLM推理,无法在大批量、基于云的LLM服务中提供性能提升。我们发现了一个关键问题:现有的INT4量化方法在GPU上对权重或部分和进行反量化时存在显著的运行时开销(20-90%)。为了解决这一挑战,我们引入了QoQ,一种W4A8KV4量化算法,采用4位权重、8位激活和4位KV缓存。QoQ代表quattuor-octo-quattuor,在拉丁语中表示4-8-4。QoQ通过QServe推理库实现,并取得了可测量的加速。
Key Contributions
QoQ (quattuor-octo-quattuor):结合4位权重、8位激活、4位KV缓存的新型W4A8KV4量化算法
渐进量化技术,在W4A8 GEMM中实现低反量...