GPTQ:用于生成式预训练Transformer的准确训练后量化

Abstract

生成式预训练Transformer模型,即GPT或OPT,通过在复杂语言建模任务中的突破性表现脱颖而出,但同时也因其极高的计算和存储成本而著称。具体来说,由于其庞大的规模,即使是大型高精度GPT模型的推理也可能需要多个高性能GPU,这限制了此类模型的可用性。虽然有新兴工作通过模型压缩来缓解这一压力,但现有压缩技术的适用性和性能受到GPT模型规模和复杂性的限制。在本文中,我们应对了这一挑战,并提出了GPTQ,一种基于近似二阶信息的新型一次性权重量化方法,既高度准确又高度高效。具体而言,GPTQ可以在大约四个GPU小时内量化具有1750亿参数的GPT模型,将位宽降至每个权重3或4位,相对于未压缩基线的精度下降可忽略不计。

Key Contributions

  • GPTQ:基于近似二阶信息的新型一次性权重量化方法
  • 能够在约4个GPU小时内量化1750亿参数模型
  • 将每个权重降至3-4位,精度损失可忽略不计
  • 在保持精度的同时,相比以前的一次性方法获得2倍以上的压缩增益
  • 首个能在单个GPU上执行1750亿参数模型推理的方法
  • 即使在极端的2位/三元量化下也展示了合理的精度
  • 在A100上实现3.25倍推理加速,在A6000上相比FP16实现4.5倍加速

Methodology

GPTQ采用基于近似二阶信息的新型一次性量化方法,特别是利用Hessian矩阵来指导量化过程。该方法在单次遍历中逐层量化权重,无需迭代微调。二阶信息使GPTQ能够就哪些权重对量化误差最敏感做出明智决策,从而在保持模型性能的同时实现激进压缩(3-4位)。计算效率源于一次性特性和使用近似(而非精确)二阶信息。

Experiments

综合评估表明:(1)在大约4个GPU小时内完成高达1750亿参数的GPT模型量化,(2) 3-4位量化相比FP16基线实现可忽略不计的精度下降,(3)比以前的一次性方法压缩率提高2倍以上,(4)首次展示1750亿模型在单个GPU上运行,(5)即使在极端的2位/三元量化下也表现合理,(6)相比FP16,在A100 GPU上实现3.25倍、在A6000 GPU上实现4.5倍的端到端推理加速,(7)广泛的困惑度和下游任务评估验证了质量保持。

Evaluation Notes

GPTQ是神经网络量化领域的里程碑论文,特别是对于大语言模型。能够在仅4个GPU小时内将1750亿参数模型量化到3-4位是革命性的,使量化在以前不可行的规模上变得实用。使用近似二阶信息是优雅且有充分动机的,为GPTQ取得如此强大的结果提供了理论基础。在单个GPU上运行1750亿模型的展示不仅是技术成就,更是部署方面的实践变革。在保持精度的同时相比以前的一次性方法提高2倍以上,显示出明确的算法优势。推理加速(3.25-4.5倍)直接转化为生产中的成本节省。在保持合理精度的同时探索极端量化(2位/三元)推动了可能性的边界。这项工作已成为该领域的基础参考,并促成了众多下游应用。理论健全性、实践效率和实证验证的结合使其成为杰出贡献。

Impact Signals

  • 里程碑式的量化方法,被广泛引用和采用
  • 使1750亿模型能在单个GPU上运行——民主化访问
  • 3-4位量化,精度损失最小
  • 在消费级GPU上实现4倍推理加速
  • 被众多后续方法引用的基础性工作

Resources

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero