突破记忆墙:长上下文代理LLM推理的优化路径论文信息
标题: Combating the Memory Walls: Optimization Pathways for Long-Context Agentic LLM Inference
作者: Haoran Wu, Can Xiao, Jiayi Nie, Xuan Guo, Binglei Lou, Jeffrey T. H. Wong, Zhiwen Mo, Cheng Zhang, Przemyslaw Forys, Wayne Luk, Hongxiang Fan, Jianyi Cheng, Timothy M. Jones, Rika Antonova, Robert Mullins, Aaron Zhao
发布日期: 2025-09-11
ArXiv链接: https://arxiv.org/abs/2509.095...
FlashMLA-ETAP: 高效转置Attention流水线加速H20 GPU上的MLA推理
AbstractFlashMLA-ETAP提出了一种针对NVIDIA H20 GPU单实例部署场景优化的Multi-Head Latent Attention (MLA)推理框架。通过引入高效转置Attention流水线(ETAP),重构attention计算以减少冗余操作,并将KV context长度与WGMMA操作的M维度对齐,充分利用H20硬件特性。在64K序列长度、batch size 16的场景下,相比FlashMLA实现2.78倍加速,相比FlashAttention-3和FlashInfer分别实现5.24倍和4.94倍提升。同时保持数值稳定性,RMSE比FlashMLA低15.2倍。
Key Contributions
Efficient Transpose Attention Pipeline (ETAP): 通过转置重构attention计算,减少冗余操作并优化硬...