SSSD:简单可扩展的投机解码技术

Abstract过去一年中,投机解码(Speculative Decoding)作为加速大语言模型推理的技术而广受欢迎。虽然已经提出了多种方法,但大多数在数据中心典型的批处理大小(≥8)下难以提供令人满意的性能,并且往往涉及复杂的部署流程。SSSD(Simply-Scalable Speculative Decoding)针对这些问题,提出了一种简单但高效的投机解码方案,专门优化了在大批处理场景下的性能。在continuous batching环境中,SSSD在短上下文生成场景下实现了4倍吞吐量提升且不增加延迟,在长上下文场景下同时改善延迟和吞吐量1.7-2倍。 Key Contributions 大批处理优化:首个专门针对数据中心典型批处理大小(≥8)优化的投机解码方法,解决了现有方案在大批量下性能急剧下降的问题 简化部署流程:相比现有复杂的投机解码方案,SSSD设计极简,易于集成...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero