ChunkKV:基于语义块的KV缓存压缩技术

ChunkKV:基于语义块的KV缓存压缩技术 ArXiv ID: 2502.00299作者: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Yue Liu, Bo Li, Xuming Hu, Xiaowen Chu机构: NVIDIA, Hong Kong University of Science and Technology发布日期: 2025-02-01会议: NeurIPS 2025 摘要传统KV缓存压缩方法以单个token为单位进行重要性评估和淘汰,忽略了语言的语义连贯性。ChunkKV创新性地将语义块(semantic chunks)作为压缩的基本单元,保持完整的语言结构和上下文完整性。 系统通过三个核心技术实现高效压缩: 语义块识别:基于句法分析和语义边界检测,将token序列划分为有意义的语义单元 块级重要性评估...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero