ChunkKV:基于语义块的KV缓存压缩技术
ArXiv ID: 2502.00299作者: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Yue Liu, Bo Li, Xuming Hu, Xiaowen Chu机构: NVIDIA, Hong Kong University of Science and Technology发布日期: 2025-02-01会议: NeurIPS 2025
摘要传统KV缓存压缩方法以单个token为单位进行重要性评估和淘汰,忽略了语言的语义连贯性。ChunkKV创新性地将语义块(semantic chunks)作为压缩的基本单元,保持完整的语言结构和上下文完整性。
系统通过三个核心技术实现高效压缩:
语义块识别:基于句法分析和语义边界检测,将token序列划分为有意义的语义单元
块级重要性评估...