Accepted in ACL 2025 Findings!

15 May 2025

恭喜俊辉的工作《A$^2$ATS: Retrieval-Based KV Cache Reduction via Windowed Rotary Position Embedding and Query-Aware Vector Quantization》被ACL 2025 Findings录用!

工作简介: 翻译: 长上下文大语言模型(LLM)因KV缓存的内存占用大、访问开销高,对高效服务提出了重大挑战。基于检索的KV缓存缩减方法可通过将完整KV缓存卸载至CPU,并在推理时按需检索必要token来缓解这些问题。然而,现有方法仍存在精度损失不理想和额外检索开销的问题。针对这些局限性,本文提出了一种新型基于检索的KV缓存缩减方法A2ATS。该方法通过对关键状态(key states)应用矢量量化技术,精确近似注意力分数,从而实现高效精准的Top-K token检索。首先,我们提出了窗口化旋转位置编码(Windowed Rotary Position Embedding),在位置编码后解耦查询与关键状态的位置依赖性;其次,提出了直接优化注意力分数近似目标的查询感知矢量量化(query-aware vector quantization)方法;最后,设计了面向KV缓存卸载的异构推理架构,支持更大批处理量的长上下文服务。实验结果表明,在同等或更低开销条件下,A2ATS能实现更低的性能损失,从而将长上下文服务吞吐量最高提升2.7倍。