Accepted in ACL 2025 Findings!

15 May 2025

恭喜俊辉的工作《A$^2$ATS: Retrieval-Based KV Cache Reduction via Windowed Rotary Position Embedding and Query-Aware Vector Quantization》被ACL 2025 Findings录用！

工作简介：翻译：长上下文大语言模型（LLM）因KV缓存的内存占用大、访问开销高，对高效服务提出了重大挑战。基于检索的KV缓存缩减方法可通过将完整KV缓存卸载至CPU，并在推理时按需检索必要token来缓解这些问题。然而，现有方法仍存在精度损失不理想和额外检索开销的问题。针对这些局限性，本文提出了一种新型基于检索的KV缓存缩减方法A2ATS。该方法通过对关键状态（key states）应用矢量量化技术，精确近似注意力分数，从而实现高效精准的Top-K token检索。首先，我们提出了窗口化旋转位置编码（Windowed Rotary Position Embedding），在位置编码后解耦查询与关键状态的位置依赖性；其次，提出了直接优化注意力分数近似目标的查询感知矢量量化（query-aware vector quantization）方法；最后，设计了面向KV缓存卸载的异构推理架构，支持更大批处理量的长上下文服务。实验结果表明，在同等或更低开销条件下，A2ATS能实现更低的性能损失，从而将长上下文服务吞吐量最高提升2.7倍。