15 May 2025
恭喜俊辉的工作《A$^2$ATS: Retrieval-Based KV Cache Reduction via Windowed Rotary Position Embedding and Query-Aware Vector Quantization》被ACL 2025 Findings录用!
本工作提出一种新型检索式键值(KV)缓存缩减方法,旨在解决长文本大语言模型(LLMs)在高效服务时面临的缓存占用大和访问开销高的问题。