Accepted in EMNLP 24!

27 Sep 2024

恭喜俊辉的论文《CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification》被自然语言处理领域会议EMNLP 2024录用!

论文摘要如下: 在边缘设备上部署大型语言模型(LLM)面临巨大挑战,这主要源于其高昂的计算开销和内存需求。激活稀疏化技术通过减少推理过程中被激活的神经元数量,能够有效缓解这些资源压力。现有方法通常基于激活张量的统计特征,采用基于阈值的稀疏化策略,但这类方法未能建模激活稀疏化对模型性能的影响,导致性能下降程度未达最优。

针对这些局限性,本文重新构建了激活稀疏化问题,以显式捕捉激活稀疏度与模型性能之间的关系。进而提出通用激活稀疏化方法CHESS(通道级阈值筛选与选择性稀疏化)。该方法首先在前馈网络(FFN)层中为每个激活通道分配独立阈值实现通道级阈值筛选,随后在注意力模块中对特定层级实施基于阈值的选择性稀疏化。最后我们详细阐述了稀疏核函数的实现方案以加速LLM推理。

实验结果表明:在八个下游任务中,所提出的CHESS方法在实现了更低的性能损失的同时,通过减少激活参数量将LLM推理速度提升最高达1.27倍。