Accepted in EMNLP 24!

27 Sep 2024

恭喜he junhui的论文《CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification》被自然语言处理领域会议EMNLP 2024录用！

论文摘要如下：在边缘设备上部署大型语言模型（LLM）面临巨大挑战，这主要源于其高昂的计算开销和内存需求。激活稀疏化技术通过减少推理过程中被激活的神经元数量，能够有效缓解这些资源压力。现有方法通常基于激活张量的统计特征，采用基于阈值的稀疏化策略，但这类方法未能建模激活稀疏化对模型性能的影响，导致性能下降程度未达最优。

针对这些局限性，本文重新构建了激活稀疏化问题，以显式捕捉激活稀疏度与模型性能之间的关系。进而提出通用激活稀疏化方法CHESS（通道级阈值筛选与选择性稀疏化）。该方法首先在前馈网络（FFN）层中为每个激活通道分配独立阈值实现通道级阈值筛选，随后在注意力模块中对特定层级实施基于阈值的选择性稀疏化。最后我们详细阐述了稀疏核函数的实现方案以加速LLM推理。

实验结果表明：在八个下游任务中，所提出的CHESS方法在实现了更低的性能损失的同时，通过减少激活参数量将LLM推理速度提升最高达1.27倍。