21 Aug 2025
恭喜胡春的论文《MLWQ: Efficient Small Language Model Deployment via Multi-Level Weight Quantization》被自然语言处理领域会议EMNLP 2025录用!
论文摘要如下: 小规模语言模型(SLM)因其较低的计算和内存需求,同时保持强劲性能而日益受到关注。然而,在资源受限设备上高效部署SLM仍存在重大挑战。训练后量化(PTQ)作为广泛采用的压缩技术,可降低内存占用和推理计算量,但现有方法存在比特分配效率低下和细粒度量化调整不足的问题,导致模型性能欠佳——尤其在低比特位宽条件下更为明显。针对这些挑战,我们提出多层级权重量化(MLWQ)方法,以促进SLM的高效部署。该方法通过联合优化层间损失与层内显著性,实现更高效的比特位宽分配。此外,我们提出层内显著性的细粒度分区策略,支持对每个分组内量化参数进行精准调节。实验结果表明,MLWQ相比现有最优方法实现了更卓越的性能,在保持模型精度的同时为SLM的高效部署提供了有效解决方案。