Attending 61# DAC
Published:
在大语言模型(LLMs)中,会出现极少数具有异常高幅度的激活值,这些异常值对模型的准确性具有关键影响,为大语言模型低位宽量化推理带来了挑战。研究者们提出了多种混合精度量化技术来处理这些激活异常值,这些方法采用值级别的异常值粒度,面临在模型准确性与硬件效率之间实现平衡的挑战。针对这一难题,我们提出了一种针对LLMs异常值感知的软硬件协同量化设计策略(Oltron)。Oltron利用了一个关键观察结果:LLMs的激活异常值并非完全随机分布,而是倾向于在特定通道中聚集。通过在较粗粒度上处理异常值,Oltron可以在保持模型准确性的同时,实现低量化位宽和高效硬件设计。针对层内/层间异常值通道的不规则分布问题,Oltron提出的软硬件协同量化方案能够自适应不同的异常值比例,该方案包括:自适应量化算法,能够识别不同层的最优异常值比率;基于分块的异常值均衡编码(TOBE)及相应的数据流优化器,可合理安排混合精度张量的复杂计算和内存访问;可重配置硬件架构,可在不同异常值比例下实现高效推理。Oltron在性能上超越了最先进的异常值感知加速器,实现了1.9倍的性能提升和1.6倍的能效提升,同时实现了较高的模型准确性。
Oltron: Algorithm-Hardware Co-design for Outlier-Aware Quantization of LLMs with Inter-/Intra-Layer Adaptation【PDF】