港大、北航和苏黎世联邦理工学院的研究团队近期提出了一项创新的训练后量化(PTQ)技术——BiLLM,该技术有效地解决了大型语言模型(LLM)的能源需求问题。BiLLM通过使用1.1bit来近似大多数网络参数,2bit表示关键权重,使得模型在保持高效性能的同时,大幅度减小了内存占用。实验结果显示,BiLLM在OPT和Llama系列模型上的表现甚至超越了全精度模型,且在单个GPU上可快速完成二值化。
针对LLM权重分布的特性,研究者发现权重存在极端的长尾分布和不均匀的钟形分布,这意味着大部分权重是冗余的,而少量权重至关重要。BiLLM采用二阶残差逼近方法处理显著权重,并使用最优钟形分组策略处理非显著权重,有效地减少了量化误差。此外,BiLLM在接近1位的平均比特率下保证了LLM的性能,超越了其他2-bit方法,并且在Llama-13B和Vicuna-7B上展现了优秀的对话效果。
本文来源: 量子位【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...