人工智能领域的迅猛进步已将大型语言模型(如LLaMA3)融入日常,其卓越性能让人赞叹。不过,如何在资源有限环境下维持这些模型的表现,尤其是经过低比特量化处理后的LLaMA3效能,成为了一个核心议题。
近期,来自香港大学、北京航空航天大学及苏黎世联邦理工学院的学者携手展开了一项研究,深入分析LLaMA3在低比特量化情况下的性能。实验覆盖了10种量化与微调策略,考察了模型在1至8比特条件及多种评估场景中的表现。
研究揭示,尽管LLaMA3基础性能强劲,低比特量化却导致了显著性能下滑,尤其在极低比特率下更为明显,这对资源受限环境下的应用构成了挑战,并显露了优化低比特量化技术的迫切需求。
其中,GPTQ量化法在2-3比特时表现不佳,而AWQ和QuIP在3比特条件下能较好保持模型性能。针对超低比特情况,PB-LLM和DB-LLM等定制化方案在2比特量化时展现出了更高的精确度。
此外,探索量化激活对LLaMA3的效应时,SmoothQuant技术在8比特及6比特配置下能有效维持模型准确度,但降至4比特则性能骤降。
至于LoRA微调结合量化的效果,结果显示它非但未能弥补量化引入的误差,反而加剧了性能衰退,与LLaMA前代模型在4比特低秩微调中超越原始版本的表现大相径庭。
值得注意的是,虽然4比特LoRA-FT量化版的LLaMA3-8B相比LLaMA1-7B和LLaMA2-7B在多种量化方案中展现出优势,但这也提示我们需为LLaMA3探索新的LoRA-FT量化策略。
该研究全面剖析了LLaMA3在低比特量化下的性能图谱,为未来的优化路径提供了指引。通过克服低比特量化带来的性能瓶颈,我们有望在减少计算开销的同时,推动AI技术实现更强大的功能,迈向新的发展阶段。