湖南服务器托管-中国科学院团队首篇LLM模型压缩综述:细聊剪枝、知识蒸馏、量化技术
随着 LLM 的突破性作业逐步放缓,关于怎么让更多人运用 LLM 成为时下抢手的研讨方向,模型紧缩或许是 LLM 未来的一个出路。此前 OpenAI 首席科学家 Ilya Sutskever 表明能够经过紧缩的视角来看待无监督学习。本文初次总结了关于 LLM 的四种模型紧缩办法,并提出了未来进一步研讨的或许方向,引人深思。
近来,大型语言模型(LLM)在各种使命中表现出色。然而,即使有卓越的使命处理才能,LLM 却面临着巨大的应战,这些应战源于其巨大的规划和核算需求。举个例子,GPT-175B 版本具有惊人的1750亿参数,至少需要320GB(运用1024的倍数)的半精度(FP16)格局存储。此外,部署此模型进行推理还需要至少五个 A100GPU,每个 GPU 具有80GB 的内存,这样才干有用地保证运行。
为了处理这些问题,当下一种被称为模型紧缩的办法能够成为处理方案。模型紧缩能够将大型、资源密集型模型转化为合适存储在受限移动设备上的紧凑版本。此外它能够优化模型,以最小的延迟更快地履行,或完成这些目标之间的平衡。
除了技能方面之外,LLM 还引发了关于环境和道德问题的评论。这些模型给开展中国家的工程师和研讨人员带来了重大应战,在这些国家,有限资源或许会成为获得模型所需基本硬件的阻力。LLM 的大量能源消耗会加剧碳排放,人工智能研讨与可继续开展也是非常重要的一个问题。处理这些应战的一个或许的处理方案是使用模型紧缩技能,在不明显影响功能的情况下具有削减碳排放的潜力。经过它,人类能够处理环境问题,增强人工智能的可访问性,并促进 LLM 部署中的包容性。
本文中,来自中国科学院信息工程研讨所、人大高瓴人工智能学院的研讨者论述了最近在专门为 LLM 量身定制的模型紧缩技能范畴获得的开展。本文对办法、目标和基准进行翔实的查询,并进行了分类。
图片
论文地址:https://arxiv.org/pdf/2308.07633.pdf
如下图1所示,本文提出的分类法为了解 LLM 的模型紧缩办法提供了一个完好的结构化框架。这一探究包含对已有成熟技能的透彻分析,包含但不限于剪枝、常识蒸馏、量化和低秩因子分化。此外,本文揭示了当时的应战,并展望了这一开展范畴未来潜在的研讨轨道。
研讨者还倡导社区协作,为 LLM 树立一个具有生态意识、一应俱全、可继续的未来铺平道路。值得注意的是,本文是专门针对 LLM 的模型紧缩范畴的首篇综述。
图片
办法论
剪枝
剪枝是一种强大的技能,经过删去不必要的或冗余组件来削减模型的大小或杂乱性。众所周知,有许多冗余参数对模型功能几乎没有影响,因此在直接剪掉这些冗余参数后,模型功能不会收到太多影响。一同,剪枝能够在模型存储、内存功率和核算功率等方面愈加友好。
剪枝能够分为非结构化剪枝和结构化剪枝,二者的主要区别在于剪枝目标和由此产生的网络结构。结构化剪枝剪掉依据特定规矩的衔接或分层结构,一同保存整体网络结构。非结构化剪枝针对单个参数,会导致不规矩的稀少结构。最近的研讨作业致力于将 LLM 与剪枝技能相结合,旨在处理与 LLM 相关的大规划和核算成本。
常识蒸馏
常识蒸馏(KD)是一种实用的机器学习技能,旨在提高模型功能和泛化才能。该技能将常识从被称为教师模型的杂乱模型转移到被称为学生模型的更简略模型。KD 背后的中心思想是从教师模型的全面常识中转化出更精简、更有用的代表。本文概述了运用 LLM 作为教师模型的蒸馏办法。
研讨者依据这些办法是否侧重于将 LLM 的呈现才能(EA)蒸馏到小模型(SLM)进行分类。因此,这些办法被分为两类:规范 KD 和依据 EA 的 KD。关于视觉表明使命,吓图2提供了 LLM 常识蒸馏的简要分类。
图片
下图3为依据 EA 的蒸馏概览。
图片
量化
在模型紧缩范畴,量化已成为一种被广泛承受的技能,以缓解深度学习模型的存储和核算开支。虽然传统上运用浮点数表明权重,但量化将它们转化为整数或其他离散形式。这种转化大大降低了存储需求和核算杂乱性。虽然会呈现一些固有的精度丢失,但精巧的量化技能能够在精度下降最小的情况下完成实质性模型紧缩。
量化能够分为三种主要办法:量化感知练习(QAT)、量化感知微调(QAF)以及练习后量化(PTQ)。这些办法的主要区别在于何时使用量化来紧缩模型。QAT 在模型的练习过程中选用量化,QAF 在预练习模型的微调阶段使用量化,PTQ 在模型完成练习后对其进行量化。
图片
(湖南服务器托管)最近的研讨致力于使用量化来紧缩 LLM,产生了惊人的结果。这些作业主要能够分为上述三种办法:量化感知练习、量化感知微调和练习后量化。此外,下表1是使用于 LLM 的量化办法的汇总。该表依据 LLM 权重中的位数(精度)将这些作业分为8位量化和低位量化。
低秩分化
低秩分化是一种模型紧缩技能,旨在经过将给定的权重矩阵分化为两个或更多具有明显较低维度的较小矩阵来近似给定的矩阵。低秩分化背后的中心思想是将大权重矩阵 W 分化为两个矩阵 U 和 V,使得 W ≈ UV,其中 U 是 m×k 矩阵,V 是 k×n 矩阵,k 比 m 和 n 小得多。U 和 V 的乘积近似于原始权重矩阵,参数数量和核算开支大幅削减。
在 LLM 研讨范畴,低秩分化被广泛选用,以有用地微调 LLM,例如 LORA 及其变体。本文专注于这些运用低秩分化来紧缩 LLM 的作业。在 LLM 的模型紧缩范畴,研讨者经常将多种技能与低秩分化相结合,包含剪枝、量化等,例如 LoRAPrune 和 ZeroQuantFP,在坚持功能的一同完成更有用的紧缩。
随着该范畴研讨的继续,在使用低秩分化来紧缩 LLM 方面或许会有进一步开展,但仍然需要进行探究和试验,以充分使用 LLM 的潜力。
衡量和基准
衡量
LLM 的推理功率能够运用各种目标来衡量。这些目标考虑了功能的不同方面,一般与全面评价 LLM 的准确性和零样本学习才能一同呈现。
这些目标包含如下:
参数规划
模型规划
紧缩比
推理时刻
浮点运算(FLOP)
基准
基准旨在与未紧缩的 LLM 比较,衡量紧缩 LLM 的有用性、功率和准确性。这些基准一般由不同的使命和数据集组成,涵盖了一系列自然语言处理应战。常用基准包含但不限于 HULK 和 ELUE。
最终研讨者认为未来应在以下几个方面进一步探究,包含
专业的基准测验
功能规划的权衡
动态 LLM 紧缩
可解释性