互易-服务器日志分析-破解ChatGPT惊人耗电!DeepMind新算法训练提效13倍,能耗暴降10倍

【新智元导读】ChatGPT能耗惊人,该怎么解?谷歌DeepMind新算法JEST问世,让LLM练习的迭代次数下降13倍,核算量削减10倍,或将重塑AI未来。
ChatGPT早已成为世界耗能大户:一天用掉超50万度电,相当于1.7万个美国家庭的用电量!
但是,大模型对动力的吞噬,远不仅如此。
国际动力署(IEA)猜测,从2022年到2026年,数据中心的用电量将翻一番。
机器人 人工智能 AI
图源备注:图片由AI生成,图片授权服务商Midjourney
随着AI核算需求的膨胀,还需求用水来冷却核算体系。研讨称,微软用水量从2021年到22年飙升了34%,ChatGPT每处理5-50个提示就会耗费挨近半升水。
针对这种现状,我们有更好的处理战略吗?
互易,最近,谷歌DeepMind研讨团队提出了一种加快AI练习的新办法——多模态比照学习与联合示例挑选(JEST),大大削减了所需的核算资源和时间。
JEST以13倍更少的迭代次数,以及10倍更少的核算量,超越了最早进的模型!
图片
论文地址:https://arxiv.org/pdf/2406.17711
预练习的参阅模型,现已学习了什么样的数据是有「优质的」或「有用的」。然后通过模型,来引导数据挑选那些精心挑选过的小型数据集。
这一发现提醒了,数据挑选水平能够作为评判Scaling Law的一个新维度。
网友激动表示,「我没想到这么快就会发生。模型能够自主挑选练习数据的才能是巨大的,因为它使练习变得显着更容易,你不再需求猜测什么是高质量的练习数据,你有一个能够『了解』什么样的数据对自身学习最有价值的模型」。
图片
前谷歌、苹果软件工程师称誉道,这项研讨十分令人印象深刻。
图片
从「超级batch」中挑选数据
服务器日志分析,无论是言语、视觉仍是多模态模型,数据质量是预练习功能的重要驱动要素。比方Phi-3、Gemma2等模型的成功让我们看到了,更少、更高质量的数据有或许完成更强大的功能。
要挑选出高质量的数据,数据管道的建立就成为重要的工作。现有的办法大体能够分为两种:1)手动办理2)根据模型的数据办理,用正在练习模型的特征挑选高质量数据。
图片
前者本钱昂扬且难以扩展,后者则有望为多模态LLM完成Scaling Law。
但是,现有办法疏忽了一个现实。
如果仅在单个数据点的层面进行挑选,就没有考虑到数据集以及batch的整体组成。究竟,练习数据是以batch为单位,数据点之间的依靠性不可忽视。
许多核算机视觉的研讨都曾标明,hard negatives(表达空间中附近但标签不同的样本)比较可被平凡解的数据簇,能提供更有用的学习信号。
那么怎么让模型以batch为单位挑选数据呢?
论文提出的JEST算法正是要处理这个问题,原理很好了解:便是直接从「超级batch」中挑选出「子batch」。
技能介绍
用数学言语来描绘这个问题,便是从巨细为B的「超级batch」𝒟中提取出与学习最相关的子batch ℬ={𝒙𝑖,𝑖∈[1,…,𝑏]}⊂𝒟,过滤比率能够写作𝑓=1−𝑏/𝐵。
之前的优先采样(prioritized sampling)会运用根据模型的评分函数对每个数据点打分,再按份额采样。JEST则直接对整个子batch评分,再依照batch等级的分数采样。
一种最直观的启发式办法便是在现有模型参数 𝜃 : 𝑠hard⁢(ℬ|𝜃)=ℓ⁢(ℬ|𝜃) 中,直接挑选丢失值最高的batch,这种办法可被称之为「硬学习」(hard learner)。
这种办法具有丢弃琐碎数据的抱负属性,已被证明适用于小型、洁净的数据集;但是关于较大、较少办理的数据集往往弊大于利,因为它仍旧会采样到噪声数据。
另一种办法常用于多模态,运用具有参数 𝜃∗:𝑠^easy⁢(ℬ|𝜃∗)=−ℓ⁢(ℬ|𝜃∗) 的参阅模型为预练习模型采样数据。但作者仍旧否定了这个计划,因为它无法直接反映模型当时的状况,或许过度依靠参阅模型的挑选,而且不易于扩展。
最终,论文挑选学习ICML2022年的一篇论文中提到的办法,将上述两方面的评分结合起来:𝑠^learn⁢(ℬ|𝜃,𝜃∗)=𝑠hard⁢(ℬ|𝜃)+𝑠^easy⁢(ℬ|𝜃∗)=ℓ⁢(ℬ|𝜃)−ℓ⁢(ℬ|𝜃∗),并将这种启发式办法称为「可学习性评分」(learnability score)。
图片
其间,batch上的丢失值ℓ⁢(ℬ|𝜃)是各数据点之和,运用sigmoid比照丢失函数核算(sigmoid-contrastive loss),因为比较softmax比照丢失而言,它的扩展性更强。
因为batch上的比照丢失能够分解为每个样本的条件丢失之和,因而可学习性评分可被分解为单个样本可学习性评分𝑠⁢(𝒙|𝜃,𝜃∗,ℬ)之和,写作:
图片
图片
运用的顺序采样办规律受到了block Gibbs采样的启发。在第n次迭代、对第B_n个batch进行采样时,根据如下概率公式对块{X_k}进行无替换采样:
图片
将X_k块添加到B_n中来更新当时采样的batch,直至迭代数n=N时停止。算法的整体流程如下图所示:
图片
试验中发现,运用迭代数N=16且每次迭代时独立采样b/N=2048个样本时,就足以恢复出学习性十分高的batch。
可学习性评分中涉及到运用参阅模型为数据点打分,之前的办法惯常运用额定的小型模型,但这会添加每次迭代的核算本钱,下降整体FLOP功率增益。
因而论文运用了在线模型近似的办法以及功率较高的FlexiViT架构,只运用下降分辨率的32×32的patch来评价「超级batch」,与全分辨率、patch巨细为16×16的办法比较削减了72%的FLOP,以及67%的挂钟时间(wall-clock time)。
此外,论文还提出了进行多分辨率练习的技巧。将每个batch随机分红两半,运用不同分辨率编码后再拼接起来,进步了评分进程和练习的功率。
下图详细描绘了全分辨率JEST和多分辨率Flexi-JEST办法的伪代码完成。
图片
一切JEST试验都在WebLI数据集上运转,包括通过宽松过滤的十亿规划的英语图画-文本对,参阅模型的练习则运用其间通过高质量过滤100M巨细的子集(被称为WebLI-curated)。
在WebLI的根底上,作者还额定从网络上抓取了6亿个文本-图画对并通过相同强度的过滤,组成WebLI-curated++数据集练习参阅模型,拓展出JEST++/FlexiJEST++办法,来探究对数据办理的扩展。
论文所陈述的均匀功能包括4个多模态规范基准:ImageNet0-Shot和10-Shot 分类以及COCO图画到文本和文本到图画的top-1检索。
试验成果
图1中能够看到,运用JEST或FlexiJEST办法的最显着优势便是功率进步。
左图中,比较原有的SigLIP基线模型,JEST++能够在练习数据量削减13.1×的情况下到达相同精确率。即使考虑到额定引入的打分本钱,也有近10×的FLOP功率进步(中图)。
右图展现了JEST++/FlexiJEST++(绿色)与先前办法(灰色)的比较,比较CLIP、EVA-CLIP经典模型完成了核算本钱和功能的两层进步。
图片
左图和中图的均匀精确率由8个下流使命得出,右图功能由ImageNet和COCO基准测验得出
发生可学习batch

研讨人员首先评价了JEST在挑选可学习batch方面的作用。
为了直观地了解这一办法,作者们先将可学习性矩阵进行可视化,即学习模型和参阅模型之间,对batch中一切示例对的丢失差异。
JEST便是依照示例子矩阵的可学习性总和份额进行采样。
因为矩阵显着非对角关系(图2,左),独立挑选显然是次优的。
通过少量迭代(对应于用N=16个块填充batch),作者发现子batch的可学习性快速添加,到达了需求数千次迭代的暴力吉布斯采样(Gibbs sampling )所提取batch的可学习性(图2,中)。
关于0.5、0.8和0.9的过滤份额,他们从巨细分别为65,536、163,840和327,680的超级batch中挑选32,768个示例的子batch。
在图2右侧,研讨者还发现子batch的可学习性随着更大的过滤份额而添加。
总归,JEST算法是在练习进程中挑选高度可学习batch的有用,且高效的办法。
图片
加快多模态学习

接下来,研讨人员运用JEST算法挑选的可学习batch,查验练习模型的作用。
一切试验都运用在WebLI-curated上练习的参阅模型,这是一个ViT-B/16和Bert-B图画-文本双编码器,30亿练习样本,选用sigmoid比照丢失函数。
图3(左)显现了在练习进程中多个下流使命(ImageNet0-Shot/10-Shot精确率和COCO图画到文本/文本到图画检索)的均匀功能。
成果还发现,JEST显着加快了学习进程。
在运用50%、80%和90%的过滤份额时,分别只需20亿、10亿和6.7亿练习样本就到达了30亿均匀基准的最终功能。
在更大的过滤份额下,坐着观察到类似于更大batch size时的练习不稳定性,需求修正Adam优化器(β2=0.95)以稳定练习,这标明JEST的数据挑选能够被视为添加了有用batch size。
图片
在最终功能方面,当过滤90%的数据时,JEST也带来了高达6%的显着进步(图3,中心,蓝色曲线)。
值得注意的是,这种scaling行为这种功能进步在独立样本挑选办法中,并没有观察到。(图3,中心,橙色曲线)。
最终,研讨者还评价JEST是否也改善了,除可学习性之外的其他优先规范。
图3右侧显现了运用easy-reference优先挑选的模型在不同过滤份额下的功能。
与根据可学习性的优先挑选一致,JEST仍优于独立样本挑选,特别是在高过滤份额下(在这种情况下,独立样本挑选导致功能下降)。
优先挑选具有最高丢失的数据发生了较小的收益,并且随着过滤更多数据而更快地退化(图10)。
因为根据可学习性的JEST发生了最佳的scaling行为,研讨人员在后续试验中保留了这一规范。
多分辨率练习和在线batch挑选之间的协同效应

随着数据batch中被过滤的份额添加,根据可学习性评分的JEST变得更加高效。
但是,评分的本钱会带来显着的进步:过滤超级batch80%的数据会导致每次迭代的浮点运算量是IID练习的4倍,或许在缓存参阅模型得分时是2.3倍。
尽管JEST在练习迭代次数方面(以下简称「练习功率」)显着进步了功率,但额定的评分浮点运算下降了其相关于IID基准的核算功率(图1,左vs右)。
因而,作者还研讨了一种核算功率更高的变体,称为Flexi-JEST,它运用多分辨率练习和低分辨率评分,将总开销下降到仅比基准高10%(图4,左)。
这些近似办法对功能有什么影响?
正如预期的那样,Flexi-JEST的每次迭代功能相关于JEST有所下降,但仍然比IID有显着的加快(图1,左;图4,中)。
但是,考虑到总浮点运算量的削减,每次迭代功能的下降是十分有利的:最好的Flexi-JEST模型与40B Siglip运转发生相同的均匀功能,但浮点运算量削减了9.9倍,比全分辨率JEST少2倍(图1,右;图4,中)。
这些试验标明晰多分辨率练习和联合示例挑选之间的协同效应,前者为加快后者提供了高效和精确的评分才能。
试验成果,还指出了数据策划战略的帕累托前沿(pareto front)。
如果以核算为代价来最大化练习速度或练习功率,全分辨率JEST办法相关于可比的IID练习运转,能够发生高达13倍的加快。
图片
完成强大数据质量引导

可学习性评分的核心是,一个在人类挑选的小型、精心挑选的数据集上,练习的参阅模型。
JEST的功能怎么随不同的挑选战略(在质量和数量之间权衡)而改变?
此外,JEST练习的改善是否与参阅模型的功能相关,仍是这些指标是别离的?
了解质量与数量的权衡
研讨人员探究了三种规划的数据挑选,每种都是原始WebLI数据集的一个子集:
– 弱挑选(十亿级规划):运用图画-文本对齐(ITA)过滤器。
– 中度挑选(3亿级规划):运用ITA过滤器或文本质量(TQ)过滤器。
– 强挑选(1亿级规划):结合运用TQ、ITA和额定的图画质量(aesthetic)过滤器。
在整个进程中,作者将这个强挑选子集称为「WebLI-curated」。
然后,他们在这四个WebLI子集上,各练习10个epoch的规范SigLIP编码器,并将它们用作在全WebLI数据集上进行JEST练习的参阅模型。
在不同的数据挑选办法中,参阅模型的功能和JEST的功能似乎是解耦的(甚至或许是反相关的;图5,左)。
尽管添加挑选(和削减数据集巨细)会发生较弱的模型,但当它们被用作JEST预练习的参阅模型时,却发生了相反的作用:
运用强挑选参阅模型的JEST获得了2.7%的改善,中度挑选获得了1.5%的改善,弱挑选获得了0.3%的改善。
图片
扩展数据挑选
假设参阅模型功能与JEST功能之间的遍及解耦,或许仅仅是由数据挑选所施加的数据集巨细限制形成的。
为了了解这种作用,研讨人员在WebLI-curated上练习了5个参阅模型,一起改变所见的总样本数(从2.5亿到30亿)。
在这种情况下,图5(右)显现了改善的参阅模型与更好的JEST预练习之间存在着显着的相关性。
这标明「解耦」现象首要能够归因于参阅模型因挑选后数据集巨细削减而导致的饱和。
此外,研讨人员还注意到,当数据集到达饱和时,图5(右)中的相关性开始崩解,即在10个epoch或许看到10亿个样本之后。
这些成果标明,JEST或许会从进一步扩展参阅数据集的数据挑选中获益。
鉴于运用WebLI-curated++对数据进行扩展收拾能显着进步参阅模型的功能,作者提出了是否有必要在原始WebLI数据集上进行预练习的问题。
但是,在评价参阅模型在不同数据集上的功能时,却发现:尽管它在2个下流使命上的功能优于WebLI预练习,但在其他6个使命上的功能,以及均匀功能都显着低于WebLI预练习(表5)。
图片
与现有数据比较

最终,论文运用JEST++在揭露的LAION-2B数据集上进行预练习,删除了其间不安全的图画-文本对,但没有进行其他的预先过滤。
这个数据规划比较的SOTA办法DBP削减了4×,但JEST++仍旧远远超过了一切之前的离线数据办理办法。
图片
简化数据办理

之前提到过,用于预练习的WebLI-curated是原始数据集WebLI过滤后得到的,以求挑选出高质量的图画-文本对齐的数据。
如表3所示,这种离线数据办理流程对IID(独立同散布)练习办法的功能至关重要,但JEST++则体现出了对预过滤流程的鲁棒性。即使没有过滤,JEST++的功能也没有出现显着下滑,下降了模型对根底数据集的要求。
图片
定论和局限性
整体来说,JEST办法展现出了「数据质量引导」(data quality bootstrapping)办法的巨大潜力,即运用小规划精选数据集来辅导对更大的、未经办理的数据集的学习。
最近的研讨标明,在下流使命未知时,静态数据集的过滤会限制模型功能。这篇论文的成果则标明,比较单独挑选样本的办法,在线构建batch能进步预练习的功率。
无论是运用JEST参阅模型对数据集进行预评分,仍是通过可学习性评分来根据模型需求进行动态调整,都能够成为通用根底数据集的更有用率的替代计划。
论文的最终,作者也提出了该办法的局限性。尽管JEST一起完成了功能增益和练习本钱下降,但仍旧依靠于小型、精心办理的参阅数据集,它指定了未经办理的更大数据会集优先考虑的散布。
因而,未来的工作能够探究一种办法,从指定的下流使命中怎么推断出参阅数据集的组成和散布。