火山互联-没有大招的火山引擎,拿下70%大模型玩家

有没有在开发大模型?在学习

什么时候发布大模型?没计划

当被问起自研大模型,字节跳动副总裁杨震原口风甚严。但席卷全球的这场大模型竞逐战,没有人会自动放弃阵地。

最新线索,在上海显露端倪。

火山互联,火山引擎对外的最新技术、产品发布动作中,咱们发现:炼大模型的根底设施,不只现已在字节内部运转,还到了可以对外输出“技术秘籍”的阶段

直观的数字,更能说明情况:

抖音2022年最火特效「AI绘画」,便是在火山引擎机器学习渠道上练习而成。在练习场景下,依据Stable Diffusion的模型,练习时刻从128张A100练习25天,缩短到了15天,练习功能提高40%

在推理场景下,依据Stable Diffusion的模型,端到端推理速度是PyTorch的3.47倍,运行时对GPU显存占用量下降60%

而就在全球最大云厂商AWS宣布,参加大模型竞赛,而且定位是“中立渠道”,会接入Anthoropic、StabilityAI等模型厂商的大模型之际,量子位也得悉:

火山引擎,也在以相似途径探究大模型的落地,做法是用“机器学习渠道+算力”为大模型企业提供AI根底设施。火山引擎总裁谭待泄漏,国内几十家做大模型的企业,七成现已在火山引擎云上。

大模型企业为什么会选择火山引擎?咱们和火山引擎机器学习总监吴迪聊了聊。

大模型趋势,写在云核算的最新技术里

在AI方面,此番火山引擎重点提到了两个渠道:机器学习渠道引荐渠道

机器学习渠道

其间,机器学习渠道触及当下科技圈最热的两个话题——巨大算力的调度问题,以及AI开发的功率问题。

先来看算力调度

提到大模型年代,OpenAI首席执行官Sam Altman曾发表观点称,“新版摩尔定律很快就要到来,宇宙中的智能每18个月翻一倍”。

而这背后,模型练习开发所需求的算力规划,可想而知。

但用算力,实际上并不是一个纯堆硬件的事情。举个例子,如果机器学习结构跟底层的硬件是各自独立的一套,那在练习AI模型时,因为通讯推迟、吞吐量等问题,练习功率就无法最大化。

简略来说,便是很多算力会在这个过程中被糟蹋掉。

解决方法,是软硬一体

吴迪介绍,火山引擎的自研DPU,将算力层和渠道层一致起来进行了全体优化。比如,将通讯优化的算法直接写到网卡硬件中,以下降推迟、削减拥塞。

测验数据显示,火山引擎的通讯结构BytePS,在模型规划越大时,收益会越高。

image.png

而在AI开发功率方面,火山引擎推出了Lego算子优化

具体而言,这一结构可以依据模型子图的结构,选用火山引擎自研高功能算子,完结更高的加速比。

前文提到的抖音特效练习功率的提高,就得益于此:

在推理场景下,运用Lego算子优化,可以将依据Stable Diffusion模型的端到端推理速度提高至66.14it/s,是PyTorch推理速度的3.47倍,运行时GPU显存占用量下降60%。

在练习场景下,在128张A100上跑15天,模型即可练习完结,比当时最好的开源版本快40%。

image.png

目前,火山引擎这一套机器学习渠道,现已部署到了MiniMax的文本、视觉、声音三个模态大模型练习和推理场景中。

MiniMax联合创始人杨斌说,依托火山引擎机器学习渠道,MiniMax研发了超大规划的大模型练习渠道,高效支撑着三个模态大模型每天千卡以上的常态化安稳练习。在并行练习上完结了99.9%以上的可用性。除了练习以外,MiniMax也同步自研了超大规划的推理渠道,目前具有近万卡级别的GPU算力池,安稳支撑着每天上亿次的大模型推理调用。

有稳健的大模型根底设施,MiniMax从零开始自主完整地跑通了大模型与用户交互的迭代闭环,完结从月至周级别的大模型迭代速度,和指数级的用户交互增加。MiniMax和火山引擎一同为大模型练习搭建了高功能核算集群,一同致力于提高大模型练习的安稳性,确保了千卡练习的使命安稳运行数周以上。

从今年开始,MiniMax又和火山引擎在网络和存储上进行了更深化的优化协作,完结更低的网络推迟,将带宽利用率提高了10%以上。

吴迪坦言,“软硬一体、通讯优化、算子优化都不是新概念,火山引擎机器学习渠道也没有特别牛、特别超前的大招。咱们靠的便是务实严谨地不断把细节做扎实,把重要技术锻炼到位,这样才干赢得客户的信赖。”

引荐渠道

机器学习渠道之外,这次在自家看家本领——引荐体系上,火山引擎对外拿出了引荐体系全套解决方案:从物料办理,到召回排序,再到作用分析、A/B测验和模型算法,都可以开箱即用

而作为产业界近年来落地最为成功的AI运用之一,在引荐领域,深度学习模型越来越大、越做越深的趋势,也早已闪现其间。

吴迪介绍,因为引荐是一个高度定制化的场景,每个人的爱好、画像都有单独的embedding,因而大规划稀少模型很重要。

一起,因为实在国际在时刻改变,因而背后又存在一重实时练习的应战。

这都对传统的深度学习结构提出了很大的应战。

为此,火山引擎不只将以上工程完结进行封装,推出了依据TensorFlow的机器学习训推一体结构Monolith,还拿出了针对智能引荐的高速GPU练习和推理引擎——Monolith Pro

值得重视的是,Monolith Pro覆盖的场景包括:

  • <p “=””>针对要害场景的超大模型,运用高密度GPU进行超高速练习;
  • <p “=””>覆盖更多场景的模型,混合运用CPU+GPU高速练习。

吴迪进一步解说说,引荐模型需求做大做深,才干对很多事物之间的相关有更好的了解——这一点,如今现已在GPT引发的一系列现象上得到充沛验证。

因而在现在这个时刻点,对于任何正在开展引荐广告事务的公司而言,高价值的数据是一方面,另一方面,找到练习更强、更大、更实时模型的方法,对整个体系进行智能化升级,现已到了一个要害期。

image.png

所以,Monolith Pro又具体能完结怎样的作用?吴迪泄漏,依据Monolith Pro,抖音内部的某重要广告场景,本来一次广告练习需求15个月样本,练习时刻为60小时,现在只需求5小时就能完结。

<p “=””>工程师可以做到上午启动练习,下午就能开A/B测验了(笑)。

大模型改写云核算规矩

由ChatGPT而起,在海内外一波波大模型的发布中被推至高潮,一场新的技术变革已然势不可挡。

云核算,作为一个早已深深与AI相关的事务,站立桥头,也最早面临着规矩被从头改写的境况。

跟着大模型能解决越来越多下游使命,如何用大模型,又成为了新的问题:无论是练习还是推理,大模型都需求很强的根底设施支撑。

云核算成为了最便捷的上车途径。一起,云厂商们也势必要面向大模型,重塑自身云产品的相貌。

吴迪以为,作为一项技术,未来大模型会是百家争鸣的局势。丰厚的需求会催生出若干成功的模型提供商,深化满意千行百业的事务需求。

与此一起,大模型的运用也面临若干根底问题:

根底大模型或许还需求用更多高质量数据,做进一步的增量学习和finetune,才干真正在产业中落地运用。整个流程需求更为敏捷和易用。

大模型将成为大数据年代的“中央处理器”,它可以操控插件、接口,以及更丰厚的下游模型。大模型需求这些“手”和“脚”,才干进入咱们生活的方方面面。

跟着大模型运用的增多,数据安全和信赖将成为产业重视的焦点。

推理功率。大模型的练习本钱昂扬,但长期来看,全社会投入在大模型推理上的开支将逐步超越练习本钱。在微观上,能以更低单位本钱提供大模型相关服务的公司,将取得竞争优势。

但可以肯定的是,大模型改造各行各业的浪潮已至。

有人正面迎战,有人从更底层的问题出发,测验破解新的问题和应战。

共同点是,大模型的潮头来得迅猛激烈,但在第一线迎接风暴的,历来不是没有准备之人。

现在,到了检验真正AI才能和积累的时刻。至少在与大模型相伴相生的云核算领域,精彩才刚刚开幕。