3322 org动态域名-Mistral、AI2 发布新的开源 LLMs:更小,更便宜 2025-01-31 11:12 · 稿源:站长之家
站长之家(ChinaZ.com) 1月31日消息:Mistral AI 和 Allen 人工智能研讨所今日发布了新的大型语言模型(LLM),它们声称这些模型在各自类别中属于最早进的。
mistral
Mistral 的模型被称为 Mistral Small 3,而 Allen 人工智能研讨所(一般简称 Ai2)发布的则是 Tülu 3 405B。这两款模型都能够在开源许可下运用。
Mistral Small 3 包括 240 亿个参数,远少于市场上最早进的 LLM,这使得它在启用量化后满足小,能够在某些 MacBook 上运转。量化是一种调整模型的技能,旨在在降低硬件资源需求的一起,减少一些输出质量的损失。
在一次内部评估中,Mistral 将 Mistral Small 3 与 Meta Platforms Inc. 发布的开源 LLM Llama 3.3 70B Instruct 进行了对比,后者的参数量是前者的三倍多。Mistral Small 3 供给了与 Llama 3.3 70B 相似的输出质量,但响应速度显著更快。在另一项测验中,这款新模型比 OpenAI 的 GPT-4o mini 供给了更高的输出质量和更低的推迟。
开发人员一般经过创立一个根底模型来构建 LLM,然后运用多种不同的练习方法来细化其输出质量。在构建 Mistral Small 3 时,该公司开发了根底模型,但跳过了后续的细化过程。这使得用户能够根据项目需求自行微调 Mistral Small 3。
该公司预计开发人员将会把这款 LLM 应用于各种使命,特别是在需求低推迟执行外部应用程序使命的 AI 自动化东西中。该公司表示,其一些客户还在机器人技能、金融服务和制造业等行业特定用例中运用 Mistral Small 3。
「Mistral Small 3 是一款预练习和指令式模型,专为应对『80%』的生成式 AI 使命而规划——这些使命需求强大的语言才能和指令跟从功能,并且推迟非常低,」Mistral 的研讨人员在博客中写道。
今日 Mistral Small 3 的发布恰逢 Ai2(一个非营利的 AI 研讨机构)发布新的 LLM。Tülu 3 405B 是 Meta 上一年 6 月发布的开源 Llama 3.1 405B 模型的定制版。在 Ai2 的测验中,Tülu 3 405B 在多个基准测验中超过了原始的 Llama 模型。
该研讨小组运用一种它们在 11 月首次详细阐明的开发流程创立了这个 LLM。该工作流结合了多种 LLM 练习方法,其中包括 Ai2 自家发明的一种方法。
该工作流的榜首步是监督微调。这是一种练习方法,经过向 LLM 供给示例提示和相应的答案,协助它学习如何响应用户查询。接下来,Ai2 运用了另一种名为 DPO 的练习技能,将 Tülu 3 405B 的输出与一组用户偏好进行对齐。
Ai2 还运用一种名为 RLVR 的内部开发的练习方法进一步优化了模型的才能。RLVR 是强化学习的一种变体,强化学习是广泛应用的 AI 练习技能。Ai2 表示,RLVR 能够使 AI 模型在处理数学问题等使命中体现得更好。
Tülu 3 405B 代表了「完全敞开的后练习方法首次应用于最大敞开权重模型」,Ai2 的研讨人员在博客中写道。「经过这一发布,咱们展现了咱们在 405B 参数规模上应用后练习方法的可扩展性和有效性。」