3322 org动态域名-Mistral、AI2 发布新的开源 LLMs：更小，更便宜 2025-01-31 11:12 · 稿源：站长之家

2025/01/31百度收录域名

站长之家(ChinaZ.com) 1月31日消息：Mistral AI 和 Allen 人工智能研讨所今日发布了新的大型语言模型（LLM），它们声称这些模型在各自类别中属于最早进的。
mistral
Mistral 的模型被称为 Mistral Small 3，而 Allen 人工智能研讨所（一般简称 Ai2）发布的则是 Tülu 3 405B。这两款模型都能够在开源许可下运用。
Mistral Small 3 包括 240 亿个参数，远少于市场上最早进的 LLM，这使得它在启用量化后满足小，能够在某些 MacBook 上运转。量化是一种调整模型的技能，旨在在降低硬件资源需求的一起，减少一些输出质量的损失。
在一次内部评估中，Mistral 将 Mistral Small 3 与 Meta Platforms Inc. 发布的开源 LLM Llama 3.3 70B Instruct 进行了对比，后者的参数量是前者的三倍多。Mistral Small 3 供给了与 Llama 3.3 70B 相似的输出质量，但响应速度显著更快。在另一项测验中，这款新模型比 OpenAI 的 GPT-4o mini 供给了更高的输出质量和更低的推迟。
开发人员一般经过创立一个根底模型来构建 LLM，然后运用多种不同的练习方法来细化其输出质量。在构建 Mistral Small 3 时，该公司开发了根底模型，但跳过了后续的细化过程。这使得用户能够根据项目需求自行微调 Mistral Small 3。
该公司预计开发人员将会把这款 LLM 应用于各种使命，特别是在需求低推迟执行外部应用程序使命的 AI 自动化东西中。该公司表示，其一些客户还在机器人技能、金融服务和制造业等行业特定用例中运用 Mistral Small 3。
「Mistral Small 3 是一款预练习和指令式模型，专为应对『80%』的生成式 AI 使命而规划——这些使命需求强大的语言才能和指令跟从功能，并且推迟非常低，」Mistral 的研讨人员在博客中写道。
今日 Mistral Small 3 的发布恰逢 Ai2（一个非营利的 AI 研讨机构）发布新的 LLM。Tülu 3 405B 是 Meta 上一年 6 月发布的开源 Llama 3.1 405B 模型的定制版。在 Ai2 的测验中，Tülu 3 405B 在多个基准测验中超过了原始的 Llama 模型。
该研讨小组运用一种它们在 11 月首次详细阐明的开发流程创立了这个 LLM。该工作流结合了多种 LLM 练习方法，其中包括 Ai2 自家发明的一种方法。
该工作流的榜首步是监督微调。这是一种练习方法，经过向 LLM 供给示例提示和相应的答案，协助它学习如何响应用户查询。接下来，Ai2 运用了另一种名为 DPO 的练习技能，将 Tülu 3 405B 的输出与一组用户偏好进行对齐。
Ai2 还运用一种名为 RLVR 的内部开发的练习方法进一步优化了模型的才能。RLVR 是强化学习的一种变体，强化学习是广泛应用的 AI 练习技能。Ai2 表示，RLVR 能够使 AI 模型在处理数学问题等使命中体现得更好。
Tülu 3 405B 代表了「完全敞开的后练习方法首次应用于最大敞开权重模型」，Ai2 的研讨人员在博客中写道。「经过这一发布，咱们展现了咱们在 405B 参数规模上应用后练习方法的可扩展性和有效性。」

说米网

3322 org动态域名-Mistral、AI2 发布新的开源 LLMs：更小，更便宜 2025-01-31 11:12 · 稿源：站长之家

admin