九网互联-击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型推荐榜

九网互联:一眨眼,开源大模型又前进了。谷歌、OpenAI真的没有护城河?
「我就午休了30分,咱们的范畴又变了?」在看到最新的开源大模型排行榜后,一位 AI 范畴的创业者发出了灵魂追问。
图片
排行榜链接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
上图红框中的「新秀」是来自 Stability AI 和 CarperAI lab 的两个大模型:FreeWilly1和 FreeWilly2。刚刚,它们超越了 Meta 三天前发布的 Llama-2-70b-hf,成功登顶 HuggingFace 的 Open LLM 排行榜榜首。
更有目共睹的是,FreeWilly2在很多基准上还打败了 ChatGPT(GPT-3.5),成为首个真正能够和 GPT-3.5相抗衡的开源大模型,这是 Llama2都没有做到的事情。
图片
FreeWilly1基于原始的 LLaMA65B 根底模型构建,并且在标准 Alpaca 格式下,运用新的组成数据集进行了细心的有监督微调(SFT)。FreeWilly2则基于最新的 LLaMA270B 根底模型构建。
从 Stability AI 发布的博客中,咱们能够看到这两个新模型的一些细节:
数据来历
FreeWilly 模型的练习方法直接受到了微软在其论文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首创的方法的启示。尽管 FreeWilly 的数据生成过程与之类似,但二者在数据来历方面存在差异。
FreeWilly 的数据集包含了60万个数据点(大约是原始 Orca 论文运用的数据集大小的10%),它是经过以下由 Enrico Shippole 创立的高质量指令数据集来启示语言模型生成的:
COT Submix Original
NIV2Submix Original
FLAN2021Submix Original
T0Submix Original
选用这种方法,研讨者运用了一个较简略的 LLM 模型生成了50万个示例,并运用一个更复杂的 LLM 模型生成了额外的10万个示例。为了确保公正比较,他们细心筛选了这些数据集,并删除了来历于评价基准测验的示例。尽管练习样本数量仅为原始 Orca 论文的1/10(比较原始论文大大降低了练习模型的成本和碳排放),但由此产生的 FreeWilly 模型在各种基准测验中体现出色,验证了他们选用组成数据集的方法的有效性。
性能数据
为了对这些模型进行内部评价,研讨者运用了 EleutherAI 的 lm-eval-harness 基准,并加入了 AGIEval。
其间,lm-eval-harness 基准由 EleutherAI 非盈利人工智能研讨实验室创立,前面提到的 HuggingFace Open LLM 排行榜背面运行的便是该基准,它会在 Hugging Face 计算集群的空闲周期中运行评价,并将成果存储在数据集中,然后在在线排行榜空间上显示。
AGIEval 则由微软创立,专门用于评价根底模型在「以人为本」(human-centric)的标准化考试中的体现,比方数学比赛、律师资格考试。
在许多方面,两个 FreeWilly 模型体现都十分出色,包含复杂的推理、理解语言的奇妙之处,以及答复触及专业范畴(如法令和数学问题)的复杂问题。
两个模型在 lm-eval-harness 基准上的评价成果如下(这些 FreeWilly 测验成果是由 Stability AI 研讨人员来评价的):
图片
二者在 AGIEval 基准上的体现如下(全部是0-shot):
图片
此外,他们还在 GPT4ALL 基准上对两个模型进行了测验(全部是0-shot):
图片
总体来看,这两个模型的性能体现都十分优异,进一步缩小了与 ChatGPT 等顶级 AI 大模型的差距。想要获取模型的同学能够点击以下链接。
FreeWilly1:https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor
FreeWilly2:https://huggingface.co/stabilityai/FreeWilly2
从各方反应来看,FreeWilly 模型的出现给大家带来了一点小小的震撼,因为它们来得实在是太快了,究竟 Llama2才刚刚推出3天,排行榜位置都没坐热。有位研讨者表示,他最近刚做了眼科手术,一个星期没看新闻,但感觉自己已经昏迷了一年。所以,这是一段「不能眨眼」的时期。
图片
不过,需求注意的是,尽管两个模型都是敞开获取的,但和 Llama2不同,它们是以非商业许可的方式发布的,仅可用于研讨意图。
图片
然而,这样的做法引起了网友质疑。
图片
对此,Stability AI的研讨者回复说,这种状况(仅用于研讨意图)仅仅暂时的,未来,FreeWilly 有望像 Llama2相同允许商用。
图片
此外,也有人对测验选用的基准产生了质疑:
图片
这也是当时一个比较棘手的问题。此前,Falcon 模型在 HuggingFace 排行榜上碾压 Llama 的事情备受争议,后来,该事情彻底反转,事实证明 Llama 并未被 Falcon 碾压,HuggingFace 也为此重写了排行榜代码。在大模型层出不穷的今天,如何有效地评价这些模型依然是一个值得讨论的问题。因而,关于这些登顶排行榜的模型,咱们有必要坚持更加慎重的态度,等候更多的评测成果出炉。