什么是通用网址-GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4

OpenAI半小时的发布会让许多人榜首反应是直呼「绝望」,(什么是通用网址?)但随着官网放出更多demo以及更多网友开端试用,我们才发现GPT-4o真的不行小觑,不仅在各种基准测验中稳拿榜首,并且有许多发布会从未提及的惊艳功用。
OpenAI在发布会上官宣GPT-4o之后,各路大神也开端了对这个新模型的测评,成果就是,GPT-4o在多项基准测验上都展现了SOTA的实力。
别家发布会都在画饼,OpanAI却总能开出一种「欲扬先抑」的效果,惊喜全在发布会之后。
图片
基准测验成果
首要,在LMSys谈天机器人竞技场上的ELO分数排行上,GPT-4o套了一个GPT2谈天机器人的马甲,以一骑绝尘的态势名列榜首,评分为1310,和第二名GPT-4-turbo的1253分比较,出现断档式的提高。
图片
再来看多模态范畴的基准Reka Vibe-Eval,这也是一个很有应战性的测验,由269个超高质量图画文本对组成,用于评估多模态言语模型的性能。
图片
在Reka Vibe-Eval 分数的排行榜上,GPT-4o再次荣登榜首,比较谷歌新发布的Gemini Pro1.5高出了将近三个百分点。
图片
并且GPT-4o克服了这个测验集上大模型常见的「逆缩放」问题,也就是在某些案例中体现不如小模型的问题。
图片
图片
不止如此,GPT-4o的内存打破也值得重视。
针里寻针(Needle in a Needlestack,NIAN)是最近十分盛行的开源基准测验,用于评估大模型重视上下文内容的才能。
大言语模型的发展导致从前盛行的基准测验「难如登天」现已过时,在此基础上,更具应战性的「针里寻针」测验诞生了。
图片
https://github.com/llmonpy/needle-in-a-needlestack
测验中,「针里寻针」会从一个大型打油诗数据库中挑出几首,将其放在prompt中的特定方位,之后再问询关于这些打油诗的问题,由此可以很好地考察LLM的上下文回忆才能。
每个测验运用5-10个打油诗,放置在prompt中的5-10个方位,重复2-10次。
从前,GPT-4Turbo和Claude-3Sonnet都在「针里寻针」测验中体现得十分惨烈,侧面证明了这个使命对LLM的难度和应战性。
图片
广受欢迎的Mistral模型尽管体现得稍好一点,但正确率根本不超越60%。
图片
比较之前的模型,GPT-4o取得了腾跃性的打破,正确率每个token方位上都不低于80%,一度挨近100%,体现近乎完美!
图片
GPT-4o的才能被严重轻视了
图片
新推出的轻量级「GPT-4o」模型,尽管有速率约束,但重点是——免费!
语音交互肯定是模型的「亮点」,但它的功用远不止于此!
OpenAI表明这是他们榜首个真实的多模态模型,通过单一的神经网络完结一切使命。
网友表明「不知道这是否是真的仍是有些夸大,但GPT-4o在一切范畴的才能都超越了市场上的其他任何产品。」
图片
有网友发现,作为原生多模态模型,GPT-4o的文生图效果十分惊艳,甚至超越DALLE和MidJourney
图片
并且,在生成图片上的文字时,效果更是远远好过DALL-E3。
DALL-E3在图画上生成超越5个单词后就会溃散,而GPT-4o不仅做到文字的连续性,还能在之前生成图画的基础上进行迭代。
这种迭代是十分重要的,也标志着模型才能的巨大腾跃。尽管生成出来的文字仍是十分「生硬」,甚至有显着错误,可是迭代才能可以使GPT-4o后续逐渐削减文字和图画方面的错误。
除了生成文字,GPT-4o还能你为生成独立的角色形象,然后进行对话互动。
图片
奇特的是,他们把对话界面隐藏在一个悬停图标下!这意味着你可以对它进行恣意动作、风格和场景的规划!并且GPT-4o在风格体现方面做得十分超卓。
图片
平面图片不够炫酷?GPT-4o能够对图片进行3D重建。
图片
GPT-4o仍是一个强大的PS东西,OpenAI的logo被轻松嵌入到了杯垫上,但仔细看的话,你会注意到这两张图片不是同一个杯垫。
模型没有在原图片基础上进行修补,而是从头生成,因此看起来像原始的、未通过PS的图片。
图片
Reddit上一位网友剖析以为,OpenAI的Sam Altman等主创团队可能是太喜欢《Her》这部电影了,他们对GPT-4o的语音互动规划很显着受电影的启发(Altman也暗示了这一点),并且发布会的展现也学习了电影的手法——
让模型自己展现其惊人的才能,而不是像苹果或者谷歌那样列出原始数据和技术细节。
这样做十分有「艺术感」,吊足了围观群众好奇心,但也很容易让人轻视模型的才能。
GPT-4o的才能如此强大,也引发了对模型架构的猜测和热烈评论,网友们的观念也出现出两个方向。
一派以为,模型架构应该根本与GPT-4相似。
图片
而另一方的观念似乎更占上风,以为底层架构肯定有重大变化,方针是对齐GPT-4的文字才能,并在推理和多模态方面比较GPT-4有更多提高。
图片
白热化的开源与闭源之争
尽管搭载GPT-4o的ChatGPT谈天界面及其API现已免费敞开给用户运用,但OpenAI依旧坚持了不开源的传统,这次甚至连一篇技术报告都没有。
但这并不影响GPT-4o在LLM角斗场中掀起风云。Liquid AI的资深科学家Maxime Labonne这样描绘:「LLM 争夺战愈演愈烈,GPT-4o 遥遥领先」
图片
这场竞争中值得重视的另一个视点,则是大言语模型的开源和闭源之战。GPT-4o才能的快速增长导致闭源和开源之间的距离再次被拉大。
更重要的是,闭源阵容中并非GPT-4o鹤立鸡群。归纳迄今为止发布的一切LLM,闭源模型的全体体现一直比开源模型更加优异,并且GPT、Claude、Gemini等系列的闭源模型一直走在最前沿。
图片
赤色代表闭源模型,绿色代表开源模型,蓝色区域表明二者之间的距离
从前,大公司将Linux、安卓等项目开源的动力是期望凭借一切开发者的力气,得到不同视点的反馈和更新定见,从而进行快速的迭代优化,并且构建了在世界范围内有广泛影响力的大规模社区,反哺其他的产品线。
但对于LLM来说,情况就不一样了。
想要不断提高大言语模型的才能,算力成本是更大的应战。根据斯坦福大学发布的2024年人工智能指数报告,训练GPT-4的计算成本约为7800万美元,Gemini Ultra则是一亿九千一百万美元左右。
图片
原文链接:https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024.pdf
面对这种级别的投入,去中心化的开源社区比照有巨额出资的科技公司,明显没有优势。企业要想扩大模型产品的影响力,只需像OpenAI一样,免费敞开API给用户运用即可。
现在这种开源和闭源模型距离越来越大的趋势,Jim Fan曾在去年6月就做出过相似的猜测。
图片
可是,LLM的开闭源之争,不仅是企业的商业决策,更关乎AI行业全体的发展。
首要是安全性问题。最近刚从OpenAI离任的首席科学家Ilya Sutskever自己就对此十分重视,他曾在2016的一封电邮中写道:「随着我们越来越挨近构建人工智能,开端变的不那么敞开是有意义的。」
可以想象一下,如果像GPT-4o这样才能强大的模型发布了代码和模型权重,任何开发者都可以在此基础上微调,以满意自己定义的任何功用,AI的力气可能会敏捷失控。
图片
「像 GPT 这样的研究如果落入坏人之手,也可能会进化并导致灾难。」
但另一方面,这些只敞开API但不开源的大言语模型对草创公司并不友好。他们没办法根据特定的需求和场景、运用私有数据对模型进行微调,开发出有独创性的、功用灵活多样的产品,只能开端「套壳」。
导致的成果就是,AI草创公司并没有像我们想象的那样蓬勃发展,我们也没有看到更多的渗透到工作和日子各方各面的AI产品。
正像Jim Fan推文中说到的,「开源LLM总是有更大的多样性」。
这似乎是一个两难问题。
随着大模型之战愈演愈烈,相信对于开源和闭源的激烈评论依旧会继续下去。