华众虚拟主机管理系统-华众主机管理系统-Meta、OpenAI、Anthropic 和 Cohere 人工智能模型都在胡编乱造 —— 哪个最糟糕?

如果科技职业的顶尖人工智能模型有所区别的话,微软支撑的 OpenAI 的 GPT-4 在数学方面体现最好,Meta 的 Llama 2 则在中间方位,Anthropic 的 Claude 2 在了解自己的限制方面体现最好,而 Cohere AI 则被赋予了最多的错觉和最自信的错误答案的称谓。
OpenAI ChatGPT,人工智能,AI
这份周四来自 Arthur AI 研究人员的陈述指出这一切。Arthur AI 是一家机器学习监测平台。
这项研究是在人工智能体系产生误导信息的问题愈发引起争议之际进行的,与此同时,生成式人工智能正迎来了昌盛期。
Arthur AI 的联合创始人兼首席执行官 Adam Wenchel 表示,这是榜首个「全面考察错觉率」的陈述,而非仅仅供给「一个数字来衡量它们在 LLM 排行榜上的方位」。
当大型言语模型(LLMs)彻底伪造信息、体现得像在说实在事实时,就会出现 AI 错觉。例如,在 6 月份的一例中,有人发现 ChatGPT 在纽约联邦法院的一份文件中引证了「虚假」的事例,涉案的纽约律师可能面对制裁。
在一个试验中,Arthur AI 的研究人员在组合数学、美国总统和摩洛哥政治领导人等类别中测验了这些 AI 模型,并提出了一些「设计来使 LLMs 犯错的要害元素,需求多个过程来推理信息」的问题,研究人员写道。
整体而言,OpenAI 的 GPT-4 在所有测验的模型中体现最好,研究人员发现它的错觉现象比之前的版别 GPT-3.5 要少,例如,在数学识题上,它的错觉现象减少了 33% 至 50%,具体取决于类别。
另一方面,研究人员发现,Meta 的 Llama 2 比 GPT-4 和 Anthropic 的 Claude 2 更容易产生错觉。
在数学类别中,GPT-4 排名榜首,Claude 2 紧随其后,但在美国总统类别的测验中,Claude 2 以准确率位居榜首,挤下了 GPT-4,成为第二名。当被问到摩洛哥政治问题时,GPT-4 再次排名榜首,而 Claude 2 和 Llama 2 则简直选择不答复。
在第二个试验中,研究人员测验了这些 AI 模型在答复问题时是否会运用警示语来防止危险(比如:作为一个 AI 模型,我不能供给定见)。
(华众虚拟主机管理系统)在运用警示语方面,与 GPT-3.5 比较,GPT-4 有了 50% 的相对增长,研究人员写道:「这从用户的单个证据中量化了 GPT-4 的运用更加令人沮丧」,但是,依据陈述,Cohere 的 AI 模型在任何答复中都没有运用警示语。研究显示,Claude 2 在「自我意识」方面最可靠,即准确评价自身所知与所不知,并且只答复具备支撑性数据的问题。
Cohere 的一位发言人对这些结果提出了贰言,称「Cohere 的检索自动生成技术未被测验,它对于给企业供给可验证的引证文献以确认信息来历非常有用」。
Wenchel 表示,(华众主机管理系统)用户和企业最重要的结论是「依据实践工作负载进行测验」,他随后补充道:「重要的是要了解它在你企图实现的任务上的功能」。
Wenchel 说:「很多基准测验仅仅关注 LLM 本身的某种衡量标准,但实践上在实在国际中并不是这样运用的。确保你真正了解 LLM 在实践使用中的体现是要害。」