阿帕奇服务器-GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类

Sam Altman最近在世界经济论坛上发言,称到达人类等级的AI很快就会来临。
但是,正如LeCun一直以来所言,如今的AI连猫狗都不如。现在看来的确如此。
GPT-4V、LLaVA等多模态模型图画理解力足以让人惊叹。但是,它们并非真的能够做的面面俱到。
CV大神谢赛宁称有一个问题让自己彻夜难眠——
不论分辨率或场景凌乱程度怎么,冻住的视觉编码器一般只能「提取一次」大局图画token。
举个栗子,一张凌乱的桌面上放了一个「星巴克」陶瓷杯,而且logo图画仅漏出一半的情况下。
图片
对此,GPT-4V却无法正确辨认出来,还产生了错觉。
图片
再比方,图片中小孩的鞋子是什么颜色这样直观的问题。
图片
GPT-4V给出了「白色」的答案。
图片
为了处理这个LLM图画理解的隐疾,「视觉查找」这一要害方法能够为大模型供给视觉信息。
对此,来自UC San Diego和纽约大学的研讨人员提出了V*——引导视觉查找作为多模态LLM的中心机制。
图片
论文地址:https://arxiv.org/pdf/2312.14135.pdf
具体来说,研讨人员将VQA LLM与视觉查找模型相结合。
凭借大模型的世界知识,V*对视觉方针进行多轮引导查找。它能够提取局部特征,并将其添加到工作记忆中,然后,VQA LLM运用查找到的数据生成终究反应。
图片
有网友表明, V*模型和论文,在我看来含义严重。
就比方,GPT-4V无法处理的「谷歌机器人验证」,V*就能够直接找到遗漏的最后一个交通灯。
图片
图片
图片
「视觉查找」神助攻

完结「人类智能」的标志之一,便是能够处理和整合多感官信息,从而完结凌乱的使命。
在我们触及视觉信息的认知推理进程中,「视觉查找」无处不在,即在凌乱的桌子上寻觅钥匙,或在人群中寻觅朋友。
(阿帕奇服务器)此外,对于需求多个推理进程的凌乱使命来说,「视觉查找」也是一个不可或缺的进程。
受人类才能的启发,研讨人员提出了SEAL(Show、SEArch和TelL),这是一种通用元架构,用于将LLM引导的视觉查找机制集成到MLLM中,以处理模型的视觉约束。
图片
再如上,GPT-4V识图失利的栗子,SEAL便可轻松完结。
一堆毛绒玩具中,一个猩猩抱着什么乐器?
GPT-4V:萨克斯
SEAL:吉他
图片
繁华的都市中,一位男人手中提了一打矿泉水的瓶子是什么logo?
GPT-4V:看不清
SEAL:依云
图片
还有行李箱上的小挂件是哪家公司的?
GPT-4V:Rubbermaid Commercial
SEAL:英特尔
图片
在一个更直观的中,篮球运动员的球衣数字是几号?
GPT-4V:10
SEAL:8
相似的比如仍是有很多,看得出不论是简略的,仍是凌乱的视图中,GPT-4V全军覆没。
那么,SEAL结构是由何构成的?
SEAL结构+V*视觉查找

具体来说,SEAL结构由「VQA LLM」和「视觉查找模型」两部分组成。
典型的MLLM模型可能会由于视觉编码器的信息缺少,而回绝答复或瞎猜(即错觉)。
与之不同,SEAL中的VQA LLM能够明确地查明缺失的视觉细节,从而为以下目标创立方针目标要点。
然后,运用丰厚的世界知识和言语模型的常识,视觉查找组件定位这些已辨认的元素,并将它们添加到视觉工作记忆(VWM)中。
VWM中的这些附加视觉数据,使VQA言语模型能够供给更精确、更明智的响应。
图片
左侧部分代表VQA LLM,它运用视觉工作记忆中的一切数据来答复问题。右侧展示了V*视觉查找算法流程
值得一提的是,SEAL的适应性使其能够与各种MLLM根底模型合作运用。
在论文的比如中,研讨人员运用LLaVA作为视觉查找模型中的VQA LLM和MLLM。
凭借这种新的视觉查找功能,MLLM能够更好地处理,在高分辨率图画中进行精确视觉根底的情况。
人类的视觉查找进程受自上而下的特征引导和上下文场景引导,因此作者设计了一种名为V*引导视觉查找算法,其视觉查找模型也遵从相似的原则。
对于人类来说,这种引导首要来自于他们对物理世界的知识和经验。
因此,这一视觉查找模型是建立在另一个MLLM的根底上的,它涵盖了关于世界的很多常识性知识,并能依据这些知识有用推理出方针在场景中的可能方位。
试验评价

现有的MLLM基准首要侧重于,供给跨各种使命类别的综合评价,而且没有充分挑战上述当时范式的具体局限性。
为了弥补这一差距并评价全新结构,作者引入了V–Bench,这是一种新的专用VQA基准,专心于高分辨率图画的视觉根底。
V-Bench是一个以视觉为中心的基准测验,要求多模态模型精确地供给特定的视觉信息,而这些信息很容易被缺少视觉查找功能的标准静态视觉编码器所忽视。
在图画和视频等丰厚而凌乱的视觉内容日益占据主导地位的世界中,MLLM能够积极关注要害视觉信息以完结凌乱的推理使命至关重要。
该基准旨在着重这一根本机制的重要性,并辅导MLLM的进化,以反映人类认知固有的多模态处理和推理才能。
图片
如下是,V–Bench上不同查找战略的评价成果。
图片
在具体消融试验中,运用了V*算法的Vicuna-7B的模型体现更优。
图片
最后,视觉查找几十年来一直是cogsci/视觉科学的中心问题。风趣的是,与人眼凝视比较,LLM引导V*能够到达与人类视觉查找适当的效率!
图片
LLM引导视觉查找的进程如下。
图片
作者介绍

Penghao Wu
Penghao Wu现在是加州大学圣迭戈分校计算机科学专业的硕士研讨生。他于2018年在上海交通大学获得电气与计算机工程学士学位。从2023年6月开始,他便成为纽约大学研讨实习生,导师是谢赛宁。
Saining Xie(谢赛宁)
谢赛宁现在是纽约大学计算机科学助理教授。据个人主页介绍,他本科结业于上海交通大学,18年获加州大学圣迭戈分校CS博士学位。
结业后,便在Facebook AI Research(FAIR)担任研讨科学家。
他还曾与何恺明大神一起提出了用于图画分类的简略、高度模块化的网络结构ResNeXt,这篇论文发表在了CVPR2017上。