邮箱监控-字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

视觉言语模型屡屡出现新打破,但ViT仍是图像编码器的首选网络结构。
字节提出新根底模型——ViTamin,专为视觉言语年代规划。
图片
(邮箱监控)在运用相同的数据集和练习方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。
此外在分类、检索、敞开词汇检测和切割、多模态大言语模型等60个不同基准上都体现出了杰出的结果。
当进一步扩展参数规划时,ViTamin-XL仅有436M参数,却达到了82.9%的ImageNet零样本准确率,超过了拥有十倍参数(4.4B)的EVA-E。
终究这一效果,入选计算机视觉顶会CVPR2024。
视觉言语年代新基准

在视觉言语年代下,如何规划一个更好可扩展的视觉模型?
在ImageNet年代,新的视觉模型在ImageNet数据集得以验证,也造就了不断有新的视觉模型出现。但在视觉言语年代,新的视觉模型鲜为人见。
此外,根据现有常见视觉模型,在面对比ImageNet数据规划还大的情况下体现又是如何?研究团队们测验了几种常见模型,包含纯Transformer的ViT,纯卷积网络的ConvNeXt,以及混合卷积和Transformer的CoAtNet。
终究在一个揭露的数据集上进行了体系性的练习和比较,得出了一些要害发现:
榜首,模型的扩展性:由于可扩展的自注意力机制,ViT能最好地习惯不同规划的使命。
第二,数据的扩展性:跟着练习数据的添加,一切模型的功能都有所提升。
第三,特征的分辨率:在练习过程中,模型需要了解更广泛的信息,而不仅仅是简单的类别标签。因此,提取的特征的分辨率对模型的猜测才能有很大影响。
第四,混合架构:在一般情况下,CoAtNet体现优于其他模型,但将其扩展到处理数十亿数据可能会有一些应战。
根据这些发现,研究人员规划了ViTamin模型。
它采用了三个阶段的混合架构。前两个阶段运用了轻量级的MBConv Blocks,第三个阶段包含了可扩展的Transformer Blocks。
图片
具体来说,一张图片首先经过卷积stem处理,得到2倍降采样的特征图。
然后,这个特征图经过榜首阶段,由两个MBConv-LN Blocks组成,接着经过第二阶段,由四个MBConv-LN Blocks组成,然后降采样得到16倍降采样的二维特征。
接下来,这些特征被展平成一维,并输入到第三阶段,该阶段由N_B个TFB-GeGLU Block组成。最后,经过对比图像特征和言语特征,来学习对比丢失函数。
作者们致力于简单有效的scaling law,只考虑模型的宽度C和模型第三阶段的深度N_B,因此在scaling到更大的模型中,经过模型的参数规划能够直接反推需要多大的宽度和深度,从而完成模型的scaling。
多项SOTA

在零样本功能上面,研究结果显示,ViTamin-L的零样本ImageNet准确率比ViT-L/14高出了2.0%。
图片
当将特征分辨率添加到576个patch时,ViTamin-L的准确率进一步提高到了81.8%,比之前的ViT-L/14CLIPA-v2高出了1.5%。在38个数据集的均匀功能上,ViTamin-L比ViT-H/14模型高出了0.4%,并且参数数量只要ViT-H/14的一半。
此外,当进一步扩大模型规划时,参数量为436M的ViTamin-XL达到了82.9%的ImageNet零样本准确率,超过了4.4B参数量的EVA-E取得的82.0%。
作者们进一步验证了ViTamin模型对下流使命而言是个强大的视觉编码器。
作者们引入了一系列下流使命,包含敞开词汇检测和切割,以及多模态大模型(LMMs)。
ViTamin在敞开词汇检测使命OV-LVIS上,相比比ViT-L模型能提高了3.1%。ViTamin在8个敞开词汇切割使命中,相比ViT-L均匀提升了2.6%。
ViTamin能直接迁移到多模态大模型比如LLaVA上,并在12个多模态问答等基准上体现出色。值得注意的是,ViTamin在7个敞开词汇切割基准上创造了新SOTA。
在这项工作中,作者们建立了主流视觉模型在视觉言语情境下的评估基准,并对它们进行了重新基准测验。作者们从数据可扩展性、模型可扩展性、特征分辨率和混合架构四个方面调查了主流的视觉模型。
图片
这四个方面的要害发现为ViTamin的规划提供辅导,ViTamin模型不仅在零样本ImageNet准确率和均匀38个数据集准确率方面全面逾越ViT,并且在包含敞开词汇检测和切割以及大型多模态模型在内的22个下流使命上达到了最新的技术水平。
来自智能创造团队

智能创造团队是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频修改、特效处理等技术领域。
他们借助公司丰厚的事务场景、根底设施资源和技术协作气氛,完成了前沿算法 – 工程体系 – 产品全链路的闭环,旨在以多种形式为公司内部各事务提供业界前沿的内容了解、内容创造、互动体验与消费的才能和职业解决方案。
现在,智能创造团队已经过字节跳动旗下的云服务平台火山引擎向企业敞开技术才能和服务。更多大模型算法相关岗位敞开中。