湖南服务器托管-最强“全开源”多模态分割一切大模型APE

APE 是一种全开源的多模态切割模型,其共同之处在于选用了独立建模每个类别号实例的办法。湖南服务器托管,以往的办法通常将多个类别号联结成一个独自的 Prompt,但 APE 经过对每个类别号或描绘短语进行独立建模,能够学习到不同实例之间的差异。此外,APE 还经过紧缩 Word-Level Embeddings 为 Sentence-Level Embeddings 来减少核算复杂度和内存消耗,然后有效地表达语义信息。
image.png
论文地址:https://arxiv.org/pdf/2312.02153.pdf
开源链接:https://github.com/shenyunhang/APE
Demo链接:https://huggingface.co/spaces/shenyunhang/APE_demo
APE 选用了不同的特征交融办法来处理不同类型的 Prompt。关于纯类别号的文本特征,选用一种 “zero” 文本 token 作为替代,以防止过拟合问题。而关于语言描绘的文本特征,选用特定的交融办法将其与视觉特征进行语义级的理解。此外,APE 还经过矩阵乘法核算 Object Embeddings 和 Prompt Embeddings 之间的相似度,然后实现一次性检测和切割。
APE 还经过一致远景和布景粒度来提高切割作用。在切割使命中,远景和布景的粒度是不同的,但传统办法往往面临前布景抵触的问题。为此,APE 提出一致远景和布景的粒度,将布景的不同块视为独立的标签,然后使模型能够选用一致的架构训练远景和布景数据,并方便地融入大规模的 Class-Agnostic 数据。
APE 在各个检测、切割和指向性检测数据集上都取得了强力成果。特别是在 D3数据集上,APE 的表现显著优于其他办法。在开集检测使命中,APE 在常见数据集上的作用也显着优于其他办法。此外,APE 还在开集切割使命和视觉定位使命上取得了竞争性的成果,在 RoboFlow100和 ODinW 评测基准上取得了新的 SOTA。
APE 是一种十分有潜力的多模态切割模型,具有广泛的使用远景。经过独立建模每个类别号实例、紧缩 Word-Level Embeddings 为 Sentence-Level Embeddings、选用不同的特征交融办法、经过矩阵乘法进行 Object Embeddings 和 Prompt Embeddings 之间的相似度核算以及一致远景和布景粒度,APE 在多个常见数据集上取得了强力的切割作用,并展现出竞争力的成果。未来的研讨能够进一步探究 APE 在其他视觉使命中的使用,以及对其办法进行优化和改进。