如何建立邮箱-微软开源多功能视觉模型Florence-2，分割、识别一切图片

2024/11/17360收录域名

微软Azure AI 团队宣告开源视觉模型——Florence-2。
据悉，Florence-2是一个多功用视觉模型，可供应图像描绘、政策检测、视觉定位、图像切开等。
例如，上传一张景色相片，让其解读一下图片的内容;或许上传一张超市货架的相片，让其精准找出牛奶的地点方位。
Florence-2一共有230M和770M两个版别，在多个出名基准检验中零样本的表现非常超卓高于同类模型。现在，Florence-2的总下载量已超越120万非常火爆。
图片
开源地址:https://huggingface.co/microsoft/Florence-2-large
在线demo:https://huggingface.co/spaces/gokaygokay/Florence-2
Florence-2之所以具有如此多的视觉功用和强壮的泛化才干，是因为使用了一个超大的数据集FLD-5B，包括1.26亿张图像和54亿个数据标明。
一同该数据集使用了自动化图像标明技术与模型迭代的结合，通过多个模型协作保证了数据的高质量和多样性。
图片
如何建立邮箱,模型架构方面，Florence-2根据Transformer并选用了序列到序列（seq2seq）的学习方法，模型的这一部分由编码器和解码器组成，编码器担任将图像转换为序列标明，而解码器则将这些标明转换为输出文本。
这种规划不只进步了模型处理任务的灵活性，也使得模型能够以一种共同的方法来处理各种视觉任务。
图片
其他要害模块包括:图像编码器，首要担任将输入图像转换为视觉token嵌入;Florence-2使用DaViT作为图像编码器，这种编码器通过注意力机制捕捉图像特征，为后续的处理供应了丰厚的视觉信息。
多模态编码器-解码器，选用标准的Transformer架构，通过自注意力机制完成多模态信息的融合。这种融合使得模型能够更好地了解和生成与视觉内容相关的文本。
image.png
方位编码，为Florence-供应了区域等级的空间信息，在政策检测和切开等任务中尤为重要，使得模型能够辨认图像中的详细区域。
图片
共同标明则是Florence-2的一大创新亮点，可将不同类型的视觉信息和言语信息包括图像描绘、政策检测、视觉定位和切开等，整合到一个共同的结构中，帮忙模型在不同的任务之间同享常识，进步学习功率。
为了评测Florence-2的功用，研究人员在COCO、ADE20K、Flickr30k Entities等出名基准检验渠道进行了归纳点评。
效果闪现，Florence-2在零样本学习和微调学习设置下都展示出了出色的功用，例如，在COCO政策检测和实例切开任务中，它逾越了从前的最佳模型，闪现了更强的辨认精度和切开才干。
图片
在ADE20K语义切开检验任务中，模型也展示了优胜的表现，标明其不只在高层语义了解上有超卓表现，对于底层细节的捕捉同样精准。
尤其是在微调后，Florence-2在公共基准检验中的功用与更大参数的专业模型相媲美。

说米网

如何建立邮箱-微软开源多功能视觉模型Florence-2，分割、识别一切图片

admin