Meta发布AI基准测试工具FACET 用于评估 AI 模型的“公平性”
工信部:Meta今天发布了一个新的AI基准测验,名为FACET,旨在评价在相片和视频中对人和物体进行分类和检测的AI模型的“公平性”。
FACET由32,000张包含50,000个人标签的图画组成,这些标签由人类注释者标示。除了与工作和活动相关的类别,如“篮球运动员”、“DJ”和“医师”,还包含人口统计和身体特点,使Meta能够对针对这些类别的成见进行“深度”评价。
Meta在一篇与TechCrunch同享的博客文章中写道:“通过发布FACET,我们的方针是让研究人员和从业者能够进行类似的基准测验,以更好地了解他们自己的模型中存在的成见,并监控所采取的缓解办法对这些成见的影响。” “我们鼓励研究人员运用FACET来评价其他视觉和多模态任务的公平性。”
人工智能 科幻
注:图片由midjourney生成
当然,探测计算机视觉算法成见的基准测验并不是什么新鲜事。Meta自己几年前就发布过一个基准测验,用于揭示计算机视觉和音频机器学习模型中的年龄、性别和肤色歧视。许多研究现已对计算机视觉模型进行了评价,以确认它们是否存在针对某些人群的成见。
此外,事实上,Meta 在负责任的人工智能方面并没有最好的记录。上一年年末,Meta不得不撤下一款AI演示,因为它编写了种族主义和不精确的科学文献。有报导称,该公司的AI道德团队根本没有效果,而它发布的反AI成见东西被形容为“完全不满足”。同时,学术界责备Meta加剧了其广告服务算法中的社会经济不平等,并在其自动检查体系中体现出对黑人用户的成见。
但Meta声称FACET比之前所有的计算机视觉成见基准测验都要深入——能够回答这样的问题:“当被感知的性别体现具有更多传统男性特征时,模型是否在将人们分类为滑板运动员方面做得更好?”以及“当头发弯曲程度与直发比较时,任何成见都会放大吗?”
为了创立FACET,Meta让上述注释者为32,000张图画中的每张人物图画标示人口统计特点(例如图片中人物的感知性别体现和年龄组)、额外的身体特点(例如肤色、光线、纹身、头饰和眼镜、发型和面部毛发等)以及类别。他们将这些标签与其他来自Segment Anything1Billion的关于人、头发和服装的标签结合。Segment Anything1Billion是Meta规划的用于练习计算机视觉模型从图画中“切割”或隔离物体和动物的数据集。
Meta告诉我,FACET图画的来历是Segment Anything1Billion,而这些图画则从“相片供给商”处购买。但现在还不清楚图片中所描绘的人是否知道他们的图片将被用于这个目的。此外——至少在博客文章中——还不清楚Meta是如何招募注释者团队的,以及他们得到了多少薪酬。
从历史上看,甚至在今天,许多为AI练习和基准测验标示数据集的注释者来自发展中国家,收入远低于美国的最低薪酬标准。就在本周,《华盛顿邮报》报导,规模最大、融资最充足的注释公司之一Scale AI向工人付出的薪酬极低,经常拖欠或扣发薪酬,并为工人供给寻求救助的途径很少。
在描绘FACET如何诞生的白皮书中,Meta表明注释者是“经过练习的专家”,他们来自包含北美(美国)、拉丁美洲(哥伦比亚)、中东(埃及)、非洲(肯尼亚)、东南亚(菲律宾)和东亚(台湾)等多个地理区域。Meta表明,它运用了来自第三方供应商的“专有注释平台”,并依照每个国家一小时的薪酬标准向注释者供给报酬。
放下FACET或许存在问题的出处不谈,Meta表明该基准测验可用于探测不同人口统计特点下的分类、检测、“实例切割”和“视觉根底”模型。
作为测验用例,Meta将其自己的DINOv2计算机视觉算法应用于FACET,该算法已于本周开始商业运用。Meta表明,DINOv2发现了几种成见,包含对某些性别体现的人的成见以及对典型地将女人相片识别为“护理”的或许性的成见。
在博客文章中,Meta写道:“DINOv2预练习数据集的预备过程或许无意中复制了为策展挑选的参考数据集中的成见。我们计划在未来的工作中解决这些潜在的不足之处,并相信根据图画的策展也能够帮助防止因运用搜索引擎或文本监督而产生的潜在成见。”
没有完美的基准测验。值得称赞的是,Meta供认FACET或许无法充沛捕捉现实世界的概念和人口群体。它还指出,因为自FACET创立以来,许多工作形象或许现已发生了改变。例如,在COVID-19大盛行期间拍照的FACET中的大多数医师和护理都佩戴了比大盛行前更多的个人防护配备。
在白皮书中,Meta写道:“现在我们不打算更新此数据集。我们将答应用户标记任何或许令人反感的内容,并在发现时删除这些内容。”
除了数据集本身外,Meta还供给了一个根据网络的数据集浏览器东西。要运用该东西和数据集,开发人员必须赞同不将其用于练习计算机视觉模型——而只用于评价、测验和基准测验。