域名主机管理系统-擅自收集图片数据!AI抓取工具img2dataset困扰着图片网站
img2dataset是一款主动在互联网上查找图画数据并用练习于人工智能图画生成器的免费东西,不过这款东西引发了网站所有者的忧虑。
网站所有者以为这款东西将擅自获取他们的图画和数据,而不是经过答应,期望img2dataset中止抓取行为的做法。对此,这款东西的创建者罗曼·博蒙特(Romain Beaumont)在其GitHub表示,他们(网站具有者)正在与人工智能不可避免的兴起作奋斗,这是“可悲的”。“令人难过的是,你们中的一些人不了解人工智能和敞开人工智能的潜力,因而决定与之奋斗。”“在未来的几年里,你将有很多机会从人工智能中受益。我期望你尽早看到这一点。作为创作者,你有更多的机会从中受益。”
Img2dataset是博蒙特在GitHub上同享的免费东西,答应用户主动下载和调整URL列表,从而获得图画数据集,这种数据集练习图画生成人工智能模型,如OpenAI的DALL-E,开源的Stable Diffusion和谷歌的Imagen。
博蒙特还是LAION-5B的开源贡献者,LAION-5B是世界上最大的图画数据集之一,包含超越50亿张图画,供应Imagen和Stable Diffusion使用。
Img2dataset会测验从任何网站抓取图画,除非网站所有者添加https头,如“X-Robots-Tag: noai”和“X-Robots-Tag: noindex”。这意味着网站所有者能够挑选”阻止“img2dataset,不过他们中的许多人或许甚至不知道img2dataset的存在。
博蒙特为img2dataset辩解,将该东西与Google索引网站的方法进行比较,称谷歌索引方法对任何想查找互联网的人都有优点。
对此有专家以为,比方域名主机管理系统网站所有者是直接受益于查找引擎,因为它们为网站带来了有用的流量。谷歌的机器人是有原则的,不会攻击网站,大多数机器人都尊重robots.txt指令。而Img2dataset则没有,该东西似乎是故意设忽视网站所有者的指令。坦率地说,它并没有给网站所有者带来任何直接优点。
毫无疑问,Img2dataset这款AI东西引起了网站所有者的忧虑,他们忧虑他们的敏感数据和隐私正在被侵略,如果AI技术的开展不受控制,很容易操作很多的数据。