个人主页空间-谷歌和OpenAI呼吁修改版权法以获取AI训练数据

本文概要:

1. Google 和 OpenAI 利用他们的机器人(GoogleBot 和 GPTBot)从互联网上收集数据,但最近的版权法对他们的数据抓取工作提出了障碍。

2. AI 模型需要人类生成的内容来提高,但公司应该支付还是从互联网获取这些内容是一个问题。

3. OpenAI 已经开始使用由 ChatGPT 创建的数据集来训练 GPT-4,但仅依赖这些数据可能导致模型崩溃。

站长之家(ChinaZ.com)8月11日 消息:Google 和 OpenAI 正面临着版权法在其 AI 训练数据收集方面的限制。随着 ChatGPT 和 Google 的 Bard 等生成式 AI 系统的普及,对更多数据的需求不断增长。

这些AI系统需要大量的文本、图像和视频进行训练。OpenAI 强调 GPT-4是通过经过批准和公开可用的数据源进行学习的。然而,个人主页空间由于对互联网抓取数据的担忧,OpenAI 和 Google 在数据获取方面面临公众的反对。

黑客攻击代码 电脑 互联网

提高 AI 模型的质量需要人类生成的内容,而问题在于公司是否应该为这些内容付费或者从互联网上获取。未来,人类生成的内容可能以高价销售。

OpenAI 最近开始使用由 ChatGPT 创建的数据集来训练 GPT-4,但仅仅依赖这些数据可能导致模型崩溃。这种情况发生在模型从其他模型生成的数据中学习,导致失去准确的数据。此外,未经作者同意或未给予作者名字的使用作品也成为了讨论的话题。上个月,数千名作者签署请愿书,要求 AI 公司停止未经许可使用他们的作品。

目前,OpenAI 和 Google 都把决定是否允许生成式 AI 挖掘他们的内容的责任放在出版商身上。Google 建议创建一个类似于 robots.txt 系统的社区开发标准,允许出版商选择拒绝抓取他们的作品被。

OpenAI 已经采取了初步措施,通过将其添加到网站的 robot.txt 文件中,让网站所有者选择不让 GPTBot 访问。OpenAI 还与美联社合作,以获取实时数据进行未来的模型训练,并寻求避免法律纠纷并补偿创作者。