长沙域名注册-向ChatGPT提特殊问题，可提取原始训练数据！

2023/12/12搜狗收录域名

随着ChatGPT等模型的参数越来越大，预练习数据也呈指数级增长。谷歌DeepMind、华盛顿大学、康奈尔大学等研究人员发现，无论是开源仍是闭源模型，在练习过程中皆能记住必定数量的原始练习数据样本。
假如使用特定的歹意进犯，便能轻松地从模型中提取海量练习数据，同时会要挟到数据所有者的隐私。
研究人员使用的进犯办法也十分简略，便是让ChatGPT（GPT-3.5）无限重复某个词语，例如，无限重复“公司”二字。
最初ChatGPT会一向重复这个词语，达到必定数量时，竟然奇特的出现某公司的地址、前史、经营范围等其他原始数据。
而这些数据并非神经元重组的文本内容，研究人员现已分享了该成功事例。
论文地址:https://arxiv.org/abs/2311.17035
进犯成功事例展示地址:https://chat.openai.com/share/456d092b-fb4e-4979-bea1-76d8d904031f
图片
一开端ChatGPT正常答复
图片
必定数量后，开端吐出原始练习数据
进犯办法与原理
研究人员使用了一种“可提取回忆”的进犯技术概念，这差异于练习数据的“可发现回忆”。
“可发现回忆”是进犯者知道练习数据集，能够直接从中提取数据;而“可提取记念”是进犯者无从得知练习数据，需通过模型自身得到数据。
简略来说，进犯者没有数据练习集的直接访问权限，只能通过解读和剖析AI模型的“行为”或“反应”来推断出档案库中或许存储了哪些信息。就像是一位偷宝箱的人，他没有钥匙，只能从宝箱形状来判别里边装了哪些财宝。
图片
研究人员使用了随机提示、尾递归索引检测、重复引发发散等多种进犯办法，终于通过重复引发发散发现了数据安全缝隙。
1）随机提示进犯
研究人员从维基百科等开源文本中采样5个词组作为提示，输入到言语模型中，要求它基于提示持续生成文本。
通过这个随机提示，模型发生的一些文本或许便是练习数据集中的内容。
2）尾递归索引检测
为了高效检测生成文本是否源自练习数据集，研究人员构建了一个“尾递归索引”。
这个数据结构按字符串后缀排序存储所有练习数据集文本，支持快速的子字符串查询操作。长沙域名注册,通过这个索引能够检测提示是否发生练习数据。
3）重复引发发散
研究人员发现，重复以单个词汇提示言语模型，能够引发生成与练习数据完全一致的长文本。这是因为模型难以持续重复一个词汇，从而“发散”到其他文本。
图片
为了评估进犯效果，研究人员构建了一个9TB的辅助数据集AUXDATASET，包括揭露的大型言语模型预练习数据集。基于这个数据集，他们能够机械化地验证生成的样本是否出现在练习数据中。
实验数据显现，即使不使用实在的练习数据作为提示，现有的提取进犯也能恢复许多回忆中的练习数据，远超过从前的估计。
例如，研究人员从6B参数的GPT-Neo模型中提取出近1GB的练习数据。这证明可提取回忆的数量要比人们普遍认为的要大得多。
图片
接着持续对9个不同的商业AI模型进行进犯。结果相同惊人，许多模型能够提取出GB量级的练习文本。例如，从LLaMA模型提取出2.9万个长度为50的回忆文本。
对ChatGPT进行特定发问
研究人员还专门剖析了ChatGPT，因为它使用了数据安全对齐技术模拟真人对话，模型就不太简单泄露练习数据。
但是通过深度剖析，研究人员仍是找到了一个提示策略，能够让ChatGPT失掉操控，然后像一般言语模型相同开端走漏数据。该办法便是让模型无限重复答复一个词语。
通过该进犯办法，研究人员仅用了200美元便从ChatGPT提取出了1万个练习示例!假如花费更多的钱，或许会从ChatGPT提取大约1G的练习数据。
图片
研究人员认为，ChatGPT的高容量存储和许多重复练习数据，会添加其对练习数据的回忆，即便是采用了严格的安全对齐技术也能出现数据走漏的问题。
所以，假如预练习中使用了太多敏感数据，很或许会被其他人利用。
截至现在，ChatGPT现已修复了该缝隙，当你在发问重复某个词句的无限重复要求时，会提示“根据OpenAI的使用政策，我不能参与重复无意义内容的行为。”

说米网

长沙域名注册-向ChatGPT提特殊问题，可提取原始训练数据！

admin