西部数据空间-CipherChat:一个评估 LLM 安全对齐泛化能力的框架

CipherChat 是一个AI 结构,旨在体系地研讨将安全对齐办法应用于非自然言语(具体来说是暗码)的可行性。CipherChat 经过暗码提示、体系角色分配和简洁的加密演示,使人类与 LLM(Large Language Models)进行交互,全面查看 LLM 对暗码的理解、参加对话的才能以及对不恰当内容的敏感度。
image.png
项目地址:https://github.com/RobustNLP/CipherChat
研讨强调了在处理非自然言语(如暗码)时创立安全对齐办法的重要性,以保证与根底 LLM 的才能相匹配。
经过对 ChatGPT 和 GPT-4等现代 LLM 进行多个试验,研讨发现一些暗码能够成功躲避 GPT-4的安全对齐程序,(西部数据空间)在某些安全范畴几乎达到100% 的成功率。
研讨还提醒了 LLM 中存在隐秘暗码的现象,研讨团队估测 LLM 可能具有解密特定编码输入的潜在才能,然后暗示了一种独特的与暗码相关的才能存在。基于这一观察,研讨引入了一个名为 SelfCipher 的结构,经过角色扮演场景和少量自然言语演示来激活 LLM 内部的隐秘暗码才能。SelfCipher 的有效性展现了使用这些隐藏才能来提高 LLM 解密编码输入和生成有意义呼应的潜力。
产品特色:
1. CipherChat 是一个用于评估 LLM(言语模型)的安全对齐泛化才能的结构。
2. 该结构能够体系地查看安全对齐在非自然言语(如暗码)上的普适性。
3. 供给了一个示例运行指令和参数阐明。
4. 经过使用暗码将输入转换为对 LLM 的安全对齐不太可能掩盖的格式,完成了对安全对齐的躲避。
5. 使用基于规矩的解密器将 LLM 的输出从暗码格式转换为自然言语方式。
6. 供给了试验成果和事例研讨,以及融化研讨和其他模型的讨论。
7. 能够在论文中找到更多详细信息,并供给了引用。