

据报道,卡内基梅隆大学(Carnegie Mellon University)的一组研究人员发现了一个令人担忧的发现:OpenAI和谷歌等公司为控制人工智能聊天机器人而设置的护栏很容易被绕过。
在本周发布的一份报告中,该团队展示了任何人都可以轻松地将聊天机器人(如OpenAI的ChatGPT或谷歌的Bard)转变为高效的错误信息传播机器,尽管这些公司都在不遗余力地控制这些系统。
这个过程非常简单,只需在每个英语提示符上附加一长串字符后缀即可实现。有了这些后缀,该团队就能诱使聊天机器人提供如何制造炸弹或生成其他有毒信息的教程。
这次越狱事件凸显出这些公司已经变得多么无能为力,因为用户才刚刚开始触及这些工具隐藏功能的表面。
一周前,OpenAI宣布,由于“准确率低”,它已经关闭了人工智能检测工具,似乎放弃了设计“区分人类编写的文本和来自各种供应商的人工智能编写的文本的分类器”的努力。
这个最新的卡内基梅隆越狱程序最初是为开源系统开发的,但令研究人员惊讶的是,它与ChatGPT、Bard或Anthropic的人工智能聊天机器人Claude等闭源系统一样有效。
报告写道:“与传统的越狱不同,这些软件是以完全自动化的方式构建的,允许人们创建几乎无限数量的此类攻击。”
研究人员建立了一个网站,展示了聊天机器人是多么容易被愚弄,指导用户如何窃取某人的身份,或者“在社交媒体上发布鼓励人们从事酒后驾驶或吸毒等危险行为的帖子”。
如果没有“对抗性后缀”,这些工具就会拒绝这些请求,说它们无法响应这些查询。但是一旦添加了一串字符,它们就会立即执行。
OpenAI、谷歌和Anthropic等公司都在竞相开发人工智能安全护栏,以阻止他们的聊天机器人散布这种有害的虚假信息或被用来为非法活动提供建议。
更糟糕的是,这些公司可能很难堵住这个特别严重的漏洞。
“没有明显的解决方案,”卡内基梅隆大学教授、该报告的作者之一齐科·科尔特(Zico Kolter)告诉《纽约时报》。“你可以在很短的时间内制造尽可能多的这种攻击。”
研究人员在发表报告之前,向OpenAI、谷歌和Anthropic公开了他们的方法。
这些公司在向委员会提交的声明中含糊其辞,只是暗示会随着时间的推移建造和改善他们的护栏。
但考虑到最新的研究,显然还有大量的工作要做。
“这非常清楚地表明,我们在这些系统中建立的防御是脆弱的,”哈佛大学研究员阿维夫·奥瓦迪亚告诉《科学》杂志。