激光网
当前位置: 首页 > 光粒网 > 软件 > 正文

新加坡科学家创建了一个可以破解ChatGPT和Google Bard的人工智能模型

2023-12-30 21:29:55  来源:激光网原创    

现在,被黑客入侵的不仅仅是电脑和智能手机。来自新加坡南洋理工大学的一组科学家开发了一种人工智能驱动的聊天机器人,专门用于破解其他聊天机器人。研究人员声称,他们用于黑客聊天机器人的独特人工智能能够绕过 ChatGPT 和 Google Bard 的保护,然后导致这些大型语言模型生成禁止内容。

从一开始,许多科技公司就对生成式人工智能的可能性持谨慎态度,因为训练大型语言模型需要大量数据。现代聊天机器人能够总结大型文档、回答问题并提出新想法——而且它们尽可能人性化地做到这一点。著名的 ChatGPT 背后的公司 OpenAI 长期以来一直犹豫是否要发布 GPT 的人工智能模型,因为它很容易被用来生成恶意内容、错误信息、病毒和令人震惊的内容。目前,所有公共 LLM 都有局限性,无法产生这种危险的响应。当然,除非他们被另一个人工智能入侵。

新加坡科学家将他们的人工智能模型命名为“万能钥匙”。首先,他们对流行的LLM进行逆向工程,以了解它们如何防止恶意请求。开发人员经常对人工智能进行编程,以扫描关键字和特定短语,以将查询标记为使用有潜在危险。结果,他们发现了变通方法,然后 Masterkey 的人工智能模型使用了这些变通方法进行破解。南洋理工大学的研究人员报告说,黑客攻击出奇地太容易了。

在某些情况下,Masterkey 只需在每个字符后添加一个空格来混淆关键字扫描器,就可以从聊天机器人中获取被禁止的内容。该团队还发现,允许他们的人工智能“自由且不受道德约束”可能会使 Bard 和 ChatGPT 也更有可能发疯。新加坡人工智能模型还发现,代表虚构人物询问吟游诗人和ChatGPT会绕过保护。

利用这些数据,他们训练了他们的LLM,以理解和规避已知聊天机器人的保护。有了人工智能,团队派她去见ChatGPT和Bard。事实证明,万能钥匙可以找到线索,让其他聊天机器人说出他们的创造者不禁止他们说的话。初始激活后,聊天机器人破解程序可以完全自主地工作,当其他开发人员为其 LLM 添加和修改安全围栏时,根据其训练数据开发新的解决方法。

南洋大学的研究小组表示,他们并不打算创造一种新的危险人工智能。所做的工作仅表明了当前人工智能网络安全方法的局限性。事实上,这个人工智能模型可以用来保护 LLM 免受此类攻击。这项研究已发表在预印本出版平台arXiv上,但尚未经过同行评审。但研究人员已经警告OpenAI和谷歌关于一种黑客攻击大型语言模型的新技术。

免责声明: 激光网遵守行业规则,本站所转载的稿件都标注作者和来源。 激光网原创文章,请转载时务必注明文章作者和来源“激光网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 467 34 45@qq.com