研究人员利用LLM聊天机器人破解其他聊天机器人

Anna艳娜2024-01-23 14:18:29

新加坡南洋理工大学的计算机科学家们近日成功入侵了多个人工智能(AI)聊天机器人,包括ChatGPT、谷歌Bard和微软必应聊天机器人,生成了所谓的“越狱”(即破解)内容。


“越狱”是计算机安全领域的一个术语,指计算机黑客发现并利用系统软件中的缺陷,让软件执行其开发者有意限制它执行的一些操作。


此外,通过使用提示数据库训练大语言模型(LLM)——这些提示已经被证明可以成功破解这些聊天机器人。研究人员创建了一个LLM聊天机器人,能够自动生成进一步的提示以破解其他聊天机器人。


LLM构成了人工智能聊天机器人的大脑,使它们能够处理人类输入的一些内容,并生成与人类几乎相同的文本,这包括完成如规划旅行行程、讲述睡前故事以及开发计算机代码之类的任务。


南洋理工大学研究人员的研究工作增加了“越狱”这项任务。他们的发现这项任务的结果可能对帮助公司企业意识到LLM聊天机器人的弱点和局限性至关重要。清楚到弱点之后它们就可以采取措施,加强防范黑客的工作。


研究人员对LLM进行了一系列概念验证测试,以证明他们采用的技术的确对LLM构成了明确而实际的威胁,发起成功的越狱攻击后,立即向相关服务提供商报告了问题。



图1. 越狱攻击示例


目前,LLM聊天机器人在日常使用中广受欢迎。开发者已经设置了护栏机制,以防止人工智能生成暴力、不道德或犯罪的内容。且现在研究人员已经使用人工智能来对付人工智能,“越狱”LLM以生成这类内容。


论文的合著者南洋理工大学博士生刘奕(Liu Yi)表示:“论文提出了一种新颖的方法,可以自动生成破解强化版LLM聊天机器人的越狱提示。使用越狱提示对LLM进行训练,就可以自动生成这些提示,从而获得比现有方法高得多的成功率。实际上,我们利用聊天机器人攻击其他聊天机器人。”


研究人员的论文描述了一种“越狱”LLM的双重方法,他们称之为“Masterkey”(万能密钥)。


首先,他们对LLM如何检测和防御恶意查询进行了逆向工程分析。他们掌握了相关信息后,教LLM自动学习和生成提示,从而绕过其他LLM的防御机制。这个过程可以实现自动化,创建一种可以越狱的LLM,从而能够适应并创建新的越狱提示,即使在开发者给LLM打补丁之后也是如此。


研究人员的论文发表在预印本服务器arXiv上,已获准在2024年2月于美国圣迭戈举行的网络和分布式系统安全研讨会上发表。


阻止LLM生成不道德内容


人工智能聊天机器人接收来自用户的提示或一系列指令,所有LLM开发者都制定了指导方针,以防止聊天机器人生成不道德、可疑或非法的内容。比如说,如果询问人工智能聊天机器人如何创建恶意软件来入侵银行账户,它们通常会拒绝回答。


但人工智能聊天机器人仍容易受到越狱攻击。它们可能会被攻击者破坏,滥用漏洞,迫使聊天机器人生成违反既定规则的输出内容。


有研究人员探究了绕过聊天机器人的方法,他们设计了一些不被伦理道德指导方针注意的提示,以便诱骗聊天机器人对这些提示做出回应。比如说,人工智能开发者依赖关键字审查器来挑出可能标记潜在可疑活动的某些单词,并在检测到这些单词后拒绝回应。


研究人员采用的一种绕过关键词审查器的策略是创建一个用户角色(persona),提供在每个字符后面仅含空格的提示。这规避了LLM审查器,LLM审查器使用禁用单词列表进行比对审查。


研究人员可以通过手动输入提示,并观察每个提示成功或失败的时间,以此推断LLM的内部工作机理和防御机制。然后,他们就能够对LLM隐藏的防御机制进行逆向工程分析,进一步确定其有效性,并创建一个成功破解聊天机器人的提示数据集。


黑客和LLM开发者之间的较量愈演愈烈


黑客发现并揭露漏洞后,人工智能聊天机器人的开发者会以“修补”这个问题作为回应,因此黑客和开发者之间上演了一场无休止的猫捉老鼠把戏。


凭借Masterkey,计算机科学家在这番较量中加大了筹码,因为人工智能越狱聊天机器人可以生成大量提示,并不断学习哪些提示有效、哪些提示无效,允许黑客用自己的工具击败LLM开发者。


研究人员首先创建了一个训练数据集,含有他们在早期越狱逆向工程阶段发现有效的提示,以及不成功的提示,以便Masterkey知道不应该做什么。研究人员一开始将该数据集馈入到LLM中,随后进行连续的预训练和任务调优。


这将模型暴露在各种各样的信息中,并通过针对与越狱直接相关的任务进行训练,来提升模型的能力。其结果是,LLM可以更准确地预测如何操纵文本进行越狱,从而生成更有效、更普适性的提示。


研究人员发现,就越狱LLM的效果而言,Masterkey生成的提示比LLM生成的提示高出三倍。Masterkey还能够从过去失败的提示中学习,实现自动化,不断生成新的、更有效的提示。


研究人员表示,他们的LLM可以被开发者用来加强聊天机器人的安全性。 


参考及来源:https://techxplore.com/news/2023-12-ai-chatbots-jailbreak.html

人工智能聊天机器人
本作品采用《CC 协议》,转载必须注明作者和本文链接
除了WormGPT、FraudGPT新型生成式人工智能黑客工具,至少还有另一个正在开发中,据称该工具是基于谷歌的人工智能实验 Bard。
新加坡南洋理工大学的计算机科学家们近日成功入侵了多个人工智能(AI)聊天机器人,包括ChatGPT、谷歌Bard和微软必应聊天机器人,生成了所谓的“越狱”(即破解)内容。
2022 年 11 月末,由美国 OpenAI 公司开发的聊天机器人 ChatGPT 横空出世。考虑到因信息不实而作出错误决策的风险,虚假信息或许是阻碍生成式人工智能大范围商用的最大技术难题。尽管 OpenAI 声称此次事件仅涉及1.2%的 ChatGPT Plus 用户,但考虑到 ChatGPT 的庞大用户群,涉事用户恐怕不在少数。
随着 OpenAI 发布 ChatGPT 带来的影响,人们更加关注生成式人工智能(AIGC)这个在人工智能领域的新突破。随着机器学习和大量计算能力的发展,复杂的人工智能已经成为现实,而且会不断改进。这在带来生产力变革的同时,也引起全球对其数据安全问题和挑战的极大关切,包括内容安全、算法歧视、侵犯知识产权和信息泄露等安全隐患。
近期,人工智能聊天机器人ChatGPT几乎火爆全网,它能根据要求进行聊天,能撰写论文、创作诗歌,还能编写代码、生成剧本等等,可谓是“上知天文,下知地理”,在展现出AI惊人能量的同时,也为世界带来了不可思议的新能力。
自 OpenAI 发布 ChatGPT 以来,许多安全专家预测,网络犯罪分子开始使用 AI 聊天机器人编写恶意软件并执行其他恶意活动只是时间问题。据报道,该恶意软件能够窃取感兴趣的文件。但安全研究人员表示,有很多证据已经表明ChatGPT确实有助于低技能黑客创建恶意软件,这将持续引发公众对网络犯罪滥用该技术的担忧。从那以后,Shykevich表示,OpenAI一直在努力改善聊天机器人的限制。
自2022年11月推出以来,人工智能聊天机器人ChatGPT已经因其惊人的表现而引起了不小的轰动。由于缺乏安全措施,威胁行为者很容易使用ChatGPT机制,例如,母语并非英语的恶意行为者可以用近乎完美的语法在几秒钟内创建一个逼真的、诱人的消息。公司可能没有采取足够的安全措施,阻碍了建立有效安全程序的进展。
脚本的一部分使用椭圆曲线加密和曲线ed25519生成密钥,用于对文件进行签名。第一个是用于漏洞利用后进行信息窃取的Python脚本。研究人员用ChatGPT开发完整感染链上周五的报告是在Check Point研究人员尝试开发具有完整感染流的AI生成的恶意软件两个月后发布的。虽然ChatGPT条款禁止将其用于非法或恶意目的,但研究人员毫不费力地调整了他们的请求成功绕过这些限制。
埃隆•马斯克旗下人工智能公司xAI最新推出了名为GroK的人工智能聊天机器人,并面向美国地区的Premium+ X 用户开放。
Anna艳娜
暂无描述