ChatGPT遭遇数据泄露，人工智能安全如何保证？ - 网安 - 专业的网络安全产业、社区、知识平台

一、ChatGPT数据泄露事件经过

美国时间3月25日，OpenAI官方发布了3月20日ChatGPT临时中断服务的调查报告，并表示有1.2%的ChatGPT Plus的用户数据可能被泄露。

根据OpenAI官网公告表示，3月20日前，因开源数据库存在的错误导致了缓存出现问题，一些用户可能看到其他人聊天记录的片段，以及其他用户信用卡的最后四位数字、到期日期、姓名、电子邮件地址和付款地址等信息。最初该问题仅波及到个别用户，但是由于OpenAI在对服务器进行更改时再度出现失误，导致问题进一步加剧，受影响的用户可能扩大至1.2%的比例。

以下为OpenAI对此事件的说明：

“由于开源库中的一个错误，我们本周早些时候将 ChatGPT下线，该错误允许一些用户看到另一个活跃用户的聊天记录中的标题。如果两个用户大约同时处于活动状态，那么新创建的对话的第一条消息也可能在其他人的聊天记录中可见。该错误现已修补。除了几个小时的历史记录外，我们已恢复ChatGPT服务以及聊天记录功能。

经过更深入的调查，我们还发现，同样的错误可能导致 1.2%的ChatGPT Plus订阅者在特定的9小时窗口内处于活跃状态，从而无意中看到了与支付相关的信息。在周一我们关闭ChatGPT之前的几个小时内，一些用户可能会看到另一个活跃用户的名字和姓氏、电子邮件地址、支付地址、信用卡号的最后四位(仅)和信用卡到期时间日期。但任何时候都不会暴露完整的信用卡号码。

我们认为，数据实际泄露给其他人的用户数量极少。要访问此信息，ChatGPT Plus 订阅者需要执行以下操作之一：

· 打开3月20日星期一凌晨1点到10点发送的订阅确认电子邮件。由于该错误，该窗口期间生成的一些订阅确认电子邮件被发送给了错误的用户。这些电子邮件包含另一个用户信用卡号的最后四位数字，但没有显示完整的信用卡号。在3月20日之前，可能有少量订阅确认电子邮件被错误地处理，尽管我们尚未确认任何此类情况。

· 在3月20日星期一凌晨1点到10点之间，在ChatGPT 中单击“我的帐户”，然后单击“管理我的订阅”。在此窗口中，另一个活跃的 ChatGPT Plus用户的名字和姓氏、电子邮件地址、付款地址、信用卡号码的最后四位(仅)和信用卡到期日期可能是可见的。这也可能发生在3月20日之前，尽管我们尚未确认任何此类情况。

我们已联系受影响的用户通知他们的付款信息可能已被泄露。我们相信用户数据不会持续存在风险。

OpenAI致力于保护用户隐私并确保数据安全。这是我们非常认真对待的责任。不幸的是，本周我们没有兑现这一承诺，也没有达到用户的期望。我们再次向我们的用户和整个 ChatGPT社区致歉，并将努力重建信任。”

此前，数据安全公司Cyberhaven的研究人员分析了不同行业客户的160万员工使用ChatGPT的情况。在其发布的报告中表示，自ChatGPT公开发布以来，5.6%的知识工作者在工作中至少尝试使用过一次，4.9%的员工曾向ChatGPT提供了企业数据。受事件影响，一些美国和日本企业已开始限制在商业运营中使用ChatGPT等互动人工智能服务。美国银行、花旗集团、德意志银行、高盛集团、富国银行、摩根大通和Verizon 等越来越多的机构禁止员工使用ChatGPT聊天机器人处理工作任务。日本软银之前就使用ChatGPT和其他类似应用警告员工称：“不要输入公司的可识别信息或机密数据”。

二、ChatGPT数据泄露原因分析

（一）错误原理

从公布的技术细节可以看出，错误是在Redis客户端开源库redis-py中被发现的。OpenAI对错误原理进行如下说明：

· OpenAI 使用Redis在他们的服务器中缓存用户信息，所以ChatGPT不需要为每个请求检查数据库。

· OpenAI使用Redis Cluster将这一负载分布到多个Redis实例上。

· OpenAI使用redis-py库，以便让用了Asyncio的Python服务器与 Redis对接。

· 该库在服务器和集群之间维护一个共享的连接池，并在完成后回收连接以用于另一个请求。

· 当使用 Asyncio时，redis-py的请求和响应表现为两个队列：调用者将请求推送到传入队列，并从传出队列中弹出响应，然后将连接返回到池中。

· 如果在请求被推送到传入队列之后，但在响应从传出队列中弹出之前，请求被取消，就会看到错误：连接因此被破坏，下一个为不相关的请求出列的响应可以接收连接中留下的数据。

· 在大多数情况下，这会导致一个无法恢复的服务器错误，而用户将不得不重新尝试他们的请求。

· 但在某些情况下，损坏的数据恰好与请求者所期望的数据类型相匹配，因此从缓存中返回的数据看起来是有效的，即使这些数据属于另一个用户。

· 3月20日星期一凌晨1点，OpenAI无意中给他们的服务器引入了一个变化，导致Redis请求取消的情况激增。这在一定程度上引发了每个连接返回错误数据的可能性。

· 这个错误只出现在Redis Cluster的Asyncio redis-py客户端，现在已经被修复。

（二）补救措施

OpenAI表示采取了以下措施以改进系统：

· 广泛测试了对潜在错误的修复情况。

· 添加了冗余检查以确保Redis缓存返回的数据与请求用户匹配。

· 以编程方式检查日志，以确保所有消息仅对正确的用户可用。

· 关联多个数据源以准确识别受影响的用户，以通知用户。

· 改进日志记录以识别何时发生。

· 提高了Redis的稳健性，以减少在极端负载下出现连接错误的可能性。

三、数据泄露趋势分析

数据泄露是指，数据处理者丧失对其掌握数据的控制力，造成数据范围的扩散和用途的不可控。近年来，数据泄露事件屡有发生，呈现出泄露规模大、行业多、持续长等特点，数据泄露已经成为网络安全的主要威胁。

一是数据泄露规模体量增大。近年来，随着数据处理者业务上云的普及，线上业务持续增长，导致受数据泄露影响的个体数量不断扩大，少则数千万，多达数亿。

二是数据泄露涉及行业增多。随着越来越多的设备、平台相互联通，以及云计算、物联网的不断融合，数据泄露涉及的行业越来越广泛，已渗透至互联网、物流、金融、教育、医疗、酒店、娱乐等行业。其中，互联网、金融行业作为信息化、数字化发展程度最高的行业，已成为数据泄露的重灾区。

三是数据泄露持续时间较长。由于大部分个人信息处理者并没有应对数据泄露的响应机制，无法迅速发现个人信息遭到泄露。据IBM《2021年数据泄露成本报告》显示，数据处理者发现数据泄露平均需要212天，控制影响平均还需要75天，比去年长一周。此外，不同行业响应时间存在较大差异。

四是数据泄露引发原因多样。数据泄露原因多种多样，既有黑客利用系统漏洞进行攻击，又有数据库配置错误、企业人员非授权访问、第三方维护人员错误操作、“内鬼”主动泄露以及办公网络边界不再固定等诸多原因。此次，ChatGPT数据泄露事件即属于其中的数据库配置错误问题。

四、人工智能将引发网络安全进入智能化对抗时代

ChatGPT作为当下最热的人工智能技术，受到业界及公众追捧。越来越多的行业和领域逐步接入GPT技术，代表着相关行业的数据逐步为类GPT服务平台所共享，并且会随着应用范围和频率的增加，类GPT服务平台将获得海量的数据。ChatGPT数据泄露事件也是一种警示：技术的先进性并不与网络的安全性成正比，若技术应用越广泛、带来的不可控风险则越高。

人工智能技术是把双刃剑，在数字化浪潮下迎来广阔发展机遇的同时，随着与各领域融合应用不断深入，也引发安全方面的新问题。《2023产业互联网安全十大趋势》报告认为人工智能技术将对网络安全形势带来前所未有的挑战，呈现“ChatGPT大规模人工智能计算广泛应用于安全领域，攻防进入智能化对抗时代”的新趋势。报告指出，ChatGPT基于强大的基础模型、高质量的样本数据、基于人类反馈的强化学习三大能力，带来了巨大的可能性。然而随着生成式人工智能技术的进步，网络攻击者可以轻松地进行微调和针对性的攻击，因此ChatGPT将对网络安全构成严重的威胁。目前，网络攻击者已开始使用ChatGPT创建恶意软件、暗网站点和其他实施网络攻击的工具。此外，使用ChatGPT编写用于网络攻击的恶意代码软件，将会大大降低攻击者的编程或者技术能力门槛，将导致即使没有技术基础也能成为攻击者。同时，人工智能赋能网络攻击与传统网络攻击在技术与手法上相比，将使过去劳动密集型、成本高昂的攻击手法开始彻底转型，朝着分布式、智能化、自动化方向发展，从而形成更为精准和快速的自动化攻击手法。未来，随着大模型人工智能计算被广泛应用于网络攻击各个领域，网络安全形势将更加严峻，攻防真正进入智能化对抗时代。

当前，如何加强人工智能安全治理，保障人工智能安全健康发展，已成为各界关注的课题。未来生命研究所（Future of Life Institute）29日公布一封题为“暂停巨型人工智能实验”的公开信，呼吁所有人工智能实验室立即暂停训练比GPT-4更强大的人工智能系统至少6个月。辛顿、马库斯和马斯克均签署了这封公开信。公开信中提出，广泛的研究表明，具有与人类竞争智能的人工智能系统可能对社会和人类构成深远的风险。高级人工智能可能代表地球生命史上的深刻变化，应以辅以相应的资源进行规划和管理。然而，这种级别的规划和管理并没有发生，只有当我们确信它们的影响是积极的并且风险是可控的时候，才应该开发强大的人工智能系统。这种确信必须有充分的理由，并随着系统潜在影响的规模而增加。