ChatGPT在数据安全领域的应用前景

VSole2023-03-03 09:31:47

一. 引言

ChatGPT[1]是由OpenAI推出的一种基于Transformer的自然语言处理模型，在智能问答、对话生成、文章摘要等任务上都取得了较好的成绩，具有较强的泛化能力，能够针对不同的场景进行自适应调整，因此有着较为广泛的应用前景。ChatGPT模型通过大规模的数据训练，利用深度学习技术学习语言模式和语义关系，从而实现高效的自然语言处理和对话生成。由于其在人工智能领域的出色表现和影响力，ChatGPT在学术界和工业界都受到了广泛的关注和研究。

ChatGPT横空出世后，在安全界引起了极大的轰动，从恶意代码的生成与检测、漏洞的扫描与处理到安全专家系统，ChatGPT无不彰显其在安全场景下巨大的潜力。

作为网络安全的重要一环，数据安全是指保护数据不被未经授权的访问、使用、修改、泄露、破坏或丢失，确保数据的完整性、可用性、保密性、可控性和可审计性。可以说，在当今时代保障数据安全已经成为了国家、社会、企业和个人最为紧迫的任务之一。

二. ChatGPT助力绿盟数据安全治理体系建设

绿盟科技针对数据安全治理体系建设，提出了“知、识、控、察、行”的数据安全方法论[2]。

知与识-敏感数据定义与识别以及风险识别

开展数据安全建设的第一步就是：定义什么是敏感数据，基于业务特点进行数据的识别、数据分类、数据分级。数据分类分级的准确清晰，是后续数据保护的基础。

依托定义好的敏感数据分类和分级对全体数据进行检测，判断其分类分级，数据安全建设的重要能力之一。

图 1. 敏感数据定义

ChatGPT的强大能力可以直接应用在敏感数据定义与识别上，在图1中我们定义了一些敏感数据，并在图2中向其发送数据进行判断。在这一过程中，ChatGPT完成了敏感数据的定义与识别任务，识别出数据中潜在的敏感信息，并将其分类和分级，为后续的数据保护工作奠定了基础。

图 2. 敏感数据识别

值得一提的是，在以往的方案中会对结构化数据、半结构化数据和非结构化数据采取不同的手段进行处理，而对于ChatGPT这样的大型语言模型来说，有文本存在即可尝试处理。因此，我们使用三种不同类型的数据对ChatGPT的敏感数据分级分类能力进行了测试，如图3所示，取得了正确分类的结果。

图 3. ChatGPT对不同类型数据识别能力

不难看出，ChatGPT在敏感数据定义与识别上具有能力与潜力，但在实际工程应用中仍存在着难点：(1)ChatGPT并非本地化部署，所有的数据输入都会发送给OpenAI的服务器，带来了数据泄露的风险，因此一个自主可控的模型尤为重要；(2)作为大语言模型，ChatGPT擅于处理结构化和半结构化等带有较多文本信息的数据，但对于包含了影音图像等多媒体信息的非结构化数据的处理则更具挑战性；(3)实际工程应用中数据量、单个数据大小将以几何程度提升，现有ChatGPT服务限制了来自单个用户的海量、超长数据接收和处理能力，因而带来了本地部署的需求。

完成敏感数据分类分级后，风险识别的也是一个重要的步骤。数据在采集、存储、传输、处理、交换、销毁的数据生存周期中，会在IT系统的各种环境中存在，因此，环境的安全成为数据安全的重要因素之一。IT系统一旦出现安全隐患，都会导致系统环境中的敏感数据泄漏或丢失。针对风险识别，ChatGPT能够起到一定的辅助作用。以漏洞扫描为例，ChatGPT可以识别出潜在的漏洞点，并给出风险评估与修复建议（如图4所示）。在协议安全性分析方面，ChatGPT可以对协议进行语义理解，根据协议中的语义信息进行安全性分析和风险识别（如图5所示），以此帮助安全人员更好地理解和分析协议中存在的潜在安全问题。

图 4. ChatGPT辅助漏洞扫描与识别

图 5. ChatGPT进行协议安全性分析

显然，ChatGPT在一定程度上可以辅助安全人员进行风险识别的工作，但如果需要落地成为一个自主的风险识别工具，仍有难点：(1)ChatGPT无法直接和环境进行交互并分析结果，需要中间层或者人为进行交互；(2)在协议分析的过程中，输入的主题内容不变但ChatGPT返回的结果基于概率生成，导致结果具有随机性；(3)ChatGPT使用2021年及之前的数据训练而成，因此对于之后新发现的漏洞、风险无法做到及时更新学习。

控-根据敏感数据的级别，设定数据在全生命周期中的可用范围，利用规范和工具对数据进行细粒度的权限管控

对数据的管控手段需要覆盖全部环节，由外向内防止攻击入侵，由内向外防止数据滥用、伪造和泄露。由外向内的管控防御主要依赖于入侵检测、身份认证等技术。而由内向外的管控防御包括数据防泄漏、数据脱敏等技术。在入侵检测和威胁情报分析上，ChatGPT已经证明了其能力。但在涉及到需要设计的系统中，如统一身份认证、数据防泄漏等领域，ChatGPT仅能作为辅助工具发挥作用。具体而言，ChatGPT可以协助实现一些具体的细分功能，如数据加密、数据水印等，也可以提供系统设计建议和方法论。但是，对于系统整体的设计和实现，仍需要专业团队的参与。

图 6. ChatGPT数据脱敏

在图6中，ChatGPT能够识别到请求的敏感数据并进行脱敏操作，但仍有错误现象出现。能够得出结论，在数据的管控阶段，我们更多需要系统的设计能力，但ChatGPT此时只能提供方法论上的指导和具体细分功能的初步实现，在一定程度上能够减轻工作压力，但无法完全取代人类工作。

察-对数据进行监督监察，保障数据在可控范围内正常使用的同时，也对非法的数据行为进行了记录，为事后取证留下了清晰准确的日志信息

敏感数据监察分析是“察”的主要组成部分，能够发现安全问题与异常事件。敏感数据监察分析包括了协议分析技术、大数据分析技术以及用户行为分析技术UEBA[3]。

图 7. ChatGPT进行HTTP请求分析

协议分析、大数据分析、用户行为分析是密不可分的技术，在当前环境下，网络数据呈现着海量、流速高的特点。ChatGPT对单一数据能够做到解析与分析（如图7所示），但真实场景几乎不会只用单一的数据进行解析与分析。例如，一个UEBA数据集中共有528690条不同数据，ChatGPT难以进行完整的数据接收。在图8中，我们使用少量数据让ChatGPT建立机器学习模型进行了UEBA检测任务。

图 8. ChatGPT进行UEBA检测任务(真实ret值为0.0886)

行-对不断变化的数据做持续性的跟踪，提供策略优化与持续运营的服务

不断发展的业务和不断变化的数据带来了对数据安全优化改进与持续运营的需求。数据安全策略的设置主要是根据合规要求而来的，而使用ChatGPT作为合规分析工具吸引了较为广泛的关注。

图 9. ChatGPT隐私政策合规性测评指标体系构建

合规分析主要分为了政策文本解析与程序系统分析两个部分，合规分析最主要的依据是按照相关法律法规构建的合规性测评指标体系，ChatGPT的出现对法律法规解析、政策文本解析（隐私权保护声明等）和程序系统分析提供了一种潜在的解决方案[4]。

如图9所示，针对法律法规，ChatGPT能够生成一套隐私政策合规性测评指标体系。并且能够解析政策文本，给出具体评分和改进建议（如图10所示）。

图 10. ChatGPT政策文本解析与评分

如图11所示，ChatGPT完成了对代码的静态分析和隐私合规性的检测。相较于静态分析，动态分析可以更加全面地检测代码中存在的安全问题，并能够捕获代码在运行时产生的漏洞，因此对代码的分析往往会使用动静结合的方式进行，而如果使用ChatGPT进行代码动态分析，其交互能力将会成为主要瓶颈[5]。

图 11. ChatGPT代码静态检测

三、总结

ChatGPT的爆火，除了OpenAI的免费策略外，其较为强大的表现也起到了推动性作用。本文结合绿盟科技数据安全治理体系，探究了ChatGPT在数据安全领域的应用前景与影响。总而言之，对于数据安全邻域内的识别检测和生成任务（代码生成、文本生成等），ChatGPT能够有效应对，但对于设计类型的任务，ChatGPT现阶段仍只能起到方法论上的指导作用。并且由于受到模型本地化、交互以及输入输出限制的影响，ChatGPT在安全领域的大规模应用并没有完全普及，但ChatGPT和类似模型的出现仍会大大推动数据安全、网络安全的建设发展。

参考文献

[1] OPENAI. ChatGPT[EB/OL]. https://chat.openai.com/

[2] 绿盟科技. 绿盟数据安全解决方案白皮书 [R], 2019.

[3] SHASHANKA M, SHEN M-Y, WANG J. User and entity behavior analytics for enterprise security; proceedings of the 2016 IEEE International Conference on Big Data (Big Data), F, 2016 [C]. IEEE.

[4] HARKOUS H, FAWAZ K, LEBRET R, et al. Polisis: Automated analysis and presentation of privacy policies using deep learning; proceedings of the 27th {USENIX} security symposium ({USENIX} security 18), F, 2018 [C].

[5] LINDORFER M, NEUGSCHWANDTNER M, PLATZER C. Marvin: Efficient and comprehensive mobile app classification through static and dynamic analysis; proceedings of the 2015 IEEE 39th annual computer software and applications conference, F, 2015 [C]. IEEE.

信息安全数据安全

撤稿纠错

本作品采用《CC 协议》，转载必须注明作者和本文链接

关于第38次全国计算机安全学术交流会征文的通知

2023-03-21 10:48:19

本次年会由公安部网络安全保卫局指导，中国计算机学会主办，计算机安全专业委员会承办。网络安全作为网络强国、数字中国的底座，将在未来的发展中承担托底的重担，是我国现代化产业体系中不可或缺的部分。为办好本次大会，充分发挥专委会在服务国家网络安全战略发展需要，促进学术成果交流，提升学术研究水平的作用，本次会议的主题为“夯实网络安全防线，构建中国式现代化网络强国”。

信查查8月网络安全宣传月：网安则国安，国安则民安

2022-08-01 10:04:14

信查查通过多年在网络安全行业的耕耘，成为了众多单位、电信、银行、电商、高等院校、医院、企业等单位的长期合作伙伴。从个人层面来看，网安问题会带来私人信息泄露，进而威胁生命、财产安全。从政企层面来看，关键数据资产的泄露可能招致国家网络信息系统被攻击的危险，尤其是针对关键性基础设施的网络攻击会导致重大国家安全事故。

天融信独家承办的2022年中国工业信息安全大会数据安全分论坛成功举行！

2023-01-11 10:13:11

构建安全数据底座，护航数字经济发展。数据已成为数字经济时代最为活跃的新型生产要素。

数据安全能力建设实施指南

2021-10-02 13:45:24

本指南依据《信息安全技术 数据安全能力成熟度模型》（简称DSMM）制定，以数据为核心，重点围绕数据生命周期，从组织建设、制度流程、技术工具和人员能力等四个方面，提供数据安全能力建设的具体实施指南，为组织数据安全能力建设提供参考。

证券期货行业如何做好数据安全管理与保护

2022-12-06 07:21:59

指引制定背景随着近年来相关法律法规与行业标准相继出台，数据安全体系建设的监管要求日趋严格。基本原则在过程域划分原则上，指引中的数据存储阶段涵盖了数据删除和数据销毁两个环节，进行了部分环节的合并与调整。同时指引还针对数据安全管理部门、合规风控部门、业务管理部门、信息技术部门和内部审计部门明确了各部门的数据安全管理职责的责任划分，建立了数据安全工作分工协作的机制。

数据安全需求全面升级下的市场机遇和挑战

2022-07-19 11:18:29

遇到的考验与挑战数据安全治理咨询现状数据安全治理指的是数据安全分类分级、个人数据风险评估等与数据安全相关的咨询服务。为解决客户的数据安全分类分级及数据风险评估，明朝万达提供了一整套的底层基础能力，支撑对客户的数据安全分类分级和数据风险评估的数据安全领域的咨询团队、专用工具集、方法论和经验沉淀、数据安全产品及研发团队和驻场人员。

工业互联网数据安全治理实践

2022-12-06 09:18:51

数据时代，数据自身安全以及数据保护的安全成为关注的重点，工业化互联网数据安全成为工业互联网发展的重要基础，随着《数据安全法》的正式颁布，数据在安全体系中占据了核心地位。其中，数据信息安全强调保护数据资产不受意外或未经授权的访问、更改或破坏，确保其可用性、完整性和机密性。流入控制系统的信息必须受到充分保护，同时还要保护物理过程的安全性和弹性。

电信领域数据安全标准体系现状与思考

2022-05-18 13:15:38

数据安全问题涉及公众利益、社会稳定与国家安全，亟需规范安全管理，加强安全防护。而数据安全标准是开展数据安全管理、规范行业数据安全要求、指导企业提升数据安全能力的重要抓手。

数据安全治理现状研究与分析

2022-04-03 07:29:01

近年来，国内外数据泄露事件频发，大量企业的商业利益、声誉受损。数据安全法律法规相继颁布，监管力度不断升级，企业逐渐意识到数据安全治理的重要性与紧迫性。通过对2021年开展的企业数据安全治理能力评估现状进行整理，总结企业数据安全治理工作在组织建设、人才培养、技术工具等方面的现状与趋势，提供能力提升思路，以供业界参考。

《数据安全法》指导下的数据安全发展

2021-11-29 14:50:44

作为我国数据安全领域的基础性法律、国家安全领域的重要法律，《数据安全法》的出台体现了当前数字经济发展对安全的关键需求，为我国数据安全的发展之路提供了指引。

VSole

网络安全专家