利用AI合成去识别化数据

VSole2023-05-25 08:55:13

在2023年的RSA会议上,弗吉尼亚行为健康和发展服务部的CISO和研究员分享了题为“机器崛起:通过人工智能实现数据安全与分析”的议题。他们提出了使用人工智能的方法来快速合成“去识别”(de-identified)数据,从而避免了大量资源消耗和人为误差。本文将解读该议题及其涉及的相关技术基本原理。

人工智能与数据合成

统计学习(Statistical Learning)、机器学习(Machine Learning)、符号学习(Symbolic Learning)、神经网络(Neural Network)…… AI发展至今,已经形成了庞大的分支。每个分支上都存在着各种不同的技术。通过利用这些技术,我们使得机器更加智能。它们可以帮助我们进行分类和预测任务、物体识别任务、动作捕捉任务以及语音的识别和转录任务,如图 1所列举。然而,要训练这些机器,我们需要大量的数据作为支持。因此,一个出色的模型通常需要大量的训练数据。

图1 机器学习与人类

这引出了一个问题:如何获取如此庞大的数据?而这个问题又会带来一系列相关问题:在个人信息保护法的要求下,如何合规合法地收集去识别和脱敏的数据?如何确保在对数据进行识别和脱敏后,仍然能够有效地用于训练?

在会议上,Glenn Schmitz提出了使用合成数据(synthetic data)的方法,即利用人工智能自动合成数据,跳过传统的数据收集过程,将由人工智能合成的数据用于其他人工智能的训练或数据分析。如图2所示,通过CycleGAN技术,我们可以将真实图片转换为虚拟图片,例如将冬天的景象转变为夏天的景象。Glenn Schmitz在会议中提出了三种不同的方法:合成少数过采样技术(SMOTE),变分自编码器(VAEs)和生成对抗网络(GAN)。

图2 CycleGAN合成数据样例图

SMOTE&VAEs&GAN

SMOTE一种使用真实数据进行数据合成(data synthesis with real data)的方法。这种方法使用已有的真实数据集作为基础,并通过对其进行处理和转换来生成新的数据集。通常,这涉及对原始数据进行采样、转换、增强或添加噪声等操作,以生成更多的样本。使用真实数据进行数据合成的主要优点是生成的数据能够反映出原始数据集的真实特征和分布。具体而言SMOTE通过在少数类样本之间进行插值,生成合成样本来增加少数类样本的数量。如图3所示,SMOTE方法选择一个少数类样本和其最近邻的样本,然后在它们之间随机插值生成新的样本。这样可以增加少数类样本的数量,平衡数据集,并提高机器学习算法对少数类的分类性能。

图3 SMOTE样本点生成示意图

与之相对,VAEs和GAN都是不使用真实数据进行数据合成(data synthesis without real data)的方法。这种方法不依赖于任何真实数据集(生成的数据不依赖于真实数据集,模型的训练可能需要),而是使用各种建模技术来生成合成数据。通过学习原始数据集的特征和分布,这些模型可以生成与原始数据类似的合成数据。不使用真实数据进行数据合成的优点是可以生成大量的数据样本,即使在原始数据稀缺或难以获得的情况下也能够进行模型训练和算法评估。然而,由于生成的数据不是基于真实观测数据,因此可能无法完全捕捉真实世界中的复杂性和不确定性。

具体而言,VAEs是一种基于概率模型的数据合成方法。它结合了自编码器和变分推断的思想,可以用于生成合成数据。通过学习数据的潜在表示空间,如图4中通过encoder学习到数据的概率分布,VAES在该空间中采样来生成新的合成数据样本。它的优势在于能够生成具有多样性的数据,同时还能保持数据的连续性和一致性,因为它们是对数据的生成过程进行建模,并且能够通过调整潜在空间中的参数来控制生成样本的特征。

图4 VAEs的编码与解码示意图

而GAN是通过两个部件——生成器与判别器来合成数据。其中,生成器负责生成合成数据样本,而判别器则负责区分真实数据和合成数据。如图5所示,通过对抗性训练,生成器可以逐渐学习生成逼真的合成数据,同时判别器也不断提升辨别真实与合成数据的能力。这种对抗性训练过程使得GAN能够生成具有高度逼真度和与真实数据相似性的合成数据。

图5 CGAN的对抗示意图

合成数据的应用场景

对于合成数据的应用场景,Glenn Schmitz提到了四个目前取得成果的例子,如图6所示。首先,FACS(Facial Action Coding System)发表了应用合成数据用于骨科手术的案例。其次,DeepAI利用合成数据训练了图像分割和目标提取模型。第三,OpenAI利用合成数据进行了语义识别的研究。最后,Ilge Akkaya发表了使用合成数据训练机器人手臂的成果。

总的来说,合成数据在许多应用场景中发挥着重要作用。它可以用于增强真实数据集的规模和多样性,从而提高机器学习模型的性能和泛化能力。合成数据还可以用于填补缺失数据或处理数据不平衡的问题,以平衡数据集的分布。此外,合成数据也可以在隐私保护方面发挥作用,通过生成合成数据来替代敏感信息,以保护个人隐私。在模拟和仿真领域,合成数据可以用于创建虚拟环境和场景,以进行测试、验证和训练,从而降低成本和风险。总之,合成数据具有广泛的应用场景,为各种领域的数据分析、建模和决策提供了有价值的资源。

图6 合成数据应用场景

合成数据的“深渊”

Glenn Schmitz指出,尽管合成数据方便了训练数据的获取,但它仍然存在一些争议和风险。从AI的伦理和道德角度来看,合成数据的生成过程,因为设计原因,可能本身带有一定的“偏见”,使得生成的数据具有强烈的“个人属性”。此外,从使用的角度来看,当合成数据用于"精细任务"时,它所引入的误差可能带来巨大的使用风险。如图 7所示,使用时,需要全面的考虑到利弊,同时也需要在道德,偏差与目标做权衡。

图7 合成数据与AI的使用

正如CycleGAN的研究者在论文中所指出的,CycleGAN的输出是对“如果......它会是什么样子”的预测,虽然这些预测看似合理,但与基本事实可能存在很大差异。因此,在根据CycleGAN的输出作出关键决策的领域中,需要谨慎使用和校准。特别是在医学应用中,例如将MRI数据转换为CT数据时,这一点尤为重要。就像CycleGAN可能在天空中添加奇特的云彩,使其看起来像梵高的画作一样,它可能会在医学图像中添加不存在的肿瘤或者移除真实存在的肿瘤,如图 8所示。

图8 合成数据错误移除与添加肿瘤

合成数据的工具

为了方便研究人员和开发者使用,Glenn Schmitz列举了一些常用的数据合成工具,如图9所示,包括:

1)Mimesis:一个多语言的假数据生成库,可以生成各种类型的数据,如姓名、地址、电子邮件等。

2)The Synthetic Data Vault(SDV):一个开源工具,用于生成合成数据集,它基于统计模型和机器学习算法,可以模拟真实数据的分布和属性。

3)Transaction data simulator:用于模拟交易数据的工具,可以生成合成的交易数据集,用于测试和分析目的。

4)YData Synthetic:一个用于生成合成数据的平台,提供了各种数据类型和生成方法,可以根据需求创建合成数据集。

5)Faker:一个用于生成合成数据的Python库,可以生成各种类型的数据,如姓名、地址、日期等。

此外,还有一些常用的Python库,如sklearn(Scikit-learn)、faker module、PYOD(Python Outlier Detection)、CTGAN(Conditional Tabular GAN),它们提供了丰富的功能和算法,用于生成和处理合成数据。

图9 合成工具包举例

大数据机器学习
本作品采用《CC 协议》,转载必须注明作者和本文链接
这篇技术干货 带你了解深信服的AI技术
近日,Mintegral通过了2022年网络安全等级保护第三级测评,表明Mintegral的信息安全管理能力,已达到国内非银行机构的最高标准。据了解,Mintegral在算法技术上持续投入,是首批将DCO动态创意优化技术与互动创意相结合的广告平台之一。在每次广告请求筛选广告时,Mintegral的算法会自动增加一个创意组合维度、产生更多的候选结果,让Mintegral的投放效率具备一定的比较优势。
近年来,移动金融发展迅速,新业态、新模式层出不穷。用户通过智能手机终端进行投资理财、消费借贷、交易支付等金融业务操作,大大提升了金融业务的便捷性。各商业银行也都推出了手机银行、直销银行、微信银行等多元化移动金融渠道。
近日,国际权威IT研究机构Gartner发布《2022中国网络安全技术成熟度曲线》报告。快速满足等级保护要求,为600多朵私有云提供安全资源池服务。可视化的安全监控与态势感知,统一管理提升运维处置效率。态势感知建立基于全国的纵横联动态势感知Gartner认为,中国态势感知技术是安全信息和事件管理平台的现代、集中和发展版本。数据分类分级对数据安全、数据治理和合规项目至关重要。
Github渗透测试文档资料集合
没有数据安全就没有国家安全,数据安全治理作为数据安全体系重要的组成部分引起了各行各业越来越多的关注。从数据环境下海量数据面临的安全风险出发,结合数据在使用过程中的安全需求,给出了一种动态防御的数据安全治理架构,并对该架构下的关键技术进行了研究。该架构能够为数据安全治理提供体系化安全治理思路,其中的关键技术可以为该架构的实现提供有效支撑。 《中华人民共和国数据安全法》(下文简称:数据安全法)的正
数据质量的高度敏感要求,数据质量的优劣极大程度影响AI模型的应用效果,必须进行多维度的质量检查,以及对实时性高要求,实时数据分析、推荐和预警时,数据源更强调具备实时性接入能力。最后是AI引擎的自我迭代阶段。达到AI模型上线后的持续迭代优化。考虑到数据训练规模扩张,数据类型异构,数据噪声指数级增加,对此AI 引擎能针对性地进行数据自动发现。
数据暴政与数据光明
2022-06-09 11:26:54
背景:现如今,空前且大规模的人类行为数据的可用性正在深刻地改变着我们所处的世界,经济学、公共卫生学、医学、生物学、城市科学等在这一趋势中都受到影响。各个组织、公民个人正在积极尝试、创新和改编算法决策工具以了解全球人类行为模式,并为解决社会重要性问题提供决策支持。
此前,本公号发表过的关于数据要素治理的相关文章包括: 《非个人数据在欧盟境内自由流动框架条例》全文中文翻译(DPO沙龙出品) 简析欧盟《数字市场法》关于数据方面的规定 数据流通障碍初探——以四个场景为例 对“数据共享合法化”的分析与思考系列之一:以《关于欧洲企业间数据共享的研究》为起点 对“数据共享合法化”的分析与思考 系列之二 ——欧盟B2B数据共享的案例研究 对“数据共享合法化”的分析与思考
VSole
网络安全专家