专家观点:如何无损保护敏感机器学习训练数据

VSole2022-12-28 21:33:27

此前有文章讨论过机器学习(ML)数据保护问题,重点强调了操作查询数据所带来的现实挑战。即,ML系统在使用过程中所面临的数据暴露风险很可能会高于前期训练的时候。

粗略估计,贝里维尔机器学习研究所(BIML)确定的已知机器学习安全风险中,数据安全风险至少占据了60%。这块风险(60%)又进一步细分为操作数据暴露风险和训练数据暴露风险,占比大致为九比一。训练数据即使只是ML数据风险中的一小部分,但也是很重要的一小部分。结果就是,我们确实需要花费一些精力来缓解ML带来的操作数据风险问题,同时还需要考虑训练数据暴露问题。

有意思的是,ML数据安全领域里似乎每个人都只谈论训练数据保护问题。为什么会这样呢?别忘了,ML的最终事实在于,完成所有学习的算法,其实不过就是实例化机器可运行形式的数据!

所以,只要你的训练数据集包含敏感数据,那你用ML通过这些数据构造出来的机器也包含敏感信息。而如果你的训练集包含偏差数据或受监管数据,那你用ML通过这些数据元素构建的机器就包含偏差或受监管信息。如果你的训练集包含企业机密数据,那你用ML通过这些数据元素构建的机器就包含企业机密信息。诸如此类。

算法是数据,并通过训练变成数据。

显而易见,ML领域将重点放在保护训练数据上是有一些好处的。不出意外,应对训练数据问题的主流观点之一是修复训练数据,使其不再直接含有敏感、偏差、受监管数据和机密数据。极端一点的话,你甚至可以干脆从训练集中剔除这些数据元素。没那么疯狂,但同样有问题的做法是调整训练数据,屏蔽或模糊掉敏感、偏差、受监管数据和机密数据。

我们不妨花点时间研究下这个问题。

数据所有者和数据科学家

这个机器学习新范式里最难理顺的一个问题是谁来管哪种风险。这个问题不解决,那怎么设置和实施信任边界的问题就有点棘手了。比如说,我们可不仅仅需要区别并了解操作数据和训练数据,还得进一步确定谁拥有(和应该拥有)训练数据访问权。

更糟糕的是,训练数据元素是否存在偏差、是否属于受保护的类成员、是否受法律保护、是否受监管、是否机密数据等问题,甚至更加棘手。

先讨论最重要的事。首先,有人生成了可能会出问题的数据,是这些数据组件的所有者。该数据所有者最终可能会获得一堆需要他们担负起保护责任的数据,比如种族信息、身份证号、人脸照片等等。这是数据所有者。

通常情况下,数据所有者与数据科学家不是同一个实体,数据科学家负责用数据来训练机器做一些有意思的事情。也就是说,安全人员需要确定数据所有者和训练ML系统的数据科学家之间的重要信任边界。

很多时候,数据科学家需要与数据所有者控制的“放射性”训练数据保持距离。于是,该怎么做呢?

差分隐私

我们先从最糟糕的敏感训练数据保护方法讲起:什么都不做。或者更糟糕的情况:在假装要做点什么的同时故意什么都不做。举个例子,Facebook(如今更名为Meta了)多年来大肆宣扬的人脸识别数据声明。Facebook利用其用户的大量人脸照片打造了一套人脸识别系统。很多人认为这是个重大隐私问题。(也有人非常担心人脸识别系统的种族偏见到底有多深,但这是另一码事了。)

在人脸识别系统上遭遇隐私压力后,Facebook构建了一套数据转换系统,用于将原始人脸数据(照片)转换为矢量。这套系统名为Face2Vec,其中每张人脸都有唯一的Face2Vec表示。随后,Facebook声称已删除了所有人脸,但却保有巨大的Face2Vec数据集。注意,从数学上讲,Facebook压根儿就没为保护用户隐私做出任何努力。相反,他们保留了用户人脸数据的唯一表示。

最常见的隐私保护措施是差分隐私。简单讲,差分隐私旨在通过从统计意义上“破坏”数据来保护特定数据点,让个别敏感数据点不再存在于数据集中,但ML系统仍能正常工作。其中诀窍在于保留所得ML系统的功能,即使训练数据已经被聚合和“模糊化”过程破坏了。如果数据组件被这一过程过度处理,那ML系统就无法正常运作了。

但如果ML系统用户可以确定某个人的数据就在原始训练数据中(所谓“成员推理”),那么该数据就破坏得还不够。注意,差分隐私是通过在训练前编辑敏感数据集本身而起作用的。

开发中的商业化系统需要调整训练过程本身,从而屏蔽训练数据集中的敏感点。这一方法的要点是在训练和推理时都采用同一种数学变换,从而防止敏感数据暴露(包括成员推理)。

该方法基于互信息数学思想,仅将高斯噪声添加到非归纳特征,从而在模糊数据集的同时不伤及其推理能力。这一思想的核心在于构建隐藏在敏感特征层的内部表示。

针对性特征混淆最棒的是可以保留数据所有者和数据科学家之间常有的信任边界,帮助数据拥有者免遭数据科学家偷窥数据。

内置安全

以上这些就意味着敏感训练数据问题解决了吗?并不。任何新兴领域都会遇到的问题仍然存在:构建和使用ML系统的人需要内置安全。也就是说,在构建系统时就要意识到训练数据敏感性风险并加以缓解。

而这么做的时机就在当下。如果我们构建了一堆暗藏巨大数据暴露风险的ML系统,那就纯属给自己挖坑了:未来将直面又一场安全灾难。

大数据机器学习
本作品采用《CC 协议》,转载必须注明作者和本文链接
这篇技术干货 带你了解深信服的AI技术
近日,Mintegral通过了2022年网络安全等级保护第三级测评,表明Mintegral的信息安全管理能力,已达到国内非银行机构的最高标准。据了解,Mintegral在算法技术上持续投入,是首批将DCO动态创意优化技术与互动创意相结合的广告平台之一。在每次广告请求筛选广告时,Mintegral的算法会自动增加一个创意组合维度、产生更多的候选结果,让Mintegral的投放效率具备一定的比较优势。
近年来,移动金融发展迅速,新业态、新模式层出不穷。用户通过智能手机终端进行投资理财、消费借贷、交易支付等金融业务操作,大大提升了金融业务的便捷性。各商业银行也都推出了手机银行、直销银行、微信银行等多元化移动金融渠道。
近日,国际权威IT研究机构Gartner发布《2022中国网络安全技术成熟度曲线》报告。快速满足等级保护要求,为600多朵私有云提供安全资源池服务。可视化的安全监控与态势感知,统一管理提升运维处置效率。态势感知建立基于全国的纵横联动态势感知Gartner认为,中国态势感知技术是安全信息和事件管理平台的现代、集中和发展版本。数据分类分级对数据安全、数据治理和合规项目至关重要。
Github渗透测试文档资料集合
没有数据安全就没有国家安全,数据安全治理作为数据安全体系重要的组成部分引起了各行各业越来越多的关注。从数据环境下海量数据面临的安全风险出发,结合数据在使用过程中的安全需求,给出了一种动态防御的数据安全治理架构,并对该架构下的关键技术进行了研究。该架构能够为数据安全治理提供体系化安全治理思路,其中的关键技术可以为该架构的实现提供有效支撑。 《中华人民共和国数据安全法》(下文简称:数据安全法)的正
数据质量的高度敏感要求,数据质量的优劣极大程度影响AI模型的应用效果,必须进行多维度的质量检查,以及对实时性高要求,实时数据分析、推荐和预警时,数据源更强调具备实时性接入能力。最后是AI引擎的自我迭代阶段。达到AI模型上线后的持续迭代优化。考虑到数据训练规模扩张,数据类型异构,数据噪声指数级增加,对此AI 引擎能针对性地进行数据自动发现。
数据暴政与数据光明
2022-06-09 11:26:54
背景:现如今,空前且大规模的人类行为数据的可用性正在深刻地改变着我们所处的世界,经济学、公共卫生学、医学、生物学、城市科学等在这一趋势中都受到影响。各个组织、公民个人正在积极尝试、创新和改编算法决策工具以了解全球人类行为模式,并为解决社会重要性问题提供决策支持。
此前,本公号发表过的关于数据要素治理的相关文章包括: 《非个人数据在欧盟境内自由流动框架条例》全文中文翻译(DPO沙龙出品) 简析欧盟《数字市场法》关于数据方面的规定 数据流通障碍初探——以四个场景为例 对“数据共享合法化”的分析与思考系列之一:以《关于欧洲企业间数据共享的研究》为起点 对“数据共享合法化”的分析与思考 系列之二 ——欧盟B2B数据共享的案例研究 对“数据共享合法化”的分析与思考
VSole
网络安全专家