陈纯院士、冯登国院士论数据安全治理 - 网安 - 专业的网络安全产业、社区、知识平台

中国工程院陈纯院士：

时序大数据实时智能处理技术及网络安全应用

一、引子

今天所讲的话题，是从技术的角度探讨网络安全如何从时序大数据实时智能处理技术上的应用。时序数据 我们先来看一下，数据是怎么来的？原来人类社会是二元的，即人类社会和物理空间，因为有了互联网、移动互联网、物联网，随时随地产生了很多的数据，这些数据放在信息空间里，就带来了很多问题，包括网络空间的安全问题。这些数据是怎么来的，以及它们在不同环境下有哪些系统？我们知道人工智能、虚拟现实、增强现实、云计算、区块链等，这些都是围绕着数据来的，随时随刻产生，这些数据与以前的最大不同就在于每一个数据都有时间戳，所以我们才称之为时间数据。从计算机的专业角度来看，在信息空间怎么来表征人类社会或物理空间的一个对象或者一个事件，基本上是两种方式：一种称之为特征空间，采用一个特征矢量的形式，比如我们关心一个人的健康状态，有的医生可以选取20个特征，血压、心跳、血糖、血脂等，每个是20维的就形成了这么一个特征空间。还有一个是关系图谱，就是在网络空间、信息空间里面我们把特征或者对象、事件之间的关系，这一种数据表达的结构就是关联图谱。时序数据是怎么来的？我将它比喻为就像不断产生的水流进水库一样，水库里的水存起来了就是历史大数据，正在流向水库的水就是流式数据，所以时序大数据（Time Series Batch）就是原来的批式大数据加上流式数据。当然图数据也是一样，它随着时间的变化而不断变化。这就是一种时序数据。时间为“纲”和网络攻防 现在我们要实时处理的数据要时序数据驱动，无论是大数据驱动还是别的，都是在时间概念上的驱动，所以需要在线分析、计算，然后要实时智能的决策。那么在网络安全上，我们根据网络流量的数据是典型的时序大数据。流量上无论检测到什么数据实际上它都是时序数据，所以实时的攻防、动态的防御，是当前网络安全的重点与难点，为什么难？因为它根据数据来，响应一定要快，而且要在时间的概念上，所以我们说时序数据驱动的网络的攻防应该是热数据加上历史数据。难度在哪里呢，它主要是要时序的特征指标的实时分析计算，这些计算在毫秒和微秒级，这样才能动态，而且是线上而不是线下的。第三个要有一些实时的智能攻防决策，就是所谓的智能模型。这就特别需要网络安全的专家、学者包括一些企业，怎样把时序数据的这种能力加进去，加在智能攻防的决策上。由此可见，何时序大数据的实时分析是非常重要的。

二、时序大数据实时分析计算

发展路径 从大数据的发展路径上看，数据处理从上世纪70年代开始是数据库，有了数据库，不管在事务处理还是别的一些处理，就不用每一个应用都要在底层的文件系统上写，可以直接用数据库。当时有一些数据库是非常重要的，我们知道MY SQL、Oracle、DB2等现在都在用。到了80年代数据大起来的，就有了数据仓储，但是数据库它的数据量小的时候实时响应还可以，到了数据仓储，数据量大的时候响应就慢，当时也有很多产品，包括Oracle也推出数据仓储。到了本世纪初，大数据起来了，量特别大，包括原来的数据库以及数据仓储都无法解决问题，所以才有另外一些系统。那时候它分成两类，还有一个图数据库，图数据库就像Neo4j等等，这些都算图数据库。实际上对于时序的数据或对流数据的处理是在2012年左右才开始的。可以看出来开源的很多软件，像Storm等等这些都是当年开始的。在这前面的大数据处理基本上是线下的对历史数据的处理。为什么流数据处理特别重要？因为动态来了，一直到2017、2018年所有的大数据处理还是分成两类，一类就是线上流的我们叫热数据处理，另一类是线下的批式大数据处理。怎样把时间轴上的那个维度算起来是非常重要的，所以后来包括国内外都在做，我们这边就做了流立方。流立方一个要有大数据量，同时要低时延，要响应短，这就构成了一个时序大数据的实时分析计算。这里有两条线，一条是有关图的时序分布式图数据的处理，还有时序大数据的实时分析计算。这里的计算就是为大数据分析而来的，而最重要的是特征的计算、指标计算，没有这些指标的计算就很难有大数据的方。哪些指标呢？像均值方差、协方差，包括最大值、最小值、上升趋势、下降趋势等几十个统计指标，这是非常重要的。以前我们说线下的数据计算很容易，或是流进来的数据计算也容易，它仅仅是对于特征空间来算的，而不是对于时间轴来算的，所以时序大数据的实时分析计算它是在时间轴上的计算，这个就非常重要了。关键技术 我们来看一看，它的关键技术在哪里。我认为，关键技术之一是“面向复杂时序特征指标的增量计算”。我们要快，所以一定要是增量计算。举一个简单的例子，比如我们对所关注的数据进行检测，我们有20个特征构成了一个向量，1秒钟取样一次的话，三年来的数据已经存起来了，这一秒钟所取的向量数据要计算它的方差、均值、最小值、最大值、复杂算法、静态函数等，这个算的话你不可能把三年来的数据，包括这一秒钟的数据重新来算一遍，这肯定做不到毫秒甚至微秒，这时候一定要有增量计算能力。这个技术非常重要。第二个关键技术是“面向网络时序数据处理的动态时间窗口”。以前我们的计算没有时间轴，仅仅是针对不同的特征而的。比如我们对一个人的健康感兴趣的话有20个指标，以前的指标没有时间轴，现在因为是实时监测，假如说一分钟或半个小时检查一次的话，他的心跳跟血压、血糖等等关联的空间特征以外，还在时间轴上有所反映，哪个特征在前哪个特征在后，它一定表示了一个新世界，以前是没有的，以前我们把时间轴去掉，把所有的数据都给挤成了特征这个层面。有了这个技术，在网络安全上，面向网络所有的数据，动态的时间窗口就要有，这也是非常重要。第三个技术，“网络事件序列识别技术”（复杂网络处理CEP）。复杂事件的检测，涉及事件模式增量匹配问题，以及叠加通用算法的增量统计问题，这些都需要做研究。这些技术非常重要，相对来说也就比较难，因为以前没有时间轴，有了时间轴，所有的算法都要重新写、重新做研究。第四个关键技术是关于图的，“动态网络关联图谱的实时分析计算”。我们知道动态网络的关联图谱实的时分析非常重要。关键是要大，大图的时序图谱极速的增量建图、时序图谱的分布式处理，以及面向时序图谱的查询语言等等都需要做。我们希望能做一个10亿顶点、100亿边的这么一个时序的前提。为什么说是10亿个顶点，举例子来说，假如中国移动现在有9亿多个电话号码，每一个电话号码代表一个人的话，我们构建了一个9亿多点的每两两之间有关联的关系，这些关系有低频关系，比如父子关系、同学关系。但还有一些是动态实时的，比如说是不是在实时通话，是不是在实时联系。当我们把这些图快速建立起来，这时候随着时间变化这个边都要有变化，所以这个关键技术也是非常重要的。对于网络安全，事件关联图谱分析也非常重要。

三、时序大数据实时智能技术体系

有了这些分析指标，我们怎样用智能模型来输入？现在一个系统，是不是一个实时智能的系统关键是否用上了人工智能模型。这是一个用数据来学习的模型，这就是从人工智能、机器学习、深度学习，用大数据批式标记的数据等等，就形成了智能模型。无论是怎样的智能模型，结合分析计算就构成了这么一个架构，这个架构是一个一般架构，我们把它称之为时序大数据的实时智能技术体系架构。从图上（略）看出右上方就是智能模型体系，这个智能模型可以深度学习，可以一般的机器学习，也可以基于规则等模型，这些模型学习后可以称为知识模型，就放到左上方去，这就是所谓的智能模型。这个智能模型的输入是前面说的一些指标计算特征，实时的图谱、指标的计算、特征的提取，在这前面的左下方就是数据。这张图（略）就是时序大数据的实时智能技术体系的架构。时序大数据的指标计算，就是指标计算、特征采取和实时超图，这个就是时序的计算，而以前都没有加上时间轴，没有时间轴就谈不上数据驱动，因为所有的数据驱动都是在时间的概念上的。以前的大数据分析与系统没有时间概念，只是把即时采集到的数据从特征向量的形式以及关联图谱的形式直接的来进行智能模型处理，但它的指标计算没有在时间轴上进行。所以加了时间轴，加了一维的话就完全不一样了，就像我们对于一个人的健康一样，餐后血糖、餐前血糖完全不一样，或者说血糖高与血压之间，一个前一个后就完全不一样。这样就形成了从采集到实时加工，以及数据的实时分析，就用流立方、图立方进行时序指标计算，将指标计算输入到最上边的从线下的智能学习平台来的，或是从知识图谱平台、深度学习、机器学习来的，还有一些数据挖掘的像评分卡生成等等的模型，这样实时的决策就构成了一个闭环的时序大数据的实时智能体系，它可以应用在各行各业。举一个例子，流进来的数据要实时的数据流进行指标计算，在时序概念上要统计哪些指标，包括计数、求和、平均、最大、最小、方差、标准差、协方差等等，这些都要算得快，时效性要到毫秒级，由于数据大还要高扩展性和高并发。图也一样，从简单的边到聚合边，时间轴上到T3等等，每一个都在变，要实时，有状态、时序、分布式，这些都是新的系统，这些技术怎样构成平台与系统，最终形成产品，怎样使用，尤其是在我们网络安全的领域，我特别希望，从事网络安全的专家及企业怎样能够把时序实时数据处理技术应用在上边。

四、网络安全应用案例

几个网络安全方面的例子。第一，机器人攻击防御。机器人攻击防御，有效保证数据安全。这里讲一个例子，铁路购票系统12306，很多人网上购票，但有很多黄牛网站以及爬虫爬数据。2018年以前通过12306购票的话，为了区别是不是爬虫，系统会给你一批照片要你点击，很麻烦。同样，当年黄牛们网站、爬虫网站就把图片往全国发让人帮他点，点成功一个五毛钱。所以图片验证没办法解决好。这几年人工智能技术发展得好，直接机器识别。这时候怎么办，有没有针对异常购票的智能识别，把爬虫网站攻击防御都给防住？目前用22台PC服务器就可以做到很好的防御，现在我们买票就用不着了，那个时候特别是春节期间爬虫是很厉害的，达到每秒170万次。关键是动态防御要根据数据，有效地进行实时的识别，识别出异常和攻击才能采取措施，这个识别要是毫秒级的。第二个例子是网络靶场。我们这个是用流立方/图立方来做的，基于网络事件的时空关系的实时计算，用时序指标进行实时计算，时序聚合边的实时建图，时序关联图实时模型匹配，由于用到时序这个概念就可以查出很多出来。它的应用场景有很多，攻击检测、APT攻击、DDOS攻击、多层跳板机攻击等。应用环境现在做的一个仿真模拟试验，10台服务器能做到安全事件的吞吐量达到了2万+/秒，这在以前是很难想象的。所以我也希望网络安全用时序的时空关系的实时计算，研究用这些计算的指标来建立一个新的，能进行实时攻防或动态攻防来识别网络异常情况。第三个例子是工控安全的探测识别。工控安全的探测感知，是指网络行为的时序特征实时计算，基于时序大数据实时智能决策的风险来源识别，其实就是怎样把一些我们认为的安全事件用时序指标刻画出来。可以从中看出加上时间维度，使得我们对于大数据的计算多了一个维度，那完全是不一样的。现在有了这些指标，需要在不同的行业将模型建立起来，这些模型尤其是计算模型，更高级的是智能模型，深度学习、机器学习等。这个需要大家来一起进行研究。我在这里简单举了三个例子，网络安全中实时攻防、动态攻防，只要是面向数据的，对未来不可测的，我们不能用黑白名单或IP扫描简单处理。基本的处理办法只能是攻防，要防的话就一定要在时间轴上统计找出其规律，然后用专家的知识和模型快速地进行实时攻防，这在网络安全领域是非常有效的。

中国科学院冯登国院士：

大数据环境下隐私保护与风险管控技术

一、背景与挑战

首先介绍大数据环境下隐私保护与管控技术的研究背景与挑战。大家都知道各类网络信息系统产生的数据规模越来越大，大量高价值信息隐藏在其中。提高数据共享能力，并以此为基础提升数据的发掘利用水平是不可逆转的发展趋势。一方面要高度共享数据，有效发掘利用数据；另一方面，有效控制数据，保护用户隐私等安全需求，二者之间存在明显的冲突。我们从大数据的访问模式与挑战来看存在的挑战，在大数据离线发布模式下，数据越来越开放，如何实现个人隐私保护是我们遇到的一大挑战；另一方面，在大数据在线查询模式下数据越来越集中，如何实现大数据使用及服务的有效管控是我们面临的又一大挑战。造成用户隐私信息泛滥的原因有很多，涉及用户、黑客与犯罪分子、服务提供商等多方面因素：用户过度披露个人信息隐私，不利于个人实现网络空间中的身份匿名，黑客与犯罪分子的风险不断提升，因此对用户行为与属性进行预测的准确率也在不断提高，而服务提供商未能安全有效地管理用户的隐私信息，导致用户信息被盗取倒卖或流失。上述问题的解决离不开配套法规、政策的支持与严格的管理手段，但更需要有可信赖的技术手段支持。当前，隐私保护主要面临三个方面的技术挑战：第一个挑战，用户身份匿名保护难。用户身份重识别攻击以及行为模式挖掘技术的发展，导致用户身份匿名保护更加困难。大数据场景下，用户数据来源与形式多样化，攻击者可通过链接多个数据源发起身份重识别攻击，识别用户真实身份。由于用户日常活动具有较强的规律性，攻击者可通过让用户轨迹、行为分析等识别出匿名用户的真实身份。随着概率图模型及深度学习模型的广泛应用，攻击者不仅可以挖掘用户外在特征模式，还可以发现其更稳定的潜在模式，从而提升匿名用户的识别准确率第二个挑战，敏感信息保护难。我们这里讲的敏感信息是指社交关系、位置属性等信息。基于数据挖掘与深度学习等人工智能方法，用户敏感信息易被推测。可以通过共同好友、弱连接等发现用户之间隐藏的社交关系，发现用户社交关系隐私。可以通过以往轨迹分析预测目的地、用户隐藏的敏感位置，也可以根据其社交关系推测其可能出现的位置，透露用户位置隐私。可以通过社交网络中的群组发现识别出用户的宗教、疾病等敏感属性，发现用户属性隐私。第三个挑战，隐私信息安全管控难。用户隐私信息被采集后，数据控制权转落到网络服务商，而网络服务商往往缺乏足够的技术手段保证隐私数据的安全存储、受控使用与传播，从而导致用户隐私数据被非授权使用、传播或滥用。密文云存储可解决机密性问题，但带来性能损失与可用性降低问题；其实际部署应用离不开高效的密文检索与密文计算技术。目前厂商普遍缺乏实现基于目的的访问控制能力，盲目开放数据共享服务容易导致用户隐私数据被滥用；需要基于风险的访问控制技术，实现自底向上的策略挖掘与实施。

二、现状与热点

刚才简要介绍了大数据环境下隐私保护与风险管控技术的背景，及隐私保护所面临的三大技术挑战。下面介绍大数据环境下隐私保护与风险管控技术的研究现状与热点。下面主要从四方面来介绍：1、身份匿名保护与去匿名化技术 大数据场景下，用户数据来源与形式多样化。攻击者可通过综合多个数据源，链接相同或近似用户，提升识别匿名用户的可能性。这些方法很多，比如基于不同数据源的位置共现评估函数定义用户轨迹相似度，可高度准确地查找合并多个基于位置服务(LBS)APP中的匿名用户；基于推特文本信息与用户轨迹信息，实现相似用户分组与组内轨迹建模，发现高相似用户；基于社交网络中的节点属性和图结构定义用户相似度，可发现多个社交网络中的相似用户。由于用户日常活动具有较强的规律性，攻击者对用户移动轨迹建模分析，识别匿名用户，或实现用户位置隐私的推断与预测，不仅能挖掘用户外在特征模式，还能发现其更稳定的潜在行为模式。采用的方式主要是基于马尔科夫链（MC）模型的分析方法、基于隐马尔可夫（HMM）模型的分析方法、基于混合高斯模型（GMM）的分析方法、基于LDA主题模型的分析方法等等。此外，经过深度神经网络（DNN）训练，轨迹的深度学习表示可实现匿名轨迹重识别，进一步实现用户位置隐私的推断与预测。比如基于循环神经网络（RNN）、长短期记忆（LSTM:long-short term memory）等模型可以学习出位置停留点之间的转移时序特征，能够从社交网络的匿名轨迹中提取出用户标识，基于变分自编码器模型的轨迹深度学习，可以学习出影响用户位置分布的隐含态。随着攻击者能力迅速增长，传统的K-匿名技术体系局限性日益凸显，基于差分隐私保护的方法受到更多的关注，差分隐私保护提供一种不限定攻击者能力，且能严格证明其安全性的隐私保护框架。有两类差分隐私保护，一种是集中式差分隐私保护。在这种模式中，用户数据被采集后集中进行随机化处理，即使攻击者已掌握除了攻击目标之外的其他所有记录信息，仍无法获得该攻击目标的确切信息。这种方法初期仅应用于（数据库）线性查询与数据发布场景，后逐渐扩展服务于TOP-K频繁模式挖掘、决策树、聚类、支持向量机等机器学习算法，以及用户位置与轨迹数据发布等多样化应用场景第二种是本地差分隐私保护。用户数据在本地随机化处理后再被采集，拥有任意背景知识的攻击者无法根据扰动后的单个用户数据，推测用户的原始数据，典型的协议包括Rappor协议、SH协议、Piecewise协议等，分别用于频率统计与均值计算。2014年，谷歌在Chrome中采用本地差分隐私算法（Rappor协议）收集用户行为数据，包括用户任务管理器中的进程和浏览过的网站等。2016年，苹果宣布开始在iOS数据收集行为中对行为统计数据应用差分隐私算法，统计数据包括QuickType键盘常用词和emoji表情频繁程度等。尽管统计结果引入误差，但当数据量足够大时，仍然能在完成数据分析的同时保障用户隐私安全。2017年，苹果基于差分隐私技术收集手机上的健康数据（如运动，步数等），表明本地差分隐私保护技术已到了适用化程度。简单总结一下身份匿名保护以及去匿名化技术的研究现状：去匿名化不断涌现新技术新方法，基于K-匿名技术体系的隐私保护方法局限性日益凸显，基于差分隐私的保护方法受到更多关注。本地差分隐私保护方法可实现数据的安全采集，但算法可用性仍有很大提升空间。当前身份匿名保护与去匿名化技术的研究热点主要归纳为以下三点：基于多源异构数据集的匿名保护技术；面向位置轨迹分析的匿名保护技术；本地差分隐私保护技术。2、敏感信息隐私挖掘与防护技术社交网络服务商致力于分析用户的偏好，向用户推荐朋友，保持社交群体的活跃和黏性。而攻击者可采用类似技术，根据攻击目标现有的社交关系和其他属性特征，对用户的敏感社交关系、敏感属性、位置与轨迹进行分析与预测在社交网络隐私保护中，单纯删除敏感边、敏感属性、敏感位置并不能防止其被探知。采用与解决数据稀疏问题类似的技术，攻击者可以由其他用户公开发布信息推测出缺失的敏感信息。比如，即使敏感关系被保护，攻击者也可通过共同朋友数目、弱连接数目、社交子群划分来判断用户之间的社交距离，推测两者间存在社交关联的概率。针对Facebook的用户数据分析显示，具有相同属性的用户更容易成为朋友，用户部分属性与其社交结构具有较高的相关性。攻击者可以通过用户的可见属性、社交关系及其所属群组等信息来推测用户未标注的敏感属性。差分隐私提供可量化评估的隐私保护，并通过组合机制与高级组合机制可实现多个步骤的灵活组合。因此，由多项差分隐私保护算法构成的复杂机制，仍能提供差分隐私保护，但其隐私预算消耗将快速上升。以基于差分隐私的用户位置与轨迹发布方法为例，不同机制中，总隐私预算随着轨迹长度线性增长。这些方法有，基于位置直方图、轨迹直方图的差分隐私保护机制，基于前缀树、层次树等树重构的轨迹差分隐私保护机制，基于位置聚类的轨迹差分隐私保护机制等。越来越多的数据作为训练集用于机器学习或深度学习模型中的参数训练，来对外提供机器学习即服务(MLaaS服务)，这个过程容易引发用户隐私泄露。面临的主要攻击是模型逆向攻击，这种攻击从黑盒学习模型中逆向提取出训练数据集信息，包括成员推理攻击和属性推理攻击。成员推理攻击是指，给定数据记录和模型的黑盒访问权限，推测出某条用户记录是否在模型的训练数据集之中。属性推理攻击则是获取训练数据集本身的统计属性信息。面向机器学习的隐私保护方法。由于模型攻击的出现，我们不得不高度关注面向机器学习的隐私保护方法。当前主要有两种，一种方法是支持差分隐私的机器学习算法，典型代表为支持差分隐私的随机梯度下降（Differential Private SVD）算法。该算法满足（ε,δ）-DP，且实验结果表明，深度神经网络的隐私保护可以在软件复杂度、训练效率和模型质量的适度成本下实现。另外一种方法是同态加密机器学习机制，典型代表为CryptoDL。在深度学习中，同态加密算法用于保护预测输入和结果，以及训练神经网络模型参数，实现了卷积神经网络上手写字体分类。敏感信息隐私挖掘与防护技术的现状小结：差分隐私提供可量化评估的隐私保护，但在复杂系统中隐私预算消耗过快。用户数据应用于机器学习参数训练时，易遭受模型逆向攻击，需要面向机器学习的隐私保护方法。当前敏感信息隐私挖掘与防护技术研究热点：一是基于差分隐私模型的敏感信息隐私保护方法，二是人工智能方法在敏感信息隐私挖掘与保护中的应用。3、密文检索与密文计算技术密文检索可实现用户在无需解密数据而直接对密文数据实施检索访问的能力，包括关键字检索与区间检索。关键字检索主要包括单关键字检索与多关键字检索。单关键字海量数据（109-1010量级）密文检索方案将倒排链表分割并进行内存磁盘优化，实现了秒级的查询响应。多关键字密文检索在108 量级的密文数据库上对多关键字查询的响应速度达到了秒级。区间检索包括单维区间检索与多维区间检索。单维区间检索方案有两类，一类是基于等值检索的密文单维区间检索方案：利用TDAG（Tree-like Directed Acyclic Graph）树将数值转换为关键字，从而以引入冗余数据为代价，提高方案的安全性。另一类是基于自适应索引和矩阵加密方案：支持数据动态更新的密文单维区间检索，可根据检索条件动态地索引数据，但同时数据的隐私泄露也会逐渐严重。多维区间检索方案有很多，但涉及多维区间检索方案的关键技术主要有：高安全性的密文多维区间检索方案，基于R树构造索引，并将R树节点转换为向量形式，通过谓词加密安全地判断搜索区间与节点是否相交，且不泄露额外信息，但是方案的检索效率较低；对多维区间检索扩展方案：检索条件可为任意几何图形，基于R树构造索引，基于半空间的思想构造陷门，并使用矩阵加密保护索引和陷门；安全的布尔空间关键词检索方案：基于EBFR (Encrypted Bloom Filter R-tree)树构造索引，使用矩阵加密保证数据安全性。密文计算主要有两类，一类是同态加密。使用同态加密可以直接在加密的索引上进行修改操作，可实现快速安全的加密数据更新。基于同态加密还可实现服务器端搜索排序。另外一类是函数加密。利用属性基加密（ABE）可以实现密文访问控制；基于隐藏向量加密（HVE）可以计算数据权值等；基于同态加密和函数加密技术，能够在106 量级的数据库上进行密文数据的均值和方差等计算，需要的时间代价为10秒级，并能够远程验证结果的正确性，已经初步具有实用价值。简要地总结一下密文检索与密文计算技术的研究现状：当前情况是这样的，密文检索技术效率较高但安全性论证不够充分，密文计算技术理论上取得一定突破但实用性不强。当前密文检索与密文计算技术的研究热点可以归纳为以下两点：一是高效安全的密文检索方法；二是实用安全的密文计算方法。4、基于风险分析的访问控制技术经典的访问控制模型属于“自顶向下”的访问控制模式，而大数据场景下访问需求无法明确预知。比如访问控制策略依赖于环境上下文，大量实际数据访问控制策略制订需要专业领域知识，无法为其预先生成，容易导致授权不足或过度授权。这就需要“自底向上”的访问控制模式，通过学习生成最佳访问控制策略，实现自适应访问控制。基于风险的访问控制对访问行为进行实时风险评估，并通过访问过程中动态地权衡风险与收益实现访问控制，具有较强的自适应性。当前基于风险的访问控制主要有两类方案，一类是基于风险阈值的访问控制：根据资源内容和访问用户的属性对资源进行风险估计，设定风险阈值，将用户访问行为带来的风险总和限定在阈值内，实现基于风险的访问权限自动调整；另一类是隐私感知的风险自适应访问控制：采用概率主题模型对用户的正常与异常访问行为进行建模，更准确地度量异常访问所带来的风险。角色可被看作是大量用户共享的一些权限组合。在用户和权限规模较大时，可以采用“自底向上”方法来发现角色，进行角色挖掘。当系统的用户基数越大、权限越多时，权限分配的潜在模式就越明显，采用“自底向上”方法进行角色挖掘的效果就越好。传统角色挖掘是针对已有的“用户-权限”授权信息进行权限的聚类，将聚类结果作为角色，其合理性取决于已有授权信息的正确性。近年来，许多研究工作采用了更丰富的数据集进行角色挖掘，主要包括：生成式角色挖掘，非负矩阵分解方法生成式角色挖掘主要是从权限使用情况的历史数据来获得用户的权限使用模式，进而产生角色，不局限于已有权限分配的准确性。基于权限使用日志，将角色挖掘问题映射为文本分析问题。采用主题模型LDA（Latent Dirichlet Allocation）和ATM（Author-Topic Model）进行生成式角色挖掘，生成角色能够更加准确地反映权限的真实使用情况。而非负矩阵分解方法基于物理域、网络域和信息域的多域信息构建实体-关系网络，并将角色挖掘问题映射为网络中的社群发现问题。采用非负矩阵分解方法进行角色挖掘，能够发现权限之间存在的依赖关系，避免已有授权信息中存在的错误。简单总结一下：当前经典的访问控制模型已不适应大数据环境下的访问控制需求，需要“自底向上”的访问控制模型，但相关研究比较初步。当前基于风险分析的访问控制技术的研究热点可以归纳为以下两点：一是基于风险分析的访问控制机制，二是基于机器学习的策略与角色挖掘方法。

三、成果简介

上面主要从四个方面对大数据环境下隐私保护与风险管控技术的研究现状与热点进行介绍。最后介绍一下我们团队在这方面所做的一些研究工作。在大数据访问控制方面，我们在2018年的时候提出一种基于主题模型的风险自适应访问控制方法[SACMAT2018]。在敏感信息保护方面，提出一种安全计算环境构建方法[CCS2019]，提出一种个性化的本地差分隐私框架[DASFAA2019]，2018年提出一种基于混合带的用户轨迹隐私保护方法[TrustCom2018]。在密文检索方面，在2017年提出一种安全高效的多维区间检索方法[DASFAA2017]，2016年提出一种高效的多关键字密文检索方法[WISE2016]。在去匿名攻击方面，2019年提出一种针对用户时空位置轨迹的去匿名攻击方法[ICICS2017]。在这些研究成果的基础上形成了一本著作《大数据安全隐私保护》，这本书系统梳理了现有的大数据安全与隐私保护技术方法与认识。