一、 前言

2020年全球新冠疫情肆虐,迫使大家在家办公、在家购物…,再加上无论经济还是制造还是企业全面数字化转型,产生的海量数据导致的人们对数字数据的安全忧虑持续上升,如何保护隐私日益被大众关注?在此背景下,全世界在科技趋势预测领域非常著名的咨询公司Gartner,第一次将隐私增强计算技术(PEC)纳入了它们预测2021年的九大重要战略科技趋势之一。作为专业从事信息安全研究、意图引领科技发展趋势的我们,在已经快迈入2021年第二个季度的当下,对这一技术应该进行深入研究。

二、隐私增强计算是指什么?

隐私增强计算技术在今天虽然知名度很低,但是它对于未来的重要性,绝对不容小觑。

1、隐私增强计算的诞生

隐私增强计算技术的出现完全来源于数字化经济的全面繁荣。国内:在过去这一整年,我们经常会看到这样一类新闻,比如像是“被困在算法里的外卖小哥”,或者“大数据杀熟”…。国外,不时报道出被“科技巨头操纵的美国大选”、欧洲某国根据GDPR有关条款对Google、Facebook…等巨头开出罚单,责令其停止在外部网站上收集用户浏览习惯的数据等等。

不论我们是认同还是反对这些说法,不可否认的是,全世界范围内对于大型科技企业的信任程度是远不如以前了。其中最重要的原因,就是很多人开始感受到这些科技巨头可能正在利用他们收集海量用户数据的优势,侵犯人们的隐私,甚至是谋取不当利益。

面对这个现象,业界有两种截然不同的态度。一种态度是认为我们现在个人数据隐私权的牺牲,是技术进步的必然代价,没有什么可大惊小怪的。另外一种态度是觉得这些大公司实在太可恶了,是在滥用我们的个人数据,一定要制裁它们。

那有没有一种技术,既可以100%地保护我们的个人数据不被滥用,同时又能够确保将我们的各种需求,及时地告知这些科技企业,让它们能够给我们提供高效的服务呢?

这个问题,今天在很多科学家的心目中已经有了答案--那就是隐私增强计算技术。

2、什么是隐私增强计算?

所谓隐私增强计算并不是某一项具体的技术,而是一大类既可以保护用户隐私、又能够实现数据计算效果的新兴计算技术的统称。

不断增长的计算能力、每天生成的海量信息、以及越发广泛的数据可用性,使得过去似乎难以想象的事情现在可能性剧增。例如,使用智能手机可能会导致个人资料中包含有敏感属性的个人资料;个人的众多私密信息可能可以从联系人的相关信息中推断出来;随着数据收集和使用的扩大,对可用数据集的分析可以十分容易地提取出个人和有关的隐私信息…。此外,数据敏感性还不仅限于个人隐私。例如,数据可能涉及商业秘密甚至与国家秘密有关。

个人或组织可能希望共享数据,但又希望能够限制与谁共享信息、共享什么信息。隐私增强计算技术就是通过不同技术手段和方式来帮助实现此类限制。

需要说明的是,隐私增强计算技术的使用本身并不能自动分析出是否合法、合乎道德或值得信赖,但可以肯定的是:实施隐私增强计算技术可以确保使用数据风险可控、针对特定隐私的保护有力有效。

3、当前的隐私增强计算技术功能和局限性

隐私增加计算技术给数据带来哪些保护?隐私增强计算技术的使用都有哪些注意事项和局限性?隐私增强计算技术主流方法都有哪些呢?

(1)隐私增强计算技术提供什么样的保护?

当前没有适用于隐私保护数据分析的每种情况的技术,可以使用不同的隐私增强计算技术来实现不同的目标。通过隐私增强计算技术可提供:

•   安全地提供对私有数据集的访问

•   能够对多个组织持有的私人数据进行联合分析

•   将私有数据安全地外包给云计算方

•   分散依赖用户数据的服务

值得注意的是某些隐私增强计算技术可能更适合组织使用(企业对企业:B2B),而其他隐私增强计算技术则更适合个人使用(企业对消费者:B2C)。例如,云服务提供商可能希望使用基于加密的安全硬件或技术来保护其平台上的代码和数据,而个人可能会受益于使用个人数据存储和其他为个人设计的隐私增强计算技术。

因此选择隐私增强计算技术需要考虑控制、监督或信任模型的形式。在任何给定的系统中,无论是集中式、分散式还是分布式,信任都取决于上下文以及谁能“看到”未加密的数据。大多数隐私增强计算技术都起源于密码学领域,而密码学通常是针对“攻击者”模型(或威胁模型)提出的,即某些系统可能遭受的攻击。这对这些隐私增强计算技术管理数据访问的方式有影响,例如:

•   安全的多方计算特别消除了对中央信任机构的需要,否则各方将需要与该中心共享信息。

•   集中式和分布式差分隐私具有不同的信任模型:在集中式(又称为“全局”)差分隐私中,在释放输出时会添加噪声,这意味着信任位于中央组织中;而在分布式差分隐私中,在收集数据时会添加“本地”差分隐私噪声。

•   个人数据存储为个人提供了选择和控制他们想要信任数据的方式。此外,也可能提供在本地处理数据的可能性,而不是将原始数据发送给中央机构,中央机构的数据集中使其成为黑客的重要且诱人的目标。

(2)五个主流隐私增强计算技术技术的功能和局限性

目前隐私增强计算技术主要技术领域有五个,它们特别有希望实现隐私保护计算(还有其他可用技术,例如群签名、基于属性的加密、直接匿名证明等,它们具有不同成熟度)。它们代表了一套非常多样化的方法,突出了不同系统安全性/硬件、统计信息和密码学解决相似问题的不同方式。

* 同态加密

同态加密是一种加密形式,它允许对加密数据进行某些计算,从而生成加密结果,该结果在解密后与加密前对数据执行的相同操作的结果相匹配。尤其可以使用它来对敏感数据的某些特定操作安全地外包给云或其他第三方组织。它也可以与其他隐私增强计算技术结合使用,以安全地共享数据。

在全部或部分不信任计算环境且不应访问敏感数据的情况下,同态加密可用于分析数据。同态加密提供了机密性,可用于解决“不安全”和“暴露”问题,以及在数据集或输出中揭示与个人或组织相关的敏感属性的风险。

同态加密方法有多种变体,可以以不同的方式使用。完全同态加密(FHE)是指可以在数据上计算任何多项式函数的加密方案,这意味着无数的加法和乘法。但是,仍处于研究阶段的FHE在实践中效率低下,这就是为什么可以使用有限数量或几种类型的操作的方案更为普遍的原因--所谓的同态加密(SHE)或部分同态加密(PHE)。SHE是一种加密,它支持对加密数据进行有限数量的加法和乘法运算,并且预先确定。PHE是仅支持加法或乘法的加密(也称为加法同态加密和乘法同态加密)。同态加密可以启用其他隐私增强计算技术,例如安全的多方计算。

同态加密最早是在1978年提出的,密码学家早就意识到基于经典群论的公钥加密自然具有同态性。在此基础上,提出了未来30年的PHE计划。第一个FHE方案仅在2009年由Craig Gentry提出,明确地解决了密码学领域一个长期存在的开放性问题。所有早期方案都是很不实用的,因为计算时间特别长。从2017年开始,在努力标准化该技术之后,SHE已开始在商业上可行。尤其是北美的行业、政府和学术界发布了三本白皮书(2017年),内容涉及安全性、应用程序编程接口(API)和应用程序,以及参数选择标准草案。

同态加密局限性主要体现于:在分析人员希望进行任意计算的情况下不适合使用同态加密。虽然PHE通常被使用-例如用于安全数据库查询或委托计算,但SHE和FHE是当前正在进行的研究,最实用的SHE和FHE方案基于所谓的基于格的构造,其中研究集中于有效的编码和噪声管理技术。这种类型的加密方案依赖于噪声加密,每次加密操作都会增加此类噪声,如果噪声超过某个阈值,解密将失败。

与未加密数据计算相比,同态加密在计算上极为昂贵且吞吐量较低。加密可能会导致数据量大增,这可能会导致严重的带宽问题。同样,计算需要表示为多项式,这在实践中可能是一个限制。对于FHE,运行时间随着操作次数(加法或乘法)的增加而急剧增加。

此外,信任管理方面,考虑到当前的进展,使用同态加密可能很难让客户端验证服务器是否执行了它声称的功能--这也是当前研究的重点。

* 可信执行环境

可信执行环境(TEE)是主处理器内部的安全区域。TEE与系统的其余部分是隔离的,因此操作系统或管理程序无法读取TEE中的代码。但是,TEE可以访问外部的内存。TEE还可通过加密保护“静止”数据不被分析。

与同态加密一样,TEE可用于将敏感数据的计算安全地外包给云。TEE代替了加密解决方案,而是提供了一种基于硬件的方式,以确保将计算外包到的服务器而不用暴露数据和代码。例如,TEE是存储主加密密钥的好地方。

此外,TEE可以支持任何类型的分析。它们的使用成本很低:实际的计算是对未加密的数据执行的,并且不需要向数据中添加任何噪声。

TEE可用于解决数据集或输出中的“不安全”和“暴露”问题,没有暴露个人或组织相关的数据的敏感属性的风险。

TEE的研究起源于1990年代IBM在可编程安全协处理器的开发中。这些协处理器允许在敌对环境中保护应用程序的安全,同时保持高性能。在2000年代初期,ARM发布了TrustZone,这是一组硬件模块,可以在所谓安全区(运行经过身份验证和加密的区域)和常规区(运行不受信任的软件)之间划分系统资源。在2010年初,英特尔推出了自己的安全处理器,称为软件保护扩展(SGX)。

TEE当前的挑战和局限性集中于与其他现有的加密技术一样,保护TEE中的安全密钥仍然是一个难题,尤其特别需要保护生成安全加密功能的系统。

*安全的多方计算

安全多方计算(MPC)是与启用私有分布式计算有关的密码术语。MPC协议允许对合并的数据进行计算或分析,而无需各方公开自己的部分。特别是,当两个或两个以上的参与方想要对其合并数据进行分析,但出于法律或其他原因,他们无法彼此共享数据时,可以使用该方法。

例如,MPC可以允许投标者在不透露任何实际出价的情况下确定谁赢得了标。MPC还可以用于允许进行私有多方机器学习,在这种情况下,不同的各方可以彼此发送加密的数据,并且他们可以在其组合数据上训练机器学习模型,而不会看到彼此的透明数据。这消除了对可信任的中央机构的需求,以往中央机构需要通过汇总所有数据并将其解密来执行计算。MPC也表现出分布式计算的优点,使用MPC可以解决“不安全”和“暴露”的问题,以及在数据集或输出中暴露与个人或组织相关的敏感属性的风险。

可以使用MPC技术来实现私有集交叉点(PSI),其中两个或多个参与方比较数据集而不以未加密的形式显示数据集。最后,每一方都知道彼此有哪些共同点。当前,有一些可扩展的PSI开源实现,私有信息检索(PIR)也可以使用MPC技术实现,并允许用户查询数据库,同时隐藏检索到的数据的身份。Google正在使用PIR来警告用户其密码可能不安全。

MPC的第一个原型可以追溯到2004年,用于多方计算的实际开发和商业产品于2010年开始出现。最初的商业应用是在拍卖中,例如,MPC被用来以隐私保护的方式在丹麦的甜菜生产商之间重新分配丹麦在欧盟固定的生产配额,而不会泄露商业敏感信息。最近的理论发展进一步使使用MPC进行数据分析成为可能。

当前MPC的挑战和局限性主要集中于:MPC显著增加了计算给定功能所需的时间,部分原因是跨网络传送加密数据(延迟)会产生延迟。自从第一个实现问世以来,计算时间已经减少很大,但仍需要进一步改进以使MPC更加实用。

*个人数据存储

个人数据存储(PDS)是一种系统,可为个人提供有关其数据的访问和控制权,以便他们可以决定要共享哪些信息以及与谁共享。PDS对个人生成的数据提供透明度和代理权,他们可以授权人们管理和处理有关他们的数据。

其他四个隐私增强计算技术不同,PDS是面向消费者的应用程序和服务,可以由不同种类的隐私增强计算技术支持。它们提供了隐私增强计算技术的目标之一--使人们能够更好地控制数据。

PDS支持分布式系统,其中数据是在系统的“边缘”存储和处理的,而不是集中的。例如,可以将机器学习算法发送给数据,而不是将数据发送给算法。分布式数据和计算解决了许多问题,例如“蜜罐”问题,拥有数百万条记录的组织自然构成了一个“蜜罐”,在经济上对黑客很有吸引力。

分布式架构还可以缓解由于集中了全球大部分数据的大型高科技公司带来的功率不对称性。

PDS解决了“汇总”,“排除”和“披露”的问题,以及不希望存在的信息共享风险。

PDS可以是手机或平板电脑上的物理盒装设备或应用程序,他们的设计可以结合许多其他隐私增强计算技术。

PDS当前面临的挑战和局限性主要体现于:基于集中式体系结构的现有业务模型和当前数字化货币并不鼓励PDS的发展。目前,个人数据本身的货币价值不高,而汇总数据则更有利可图。特别是需要从经济学和社会科学领域进行进一步的研究,以研究替代模型。例如,已经出现了这样的替代模型,万维网的发明者蒂姆•伯纳斯•李一直在研究去中心化的Web平台,通过该平台,各个用户可以将有关他们的数据存储在不同的个人在线数据存储(POD)中。为了使PDS有效,具有不同技术经验水平的个人必须能够访问并与之互动。用户参与对他们的成功至关重要,界面设计也是其中的重要组成部分,用户界面必须易于访问和吸引人,这为PDS的研发增加了新的维度。

*私保护机器学习

机器学习是一组强大的技术,可让计算机从数据中学习。有许多有前途的研究和实践领域,隐私保护的机器学习指的是不同的一系列方法,例如:

(1) 使用综合数据进行机器学习

综合数据是由算法生成的数据,而不是来自真实事件的数据;如差分私有机器学习,差分私有机器学习模型不提供比特定个体更多的信息,而不是该个体未包含在训练数据集中。这可以通过分布式差分隐私(在训练数据的收集期间添加噪声)或通过集中差分隐私(将噪声添加到输出)来实现。同样,差分私有综合数据可用于创建保留真实示例数据属性的数据,同时防止模型反转攻击;

(2)使用同态加密的隐私保护机器学习

同态加密可以支持某些形式的机器学习。它尤其可以支撑“隐私保护预测”。

(3)使用MPC的私人多方机器学习

利用私有的多方机器学习,不同的各方可以彼此发送加密的消息,并获得他们想要计算的模型,而无需查看彼此的数据,也不需要可信的中央机构。

(4)使用TEE来保护多方机器学习

在这种情况下,多个用户会在合并的加密数据上计算机器学习模型,而不会向彼此或云透露他们的未加密数据。

(5)联合学习

联合学习是一种新兴的方法,允许出于隐私或实际原因在分散数据上训练机器学习模型。中央服务器协调网络的节点,每个节点都有训练数据,每个节点都训练一个本地模型,并且该模型与中央服务器共享。换句话说,数据在设备级别受到保护。谷歌在2016年发布了这样的联合学习算法。

三、 对隐私增强计算的理解

隐私增强计算技术看起来比较复杂抽象,其实可以通俗地理解成三个方面:

1、它是我们每一个个体与大型科技公司之间的一层隔离区

今天我们在各类APP上的数据,大部分都是储存在云端的数据中心的。APP背后的企业,如果真的想查看任何一个用户的数据,只需要执行一行代码就可以了。也就是说,用户的数据安全,本质上完全依赖于提供服务的企业内部管理的水平,以及企业本身的道德责任感。

隐私增强计算技术,就是试图在用户和APP之间建立一个数据的隔离区,用户所有的关键信息都是在这一片隔离区里进行存储和计算,将企业隔离在隔离区的外面当观众,他们只能拿到隔离区里面给出的一些指定需求。这样一来,企业就没有办法未经用户同意,悄悄地使用APP里的用户数据了。

2、它是我们每一个人的隐私数据在网络世界里的铠甲

有了这层铠甲之后,我们每一个人的关键数据,就不再是赤身裸体地走进这个隔离区了,而是会得到非常严格的保护。比如,用我们最熟悉的社交场景来举例子,这层铠甲的功能就相当于你想在通讯APP上给朋友发一句话,但是你并不想让通讯APP看到这句话的内容,所以呢,就先让这句话穿上了一层铠甲,这层铠甲到了你的朋友那里才会卸下来。这样就避免了像通讯APP一样的,所谓的信息二传手,偷看信息内容。这一类信息铠甲的功能,在隐私增强计算领域中通常是以各类密码学技术作为底层原理的。而在这个方面,现在国外也已经有一些即时通信应用,在尝试给用户信息穿上这样的铠甲,让不希望被脸书、推特窥探隐私的人群,也有自己可以放心沟通的网络空间。

3、它能够为各种类型的数据提供一个安全的交流中心

隐私增强计算的这个安全交流中心的功能,其实意义最重大。数据在今天已经开始指导各种产品和服务的设计、生产环节了;有价值的交叉数据很可能是我们未来几十年里如同石油一般重要的资源。按照这样一个逻辑,开发一种能够允许大家安全地保存、交换和运算数据的平台,有巨大社会意义。

总而言之,在今天我们看隐私增强计算技术,往小了说是一种可以保护个人隐私的方便工具;往大了说,它是人类社会在未来能够真正将数据作为一种生产资料,去使用和交换的基础性技术。隐私增强计算,是整个世界今天都没有办法回避的一项必然会发生的技术。因此Gartner才将其列入2021年九大重要战略科技趋势之一。

四、启示与建议

面对隐私增强计算技术已经迫在眉睫的趋势,启示与建议如下:

1、技术带来的挑战技术应对

新技术带来的新问题最好的解决方案不是管控、不是放任,最好的方案依然是依托技术创新的技术!

自从互联网出现以来,带来的各种技术进步、经济繁荣、生活便捷、社会变革的同时也带来了各种新问题,数据爆炸式增长、传统商业模式的颠覆、病毒肆虐、安全风险大增…,在采取各种严格管控政策措施的尝试后,最终解决得最为妥帖的依然是依托如云计算、网络安全防护甚至人工智能等新技术,当然这些新技术的引入又会带来新的风险和问题,但解决新问题毫无疑问还得依托新技术、新方法,正是这种矛盾的冲突、迭代中推动了技术的进步乃至人类社会发展的步伐。历史可能不断反复重现,但技术却永远向前。

2、进一步的加大研发投入

隐私增强计算技术提供了多种应用的可能性,并为数据分析开辟了新的机会。它们是一组新生但具有潜在颠覆性的技术,它们有可能重塑数据经济,尤其是改变个人、政府和公司之间的信任关系。但是,在目前的状态下,这些技术中的许多技术都具有实质性的局限性,例如它们所需的计算资源、耗时等等,并且其中一些仍处于研究阶段。既然已经认识到隐私增强计算技术的潜力,并有望大规模地使用,因此需要进一步的研究和开发。

展望未来,开发适合的解决方案将需要跨学科的研究和开发工作;它还需要不断创新,以适应随着数据和计算能力的提高而出现的新挑战。例如,对于一个大型组织(例如NHS)实施MPC不能仅靠隐私增强计算技术研究本身来完成;而是需要涉及其他专业领域和专家团队,必需考虑如何建立一个完整的生态系统,以实现隐私增强计算技术的开发和使用。

政府在推动市场发展方面发挥着关键作用。例如,英国政府对此采取了“前倾”方法。国家统计局特别是国家安全机构,已经尝试并试图增加隐私增强计算技术的使用。英国艾伦•图灵研究所(Alan Turing Institute)是英国数据科学与人工智能研究院,在实现多学科方法进行隐私保护数据分析方面发挥着关键作用。隐私是该研究所跨多个研究计划的战略重点领域,包括国防与安全、人工智能和健康;美国已将大量资金用于隐私增强计算技术的战略开发。情报高级研究计划活动(IARPA)特别是在2017年启动了一项名为“具有降低开销的同态加密计算技术”的重大计划(HECTOR)。

政府在推动市场发展方面发挥着关键作用。例如,英国政府对此采取了“前倾”方法。国家统计局特别是国家安全机构,已经尝试并试图增加隐私增强计算技术的使用。英国艾伦•图灵研究所(Alan Turing Institute)是英国数据科学与人工智能研究院,在实现多学科方法进行隐私保护数据分析方面发挥着关键作用。隐私是该研究所跨多个研究计划的战略重点领域,包括国防与安全、人工智能和健康;美国已将大量资金用于隐私增强计算技术的战略开发。情报高级研究计划活动(IARPA)特别是在2017年启动了一项名为“具有降低开销的同态加密计算技术”的重大计划(HECTOR)。

3、循序渐进开拓广阔的市场

隐私增强计算技术可以帮助公共和私营部门开发满足社会关注的需求的解决方案。这些解决方案可以为数据提供真正的分散和可扩展使用。欧洲率先通过GDPR实施了更严格的数据保护法规,从而促进了以消费者为中心的数字市场,世界各国都陆续纷纷推出了自己本国的GDPR,数据隐私增强计算技术市场还是一片未被开发的处女地,发展空间十分广阔。由于隐私增强计算技术涉及各个方面的多种技术及解决方案,因此在隐私增强计算技术开发过程中的中间成果几乎可以毫不改变地投入应用,为全面实现隐私增强计算技术做好铺垫,而不必等到隐私增强计算技术涉及的全部技术和方案的成熟。