摘 要:

信息技术的飞速发展在释放数据红利的同时也加速了数据孤岛的形成。如何在隐私安全的前提下提升数据价值,已经成为了迫切的现实需求。安全多方计算是一项以密码学为基础的隐私计算技术,在数据隐私保护及数据价值流通领域具有广阔的应用空间。从全球数据安全背景及隐私计算入手,提出了安全多方计算技术架构,并梳理了安全多方计算产品设计思路,给出安全多方计算行业应用场景,最后总结了安全多方计算应用思路,助力安全多方计算从理论走向实践。

内容目录:

0 引 言

1 数据安全与隐私计算

1.1 数据安全法律政策背景

1.2 隐私计算

2 MPC技术架构

2.1 MPC密码技术体系

2.1 MPC平台体系架构

2.3 MPC平台产品化思路

3 MPC应用

3.1 政务应用

3.2 金融应用

3.3 医疗应用

3.4 创新应用

4 MPC发展建议

4.1 当前面临的困难

4.2 发展建议

5 结 语

00 引 言

近年来,数字化浪潮蓬勃兴起,数据作为基础战略资源和关键生产要素的地位日益凸显。根据欧盟估测,2020年欧洲个人数据产生的价值占国内生产总值的8%。此外,根据国际数据公司(International Data Corporation,IDC)的报道我国数据体量已超全球总量的1/5并正处于持续增长阶段,数据红利将持续推动我国数字经济的向好发展。然而,在人工智能、物联网、移动互联网、云计算和5G等新兴技术的驱动下,数据的流通与变现使得数据更容易脱离控制,并出现非法滥用的情况。数据安全问题日益凸显,日益增长的隐私泄露事件更是为我国敲响了警钟。

为解决数据的隐私安全问题,同时发挥数据流动与数据增值的能力,一系列隐私计算技术被提出。安全多方计算(Secure Multiparty Computation,MPC)无疑是其中的佼佼者。在经历了40年的理论研究之后,近几年来MPC被大量应用于金融、政务、医疗和互联网等行业领域的试点建设中,显示良好的应用前景,然而从理论到实践仍有颇多问题亟待解决。本文就MPC的落地应用性进行综合研究,在梳理MPC技术基础上,提出MPC技术架构和实现路径,并对行业应用进行归分析,最后从应用推广层面给出建议和下一步规划,助力MPC的规模化应用与发展。

01 数据安全与隐私计算

1.1 数据安全法律政策背景

大数据时代,互联网经济的本质更趋向于围绕用户创造价值。而实践中,滥用数据、损害数据主体权益的现象时有发生。数据安全,法律先行。越来越多的国家以顶层立法的形式规范数据的安全应用,平衡数据保护与数据流通的关系。例如,欧盟出台的《通用数据保护条例》(General Data Protection Regulation,GDPR)以及美国签发的《加利福尼亚州消费者隐私保护法案》(California Consumer Privacy Act,CCPA)都是数据安全立法的典范。我国高度重视数据安全,先后颁布了《网络安全法》《密码法》顶层律法,并持续推动“等保”“密评”系列保障工作。2021年6月10日,我国颁布《数据安全法》,自2021年9月1日起施行,显示出了我国数据安全治理的决心。

1.2 隐私计算

隐私计算是解决数据隐私保护与数据价值流通的系列技术的统称,其目标是“数据可用不可见”。隐私计算主要涵盖4类技术路线:可信执行环境(Trusted Execution Environment,TEE)、差分隐私(Differential Privacy,DP)、联邦学习(Federated Learning,FL)以及MPC。

TEE使用硬件隔离技术构建出安全可信区域,加密后的数据在此区域内运算。若无密钥授权,即使操作系统也无法访问其中的数据。TEE的安全性主要依赖于硬件实现,比较典型的方案为Intel SGX以及ARM Trust-Zone。

DP技术的基本思想是在数据中增加噪声以达到数据混淆不可区分的目的,主要应用于数据结果的隐私保护。DP在提供隐私安全的同时,会一定程度影响数据的实用性。

FL是谷歌公司在2014年针对数据孤岛提出的分布式机器学习方法。最初的FL主要是基于“数据不出域,模型跑路”的思想实现联合建模,然而模型参数并未得到充分保护,存在隐私泄露风险。后续研究者提出一系列结合DP、MPC的FL安全增强方案,以实现隐私性和实用性的平衡。

MPC是一种在参与方不共享各自数据且没有可信第3方的情况下安全地计算约定函数的密码学技术。该技术具备高安全性、多场景适用性的特点,同时拥有实用性和可扩展性的优势,具有非常高的研究热度和应用价值。本文将重点分析MPC的技术特点和架构思想,提出以MPC构建隐私计算体系的实践之路。

02 MPC技术架构

2.1 MPC密码技术体系

1982年,MPC由清华大学姚期智院士基于百万富翁问题提出。MPC使多个参与方能够以一种安全的方式正确执行分布式计算任务。具体来说,个参与方希望利用各自的秘密输入共同计算元功能函数,元功能函数通常是一个随机函数,每个参与方,持有秘密输入,计算完成得到输出。且每个参与方除了自己的输入和输出以及由其可以推出的信息外得不到任何额外信息。

如图1所示,MPC涵盖无中心、隐私安全以及数据价值3方面核心要求。去中心化是MPC区别于传统集中式计算的核心,数据隐私是MPC的安全目标,数据价值则是MPC能力交付的关键。

图1 MPC核心要求

如图2所示,MPC是一系列密码技术的体系化组合,主要涵盖密码资源供给、密码学基础、密码应用3个层面。和传统的密码系统类似,MPC的密码底层资源也包括密码芯片、板卡、整机、软件、系统和云服务等多种形态密码产品。MPC密码学基础在传统的对称密码与公钥基础设施(Public Key Infrastructure,PKI)等技术基础上,拓展了基于标识的密码系统(Identity-Based Cryptograph,IBC)以及无证书公钥密码体制(Certificateless Public Key Cryptography,CL-PKC)等技术。MPC作为一门前沿密码技术,面向不同应用场景主要提供秘密分享、同态加密、混淆电路以及定制技术等4类技术方案或组合。

表1对4种技术方案进行了对比和总结。总的来说,秘密分享技术应用最为广泛,适用于所有MPC场景,这也可以从绝大多数MPC产品都支持秘密分享这一事实进行佐证。同态加密随着算法的逐渐成熟,未来将会有更广阔的应用空间。混淆电路技术多用于布尔运算场景。针对特定场景的定制技术也有较多应用案例。

表1 不同MPC技术比较

图2 MPC密码技术体系

2.2 MPC平台体系架构

以MPC技术为核心构建的隐私计算产品,往往称为MPC平台,参考框架如图3所示。MPC平台是以密码为核心的隐私安全产品,合规是其最基本的要求,因此它应当遵循相关法律法规,并满足系列标准要求。MPC技术平台支持两种技术架构。其一是MPC直接贯通平台的方式:首先采用MPC协议、MPC编译器、MPC应用适配构建MPC运算模块;其次通过MPC运算模块支撑上层的通用运算和机器学习运算;最后实现隐私求交、隐私统计和联合建模等隐私计算功能。其二是以MPC增强FL的方式构建平台:首先在底层构建FL运算模块,并使用MPC对其进行安全增强;其次通过FL运算模块支撑上层的机器学习算法;最后实现机器学习类的隐私计算功能。

图3 MPC平台体系框架

从产品的角度看,MPC平台是涉及多个节点的分布式计算平台,至少包含6类角色:任务发起方、调度方、算法提供方、数据提供方、结果使用方以及计算方。角色之间的逻辑视图关系如图4所示。可以看出,一个节点可以包括多种角色,如某节点既可能是数据提供方,也可能是计算方;多个节点可以组成同一个角色,如多个节点以集群的方式成为一个计算方。

图4 MPC平台逻辑

2.3 MPC平台产品化思路

近年来,MPC理论研究不断推陈出新,取得进步;工业上MPC产业初见规模。如何利用开放的MPC成果,构建MPC平台是值得思考的问题。

通过研究分析,同时结合产业情况,本文提出如图5所示的两种产品化思路。

(1)自底向上。这是密码工程师的视角。具体的是以底层密码学原语为基石,一步步自底向上构建密码协议、密码应用及平台产品。此种方式安全强度得到充分控制,可以达到设定的安全目标,但通常情况下产品周期较长,可能存在交付问题。

(2)自顶向下。这是软件工程师的视角。具体的是先选择平台框架,后续工作主要为基于平台框架的应用开发,同时兼顾其中的MPC技术的应用和优化。此种方式适合快速工程实现,不过随着产品的应用发展,会以安全补丁的形式持续增强安全性。

两种方式没有绝对的优劣,在具体的工业实现中,应当根据实际场景及安全强度要求选择适用的方法。

图5 自底向上与自顶向下的平台构建思路

03 MPC应用

3.1 政务应用

政务领域是MPC的主战场。主要包括政务数据公开共享、大数据交易两类场景。

政务数据属于公共资源,其基本属性就决定了数据公开、共享等性质。传统的数据共享交换方式仍然存在数据出域不受控等风险,实际推广应用受到了较多阻碍。MPC突破隐私安全限制,是政务数据共享落地的有力抓手,图6描述了MPC如何助力政务数据惠民服务。

图6 政务大数据多方计算

大数据交易是在数据要素赋能产业升级的背景下提出的。近年来,全国多地纷纷成立大数据交易所,提供一系列数据清洗、供需撮合、法律咨询和价值评估等市场化专业服务,MPC便是其底层核心技术之一。

3.2 金融应用

金融是数据密集型行业,MPC需求最为迫切。事实上,MPC最好的商业机会确实来自于金融领域。MPC等隐私计算技术正在重构金融3大核心业务:营销、风控、反欺诈。

图7给出了MPC在金融风控场景中的应用示例。在进行贷款业务时,往往单一金融机构无法形成用户客群的完整画像,很难综合评判用户信用。此时便需要多家金融机构,如各大商业银行、保险公司和贷款机构等,共同联合刻画用户行为和决策风险。

图7 金融风控应用示例

3.3 医疗应用

MPC在医疗行业存在巨大潜在价值,但依然面临着艰巨的挑战。由于医疗数据天然不可能做成集中式公共数据集且消费边界清晰,因此MPC机会颇多。但医疗行业面临数据整合难、政策限制多和法律不明确等系列困难,MPC难落地。

图8给出了MPC在大数据医疗中的应用示意。结合MPC、医疗大数据、互联网数据,构建医疗人工智能系统,能够实现精准流调排查、自主医疗诊断和精准药物研制等目标。在后疫情时代,基于MPC的医疗大数据应用或将成为快速发展的市场。

图8 医疗MPC示例

3.4 创新应用

信息技术的飞速发展拓展了MPC的应用领域,MPC在和区块链、物联网、边缘计算和5G等新兴技术的碰撞与融合中,创造了更多的创新应用模式。图9给出了万物互联场景下的MPC示例。安全计算节点不再局限于传统的机构或单位,而是向边缘侧、终端侧下沉,形成了覆盖端、边、云的协同计算资源池,实现了更广义的隐私安全。

图9 万物互联场景下的MPC示例

04 MPC发展建议

4.1 当前面临的困难

当前,MPC面临的困难主要体现在以下3个方面。

(1)上位法律形成,但政策引领不足。我国已颁布网络安全法、数据安全法、密码法等系列上位律法,能够从顶层牵引MPC等隐私计算的落地应用,指导意义巨大。然而,行业规范、应用法规等系列下位政策并未及时跟进,总体上存在责任边界不清晰、应用要求不明确等现状,导致用户不敢用、市场不好推等困难。

(2)技术百花齐放,但标准化程度低。尽管金融等行业开始涉足标准化等工作,但标准化程度仍然非常欠缺。由于MPC技术的多样性和碎片化,客观上导致没有一个技术可以解决所有隐私计算问题,而且相互之间很难互通,数据孤岛问题转为技术孤岛问题。

(3)应用前景广阔,但局面并未打开。目前,MPC项目仍然是研究和试点,处于探索阶段,政府、银行等机构还在论证安全性、可行性及适用性,未来还有一段漫长的推广之路。

4.2 发展建议

本文对MPC的发展和应用提出以下建议:

(1)健全政策配套,补齐行业规范,明确应用要求;

(2)聚合产业生态,建立标准化联盟,打破技术孤岛;

(3)加大技术突破,构建成熟商用的能力体系,提升应用体验;

(4)多元行业并举,在政务、金融、医疗等行业树立标杆并规模化推广,同时打通企业数字化、智慧城市等应用场景,全面做大MPC应用规模。

05 结 语

本文对MPC的技术与应用进行梳理,分析数据安全政策背景及隐私计算需求,重点针对MPC研究技术体系、架构体系以及产品设计体系,提出MPC在政务、金融、医疗、创新领域的应用方案,基于当前现状提出未来发展建议。本文提出的研究成果具备总体性、系统性、实用性,能够为未来MPC的发展提供支撑。