隐私计算:数据安全可信流通助力商业银行数字化转型
2022年12月25日,由中国人民大学国际货币研究所(IMI)和中国人民大学金融科技研究所联合主办的“华瑞金融科技沙龙”系列活动第5期“隐私计算:数据安全可信流通助力商业银行数字化转型”线上研讨会成功举办。交通银行金融科技创新研究院院长、网络金融部总经理李肇宁做主题报告,上海金融与发展实验室主任曾刚,蚂蚁集团副总裁、首席技术安全官韦韬,以及中国银行业协会研究部主任李健就这一话题先后展开研讨。本次会议由IMI特约研究员、中国人民大学财政金融学院教授邱志刚主持。
交通银行金融科技创新研究院院长、网络金融部总经理李肇宁于会上作了《隐私计算:数据安全可信流通助力商业银行数字化转型》的主题报告。他从党中央对数据要素与数据安全的高度重视与规划要求、立法层面、金融发展与数字化转型的需要等方面讲述了隐私计算的时代背景,梳理了隐私计算技术的特点及优势,分析了隐私计算在金融领域的应用现状并提出了相应发展建议,最后,从产业角度对数据安全可信流通进行了总结和展望。
隐私保护时代背景
(一)习近平总书记高度重视数据要素与数据安全
习近平总书记多次提及要发挥数据要素作用与保障数据安全。2016年,总书记参加网络安全与信息化工作座谈会就提到,要依法加强对大数据的管理,一些涉及国家利益、国家安全的数据,很多掌握在互联网企业手里,企业要保证这些数据安全。
2017年,总书记分别在中央政治局先后两次集体学习中提出,要加快建设数字中国,构建以数据为关键要素的数字经济,推动实体经济和数据经济融合发展;要切实保障国家数据安全,要加强关键信息基础设施安全保护,强化国家关键数据资源保护能力,增强数据安全预警和溯源能力。今年,总书记在中央全面深化改革委员会会议上强调,数据基础制度建设事关国家发展和安全大局,要维护国家数据安全。因此,在保障安全的前提下,发展以数据为关键要素的数字经济,既是总书记对国家发展的规划,也是对全党的要求,同时也是对国际合作所提出的呼吁与倡议。
从发展视角来看,数据是数字经济的关键要素,数据要素是数字经济深化发展的核心引擎,数字经济的发展需要保障核心引擎的安全运转;同时,规范、健康、可持续是数字经济高质量发展的迫切要求,这需要一定的制度保障来实现对数据的安全开发利用。从安全视角来看,数据安全是国家安全的重要部分,贯穿了数据治理的全过程,其中,数据要素的流通是数据安全需要保障的关键环节,如何规范有序地开发数据要素、实现数据安全有序的流通均需要数据制度保障。
(二)党中央、国务院对数据要素和数据安全的规划和要求从平面走向立体
无论是国民经济的发展还是金融业的数字化转型,都需要发挥数据要素价值,保障数据安全,实现数据安全的可信流通。从党中央、国务院下发的一系列文件中可以看到,对数据要素和数据安全的规划和要求已经从平面走向立体,从局部的推进发展走向体系化的全局统筹,从特定方向的探索走向深度的基础制度的制定。
2020年3月,中共中央、国务院印发了《关于构建更加完善的要素市场化配置体制机制的意见》,其中明确提出:要加快培育数据要素市场,提升社会数据的资源价值、加强数据资源的整合和安全保护。2022年1月,国务院印发《“十四五”数字经济发展规划》强调,创新数据要素开发利用机制,适应不同类型数据特点,以实际应用需求为导向,探索建立多样化的数据开发利用技术,鼓励重点行业创新数据开发利用模式,在确保数据安全、保障用户隐私的前提下,调动行业协会、科研院所、企业等多方参与数据价值开发。2022年10月,人大常委会专门审议了《国务院关于数字经济发展情况的报告》,提出下一步要加快出台数据要素的基础制度及配套政策,推动公共数据、企业数据、个人数据分类分级确权授权使用,构建数据产权、流通交易、收益分配、安全治理制度规则,统筹推进全国数据要素的市场体系。毋庸置疑,最新出台的重磅级文件就是《关于构建数据基础制度更好发挥数据要素作用的意见》。该《意见》在今年6月份由中央全面深化改革委员会会议审议通过,12月19日面向全社会正式发布,全文20条,所以也被称为“数据二十条”。
(三)我国已在立法层面强化数据安全、隐私保护
我国这些年也在立法层面上不断强化数据的安全和隐私的保护,依托全国性法律法规和部门规章制度等逐步推动形成了数据安全的协同治理机制。在全国性法律层面,《民法典》在总则中明确自然人的个人信息受法律保护,为个人信息保护提供了基础依托,《网络安全法》、《数据安全法》、《个人信息保护法》等都对数据使用、保护提出了细化要求。在地方层面上,深圳、上海、重庆出台了相应的数据条例,浙江省出台了公共数据条例,其他像贵州、天津、吉林、辽宁等省份也出台了大数据发展的条例。此外,我国也发布了一系列信息安全技术、金融数据安全等系列标准作为数据安全使用的规范和指引,比如在金融领域需要特别关注的有:《金融数据安全分级指南》、《个人金融信息保护技术规范》、《金融数据生命周期安全规范》、《金融业数据能力建设指引》等,特别是在《金融业数据能力建设指引》中要求,确保金融数据在全生命周期各环节的保密性、完整性和可用性,这对金融数据的安全和可用性都提出了明确的要求。
(四)金融发展、数字化转型需要数据安全可信流通
1. 数据安全可信流通是金融机构服务国家重大战略的必经之路
金融业是数据密集型行业,当代金融服务离不开数据要素。金融业的数字化转型依赖数据的支撑,金融业的安全发展也离不开数据安全。进一步来讲,金融服务的开放创新离不开数据的流通共享,无论是提高风险防范的能力,还是实现高水平的开放,服务高质量的发展,都需要依赖于数据的流通共享,单靠金融机构能够获取的信息很难支撑高水平的现代化金融服务需求,这就必然要求,既要有数据的流通共享又要做到安全可信,如此金融业才能守正创新,更好地服务国家的战略。
2. 数据安全可信流通是金融机构业务合规发展的内在要求
一方面,法律法规层面已经形成了数据安全的协同治理机制,反复强调并要求数据使用必须审慎合规;另一方面,随着相关法律法规及隐私保护知识的普及,人民群众的数字素养和网络安全意识逐步提升,信息安全隔离意识已经显现,对于隐私数据的提供变得谨慎,对于作为数据被提供方的金融机构提出了更细致的要求。
对于金融机构来说,安全可信既是对数据流通全流程的要求,也是对数据全生命周期的要求:需要可信的数据源,安全可控的处理能力,受约束的使用范围。这些要求多位一体,既是外部合规的约束,也是内在发展的需要。
3. 数据安全可信流通是金融机构服务实体经济、发展惠民服务的高效手段
中央交给金融工作的三大任务中,第一件就是服务实体经济。在服务实体经济的过程中,只有提高销售的服务水平,才能有效地触达实体经济,只有提高业务的分析能力,才能触达有效的实体经济,这其中数据安全可信流通可以发挥巨大的作用;只有了解人民群众的“急难愁盼”,才可以精准地定位服务短板,响应群众需求,改善服务质量;只有了解客户对于金融服务的实际需求,知晓了金融服务的实际标的、运营情况、资金走向,才能够对风险早识别、早预警、早发现、早处置,遏制风险的传染外溢。进而在精准服务实体经济,提升服务质量,防范化解风险的基础之上,利用数字化转型契机,降本增效,实现高质量发展。
(五)《关于构建数据基础制度更好发挥数据要素作用的意见》:学习与解读
《意见》以习近平新时代中国特色社会主义思想为指导,以维护国家数据安全、保护个人信息和商业秘密为前提,以促进数据合规高效流通使用、赋能实体经济为主线,构建适应数据特征、符合数字经济发展的规律、保障国家数据安全、彰显创新引领的数据基础制度。《意见》的重点工作是《意见》构成的四个制度,也是意见的主体部分。
数据要素不同于其他的生产要素,具有无形性、非消耗性的特点,可以接近零成本、无限地复制,这些都是其他生产要素所不具备的。传统的生产关系中内含的传统生产要素的特点,对数据这种新型生产要素未必能完全适用。所以,新的制度要“适应数据特征”;同时,数字经济的发展也需要对数据要素进行价值实现,构建与数字生产力发展需求相适应的,“符合数字经济发展规律”的新型生产关系。
《意见》总共20条,提出5个方面的基本原则,4项制度建设,包括数据产权制度、数据要素流通和交易制度、数据要素收益分配制度,以及数据要素治理制度。
第一个原则是遵循发展规律,创新制度安排。
《意见》要求对数据安全、数据利用和数据流通三个方面进行有利探索,并指出“在实践中完善,在探索中发展”,辩证地提出了当下发展阶段,制度建设和实践探索的相互促进、相互合作关系。
《意见》创新性地提出了三权分置,“建立数据资源持有权、数据加工使用权和数据产品经营权等分置的产权运行机制”,淡化了数据的所有权。同时,《意见》提出要“促进数据的使用权交换和市场化流通”,交换数据的使用权而非持有权是一种新的模式,不同于以往的概念和实践。因为数据是可以接近零成本复制的,使用过程中就可以留存复制一份,所以对于数据来说,不存在“借了要还”的概念,使用就伴随着持有。现在提出可以仅交易使用权,比如A到B处使用数据,使用后只得到结果,但不带走原始数据,或者由B告诉A数据使用的结果,但是不告知具体的数据内容。交换数据的使用权而不是所有权,这无疑能够更充分地保护数据要素各参与方的利益,有效地避免数据无序流转,助力提升数据安全治理水平。
围绕着“数据合规高效流通使用、赋能实体经济”的主线,《意见》对公共数据、企业数据、个人信息数据进行了单独的讨论。对于数据要素各参与方,提到了数据来源者和数据处理者,这也是从数据流通使用的角度出发,而不是从权益角度进行划分。
第二个原则是坚持共享共用,释放价值红利。
从物理层面来说,数据本身只是特定结构的字符,它的意义不大,真正有意义的是数据承载的信息以及这些信息可以开发出的新信息,这是数据的价值。所以,在整个《意见》中反复提及对待原始数据的态度“审慎对待原始数据的流转交易行为”“严格管控未依法依规公开的原始公共数据直接进入市场”,也告知了原始数据的使用方式“推动数据处理者依法依规对原始数据进行开发利用”“公共数据按照‘原始数据不出区域,数据可用不可见‘的要求,以模型、核验等产品和服务的形式向社会提供”,这就是“数据使用价值的复用与充分利用”,而不是简单的数据复制使用。
各取所需,共享红利。一方面是说各自获取所需要的价值信息,因为每一方所需要的信息是不同的,一条数据可以有多个信息维度,各方只需获取必要信息,而不必获取原始数据,比如一条身份证数据涵盖了许多信息,但并不是所有信息都要被使用。另一方面是指数据链条各方获取所需要的服务,在采集、加工、流通、分析、形成产品应用等上下游环节协同发展,共同享受数据带来的红利,这就能“推动数据要素的收益向数据价值和使用价值的创造者合理倾斜,确保在开发挖掘数据价值各环节的投入都能得到相应的回报”。
第三个原则是强化优质供给,促进合规流通。
《意见》全文中“可信”出现了7次,“可信流通”出现了4次,“安全可信”出现了3次,“安全可信流通”出现了1次。可信流通包括四方面:
1、对于数据使用方,要保证数据的来源依法合规,这样才敢用;
2、保障数据真实准确,因为数据会影响后续的经营决策,所以数据的真实性、准确性,数据的质量很重要,这样的数据才能用。“敢用”和“能用”加起来就是“可用”。
3、对于数据的持有方或数据产品服务方,希望保证数据的使用在严格授权范围内,要避免数据的误用和滥用。
4、实现数据全流程动态管理,监督到位,有效防范数据各类风险。
具体措施方面,对于数据来源合法性,《意见》提出“研究数据产权登记新方式”,对于数据质量,“支持第三方机构、中介服务组织加强数据采集和质量评估标准的制定,推动数据产品标准化”“围绕数据来源、数据产权、数据质量、数据使用等,推行面向数据商及第三方专业服务机构的数据流通交易声明和承诺制”“建立数据要素市场信用体系,逐步完善数据交易失信行为认定、守信激励、失信惩戒、信用修复、异议处理等机制”“有序培育数据集成、数据经纪、合规认证、安全审计、数据公证、数据保险、数据托管、资产评估、争议仲裁、风险评估、人才培训等第三方专业服务机构,提升数据流通和交易全流程的服务能力”。
数据可信的另一方面保障措施是场内交易。《意见》明确要“统筹优化数据交易场所的规划布局”,提出了三级交易场所,包括国家级的数据交易场所、区域性数据交易场所和行业性数据交易平台,并且鼓励互联互通,构建多层次市场交易体系;同时,也提出了严格控制交易场所的数量。
第四个原则是完善治理体系,保障安全发展。
安全是重点方向,《意见》全文出现“安全”48次,比“流通”少了1次(49次),相比较而言,“数据要素”出现54次,由此可以看到全文对安全的重视程度。
一是“贯彻总体国家安全观,强化数据安全保障体系的建设”,这要求我们要站在国之大者的角度去考虑数据安全。数据安全不只是商业行为和个人行为,也关系到国家安全利益。
二是“要把安全贯穿在数据供给、流通、使用的全过程”。要时刻保障安全,将数据安全作用到数据的整个生命周期,防范数据风险。
三是“加强数据的分级分类管理”。一方面对数据进行分级分类,根据数据的类型级别对应不同的确权授权;另一方面要对确权、授权进行分级分类,实现不同类型、不同级别的授权。进而“结合数据流通范围、影响程度、潜在风险,区分使用场景和用途用量,建立数据分类分级授权使用规范”。
第五个原则是深化开放合作,实现互利共赢。
总书记已经在G20峰会、冬奥会、进博会、世界互联网大会等多个场合向国际社会提出协同发展数字经济的倡议,我国也发起了《全球数据安全倡议》、《中阿数据安全合作倡议》,正在积极加入《数字经济伙伴关系协定》等,推进跨境数字贸易基础设施建设,推动形成公平竞争的国际化市场,实现数字合作互利共赢,推动全球数字化发展。
隐私计算技术特点及发展
(一)隐私计算技术及分类
1.隐私计算的定义
隐私计算是面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。从技术角度上看,隐私保护研究主要集中在信息处理中的隐私保护、隐私度量与评估。从应用角度上看,隐私计算领域主要是关注数据在进行隐私保护的前提下,实现数据价值的流通与共享。
2. 隐私计算技术发展时间线
隐私计算相关技术于1978年开始出现,首先是1978年Rivest提出同态加密,随后是秘密分享(1979年)、不经意传输(1981年)、混淆电路(1986年)、联邦学习(2016年、2018年)等陆续出现。可以说,隐私计算的发展历程是以现代密码学为主线,协同了信息论、统计学、数论、计算机体系结构等学科融合渐进发展的过程。
值得一提的是,在隐私计算发展历程中,华人科学家有很大的贡献,比如,姚期智院士在1982年提出“多方安全计算协议”,并在1986年提出“混淆电路”的设想,杨强教授在2018年提出“纵向联邦学习和迁移学习”等等。
3. 隐私计算技术分类与对比
在发展过程中,隐私计算基于不同的理念出现了不同的技术分支。
多方安全计算(MPC)是一种基于多方数据协同完成计算目标,实现除计算结果及其可推导出的信息之外,不泄漏各方隐私数据的密码技术。多方安全计算是由一系列密码学安全计算协议组成的协议栈,常采用的技术有秘密分享、不经意传输、混淆电路、同态加密等。
联邦学习(FL)是一种多个参与方在保证各自原始私有数据不出数据方定义的私有边界的前提下,协作完成某项机器学习任务的机器学习模式,分为横向联邦学习、纵向联邦学习和联邦迁移学习三类。
可信执行环境(TEE)是数据计算平台上由软硬件方法构建的一个安全区域,可保证在安全区域内部加载的代码和数据在机密性和完整性方面得到保护,其完整性包括数据的完整性和代码的完整性。目前主流CPU厂商都提供了TEE实现,比如英特尔的SGX、ARM的Trust Zone等。
差分隐私(DP)通过引入噪声对数据集的单个个体进行安全扰动,并要求输出结果对数据集中任何特定记录都不敏感,使得攻击者无法推断由哪一个个体影响从而导致的结果。
这几个技术分支的出发点不完全相同,多方安全计算起源于密码学领域,对于安全性有严格的要求和完整的证明,是一个从安全到使用的范式;联邦学习起源于人工智能领域多方合作建模时对数据保护的需求,对人工智能的原生支持比较好,是一个从人工智能到安全的范式;可信执行环境在数据的使用过程中提供安全环境,是一个数据隔离的范式;差分隐私是以统计学进行数据扰动,保持整体的统计性计算规律,是一个统计学出发的范式。
由于技术思路、技术出发点不同,不同分支各有特点、各具优势。多方安全计算是基于密码学的安全机制,整体而言其安全性较高、计算精度有保障,但是计算性能有待突破;相比于多方安全计算,联邦学习的计算性能有所提高,并原生支持分布式机器学习,但安全性有所降低;可信执行环境具备有较高的计算性能和计算精度,但方案多基于硬件芯片,需要硬件厂商的支持,并且对硬件厂商需要可信;差分隐私基于统计概率学,无需可信第三方,计算性能较高,但主要用于统计性的计算中,通用性有待提高,同时由于加入了相关的扰动,计算精度有所降低。
实际应用过程中,可以根据不同场景需求选择对应的技术方案。需要注意的是,在应用这些方案时并不是必须单一选择的,可以对技术进行融合使用。融合使用既包括隐私计算的细分技术领域的融合,也包括将隐私计算同区块链、人工智能、云计算、分布式身份等技术融合,可以对不同的场景需求研制出弹性的方案,综合化解决。
(二)隐私计算受到国内外广泛关注
1.隐私计算技术的特点与优势
隐私计算技术具有三个特点:
(1)隐私计算基于数据价值流通而非原始数据流通,实现数据“可用不可见”。和传统合作模式相比,隐私计算为数据流通中难以规避的敏感信息泄漏问题提供了技术实现的路径,它可以支持多个机构在满足用户隐私保护和数据安全的要求下进行数据使用和机器学习建模,实现原始数据不动而数据价值流通。
(2)对于数据价值流通的可控性,隐私计算也有很好的解决。多方安全计算、联邦学习可以对原始数据按用途与用量进行授权使用,并在使用过程中不被泄露。机密计算可以在安全环境内进行运算,保证原始数据不出管理域,这些典型的隐私计算技术可以避免数据二次流传,并使得数据可控使用,即“可用并可控”。
(3)隐私计算是加密计算,相比传统数据运算的安全性更高;同时,隐私计算通过与分布式账本、可信身份认证、零知识证明等技术融合,将过程可追溯、身份可信任、数据去标识等技术信任特性融入到隐私保护方案中,将实现数据使用的可监督、可审计,并进一步增加违约成本,提升信息安全,在安全可控的前提下,实现全流程“可控可计量”。
这三个特点也引申出了隐私计算技术在数据流通中的两大优势。
首先,隐私计算技术可以保护数据使用的隐私。隐私保护有两个方面,一是保护原始数据的隐私,在联合运算、建模的过程中,原始数据可以不出域,从数据保护角度优于传统的将数据放在一起进行融合计算的方式,因为传统方式中无论融合过程是在哪一方都会有数据出去;二是保护查询的行为,例如匿踪查询,可以让被查询方无法获知真实的查询条目,防范数据共享过程中数据被逆向追踪,同时防范查询的内容被恶意利用,也就保护了数据使用的隐私。
其次,隐私计算技术可以扩大数据融合范围。一些出于合规性要求无法明文出离管理域的数据、或者出于商业利益考虑不愿意明文提供的数据,可以通过隐私计算实现联合运算,这样就扩大了数据融合使用的范围,在数据不出域的前提下,实现了数据价值的有序流转和规范共享。
2. 隐私计算技术受到国外关注,各地政府支持隐私计算发展
基于以上特点和优势,隐私计算受到了国内外的广泛关注。Gartner在2020-2021年连续两年将隐私增强计算列为重要的战略趋势之一,并且预测到2025年,60%的大型企业机构将应用一种或多种隐私增强计算技术。麦肯锡在2021年6月,将其列入金融机构应关注的首要技术趋势。今年,IDC将隐私保护计算列为6项“变革型”的技术之一。
在国内,各地政府纷纷关注隐私计算。北京、上海、海南均提出了相应的规划和政策支持。2021年8月16日,时任上海市委书记李强指出,要持续推进数据联通共享,加快应用隐私计算、数据沙盒等可信开放技术,加快数据应用,鼓励生物医药、物流、金融、贸易等数据密集型行业先行先试,强化对行业数字化转型的数据赋能。上海市在2021年11月24日发布《上海市全面推进城市数字化转型“十四五”规划》,提出依托隐私计算、区块链等技术构建可信数据开发利用环境。2021年8月31日,珠海市发布了国内首个以隐私计算命名的政策文件《珠海市关于加强隐私计算在城市数字化转型中应用的指导意见》,提出力争到2023年,珠海市隐私计算应用水平走在全国前列。
(三)隐私计算技术面向产业化快速发展
1. 隐私计算成为热点技术
从隐私计算自身发展来看,我国隐私计算产品正在逐步走向成熟,产品配套逐步完善,已经形成了一定竞争优势,并有望在国际竞争中占据有利地位。
在技术发展层面,隐私计算专利申请呈现快速增长趋势,2019年起,国内的隐私计算专利已经超过国外。部分厂商、高校、研究机构、开源社区已经开源了隐私计算相关项目,为隐私计算广泛研究和技术发展提供了技术思路,降低了技术应用的门槛,特别是近三年,微众、百度、字节、蚂蚁等互联网公司都开源了隐私计算框架,依托其业务特点和生态优势推进隐私计算合作。
2. 多种参与主体协同,产业及配套快速发展
在产业发展层面上,当前多种参与主体协同推进,产业及配套快速发展。在标准制定方面,金标委出台了《多方安全计算技术金融应用规范》,目前《联邦学习技术金融应用规范》也正在立项编制制定中。在产品评测方面配套的开发也非常迅速,并且定期会发布通过检测的产品清单。一些团体也关注隐私计算技术,比如中国信通院牵头的“隐私计算联盟”、北京金融科技产业联盟数据专业委员会、上海金融科技产业联盟数据产业化专委会等等,这些联盟吸引了产学研用各方,并且以联盟的形式开展产业协同推进工作,在项目的合作、标准制定方面起到了十分积极的作用。
隐私计算金融应用现状
从隐私计算金融应用视角来看,一方面产业的逐步成熟为隐私计算在金融场景中的应用提供了必要条件,另一方面商业银行的数字化转型离不开数据安全可信流通,而隐私计算技术是数据安全可信流通的一个关键技术方案。当前,隐私计算技术在金融领域已经进行了试点应用并在不断向前发展之中。
(一)监管要求
《金融科技发展规划(2022-2025年)》重点任务的第二节强调,要充分释放数据要素的潜能。这一节一共有四段,其中三段都涉及到隐私计算相关技术,并特别强调要“探索建立跨主体数据安全共享隐私计算平台”。可以说,隐私计算在金融科技的顶层设计中已经处在十分重要的地位。
相关的一些技术标准在国内的金融行业也在逐步出台,2020年央行率先发布《多方安全计算金融应用技术规范》,包括多方安全计算技术金融应用的基础要求、安全要求、性能要求等;中国支付清算协会发布了《多方安全计算金融应用评估规范》;今年金标委启动了《联邦学习技术金融应用规范》的立项流程。这些标准工作的推进将会对实践层面进一步规范指导,促进隐私计算在金融业健康合理应用。
(二)隐私计算在国内金融应用现状
目前各地金融科技创新监管试点中,应用隐私计算技术的项目一共有16项,涉及到的金融相关机构共有18家,参与的主体包括多种类型的金融机构,如国有大行、中国银联、股份制银行、城市农商行、征信公司等等。在当前的应用场景中,以普惠金融和联合风控应用案例最多,绝大多数机构都在这两个领域有所应用,这是因为普惠金融对于风险控制较为敏感,因此,较多的案例同时涉及到普惠金融和风险控制。在精准营销方面也存在较多的案例,一方面可以通过隐私计算技术提供多维度的数据,用于精准营销中的客户画像;另一方面也可以通过隐私求交实现特定客群的匹配,进而实现特定客群推荐。部分机构还采用隐私计算技术来实现信贷业务黑名单共享、多头借贷查询、反电信诈骗等场景功能。
(三)隐私计算金融应用典型场景
1.基于多方安全知识图谱计算的中小微企业融资服务项目
这是央行金融科技监管沙盒中第一个采用多方安全计算技术的项目,项目的背景是中小微企业融资过程中金融欺诈的问题日益严重,需要获知企业间的关联关系。但关联关系团伙一般不会集中在一家机构,任何一家银行很难拿到所有的数据,一个团伙可能有几个实体在银行,有几个实体在运营商,再通过复杂的嵌套,就对欺诈行为进行了非常强的隐蔽,下图展示了最简单的模式。
这种情况下,A和D应该是具有相关性的,可能有风险的传导;A、B、D应该被发现可能是一个团体,需要警惕出现洗钱、团伙欺诈的风险。这种情况下,数据分别在银行和运营商,需要双方进行合作。但在企业内部,客户和谁有关联关系,这是客户的核心资产也是客户的重要隐私,共享时就会遇到很大的壁垒。其实对于银行而言,由于只有A、B、D是银行的客户,在多数情况下,只需要获知A和D是否有关系,关系有多大就够了,而对于B和C,C和D是否有关系,银行并不那么关心。
假设每条边的权重是0.5,只需要知道A和D的关系是0.25就行了,并不需要知道什么样的网络结构计算出这个0.25,对于运营商而言只需要输出出0.25的结果,是不是有点C或点E导致这样的结果出现,也不必告诉银行,这样就保护了双方的网络结构,满足了数据源方的诉求,也真正体现了“最小够用”的原则。
具体实践上,首先需要通过隐私求交实现客户的对齐。隐私求交技术实现双方交集的客户能够被标记,但是单方客户对方无法获知。通过隐私求交就可以把双方的图融在一起,构建了虚拟融合的网络。在例子中,从A到D的关系权重计算再通过一系列的加密运算就可以对整个虚拟图进行分析,可以分析自然特征、局部网络特征、全局网络特征以及复杂的高阶特征。基于这样的方法,在该项目中,交通银行和中国移动合作,实现在数据不出库的前提下联合建模,构建了虚拟的联合关系图谱,用于识别更复杂、更全面的关系链条以及欺诈风险,从而提高了普惠金融的精准度。
2. 基于多方安全计算的图像隐私保护产品
这是第一个将隐私计算用于图像分析、非结构化数据的公开案例。案例的背景是:现在的人脸识别容易将生物特征隐私暴露在相应的场景,而生物特征产品往往伴随人的一生,一旦泄漏造成的危害极大。在这个案例当中,交通银行和中国银联合作,首先对手机POS采集到的图像进行特征提取,然后将提取到的特征信息进行随机切片,分别传输并存储至交通银行和中国银联,这种随机切片和分别传输存储,使得任何一方都不保留用户的生物特征,只有将双方的特征数据进行联合运算时,才能够得到完整的生物特征信息。
在进行生物特征信息比对时,将需要识别的图像特征也进行随机切片,将识别的信息与在交通银行和中国银联存储的数据通过多方安全计算进行比对,由于采集存储时的切片和比对时的切片这两种切片的方式不同且都是随机的,这样不管是交通银行还是中国银联都无法回推全量的生物特征信息,从而实现了在不泄漏原始信息的前提下实现身份识别,保护用户的生物特征信息安全。
该案例将图像的特征数据进行随机切片后分别存储在多个独立主体,有效地避免了金融机构由于存储海量图像隐私信息带来的单点隐患,缓解了运营压力,既保证了信息的安全,也确保不会因为某一家机构被攻破而导致全量数据的泄漏。
3. 云闪付客群精准推荐
金融应用中常见的人工智能联合建模和预测,隐私计算也同样支持,比如交通银行和中国银联联合开展的“云闪付客群精准推荐”项目。云闪付是银联联合商业银行推出的一款产品,银联在APP中向各家商业银行进行引流和推荐,由商业银行根据内部的授信模型自主决策是否进行授信及放款。在这个过程中,银联APP向商业银行引流客户的精度就比较重要,因为引流的质量会影响下游业务开展。问题是,如何能够在银联并不知道客户历史授信结果的前提下,却能够提升引流客户的授信水平。这种情况下隐私计算技术就派上了用场。
首先,项目把云闪付的客户和交通银行客户进行安全求交,将求交的结果分为正负样本,以在交通银行的人群标签为结果值,银联的特征标签为特征值进行模型的构建,最后利用模型筛选出银联用户群中符合银行标准的优质客群进行推荐,并进行后续的审批、放款等业务,由于在模型构建及结果过程中,双方只是交互中间过程值,而无法获知任何原始信息,这样就实现了用户隐私的保护,也保护了数据源方的利益。
4. 惠民就医
隐私计算对于政务数据也是适用的。“惠民就医”是本地平台用户在就医场景下的信用无感支付,其中医疗费用和医保费用实时结算,个人自付和自费部分是通过惠民就医专项额度垫付,用以解决市民的救急的需求。但这个业务遇到的困境是,能够获取的客户信息不多,支撑授信业务的数据存在局限,很多数据源不可信,而可信的数据源能提供的数据比较单一,很难通过数据进行大额授信。另一方面,公共数据具备可信、高价值的特点,但出于对隐私保护和安全性顾虑,公共数据的开发利用受到一定的限制。在这种情况下,可以搭建可信可追溯的多方安全计算系统环境,将公共数据资源提供方,比如大数据中心或者政数局提供的公共数据资源,同企业数据进行安全融合,确保不存在隐私泄漏;然后对这些融合的数据进行特征处理、模型训练等操作,形成人工智能的模型并用于预测。这样就实现了公共数据资源的安全可信开发利用,通过发挥公共数据价值提升大众就医授信额度,满足市民救急救难的需求。公共数据资源通过多方安全计算驾驶舱进行全流程管理,由管理机构实现用户密码数据存证管理、数据资源的发布、数据应用的审批、运算结果的审批等职能,并可以进行事前、事后监督审计,达到“可用不可见”、“可用并可控”、“可控可计量”的效果。
从隐私计算在实际应用中的案例中可以看到,隐私计算具有很大的发展潜力和优势。从合作方角度来看,有金融机构、运营商、政务大数据中心、金融同业等合作,既可以有可信第三方也可以没有可信第三方,可以是多方联盟、也可以是双方交互。从数据使用角度来看,既有从不同数据源进行联合运算向应用输出结果的,又有从同一应用向不同数据源分发数据进行数据保护的;数据格式既有结构化数据也有图谱结构、图像数据等等。从运算方式角度来看,既有数据挖掘也有人工智能建模,还有多方联合运算。
总之,隐私计算使用方式灵活,也可以弹性地适配各种场景,再加上隐私计算本身就具有的保障隐私、保障数据安全、促进数据价值流通的特点,可以有效缓解商业银行在数字化转型过程中面临的信息不充分、数据不完善、数据价值发挥不足的阵痛,并且可以以隐私计算合作为纽带,辅助商业银行进一步扩大业务合作范围,扩展业务服务的空间,同时提升服务质量。因此,在数字化转型过程中,各家金融机构都在大力地进行隐私计算方面的探索。
(四)隐私计算金融应用建议
1. 建立企业级或机构级隐私计算平台
充分关注数据治理与数据分级分类,强化自身的数据保护能力。按照国家法律法规及金融行业有关标准制度综合考量国家安全、公众权益、个人隐私、企业合法利益等因素,健全自身数据要素安全治理机制,选择不同的技术方案、不同的合作方式适配场景需求,在最小可用的前提下实现大数据融合,客观评估、主动防范,实现对数据的精细化管理。
2. 隐私计算技术并不会完全取代明文计算方式
虽然隐私保护逐渐增强,数据共享的壁垒越来越高,但短期内隐私计算技术并不会完全取代明文计算方式,更多是在明文运算不可行的情况下由隐私计算来提供新的解决方案。因为隐私计算技术在技术复杂性、性能效率上相比较明文计算还有很大差距,技术复杂性也比较高,而且目前阶段,技术知识的普及以及技术信任也需要时间来进一步推行、建立。所以相当长时期内,仍会以明文计算为主,隐私计算为辅。
3. 隐私计算技术合作需合法依规
当前,国家和各个地方都出台了相关的法律法规,都对数据采集、处理、存储等全流程进行了要求。隐私计算作为一项技术或解决方案,并不能够豁免各参与方对原始数据本身的保护义务,各机构在使用隐私计算时应当坚持合法依规,严格执行监管要求,避免使用“数据保护手段”做“突破数据保护”之事。
总结与展望
商业银行的数据安全可信流通需要依托整个数据要素市场,商业银行的数字化转型是社会数字化转型的一部分,也需要依赖数据安全可信流通产业的发展提供助力。
(一)面向大规模应用,实现快速发展
以隐私计算为代表的新型数据安全可信流通方式以及它形成的综合解决方案可以实现“可用不可见、可用并可控、可控可计量”,有了这些特点就可以应用到各种金融场景中去。面向未来,在宏观时代背景以及微观发展需要的双重驱动下,新型的数据安全可信流通技术将向大规模应用并快速发展,弥合数据鸿沟,缓解行业间、区域间的不平衡、不充分的数字化发展矛盾。
在发展过程中,技术层面上会从通讯的效率、任务的处理能力等方面实现计算效率的突破,达到规模化的要求。在便捷化方面,实现配置化的资源连接服务,对数据的资源、数据的请求、合作关系的建立、任务的建设等实现快速的配置化和参数化的操作。在广泛连接方面将实现云端协同的数据安全融通,支持低性能设备的安全计算需求,也会支持多合作方接入,满足高并发场景的需要。
(二)强化制度建设,明确权责分工
产业发展离不开制度建设,新型的数据安全可信流通的广泛应用需要进一步明确职责分工。
一是在数据价值融合过程中,涉及到数据收集方、数据持有方、技术提供方、算力提供方、结果使用方、监管方等多种参与主体,在实际应用场景中同一参与机构又可能具备一种或多种身份,因此,合作过程中各方之间的权利、义务、责任等法律边界,仍然需要进一步统筹协调,逐步明晰;二是要逐步理清楚不同合作模式,甚至不同场景模式下安全治理的规则要求;三是要在授权层面形成公众容易理解的、能够适应隐私计算框架的、相比传统数据授权更加丰富、符合隐私计算理念的用户数据隐私计算授权机制。
在实践落地层面,由于数据安全可信流通技术往往基于复杂的密码学、统计学、信息论等技术,大部分用户对于其底层技术难以理解,很多时候呈现黑盒化的特征。所以在进行多方安全计算时,合作伙伴、数据授权主体容易对适用范围、适用场景、安全性方面把握不足,难以有效实现快速对接。因此,数据安全的可信流通发展以及推广需要实践性的指引,以进一步地提高公众对技术的了解、信任及信心,进而形成比较准确的预期,才能更好地应用。对于隐私计算这种新型的数据融通方式的数据授权、适用范围、安全防范也都缺乏规则要求,这些都需要逐步地探索形成,正如“数据二十条”所说,需要在实践中完善,在探索中发展。
(三)建立基础设施,形成融合贯通的格局
数据安全可信流通需要建设基础设施,进一步激发应用活力,形成融合贯通的格局。因为数据作为信息载体,可以实现交叉验证,交叉推理,对于数据价值而言,1+1+1可能大于3,1+1+1+1也就可能大于5。所以,既要建立数据交易所,形成场内的数据流转枢纽,也要实现行业内、区域内的数据融通生态,进而实现跨行业、跨区域的打通,在数据维度层面实现网络效应,实现边际效用递增,最终利用这些融合价值发挥出的能量,激发应用前景和创新活力,实现一片数据红利的蓝海。
“数据二十条”指出,要促进区域性数据交易市场和行业性数据交易平台与国家级数据交易场所互联互通。其中,技术上的互联互通将起到关键作用,因为技术是应用和生态最底层的支撑,只有技术上能够打通合作的壁垒,应用上才能够激发活力。
隐私计算领域的互联互通是指不同的隐私计算产品或技术路线之间进行数据安全运算的能力。目前,多数隐私计算平台尚无法有效互联互通,而且出于数据安全、合规、成本等多方面因素考量,各参与方在基于隐私计算技术合作时,优先考虑使用本机构的既有方案,给数据可信安全流通形成了一道潜在壁垒。目前产业各方都在推进互联互通,但还没有形成实质性的技术产品或成熟方案,主要难点集中在四个方面:
1、从应用角度看,不同平台在使用流程、底层算法、功能分类、资源对齐等方面存在差异。异构的平台难以实现标准化的业务流程串接。
2、从技术实施角度看,产业各方缺乏明确完善的标准及规范指引,不同机构、不同团体、不同行业之间的互联互通缺乏统一的标准支持。
3、从技术理论角度看,异构平台采用不同底层密码学算法协议,实现互通需要理论层面进一步研究。
4、不同隐私计算产品的厂商出于商业利益、未来发展等考虑,对互联互通的态度不完全相同。
在这种情况下,产业各方应该形成共识、合作共赢,快速协同建立起广泛的应用生态,形成规范化、可实施、面向未来的互联互通标准,以及通用的业务处理规则,加强互联互通的技术理论研究,在底层协议中实现理论突破;同时,各产品应构建跨接平台或跨接异构技术路线的适配能力,抽象出必要的步骤和功能,屏蔽底层的算法逻辑,让技术的应用真正回归到服务业务发展,发挥数据融通价值的本源。
(四)关注科技伦理,实现数据平权
最后,在数据安全可信流通过程中,要关注科技伦理。一方面,希望各方能够坚持科技向善、数据平权的原则,以科技之力打造数字安全能力体系,加强金融科技伦理治理,防止不公平歧视、消除数据代表性不足、模型偏差等负面因素,既实现服务的平权,也做到安全的平权,充分保障各方合法权益,尊重和维护市场公平竞争秩序,强化对弱势群体的保障帮扶,让大中小微企业、个人都能平等、高效、便捷地获得信息化服务,都能够享受高水平的隐私安全保护,切实感受到数字经济发展带来的获得感、幸福感、安全感;另一方面,呼吁各方能够做国之大者,在产业建设和发展中坚持助力数字经济发展,保障国家数据安全的初心,回归到服务国民经济、提升服务质效的本源,在产业协同中求同存异,进而充分发挥数据要素的价值,为发展国民经济、维护国家安全贡献力量。
嘉宾探讨
沙龙第二单元,与会嘉宾围绕商业银行数字化转型的难点和挑战、隐私计算未来的发展和主要技术需求等方面展开了深入探讨。
上海金融与发展实验室主任曾刚探讨了《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称《意见》)的重要性以及商业银行数字化转型的挑战和难点。
他指出,《意见》一方面,系统地描述未来中国要素市场或数据要素体系的发展方向,对金融机构数字化,对银行业,甚至对产业数字化都产生深远的影响;另一方面,对要素资源配置效率的提升是中国在数字经济时代进一步提升经济发展的质量,以及释放未来增长空间一个非常重要的动能。要进一步地发挥数据要素配置的效率,完善数据要素市场体系,未来可能会面临几个方面的挑战和难点:
第一,来自制度层面的限制或法律层面的限制。伦理层面的考量是自己的自我约束,法律的约束是来自外部的强制约束。这是需要去关注的。
第二,确权/权属/受益权分配的问题。权属确权在一定程度上,可以用持有权概念替代所有权的概念。持有权基础之上是使用权。使用权会产生收益,受益权的分配取决于不同的权属关系,数据权属和受益权之间的对等促进要素准确配置。
第三,隐私计算技术难点突破。隐私计算实际是为保证数据在交换使用过程中能符合法律的要求、安全的要求或隐私保护的要求等。其中,最大的问题是合作博弈中的问题。
第四,定价难点问题。不同的数据在不同的人手里价值是不同的。在公开拍卖市场中,对数据本身进行定价是比较困难的。
蚂蚁集团副总裁、首席技术安全官韦韬探讨了隐私计算的意义并展望了其未来发展。第一,数据要素与其他生产要素的显著区别在于容易被复制,“你有我有他也有”的情况会造成数据商业价值的崩塌。这意味以后数据要素市场流通的主体不是持有权,而是使用权。隐私计算的出现可以实现在不丧失数据持有权的前提下,有效实现数据使用权的跨域管控。反过来,这个又可以作为隐私计算技术的核心要求。对于多方安全计算和联邦学习,需要数据持有者的参与发起才能对数据进行融合计算,这是通过隐性的控制来实现使用权的管控;而对于TEE可信执行环境,其本身并不为数据持有者提供数据使用权的跨域管控能力,这需要在TEE环境内的隐私计算平台或应用对其进行保障。
第二,如今已经有许多行业隐私计算的应用案例,但隐私计算技术仍然处于早期,不少应用案例中能处理的数据规模、复杂性以及计算模式依然有明显限制。业界初期普遍认为“数据不出域所以安全”,但实际上这种模糊的“数据不出域”概念既不是隐私计算安全保障的充分条件也不是它的必要条件(都能举出反例),甚至因为强调所有计算都需要数据持有方的跨网络参与,这会成为未来行业发展的严重瓶颈。我们很高兴“数据二十条”中再次明确了“原始数据不出域,数据可用不可见”是重要原则和要求,消除了模糊语义。在此原则基础上业界有广阔的技术发展空间,既可以真正确保数据的安全,又能够突破现有技术应用瓶颈。这需要未来整个行业共同突破。
第三,隐私计算技术现在有很多相对独立发展的技术路线,在未来,各个技术融合是大势所趋。这不仅仅是性能、场景适用性上的迫切需求,甚至在安全性上也有强烈需求。现有的各条技术线,包括多方安全计算(半诚实模型安全问题)、联邦学习(信息熵泄露问题)、TEE(供应链攻击与应用攻击)都有实际应用中的安全挑战需要相互之间的技术融合来做补位增强,从而成为未来行业大规模安全可用的隐私计算技术基础设施。隐私计算技术不是免费的午餐,但它的成本会随着基础设施的规模效应而逐步降低。行业里的头部企业应该在监管机构指导之下共同引导融合,扩大应用规模,从而降低边际成本,普惠全行业。
第四,隐私计算技术的使用要有平衡,过度强调单点技术的应用走到极限都会出现问题。比如我们在打击黑产时,在关键案例分析上是需要对黑产涉及的原始数据做深入挖掘分析的。如果没有这个通道,行业的AI安全应用面临着被黑产打穿而无法有效响应的严峻风险。对于这种特殊应用场景,对数据使用应留有专数专用的通道,避免一刀切。
中国银行业协会研究部主任李健分析了银行业应用隐私计算技术的主要需求与银行业应用隐私计算技术的痛点。他认为,银行业应用隐私计算技术的主要需求有四个方面:
一是联合风控,是指金融机构之间数据合作风控,金融机构同政务数据的合作风控,金融机构同运营商的数据合作风控,以及金融机构同互联网公司的数据合作风控。二是联合营销,是指金融机构间数据合作用于精准营销、金融机构同政务数据合作,同运营商数据合作,也同部分的互联网公司合作用于客户的精准营销。三是应用隐私计算技术开展智能运营,是指银行母集团内不同子公司之间不同执行智能的运营。四是反欺诈,通过银行与不同合作单位之间共同构建黑名单共享。
银行业应用隐私计算技术的痛点也有三个方面的体现:
一是由于数据保护的加密算法的复杂性,造成数据处理效率还比较低,在数据实时查询场景方面,效率和性能仍然需要提升。二是在法律层面,关于应用隐私计算技术是否满足了匿名化在上位法的角度还暂未明确,导致一些机构使用这个技术时缺乏更为有效的法律背书,实际通过近期出台的相关意见,下一步值得各类市场参与主体对法律解释方面进行更多的研究。三是由于各类市场主体技术路线不同,现在多方隐私计算平台在互联互通层面仍然需要行业层面以共同的指引和共同的推进,特别是在行业主管部门的牵头统筹下,针对隐私计算的标准和技术产品统一的问题。