近年来,基于大数据和人工智能技术的各项应用已经走进我们生活的方方面面,数据作为其中的基础性生产要素和战略性资源,在生产生活中扮演着越来越重要的角色。与此同时,随着技术发展的不断深入和应用领域的不断拓宽,也逐渐面临一些亟待解决的问题。一方面,单一、少量的数据逐渐不能满足数据应用的需求,只有数据跨部门、跨业务、跨企业、跨地区的融合应用才能支撑和推动数字经济创新发展。另一方面,数据安全和隐私保护的关注度越来越高,数据应用是否合规决定了整个产业发展的可持续性。

为解决上述问题,隐私计算技术受到了金融机构、政府部门、高校研究机构等各行业的广泛关注。2021年以来,隐私计算技术在不同场景的预研、验证、落地应用进程明显加快。本文以智能营销的场景为例,研究了隐私计算技术与银行业务融合应用的实现方案,总结了目前遇到的问题和未来的发展方向。

传统智能营销建模现状与问题

以理财推荐模型为例,在传统的智能营销场景下,目标是提高理财产品的点击率,若客户点击了推荐的产品则为正样本,没有点击则为负样本。然后通过数据清洗和特征工程,为机器学习模型准备好训练数据,训练完成后即可投产上线。这其中产生的问题在于,无论如何优化算法层面,模型的预测效果很大程度上还取决于参与训练的数据数量与质量,而目前智能营销模型所能使用的数据是十分有限的。

在传统场景下,参与模型训练的数据,无论是客户的手机银行APP行为数据,还是客户的资产、交易、风险数据,都是在银行系统内产生的数据。银行很难获取客户在其他金融机构产生的数据,例如客户在其他金融机构的资产、持有产品信息、交易信息等。此外,无论是从保护客户隐私,还是数据应用符合监管要求的角度出发,银行将越来越不可能允许自己的数据出域,脱离自己的管控。同理,其他公司或机构在涉及数据出域的合作中,也会更加审慎。基于以上两点原因,目前传统智能营销面临的主要矛盾是,数据应用对大规模、高质量数据的需求和数据跨机构流通越来越困难之间的矛盾。隐私计算技术是目前能够很好解决该问题的方案。

隐私计算技术概述

隐私计算是一种由两个或多个参与方联合计算的技术和系统,参与方在不泄露各自数据的前提下通过协作对他们的数据进行联合机器学习和联合分析。在隐私计算框架下,参与方的数据明文不出本地,在保护数据安全的同时实现多源数据跨域合作,可以破解数据保护与融合应用难题。常见的实现隐私计算的技术路径包括多方安全计算、联邦学习、可信执行环境等。

可信执行环境是指在数据计算平台上由软硬件方法构建的一个安全区域,可保证在安全区域内部加载的代码和数据在机密性和完整性方面得到保护。

多方安全计算是一种在参与方不共享各自数据且没有可信第三方的情况下,安全地计算约定函数的技术和系统。主要包括秘密分享、不经意传输、同态加密等安全协议,以及由此衍生出的安全求交、匿踪查询等技术。

联邦学习是一种分布式机器学习技术和系统,包括两个或多个参与方,这些参与方通过安全的算法协议进行联合机器学习,可以在各方数据不出本地的情况下联合多方数据源建模和提供模型推理与预测服务。根据数据在不同参与方的分布情况可分为横向联邦学习、纵向联邦学习、迁移联邦学习。

横向联邦学习适用于不同参与方之间数据特征重叠较多,但样本空间重叠较少,通过横向联邦学习,可以扩大样本量以提高模型精度。例如两家面向不同客群的银行之间,共有客户较少,但业务类型相似,就可适用横向联邦学习。

纵向联邦学习适用于不同参与方之间样本空间重叠较多,但数据特征重叠较少,通过纵向联邦学习,可以适用更多的特征训练模型。例如银行和理财公司之间,共有客户较多,但业务类型相差较大,就更适合纵向联邦学习。

纵向联邦学习智能营销建模

为解决传统理财推荐模型遇到的数据特征不足问题,在保证数据安全的前提下,打通数据孤岛,赋能数据应用,银行与外部数据合作,搭建了隐私计算平台。由银行方提供客户是否点击推荐产品标签信息及银行所拥有的其他客户信息,外部数据源提供客户理财交易相关信息,共同进行纵向联邦学习训练。

图1是完整的两方纵向联邦学习流程图。从图中可以看出,在整个训练的过程中,双方明文数据都没有出域,确保了数据的安全性和数据应用的合规性。

图1 纵向联邦建模过程

在进行纵向联邦学习前,双方数据需要先进行安全求交,即通过基于同态加密的多方安全计算,在不暴露非交集部分的用户信息给其他参与方的前提下,参与计算各方获得交集部分的客户唯一标识,且不泄露其他特征信息。在确认双方共有的客户范围后,参与双方即可基于这部分共有客户分别进行特征工程,准备训练数据。

完成前期准备工作后,即可开始模型训练,与传统模型不同的是,在训练过程中,双方原始数据没有离开双方的控制,只有加密态的中间过程数据会进行交互,很好地保护了数据隐私。在整个模型训练收敛之后,双方各自保存属于自己的部分模型。

以两方纵向逻辑回归为例,假设参与方A拥有数据集XAi,参与方B拥有数据集XBi和标签yi,对传统目标函数数进行二阶泰勒展开得式(1)

则纵向逻辑回归的目标函数可以用式(2)表示即:

其中:

因此,对于参与方 A 和 B,其所计算的各自的子模型梯度为 :

在整个训练过程中,双方通过同态加密技术交换密文状态下的梯度数据,并更新模型。

在训练理财推荐模型的过程中,我们使用到的主要数据字段如表1所示。在我们本次的案例中,计算双方各提供50万条数据,双方样本匹配率,即双方共有的客户占总样本量的84%,最终参与训练的样本量共计42万条。

表 1 理财推荐模型主要使用数据

由于纵向联邦学习所用到的数据从特征存放在不同的参与方中,对于已经训练完成的纵向联邦学习模型,在进行模型推理前,需要对于新样本进行一次安全求交,若新样本是双方的共有客户,则可以进行模型推理,否则不能进行。对于共有客户,各个参与方在分别完成自己的子模型推理后,利用多方安全计算进行共享,从而得到整个联邦模型的推理结果。在整个推理过程中,原始数据与模型结果都是加密态的,不仅保护了客户的数据安全,也保护了各个参与方模型参数的数据安全。

联邦模型与传统模型的对比

图2是纵向联邦逻辑回归和普通逻辑回归的ROC曲线对比。从图中可以看出,纵向逻辑回归的AUC值比普通逻辑回归高了近12%,说明在引入更多的数据特征后,模型训练效果有了显著提升。

图2 普通模型与联邦模型ROC曲线

与传统机器学习模型基于单方所有数据进行训练相比,联邦学习使得数据价值在多方协作下得到释放,保护了数据隐私,打破了数据孤岛限制,实现了数据的“可用但不可见”。

隐私计算技术是解决数据安全共享的理想方案,然而在实际应用过程中,也存在着一些难点问题,还需要进一步研究解决。

1.计算性能亟待提升。隐私计算技术在应用过程中需要对数据进行加密处理,在这个过程中会消耗大量的计算性能。以联邦学习过程中用于交换梯度的同态加密技术为例,在相同的硬件条件下,其性能与明文计算的差距在百倍以上。对于商业化应用来说,这无疑是一大痛点。

2.网络通信要求较高。由于隐私计算技术需要多方协作才能完成,这中间必然涉及网络通信问题,以秘密分享协议为例,其广泛应用于加密数据的分享过程,在计算过程中会传输大量密文数据,将对网络带宽造成很大的压力。

3.异构平台间的互联互通还未完全实现。随着近两年隐私计算技术的快速发展,不同架构的隐私计算框架也越来越多,无论是开源框架还是商业解决方案,目前还无法完全实现不同隐私计算平台的完全互通。这很大程度上阻碍了隐私计算技术的进一步推广和应用,应该避免打通数据孤岛之后,产生新的“平台孤岛”。

总结与展望

本文基于智能营销场景下的理财推荐模型,介绍了隐私计算技术在银行的应用,总结了其技术优点和目前面临的问题。总体来说,隐私计算作为一种新兴技术,目前的应用还处于探索阶段,还需要进一步与具体场景紧密结合,才能扩展应用空间的同时促进技术发展。

在数字经济的时代背景下,大力推进金融科技创新,集中攻关核心技术,积极探索应用场景,是银行业发展的必然要求。隐私计算技术以其独特的优势,必将为保护数据隐私,加速数据资产价值释放,促进银行数字化转型提供新的动能