选择什么样的“轮子” 来推动数据要素安全流通的“稳”与“健” - 网安

文 / 中银金科创新研究中心石新蕾张翼飞

上海市多方安全计算技术创新中心陈立峰

金融业一直是探索利用科技手段促进数据要素价值释放的前沿行业。在数据成为生产要素并推动其流通的情况下,隐私计算技术及其在行业的应用正在加速发展。

隐私计算技术依赖于丰富的密码学算法协议体系，既有面向底层的非交互式密码算法（如对称密码、非对称密码和杂凑函数等），也有面向应用的交互式密码算法（如不经意传输、多方安全计算、零知识证明等）。因此，如何选好和用好密码学算法应用这个“轮子”来确保金融数据要素这辆车的“稳健”行驶，满足安全性和合规性要求，成为了当前金融行业隐私计算场景应用的首要任务。

中银金科隐私计算团队在平台建设经验积累的基础上，形成了一定的认识和独到的见解。团队认为选好用好隐私计算的密码学算法需要具备“天时”地利” “人和”。

如何选择轮子

1.选择具备“天时”的轮子

一些密码学算法因其存在缺陷容易被破解因而被弃用，需要进行进一步的算法迭代，使用新的版本。即：好轮子需要具备“天时”。

以散列算法为例。在隐私计算平台的各类场景中，有多个场景需要用到散列算法。散列算法存在多个系列的算法实现，著名的有MD系列、SHA系列等。其中 MD5 已经可以在 221 复杂度内完成碰撞，谷歌也于2017年初在 264 复杂度内完成了第一次 SHA-1 碰撞。至此，MD5 和 SHA-1 已经在安全领域被废弃。

当前除了 SHA-2、SHA-3 之外，还有另外一个哈希算法系列BLAKE2可供选择。BLAKE2是基于BLAKE的设计，于2012年公布。其设计初衷是为了替代广泛引用但是存在安全风险的MD5和SHA-1算法。BLAKE2 系列比常见的 MD5、SHA-1、SHA-2、SHA-3 更快，同时提供不低于 SHA-3 的安全性。目前已应用于OpenSSL、wolfSSL、Linux内核等诸多著名项目中。

BLAKE2主要有两个版本 BLAKE2b（BLAKE2）和 BLAKE2s。BLAKE2b 为 64 位 CPU（包括 ARM Neon）优化，可以生成最长64字节的摘要；BLAKE2s 为 8-32 位 CPU 设计，可以生成最长 32 字节的摘要。二者的衍生版 BLAKE2bp 和 BLAKE2sp 可以进行多核并行计算，在保持相同安全性的前提下，进一步提升计算速度。

距 2008 年的初代 BLAKE 算法获得 NIST 认可具有 SHA-3 同级别安全性，已经过去了将近 10 年， BLAKE2 也已经成熟，或许能成为 SHA-2/3 之外一个不错的选择。

2.选择具备“地利”的轮子

一些密码学算法虽然经过安全性验证且具备一定强度，但在某些特定场景下仍有可能泄露需要隐私保护的信息，从而不适用于该类场景，需要用户选择更加适配的算法。即：好轮子需要具备“地利”。

以多方安全计算为例。基于秘密共享的多方安全计算协议有很多种，最典型的两种是SPDZ和ABY3，其中SPDZ是多方协议，即可用于任何多方场景，ABY3则仅限于三方计算场景。

在SPDZ协议中，参与计算的数据预先作加性秘密共享，即将数据随机分解成若干份碎片，使其和等于原数据，碎片的个数与参与方相同，每个参与方获得其中一份，各个参与方获得的碎片各不相同。

在ABY3协议中，参与计算的数据同样按照加性秘密共享将数据分成3份，3个参与方中的任何一个获得其中2份。

从两种计算协议的对比可以看出，在三方安全计算的场景中，ABY3协议是无法抗合谋攻击的，因为任何两方的联合都可以将秘密共享前的隐私输入数据恢复。但是SPDZ可以抵抗这种两方合谋窃取数据的阴谋，因为缺少任何一个参与方所唯一掌握的碎片都无法恢复出原始数据。

因此虽然ABY3在性能方面有一定优势，但在无法确认各个参与方之间不存在合谋的可能性时，在任意多方的场景中优先选择SPDZ协议能实现更好的安全性。

以国密算法为例。在使用已有成熟的隐私计算框架前提下，使用我国自主研发的密码算法来替换框架中的非自主密码算法，是保护国内各项数据进行交互的过程中数据安全的必由之路。

国密算法是由国家密码局认定的密码算法，根据不同的功能用途和管理要求，现已经颁布多个标准，包括SM1、SM2、SM3、SM4、SM7、SM9等算法。但是国密标准算法的用处非常具有针对性，例如只针对对称加密、非对称密码、散列函数等特定单一功能，而隐私计算所涵盖的已经不是简单的使用这些功能了，所以需要作隐私计算相关算法的国密化改造来满足这些特殊场景的需求。

例如，安全求交功能可将椭圆曲线算术、分组密码算法、散列算法这三部分功能抽象化，并且用国密SM2、SM4、SM3分别实例化这些模块，从而得到完全使用国密算法的安全求交产品。

如何用好轮子——选择具备“人和”效果的轮子

特定场景下的密码学算法能够满足安全要求，但由于某些场景中场景方希望得到授权范围之外的信息，从而出现违规情形，使得正确的“轮子”用在了未遵守交规的“车子”上，必须通过完善的授权机制和配套措施来确保算法使用安全合规。即：好轮子需要具备“人和”。

1.确保数据处理符合用户授权

根据《个人信息保护法》第七条及《GB/T 35273—2020 信息安全技术个人信息安全规范》，个人信息处理的一般原则要求数据处理者在收集、使用用户数据前获得有效的授权同意，明确数据使用的目的、方式、范围和规则等内容。

即使隐私计算过程可能并不涉及原始数据的外部流转，但由于隐私计算对数据的处理无法达到匿名化的理想效果，参与方仍应严格遵守数据处理规则。在用户授权链条的完整性方面，隐私计算平台需要通过一定的法律合规机制来保障用户授权覆盖隐私计算各参与方及其全部操作行为。

2.确保应用场景符合用户授权

《个人信息保护法》第五十五条规定，当个人信息处理者在处理敏感个人信息、利用个人信息进行自动化决策、委托处理个人信息、向其他个人信息处理者提供个人信息、公开个人信息等情形时，应当事前进行个人信息保护影响评估，并对处理情况进行记录。

因此，平台应监督各参与方采取如下措施：针对采用隐私计算处理的具体场景，各环节是否涉及敏感个人信息、是否会对个人权益产生重大影响等事项，对隐私计算项目进行事前的个人信息安全影响评估。评估的具体内容包括但不限于：数据的处理目的和方式是否合法、正当和必要；对个人权益的影响及安全风险；保护措施是否合法、有效及与风险程度相适应等。

结束语

联邦学习是一个应用框架，可以用不同的技术方案实现不同的安全保护，如想做到数据安全，除必须依赖密码学难题并遵循学界公认的标准外，还需要结合数据细粒度授权、数据使用权责的保护、日志审计监督机制等全力满足合规要求。当然，一个机器学习模型本身就是对训练数据的统计特征刻画，所以，只要访问次数足够多，模型反演或者知识蒸馏总能够还原出这些统计特性。因此，即使计算过程是安全的，也不能完全保证隐私不被泄漏，这属于AI安全的研究范畴了。弄清楚了这些概念，可以清晰地定义多方安全计算、差分隐私等技术能够解决问题的边界在哪儿。

未来，中银金科将持续不断研究隐私计算领域的技术创新，联合包括上海市多方安全计算技术创新中心、交大密码所等机构，秉持自研可控的技术理念，打造保护数据隐私安全且满足跨媒介数据间协同计算、协同建模、协同查询等多样性应用场景需求的安全计算平台，重塑金融、运营商、政务、医疗、工业互联网等各行业的生态，促进数据安全与数据开放的共赢。