1. 基本加密

有时最简单的解决方案就足够了。现代加密算法用一把钥匙锁定数据,因此只有拥有钥匙的人才能读取数据。许多数据库可以使用 AES 等标准加密数据。这些解决方案最能防止硬件丢失,可能是被盗。如果没有正确的加密密钥,数据仍然安全。

但是,如果攻击者能够潜入,对称加密算法可以保护运行中的计算机的程度是有限的。攻击者可以找到允许数据库处理合法操作的相同密钥。许多数据库提供了对“静止”信息进行加密的选项。例如,Oracle 将其选项称为“透明数据加密”,以强调开发人员必须做的事情很少。


2.差分隐私

这种技术以不同的方式部署数学。它没有将信息锁定在数字保险箱中,而是添加了精心调整的噪音量,以使其难以确定哪个记录对应于特定的人。如果噪声添加正确,它不会扭曲许多统计数据,如平均值。如果您从数据集中的年龄中随机添加或减去几年,平均年龄将保持不变,但可能很难按年龄找到一个人。

解决方案的效用各不相同。最好将数据集发布给想要研究数据的不受信任的合作伙伴,通常是通过计算平均值和集群大小。许多算法在以不会扭曲许多聚合统计数据的方式添加噪声方面做得很好。了解哪些机器学习算法仍然可以很好地处理失真位是一个活跃的研究领域。

微软和谷歌提供将算法与数据存储和机器学习算法集成的工具。例如,谷歌的Privacy-On-Beam将噪声添加机制与 Apache Beam 管道处理相结合。


3. 哈希函数

这些计算有时称为“消息验证代码”或“单向函数”,将大文件归结为较小的数字,这使得它们实际上无法逆转。给定一个特定的结果或代码,找到将生成该特定代码的文件将花费太长时间。

这些功能是区块链的重要组成部分,它以一种可以跟踪和识别篡改的方式将它们应用于数据的所有更改。它们可以防止加密货币交易中的欺诈,并且许多人正在将这些技术应用于需要确保数据一致的其他数据库。添加这些可以帮助应对合规性挑战。

美国国家标准与技术研究院 (NIST)的安全散列算法 (SHA)是广泛使用的标准集合。一些早期版本(如 SHA-0 和 SHA-1)具有已知的弱点,但较新的版本(如 SHA-2 和 SHA-3)被认为非常安全。


4. 数字签名

像 RSA 或 DSA 这样的数字签名算法是更复杂的计算,它将散列函数的篡改检测特性与认证信息的特定个人或机构相结合。他们依赖一个只有责任方知道的秘密密钥。例如,加密货币将财富的所有权与知道正确密钥的人联系起来。跟踪个人责任的数据库可以包括验证特定交易的数字签名。


5. SNARK

简洁的非交互式知识论证 (SNARK) 是一种更复杂的数字签名版本,可以证明复杂的个人信息而不会泄露信息本身。这种技巧依赖于更复杂的数学,有时被称为“零知识证明”(ZKP)。

包含 SNARK 和其他类似证据的数据库可以保护用户的隐私,同时确保他们遵守法规。例如,一个非常简单的例子可能是一种数字驾驶执照,它可以证明一个人的年龄足以喝酒而不会透露他们的出生日期。一些人正在探索将该技术应用于疫苗护照。

SNARK 和其他非交互式证明是一种活跃的研究形式。使用各种编程语言的数十种算法实现为新项目奠定了良好的基础。


6. 同态加密

处理使用传统加密算法锁定的数据的唯一方法是对其进行解密,这个过程可以将其暴露给任何有权访问计算机进行工作的人。同态加密算法旨在使对加密信息进行计算而无需对其进行解密成为可能。最简单的算法允许进行一次算术运算,例如将两个加密数字相加。更复杂的算法可以进行任意计算,但速度通常要慢得多。为特定问题寻找最有效的方法是一个活跃的研究领域。

作为该领域研究的先驱之一,IBM发布了一个工具包,用于将其同态加密与适用于iOS和MacOS 的应用程序集成。


7. 联邦处理

一些开发人员将他们的数据集拆分成更小的部分,有时甚至更小,然后将它们分发到许多独立的计算机。有时这些位置会被打乱,因此无法预测哪台计算机将保存哪条记录。这些解决方案通常建立在软件包之上,这些软件包旨在通过并行运行搜索或分析算法来加速处理所谓的大数据。最初的目的是速度,但增加攻击弹性可能是一个副作用。


8. 全分布式数据库

如果将一个数据集拆分成几块可以保护隐私,为什么不是十亿块或更多块呢?更常见的解决方案是将数据直接存储在创建和使用的位置。用户的智能手机通常具有大量额外的计算能力和存储空间。如果几乎不需要集中分析和处理,那么避免将其传送到云中的服务器会更快、更具成本效益。

例如,许多浏览器支持复杂数据结构的本地存储。W3C 标准包括用于具有键和值的文档样式模型的本地存储以及用于更多关系模型的索引版本。


9. 合成数据

一些研究人员正在通过随机生成新值来创建完全合成的数据集,但其方式遵循相同的模式并且在统计上基本相同。例如,一个名为 RTI 的研究智囊团创建了2010 年美国人口普查数据的一个版本,其中填充了居住在随机地址的随机人。人们完全是虚构的,但他们的家庭住址和个人信息被选择为具有与真实值相同的基本统计资料。在许多情况下,研究人员可以测试算法并生成与处理真实数据一样准确的解决方案。


10. 中介和代理人

一些研究人员正在构建工具来限制数据收集并在存储数据之前对数据进行预处理。例如,Mozilla 的Rally 会跟踪想要研究互联网信息流的研究人员的浏览习惯。它会在调查期间安装一个特殊的插件,然后在最后将其删除。该工具将关系正式化并强制执行有关收集和聚合的规则。 


11. 无数据

无状态计算是大部分网络的基础,许多提高效率的驱动器在以尽可能少的记录保存方式重新构想工作时取得了成功。在某些极端情况下,当合规性成为可能并且用户愿意接受不太个性化的服务时,删除数据库可以最大程度地保护隐私。