安全数据集成的三个核心原则

VSole2023-05-09 09:52:59

数据共享/集成与数据安全似乎天生就是一对矛盾体。企业的营销、销售和人力资源等部门之间不断增加的数据流在推动决策质量、增强客户体验、提高业务绩效方面发挥着重要作用,但这同时也会对数据安全和合规性产生严重影响。

本文将首先讨论原因,然后介绍安全集成数据的三个核心原则。

危险的数据访问民主化

当今市场上有大量功能丰富到令人难以置信的无代码和低代码工具,可用于移动、共享和分析数据。提取、转换、加载(ETL)和提取、加载、转换(ELT)平台、iPaaS平台、数据可视化应用和数据库即服务,这意味着非技术专业人员也可以相对轻松地使用这些平台,而管理员的监督力度则越来越小。

此外,随着企业SaaS应用数量不断增长,对自助服务集成的需求只会不断增加。

许多此类应用程序(如CRM和ERP)包含敏感的客户数据、工资单数据、发票数据等。这些数据过去往往有严格控制的访问级别,因此只要数据保留在系统中,就不会有太大的安全风险。

但是,一旦您从这些环境中获取数据并将其提供给完全不同的访问级别控制的下游系统,就会出现我们可以称之为“访问控制错位”的情况。

例如,在仓库中处理ERP数据的人员与原始ERP操作员的置信度和访问级别是不同的。因此,简单地将应用程序连接到数据仓库(这将越来越频繁),您将面临泄露敏感数据的风险。例如,违反欧洲的GDPR或美国的HIPAA等法规,以及SOC 2 Type 2等数据安全认证的要求,更不用说利益相关者的信任了。

安全数据集成的三个核心原则

如何防止敏感数据不必要地流向下游系统?如何在数据分享时确保其安全?如果发生安全事件,如何减轻损失?

这些问题将通过以下三个安全数据集成的核心原则来解决:

原则一:单独的关注点

通过分离数据存储、处理和可视化功能,企业可以将数据泄露的风险降至最低。

想象一下,如果你经营一家电子商务公司。你的主生产数据库(连接到您的CRM、支付网关和其他应用程序)存储所有库存、客户和订单信息。随着公司的发展,您决定开始聘请数据科学家。后者上岗后的第一件事就是要求访问包含上述所有信息的数据集,以便他们可以编写数据模型,比如说,天气如何影响订购过程,或者特定品类中最受欢迎的商品是什么。

但是,让数据科学家直接访问主数据库并不可行。因为即使科学家们并无恶意,但他们依然可能(无意中)将敏感的客户数据从该数据库导出到未授权用户也可以查看的仪表板。此外,在生产数据库上运行分析查询可能会将数据库速度拖慢到无法操作的地步。

这个问题的解决方案是明确定义需要分析的数据类型,并使用各种数据复制技术将数据复制到专门为分析工作负载(如Redshift、BigQuery或Snowflake)设计的辅助仓库中。

通过这种方式,您可以防止敏感数据流向下游的数据科学家,同时为他们提供一个与生产数据库完全分开的安全沙盒环境。

图片来自 Dataddo

使用数据排除和数据屏蔽技术

数据排除和数据屏蔽技术有助于分离关注点,因为它们能完全阻止敏感信息流向下游系统。

事实上,大多数数据安全和合规问题实际上可以在从应用程序中提取数据时立即解决。毕竟,如果没有充分的理由将客户电话号码从您的CRM发送到您的生产数据库,为什么要这样做?

数据排除的方法很简单:如果你有一个系统,允许你像ETL工具一样选择要提取的数据子集,你可以不选择包含敏感数据的子集。

当然,在某些情况下确实需要提取和共享敏感数据。这时候就需要用到数据屏蔽/哈希。

例如,假设您要计算客户的运行状况评分,唯一合理的标识符是他们的电子邮件地址。这将要求您将此信息从CRM提取到下游系统。为了保证它端到端的安全,您可以在提取时对其进行屏蔽或哈希处理。这保留了信息的唯一性,但使敏感信息本身不可读。

数据排除和数据屏蔽/哈希都可以使用ETL工具实现。

值得一提的是,ETL工具通常被认为比ELT工具更安全,因为ETL允许在将数据加载到目标系统之前对其进行屏蔽或哈希处理。有关更多信息,请参阅ETL和ELT工具的详细比较。

保持强大的审核和日志记录系统

最后,确保有一个强大可靠的审核和日志系统,可查询谁在访问数据以及数据正如何流动。

当然,这对于合规性也很重要,因为许多法规要求企业证明他们正在跟踪对敏感数据的访问。但日志系统对于快速检测和响应可疑行为也至关重要。

审计和日志记录既是公司本身的内部责任,也是数据工具供应商的责任,如流水线解决方案、数据仓库和分析平台。

因此,在评估数据堆栈中添加日志工具时,请务必注意它们是否具有完善的日志记录功能、基于角色的访问控制和其他安全机制,如多重身份验证(MFA)。SOC 2 Type 2认证也是加分项。

这样,如果确实发生了潜在的安全事件,您将能够进行取证分析并减轻损害。

总结:访问与安全不是零和游戏

随着时间的推移,企业将越来越多地面临共享数据的需求,以及确保数据安全的需求。幸运的是,满足其中一个需求并不一定意味着要牺牲另一个需求。

以上介绍的三个安全数据集成原则可以作为所有企业的安全数据集成策略基础:

首先,确定可以共享哪些数据,然后将其复制到安全的沙盒环境中。

其次,尽可能通过将敏感数据集从管道中排除,将敏感数据集保留在源系统中,并确保对确实需要提取的任何敏感数据进行哈希处理或屏蔽。

第三,确保您的业务本身和数据堆栈中的工具具有强大的日志记录系统,以便在出现任何问题时,您可以最大限度地减少损害并正确调查。

大数据数据集成
本作品采用《CC 协议》,转载必须注明作者和本文链接
没有数据安全就没有国家安全,数据安全治理作为数据安全体系重要的组成部分引起了各行各业越来越多的关注。从数据环境下海量数据面临的安全风险出发,结合数据在使用过程中的安全需求,给出了一种动态防御的数据安全治理架构,并对该架构下的关键技术进行了研究。该架构能够为数据安全治理提供体系化安全治理思路,其中的关键技术可以为该架构的实现提供有效支撑。 《中华人民共和国数据安全法》(下文简称:数据安全法)的正
数据标准一般分为元数据标准、主数据标准、数据指标标准、数据分类标准、数据编码标准、数据集成标准等内容。数据治理是人工智能基础,为人工智能提供高质量的数据输入。人工智能技术在数据采集、数据建模、元数据管理、主数据管理、数据标准、数据质量及数据安全等领域有着深入的应用。
鼓励各地人才管理部门将企业CDO列入产业人才政策范围。企业应当按照公开、公平、公正、择优的原则,参照副职负责人的选聘任用程序设置CDO,直接向企业负责人汇报。企业应当对照CDO的职责要求,为CDO提供组织机构、岗位职务、人员编制、资金保障等各种必要条件。企业应当以制度形式赋予CDO对企业重大事务的知情权、参与权和决策权。
DataOps 通过采用技术来实现这一目标,将数据的设计、部署、管理和交付自动化,从而提高其使用和提供的价值。DataOps 从根本上提高了从数据中获得洞察力的速度。DataOps 使组织能够从其拥有的每个数据源中识别、收集和使用数据。DataOps 打破了组织内部的数据孤岛,并将所有数据集中在一起。DataOps 还使组织摆脱了手工数据管道变更管理流程。为了满足内部数据质量和数据屏蔽规则,有目的地以协作的方式向内部和外部的消费者交付数据
行业湖仓一体的建设方案2020年下半年,我们开始探索解决方案,数据湖进入了我们的视线。不难看出,数据湖与数据仓库两者虽然能力互补但却很难直接合并成一套系统。通过采用基于湖仓一体的冷热数据分层存储方案,可以有效降低数据的单位存储成本。2.异构数据统一元数据管理数据湖通过开放底层文件存储,给数据入湖带来了极致的灵活性。进入数据湖的数据可以是结构化的文本,也可以是半结构化的网页,甚至是完全非结构化的图片。
数据质量的高度敏感要求,数据质量的优劣极大程度影响AI模型的应用效果,必须进行多维度的质量检查,以及对实时性高要求,实时数据分析、推荐和预警时,数据源更强调具备实时性接入能力。最后是AI引擎的自我迭代阶段。达到AI模型上线后的持续迭代优化。考虑到数据训练规模扩张,数据类型异构,数据噪声指数级增加,对此AI 引擎能针对性地进行数据自动发现。
当前,以数据、物联网、人工智能为核心的数字化浪潮正席卷全球,全世界每时每刻都在产生大量的数据,人类产生的数据总量呈指数级增长。面对如此巨大的数据规模,如何采集并进行转换、存储以及分析,是人们在数据开发利用过程中面临的巨大挑战。其中,数据采集又是所有数据处理行为的前提。
2020年10月8日,美国防部发布了首份《数据战略》,该战略是继2019年美国国防部发布的《国防部云战略》、《国防部人工智能战略》和《国防部数字现代化战略》以后又一IT(信息化)现代化领域指导性战略文件。在美军正加速从“网络中心战”向“数据中心战”转型的关键时期,该战略的出台具有非常重要的指导意义。
数据湖”是什么?
2023-12-21 15:14:53
我们使用的应用到我们与之互动的企业,数据在塑造我们的体验方面发挥着关键作用。有效地管理这些海量的信息是至关重要的。它为顺利运营铺平了道路,并有助于获得洞察力和做出明智的决策,这就是数据湖的概念。可以把它看作是巨大的原始数据存储库和我们用于特定分析的结构化存储库之间的桥梁。数据湖汇集了这两个世界的精华,提供了一个既灵活又强大的解决方案。随着我们对该主题的深入研究,我们将了解为什么它会成为数据管理领域
VSole
网络安全专家