数据接口安全风险监测技术原理与实践案例分析 - 网安 - 专业的网络安全产业、社区、知识平台

当前，数字社会快速发展和企业数字化建设加速，数据通过接口交换、传输的情况非常普遍，数据接口安全问题导致的数据泄露、滥用等风险也变得愈发突出。在此背景下，《信息安全技术数据接口安全风险监测方法》于2023年在全国信安标委（TC260）立项制定，数据接口安全问题等到全行业密切关注和应对措施得到高度重视。

2023年10月25日,国家数据局正式挂牌成立，在大力发展以数据要素为基础的数字经济这个大背景下，数据接口作为关键桥梁更显重要，但与之伴随而来的是外部黑灰产、竞争对手觊觎，以及内部违规操作可能导致的数据泄露风险。在越来越复杂的数据交互场景下，传统的数据流动风险解决方案存在明显不足之处。主要表现在对经验的过度依赖、误报漏报问题的突出，以及在攻防升级中对于新类型威胁检测效果的受限。对于数据流动进行全面深入的监测和分析，是旨在实现对潜在风险的精准预警与及时应对。现今，风险监测技术的发展不仅能够提高风险检测的准确性，更为企业数字化转型提供了更为可靠的数据安全保障。

本文基于典型风险场景进行现象行为分析、提出监测方法，并通过实践案例提供更多有益参考。

风险场景 1

内外部场景接口拉取窃数行为

内外部场景的接口拉取行为成为主要窃取数据的表现。内部主要表现内部员工利用接口权限爬取大量敏感数据，若内部员工是一名系统管理员或拥有某种特殊权限等，能够访问和管理企业核心系统的接口，员工滥用他们的接口权限，在合理的工作时间去非法访问公司的数据库和服务器，窃取了大量的客户个人信息、交易记录、公司机密文件等敏感信息。外部表现为黑灰产/黑客利用接口漏洞进行敏感数据爬取，这些黑灰产业分子可能通过专业的漏洞扫描工具或自动化脚本发现了系统中的接口漏洞，这些漏洞可能源自软件更新不及时、配置错误或系统设计上的缺陷。

该场景的分析思路：

在分析内外部场景接口拉取窃数行为时，首先关注内部人员的行为特征。同一类角色的内部人员在操作时间、频率、数量上通常表现出相对固定的模式，例如，运营商营业员的群体行为呈现相似的趋势，而与公众渠道经理的群体行为可能呈现出不相关的特性。在行为序列上，这些内部人员的行为通常具有规律性和一定的固定性。

外部黑客和黑灰产的行为特征则展现出不同的侧重点。这些攻击者通常采用代理、秒拨、僵尸网络等黑灰产工具，以隐藏其真实身份，包括IP地址、身份凭证、User Agent（UA）等。在访问行为方面，这些攻击者的特征呈现出一定的特殊规律，与正常数据接口用户的访问行为有所不同。例如，在参数的变化中，观察到其呈现线性增长或随机性的变化，与正常用户呈现出的规律存在差异。

通过深入了解这些行为特征，可以更准确地识别和分析内外部场景接口拉取窃数行为。对于内部人员的行为，可以建立基于角色和群体的行为模型，以便快速检测异常行为。而对于外部黑客和黑灰产，可以利用其特殊规律的访问行为，建立有效的检测机制，提高对潜在风险的识别能力。这种分析思路有助于全面了解并有效管理内外部场景中可能存在的接口风险。

该场景的解决方法及实践案例：

总体来说，通过对接口流量、访问量、敏感数据量、参数个数以及行为上下文等多维度进行深入的分析，及时发现潜在的异常情况。采用无监督学习方法从数据接口中提取http请求和返回信息，并对数据接口进行合并拆分，同时标识出相关敏感信息标签及其数量，以便检测数据泄漏类攻击和其他未知攻击。在此基础上，采用时间序列异常检测、图异常检测、降维等无监督算法进行风险检测，确保对异常行为的及时察觉。最终，通过运用先进的根因定位算法如Adtributor和Shap，深入解释和准确定位潜在风险，为问题的解决提供更为清晰的方向。

时间序列异常检测的方法涉及建立指标体系，例如接口在一定时间内的访问量和敏感数据获取量。通过持续监控这些指标，并运用机器学习算法进行异常检测，常见的算法包括ECDF和孤立森林等。在不同生产环境中，需要选择适当的算法进行集成学习以提高监测效果。

一旦发生异常告警，需要利用根因分析算法快速定位引起访问量激增的IP地址。Adtributor是一种多维分析算法，最初设计用于广告投放异常的多维智能下钻分析。其假设所有根因都是一维的，引入了解释力（Explanatory power）和惊奇性（Surprise）来量化根因。在恶意IP定位场景中，可以利用Adtributor监测引起异常的恶意IP。

（Adtributor算法原理图）

下图展示了利用时间序列异常监测和根因分析算法快速定位的某政企部分内网IP，在202X年X月X号凌晨1点-2点突然对某敏感数据接口发起大量访问。

对于传统的风险异常解释仰赖安全运营专家经验，这种方式不仅高度依赖人工经验，而且耗时费力。因此，设计一系列根因分析算法，为各种风险类型提供解释，对安全运营者进行风险分析提供有力支持。shap算法核心思想是计算特征对模型输出的贡献，从局部和全局两个层面解释算法模型。简而言之，shap算法基于统计原理衡量特征对模型输出的贡献。如下图所示，利用shap算法发现这些风险IP主要由UA类型和访问量过多导致的，从而产生了风险告警。

由于攻击者受到资源（如服务器和IP地址）和任务（如在一定时间内完成任务）的约束，资源/任务维度的同步以及与正常行为的偏离难以避免，因此可通过图计算挖掘异常点/边/子图，从而感知风险。如下图所示，利用数据接口行为流量进行图计算建模后，在图结构中存在异常的图结构，这些异常的点/边/子图可能具有较高的风险性。

异常样例：某用户在一小时内使用3676个IP地址，使用1个UA：Mozilla/5.0 (Windows NT 6.1; WOW64)等，访问11个高敏感数据接口共19618次，获取大量企业和个人商业/个人敏感信息，如身份证、手机号等。

风险场景 2

数据接口安全权限设置不当

主要表现为公司内部组织架构/产品错综复杂，公司可能经历了多次扩张、并购或业务调整，导致内部组织结构变得复杂。这可能包括多个部门、分支机构以及不同业务单元，使得数据管理和权限控制变得更加困难，管理员可能面临难以管理的大量权限分配任务，导致错误的权限配置，使得一些员工能够访问到超出其职责范围的敏感数据，导致不同人员能访问到不应该访问到的数据。

该场景的分析思路：

在大型企业组织，由于企业结构的错综复杂，存在许多接口的访问权限设置疏漏，如运营商，可能会存在地市A的员工能够访问到大量属于地市B的敏感数据。通过深入分析，可以理解这一问题的根本原因。首先，需要全面了解企业内部结构和各地市业务分布情况。随后，对所有接口的访问权限进行细致审查，特别是在地市A的员工能够获取地市B敏感数据的情况。为解决这一问题，分析思路应围绕建立更为精细化的权限管理体系展开。通过对每个接口权限的详细审查和适时调整，企业可以提高数据安全性，同时优化整个数据管理流程。这种专业的分析思路有助于企业更全面地理解并主动解决因访问权限不当而带来的潜在风险。

该场景的解决方法及实践案例：

利用在各大行业流量分析形成丰富的权限合规策略库，以监测不合规的跨权限访问问题，如异地员工高频数据访问、普通员工访问高级别账号权限数据、宽带到期接口频繁被访问等情况进行持续监控。如图所示，该访问账号显示在长春，却大量访问延边的敏感信息。

小结

通过以上对数据接口数据安全风险监测技术与实践案例解析，可以看出借助大数据分析、建立行为模型、采用无监督学习和根因分析算法的重要性。这些方法有助于企业更全面地理解并及时应对潜在的数据接口数据安全风险，提供可靠的数据安全保障。

上述案例仅为《信息安全技术数据接口安全风险监测方法》中提及的部分风险，目前，该标准正在计划开展试点应用，作为技术标准，对数据接口安全监测方法的技术验证非常关键。一是通过对标准的宣贯，确保试点单位了解监测方法的应用方式。二是基于试点单位实际案例的应用，验证监测方法的可行性、准确性和实用性。通过试点单位对监测方法的接受度，收集企业反馈，以对标准内容进行调整和改进。