专题 | 实时进化的 AI 网络安全,安全大数据是关键
在网络安全领域,将人工智能技术融入安全产品已成为数字时代下安全发展的新趋势,两者的有效结合能够加强网络风险的自动化预测、识别、响应、处置能力。但人工智能技术需有效融入安全产品,对网络风险进行自动化的预测、识别、响应、处置,AI 算法和模型必须获取到海量且多维的安全大数据,不断地进行“训练”和“验证”,才能进行有效的“思考”和作出最优的“决策”,得以实时进化,方能具备真正的智能安全。
一、安全大数据的特点
网络安全领域的大数据不同于普通大数据,它的获取渠道、获取难度、数据关注维度都有自己鲜明的特点。传统的消费领域大数据,关注的更多是企业、个体的商业和生活行为,透过交易特征、消费偏好、行动轨迹等,去判断背后的交易喜好、生活和消费习惯,从而变现商业价值。这涉及很多个人隐私,也成为“大数据之殇”,成为监管的重点。
1. 不同于普通大数据,不涉及用户隐私
安全大数据不关注上述商业行为和个人隐私,而更关注那些网络“作恶者”在网络上的行为,更关注安全风险和异常。如关注哪些数据是恶意攻击行为,是否在做黑产交易,是否为分布式拒绝服务攻击(DDoS)攻击,是否为爬虫行为等。
2. 关注“安全治理、安全风险”
安全大数据更加关注与网络空间安全治理、网络安全风险相关的大数据,关注黑客、行为、资产。涉及网络安全风险相关的数据,对于运营主体的数据安全、合规性、资产安全、业务安全都是非常重要的参考和响应处置的依据。
3. 安全大数据关注的细分维度
在实际中,安全大数据可分为以下三个方面。攻击行为数据,如攻击的具体类型,攻击者习惯使用的平台、工具,语言等,从而对攻击者的攻击行为进行相应判断。攻击者画像数据,主要是攻击留下的痕迹等多维数据信息,据此判断攻击者的类型,对攻击者进行画像,这需要多维数据作为参考,进行综合分析,辅助一定时间的数据积累。资产数据,通过网络空间测绘或漏洞扫描可以获取到互联网的资产数据,也可以获得企业内部的已知或未知的网络资产数据。
二、安全大数据的获取渠道
安全大数据从哪里获取?对于本地化部署的网络安全解决方案,由于安全设备部署在用户现场,只能在用户本地根据客户需求和许可,对数据进行采集、分析,无法获取到真正的安全大数据。而且,仅仅单个用户的安全数据,量级较小、维度单一,不利于机器学习算法和模型的优化和调优。
对于互联网企业和 SaaS 部署的安全企业,由于安全产品部署在云上,所有部署其 SaaS 安全产品的用户,其安全数据(如攻击行为、活动轨迹、IP 信息、资产信息等)都会直接同步到云端数据中心,形成海量安全大数据,并不断投喂给机器学习算法模型进行实时分析,从而进一步自动调整算法,让安全能力实时进化提升。
目前,能够获取安全大数据的主要渠道有:云测绘、云监测、云防御和安全探针类的云端设备和平台。
1. 云测绘:全球网络空间测绘获取的大量 IP资产数据
网络空间资产测绘对象主要集中在 IPv4、IPv6、域名、暗网等方面,以知道创宇的网络空间资产测绘项目 ZoomEye (钟馗之眼)为例,迄今为止收集了超 30 个亿的 IPv6 地址并进行测绘。
获取数据的核心能力包括很多细节,如此多的数据需要部署大量的探测节点,那么就存在各种“对抗”的问题,节点会被“禁止”等,而解决这些问题正是获取数据能力的体现。ZoomEye 通过全球部署的 1000+ 节点对全球网络空间资产进行 7×24 小时不间断资产测绘,通过十几年的积累,目前拥有100 亿网络空间测绘数据。
2. 云监测:覆盖全球的安全风险监测数据
云监测可以理解为全球黑客信息的搬运工,通过软件即服务(SaaS)的部署方式,云监测可持续不断监测到全球最新的网络攻击、漏洞数据、黑客指纹数据、威胁情报等数据信息。以知道创宇的云监测产品图谱为例,其中有对网络流量数据进行监测的 NDR 流量监测产品;对网络空间的威胁监测及收集威胁数据的产品;监测收集黑客指纹数据的全球黑客追踪系统;监测漏洞数据的 ScanV Max、WebSOC 等,这些产品形成了具有大覆盖范围的云监测矩阵,产生了源源不断的安全数据。
3. 云防御:在线防护业务系统产生的真实攻防大数据
通过 SaaS 形式为客户部署 Web 应用防火墙(云WAF),不仅可对客户实施贴身防护,同时安全厂商自然获得了大量真实的攻防数据,这些数据进入到云端大数据平台进行融合,攻防信息可同时分发给所有的云端客户,当受到同样类型攻击时,可有效进行阻断和防护,做到“一网攻击、全网防御”。
从云测绘、云监测、云防御系列组合得到的攻防大数据,与 AI 算法和模型相结合,可被用于对异常风险的发现和自动化处置。通过数据生产引擎、AI 智能分析引擎,基于场景优化的深度学习的神经网络技术和算法,可对异常行为进行特征分析,如异常的登录、偏离度较大的异常行为等。同时,针对不同业务场景收集网络攻击情报,根据安全大数据生成不同的风险策略模型,将其同步到实时攻击行为特征的策略模型中,当识别到遭遇同一特征模型的风险时,可做到即时识别并拦截。
在安全大数据 +AI 技术的互相促进下,源源不断的安全大数据可让网络安全体系更具“弹性”。越来越智能的网络安全体系,可更加灵敏的感知异常、自动化响应和快速处置,让网络具备较强的运营连续性、组织韧性和良好的业务弹性。
(本文刊登于《中国信息安全》杂志2021年第6期)
