自研机器学习助SOC捕获网络入侵者
法国一家银行的信息安全团队利用日志数据训练内部开发的机器学习模型,发现此模型可检测基于规则的安全设备无法捕获的三类新型数据渗漏。
下周举行的2022年欧洲黑帽大会上,法国农业信贷集团基础设施平台(CA-GIP)网络安全工程师Carole Boijaud将登台详细介绍这项技术,议程题为“阈值适用于旧日威胁:解密用AI和机器学习增强SOC检测”。该团队从日志文件获取每日汇总数据,从中提取感兴趣的特征,以之找出该银行Web流量中的异常。
这项研究专注如何更好地检测数据渗漏,并由此发现了该公司旧有系统未能检测到的攻击。
Boijaud表示:“我们实现了我们自己的威胁模拟,模拟了我们想要看到的东西,所以我们能够看到我们流量中能发现什么。检测不到特定威胁时,我们尝试找出是哪里不一样,试图搞清到底发生了什么。”
机器学习已经成为网络安全行业风潮,一些公司和学术研究人员仍在用自己的数据做实验,想要找出可能潜藏在噪音里的威胁。比如说,微软就在利用来自40万客户的遥测数据识别特定攻击团伙,并采用这些分类预测攻击者未来的行动。其他公司也在用遗传算法等机器学习技术帮助检测云计算平台上权限过多的账户。
Boijaud表示,用自研系统分析自家公司的数据有一系列好处。安全运营中心(SOC)可以更好地了解自己的网络流量和用户活动,安全分析师也能够更深入全面地了解攻击自家系统的各类威胁。法国农业信贷集团固然有自己的平台小组管理基础设施、处理安全事件和进行调查研究,但规模较小的企业亦可从应用机器学习和数据分析中获益。
“开发自己的模型没那么昂贵,我相信大家都能做到。”Boijaud称,“只要能访问数据,有了解日志的人员,就可以建立自己的管道,至少开始时是这样。”
找对监测数据
该网络安全工程团队使用名为聚类的数据分析技术来识别需要跟踪的重要特征。其中最重要的几个特征包括域名流行程度、系统访问特定域名的次数,以及访问请求用的是IP地址还是标准域名。
Boijaud表示:“基于数据表示和我们对机器日常行为的持续监测,我们已经能够识别这些特征。机器学习就是数学和模型,但重要的是你如何表示数据,而数据表示需要理解这些数据,也就是说我们需要了解这一领域的人手,比如网络安全工程师。”
选择了对分类而言最重要的特征后,该团队运用名为“孤立森林”的异常检测算法来找出数据中的离群值。孤立森林算法根据数据的值将数据组织成多棵逻辑树,然后分析这些逻辑树,确定异常值的特征。该方法易于扩展,可以处理大量特征,而且相对轻量。
Boijaud团队的初步成果是让模型学会了检测三种新型渗漏攻击,这三种攻击是该公司用现有安全设备检测不出来的。Boijaud表示,总的来说,可以检出大约一半的渗漏攻击,且误报率很低。
不是所有的网络异常都是恶意的
网络工程师还必须找到确定异常指证恶意攻击还是良性流量的方法。发往第三方跟踪服务器的广告标签和请求也会被此系统捕获,因为这些流量通常匹配异常的定义,但可以在最终结果中滤掉这些内容。
自动化安全事件的初步分析可以帮助公司更快分类和识别潜在攻击。Boijaud表示,安全团队可以自己进行这些研究,从而深入了解自己的数据,更便于确定哪些是攻击而哪些可能是良性流量。
CA-GIP计划扩展这一分析方法,使之不仅仅用于检测利用Web攻击进行的数据渗漏。
