将迁移学习应用于网络安全:通过漏洞描述预测漏洞的可利用性

VSole2023-01-28 11:47:46

研究背景和研究简介

作者通过统计现有的CVSS V2和CVSS V3的base score以及exploitablity score和漏洞的被利用数量,得出CVSS分数并不能体现漏洞的可利用性,很多未被利用的漏洞都被打了很高的分数。

作者提到先前的研究存在着如下的问题:

  1. 没有考虑NLP的多义词情况和网络空间安全术语
  2. 当选择分类器时,没有考虑特征间的依赖关系
  3. 在漏洞可利用性预测领域中,没有公用的统一数据集。

作者提出了一个基于迁移学习的预测漏洞可利用性的框架:ExBERT。该框架的特色是在微调后的BERT上增加了一个池化层用于提取综合的句子层级的语义特征,运用LSTM模型做可利用性预测的分类器。

研究方法

该文章中,作者将可利用性检测作为一个二分类问题处理,并将最小化二元交叉熵作为训练的目标。

ExBERT主要包括两个阶段,BERT迁移学习和利用预测应用。前者会生成一个微调后的BERT模型,用于后者的预测。预测部分分为四步:tokenization、token embedding、sentence embedding和exploitability prediction。顺序图如下:

在迁移学习过程中,作者首先下载了一个预训练的BERT模型:uncased BERT-base。然后选取了从1999-2019年的NVD漏洞描述做该领域的语料库。在训练后,即得到微调后的BERT。

在利用预测过程中,首先用wordpiece算法做tokenization,之后通过微调后的BERT做token embedding。

作者在BERT上加了一层池化层,输入token embedding,输出做了池化策略。池化情况做了分段处理:

在池化层后是分类层,共有一个隐藏层LSTM和一个输出层DenseNN,激活函数为sigmoid。LSTM用于捕捉sentence embedding的依赖。

实验和结果

实验数据来源于NVD和ExploitDB,分别以CVE-ID和EDB-ID做唯一标识,二者以CVE-ID作为联系。文章判断某漏洞是否被利用的依据是ExploitDB中是否存在该漏洞的PoC。数据集中一共含123254个CVE漏洞,其中41365个在ExploitDB中含有PoC/Exp。

文章提出了消融实验,将ExBERT和仅预训练的BERT在token embedding的效果、是否微调、池化层的效果和分类器的效果做了对比实验。

Embedding后对于部分词的二维向量空间词距离(通过PCA降到二维):

微调后BERT和pre-trained BERT的效果对比:

不同池化策略对比:

不同分类方法对比:

综合对比:

作者在提到未来工作可能会考虑聚合更多源的因素,以及迁移至一个在线学习模型来应对概念迁移等问题。

漏洞学习迁移
本作品采用《CC 协议》,转载必须注明作者和本文链接
提出了一个基于迁移学习的预测漏洞可利用性的框架
虽然联邦学习因为可以保护用户的本地数据隐私而备受重视,但其也和其他机器学习架构一样面临着一些问题,并且容易受到黑客的攻击。这对机器学习的广泛应用来说是一个严重的限制性因素,特别是当训练数据集包含敏感信息并因此构成安全威胁的时候。例如,为了开发核磁共振扫描的乳腺癌检测模型,不同的医院可以共享他们的数据来开发协作的机器学习模型。
软件漏洞分析简述
2022-07-18 07:08:06
然后电脑坏了,借了一台win11的,凑合着用吧。第一处我们直接看一下他写的waf. 逻辑比较简单,利用正则,所有通过 GET 传参得到的参数经过verify_str函数调用inject_check_sql函数进行参数检查过滤,如果匹配黑名单,就退出。但是又有test_input函数进行限制。可以看到$web_urls会被放入数据库语句执行,由于$web_urls获取没有经过过滤函数,所以可以
人工智能(Artificial Intelligence,AI) 的快速发展为网络空间安全对抗提供了新的思路和 技术手段,然而 AI 在网络安全领域的应用将加剧网络攻防对抗的速度、烈度、复杂度。通过研究 基于深度强化学习的网络空间智能安全防护,探索了网络空间安全防御智能化问题的解决方法和 过程。此外使用深度学习提取网络安全态势数据特征,构建智能体,回报函数将网络攻击威胁度 作为奖惩引导学习,强化
对于使用监督算法得到的预训练模型,研究者分别在使用了四种不同强度的数据增强的Imagenet上分别训练了EfficientNet-B7,之后将这些模型当作骨干网络在COCO数据集上训练目标检测模型。在此使用Imagenet当作未标记的数据,而COCO数据集当作标记数据对预训练模型进行联合训练,以此更好的改善最终目标检测的效果。
这些方法都是通过对原始数据进行扰动,从而欺骗AI模型。大多数AI模型配备了异常检测系统。这种攻击多被用于针对原始目标AI模型。同时,也需要加强安全意识和技术防范措施,在实际应用中保障AI系统的安全和可靠性。
网络攻防对抗不断演化升级,人工智能因其具备自学习和自适应能力,可为自动化网络攻防提供助力,已成为网络攻防的核心关键技术之一。
随着移动生态的进一步成熟,车联网的数据安全一事也被提上了日程,而未来若想在数据安全方面有所保证,隐私计算也许会成为移动生态发展的一个重要突破口。本篇文章里,作者就隐私计算一事做了分析,不妨来看一下。
大数据安全研究
2021-09-26 08:14:19
随着人工智能、云计算、移动互联网和物联网等技术的融合发展,传统的基于边界安全域和基于已知特征库的网络安全防护方式已经无法有效应对大数据环境下新的安全威胁。
整个技术产业都是动态的,不停在变化,新技术新方法如浪潮般不断涌现。只要身处IT安全领域,必然会被恶意黑客的技术推动着赶上这些潮流。也就是说,业内总会出现新东西,也总有些技术和工具会落伍。 那么,接下来的一年,安全人员眼中的技术趋势都有哪些呢?又有哪些曾经热门的话题会渐渐淡出人们的视线呢?
VSole
网络安全专家