通过 Rank-1 相似性矩阵分解建模反病毒引擎共识演化

VSole2023-02-28 10:30:22

工作来源

arXiv:2201.00757

工作背景

各个引擎之间并不是独立的,引擎的强相关性可能会导致准确度的下降。引擎的相关有多种可能:

  • 同一家公司的不同产品
  • 产品检测能力向领先厂商学习
  • 厂商将技术授权给其他厂商

恶意软件在演化,难道反病毒引擎就不演化了吗?

工作设计

在 n 个反病毒引擎、m 个文件的情况下,检出与家族分类可形成两个矩阵(注:家族名称使用 AVClass 提取)。

需要定义指标衡量二者相似,二者结果相同的情况除以二者都存在的情况。定义指标衡量二者变化同步性:

在反病毒引擎共识符合一阶交互的情况下,使用时间 Rank-1 相似矩阵(R1SM-T)算法来反映时序数据中一阶交互的变化。算法如下所示:

工作准备

利用 VirusShare 的 25100286 个样本,查看其对应的 VirusTotal 扫描报告。查询在 2015 年 12 月至 2016 年 5 月之间进行,受限于扫描频率限制,每个样本只有一个扫描报告。

扫描日期(横跨十年的范围)的统计如下所示:

VirusTotal 的结果中有 93 个反病毒引擎,所有引擎的扫描量如下所示:

检出矩阵与分类矩阵如下所示:

工作评估

检测同步性与分类同步性如下所示:

检测同步性

检出矩阵的 R1SM 分解如下所示,分解产生 16 个分量覆盖矩阵 60.596%,即四成矩阵无法解释。

如下显示了 R1SM=0.85 时聚类情况:

可以明显看出相同厂商的不同产品,如 TrendMicro 与 TrendMicro-Housecall、PandaB3 与 PandaBeta。以及一些大家公认的检测相似:BitDefender、Emsisoft 与 GData;McAfee、McAfee-GW-Edition 与 Microsoft;Avast、AVG 与 Fortinet。

分类同步性

分类矩阵的 R1SM 分解如下所示,分解产生 21 个分量覆盖矩阵 58.394%,即四成矩阵无法解释。

如下显示了 R1SM=0.7 时聚类情况:

Fortinet 和 McAfee 在 2019 年宣布联合开发端点安全解决方案,可能二者确实存在某种技术共享。

引擎共识

R1SM-T 模型经过超过五百万次的迭代训练,检出数据平均能解释 73.709%,分类数据平均能解释 67.196%。每月变化如下所示:

根据解释性,威胁情报的共享一开始局限在小群体间,但是后来信息共享变得无处不在。

分解的第一个组件如下所示:

很多原因都会产生较大的波动情况:

  • 2014 年 11 月的 Alyac,2015 年的 Norman 等加入或者退出 VirusTotal。
  • 2010 年 2 月到 7 月,K7 TotalSecurity 10.0 版本

工作思考

厂商之间的技术合作、收购剥离与 SDK 类型的检测能力整合都会导致引擎的结果存在极大的相似性,而这在类似 VirusTotal 的场景中是十分重要的。多引擎扫描的共识与演化,近几年也被业界所重点关注,并且有一系列研究发布。在选择检测引擎时,如果选择了极为相似的检测引擎,是否还能达成当初想要构建多引擎检测能力的目标呢?

矩阵矩阵分解
本作品采用《CC 协议》,转载必须注明作者和本文链接
多引擎场景里引擎之间的相似性会对整体的结果产生影响,到底哪些相似又如何衡量?
今天所讲的话题,是从技术的角度探讨网络安全如何从时序大数据实时智能处理技术上的应用。时序数据 我们先来看一下,数据是怎么来的?原来人类社会是二元的,即人类社会和物理空间,因为有了互联网、移动互联网、物联网,随时随地产生了很多的数据,这些数据放在信息空间里,就带来了很多问题,包括网络空间的安全问题。
量子计算综述报告
2021-11-19 11:43:31
对于所有非物理专业的毕业生而言,量子这个概念多半是模糊而又熟悉的,因为没有系统学习过量子力学,因此对什么是量子往往难以理解并说不清楚,但近年来量子这个词又不断高频出现在大众视野面前,从量子通信、量子卫星到量子计算···。
可扩展和语义保持的反病毒引擎标签挖掘
以准确、高效地检测工控设备异常为目的,研究基于数据挖掘与关联分析的工控设备异常运行状态自动化检测方法。以采集的某电厂 DCS 网络全流量数据形成的工控设备运行状态日志序列为输入,通过预处理、特征提取等方式获取待监测的工控设备运行状态数据的特征向量,通过凝聚型层次聚类算法聚类特征向量初步区分工控设备正常、异常运行状态数据,再利用基于矩阵的 Apriori 算法,挖掘工控设备正常运行状态构建正常行为模
自有人类的文明历史以来,密码就伴随而来。为了在沟通过程中保护自己信息不被外人所知,人类使用过形形色色的密码。然而,为了刺探于己不利的秘密,他们又绞尽脑汁地试图破译对手的密码。
本文将详细分析Shor算法的实现过程,整数周期数及非整数周期数下Shor算法分析,Shor算法概率评估,实例分析。比如Hadamard门,简称H门,他的一个主要功能就是通过计算基态产生等概率的叠加态。shor算法最令人振奋的是直接将质因子分解以及离散对数问题以指数级速度提升,这给人们的启示是可以利用同样算法思想来解决更为广泛的隐含子群问题。
针对容器会话级别流量不可见的特征,我们设计了一个基于机器学习的轻量级、非植入性的容器会话级流量预测框架X-Rayer,提高了容器流量预测的准确率。
但遗憾的是,我们对美国国防部的进攻性网络作战架构,难以有深入的了解。很多人仍然认为:美国国防部以颠覆者姿态推出的联合网络作战架构是一种虚张声势!网络司令部创新战略的目的:建立并培养一种鼓励和奖励创新思维和冒险精神的文化。它被认为是摄取、分析、共享数据的核心。
VSole
网络安全专家