摘 要:

随着网络的不断发展,安全需求的不断提升,加密技术成为保障流量安全的首选,但同时也带来了加密恶意流量的激增,面对复杂多变的网络环境,如何在不解密条件下快速识别其中的恶意流量对提升网络安全防护能力具有重要的意义。以恶意流量分类为研究基础,梳理目前比较流行的加密恶意流量分析识别技术,聚焦基于单维特征和多维特征的流量识别方法,探讨前沿技术在加密恶意流量分析领域的应用研究,为后续研究指出了方向。

内容目录:

1 研究现状

2 恶意流量分类

3 关键识别技术

3.1 基于单维特征流量分析

3.1.1 证书特征

3.1.2 数据包特征

3.1.3 协议特征

3.2 基于多维特征流量分析

4 前沿技术

4.1 基于密码学的特征分析

4.2 基于人工智能的特征分析

加密是保护隐私的一个重要手段,能够保护数据不被窥视,阻止攻击者窃取信息、应用或口令。近年来,流量加密被视为互联网发展的一个重要风向标,尤其是 2020 年新冠肺炎疫情全球蔓延爆发,远程居家办公、远程教学和远程会议等一系列场景的高频次亮相,加剧了对流量加密的需求。通常情况下认为加密即安全,这个观点具有相对性,在复杂的互联网环境中,易遭受外部攻击,简单的加密方式无法保障信息的机密性、完整性、可用性等属性的安全。在面对流量时,攻击者会借助加密流量实施恶意攻击,产生更具破坏性的行为。国际研究机构 Gartner 认为,截至 2020 年,超过 60% 的企业将无法有效解密超文本传输安全协议(Hyper Text Transfer Protocol over SecureSocket Layer,HTTPS)流量,而对抗这些威胁的手段将会受制于反解密系统,加密流量中将隐藏超过 70% 的网络恶意软件。根据 Cybersecurity Ventures 调查显示,与 2019 年企业每 14 秒遭受一次勒索软件攻击相比,2021 年该时间缩短至 11 秒,这使勒索软件成为增长最快的网络犯罪类型。2021 年,全球因勒索软件造成的损失预计达到 200 亿美元,远高于 2015 年的 3.25 亿美元。因此,及时、快速地识别、分析加密恶意流量,对提升网络安全韧性、净化网络空间具有重要意义。

1研究现状

针对加密流量,目前主流的攻击分析手段包括解密后分析和不解密分析。由于在解密过程中会受到隐私保护相关法律法规的严格限制,当前,业界主要使用不解密流量的方法分析攻击行为,并且在不解密直接从加密流量中检测恶意流量方面,已经取得了一些研究成果。潘吴斌等人总结了加密流量识别的架构体系,详述了加密流量识别的类型,如协议、应用和服务,概述已有加密流量识别技术,并从多个角度进行分析对比;王瑛等人通过建立加密流量检测框架,运用关键技术和相关方法对加密流量监测进行了剖析;骆子铭等人介绍了传输层安全协议(Transport Layer Security,TLS)的特点和流量识别方法,提出了一种基于机器学习的分布式自动化的加密恶意流量检测体系,利用多个流量特征进行深入分析,并通过实验对相关算法的性能做了对比;曾勇等人综述了多种识别加密恶意流量的方法,包括基于机器学习、密码学等多领域方法,对识别加密恶意流量有着重要的指导作用。以上专家学者对加密流量的研究都有自己的见解,本文梳理了加密流量识别技术现状,以恶意流量特征分析为主线,聚焦加密恶意流量特征的多种识别方法,探讨前沿技术在加密恶意流量分析领域的应用,为后续研究工作指出了方向。

2恶意流量分类

从总体来看,加密流量可以分为加密正常流量和加密异常流量,在绝大多数情况下,加密异常流量又可分为良性的加密异常流量(如某个参数的改动或某种访问的增加导致的流量异常)和恶意的加密流量,在加密流量的分类中,加密恶意流量是最难也是最具危险性的流量,其中隐藏了许多已知或未知的威胁。通过对流量的细化区分,能够有针对性地采取控制措施,有效地识别、分析、阻断加密恶意流量,对提升网络安全防护能力具有重大意义。恶意流量按照攻击行为可归纳为以下 3 种类型。(1)恶意软件使用加密通信。这一类主要是指恶意代码、恶意软件为逃避安全产品和人工的检测,使用加密通信来伪装或隐藏明文流量特征。例如,用加密的方式来伪装或隐藏攻击行为的特洛伊木马、感染式病毒、蠕虫病毒、恶意下载器等。(2)加密通道侧的恶意攻击行为。这一类主要是指攻击者利用已建立好的加密通道发起攻击。攻击行为包括扫描探测、暴力破解等。(3)恶意或非法加密应用。这一类主要是指使用加密通信的一些恶意、非法应用。相比按照恶意流量攻击行为划分,学术界更侧重于根据恶意流量的内容特征、数据流特征及网络连接行为特征等具体特征进行划分。不同的特征有各自典型的特点,内容特征包括恶意流量协议段中特有的值以及负载中含有的特殊字符序列,数据流特征和网络连接行为特征都是通过对采集的数据进行统计分析得到的,可统称为统计特征。数据流特征可以从网络层、传输层和应用层的切片中提取,提取过程通常是先计算流量统计值,再从这些统计值中提取恶意流量特征。

此外,加密恶意流量的划分也有根据行业特点来进行细分的,如物联网、工业互联网、车联网等,每个行业会根据自身行业涉及的流量进行细粒度的划分。总之,加密恶意流量的划分没有绝对的标准与统一的规则,无论哪种划分方式都离不开恶意流量的特征、行为等关键的评判基础,随着网络的不断演进,技术的不断发展,加密恶意流量的监测分析手段越来越多样,误报率、漏报率等关键指标可靠性越来越高,但同时也应该看到,在加密恶意流量监测分析方面的研究任重道远,攻与防相互对立且依存。

3关键识别技术

加密流量中使用何种方法来检测恶意流量至关重要,其中,特征是分析的关键,按照流量产生的路径,从源端到目的端,从数据产生、封装到流量传输,涉及多种特征,如数据包大小、方向、协议、流量的分类(服务、应用)等。使用的分析方法包括统计、分类、机器学习及混合方法,在面对复杂多样、数据种类繁多、终端设备各异的网络环境时,需要结合实际情况选取合适的分析方法,从特征分析的特点可分为基于单维的特征和基于多维的特征,单维特征顾名思义是指聚焦数据的某一个特征,而多维特征涉及多个特征,目的均是提高识别的准确性。

3.1 基于单维特征流量分析

3.1.1 证书特征

证书在网络中广泛应用,是进行信息交互的第一道门槛,是保障网络安全的重要手段之一。服务器证书是安全套接层协议(Secure Socket Layer,SSL,该协议位于 TCP/IP 协议与各种应用层协议之间,为数据传输提供安全支持)中用来对服务器身份进行验证的文件,目前,证书颁发机构按照验证级别将证书分成 3 种类型,即域名型(Domain Validation,DV)证书、企业型(Organization Validation,OV)证书和增强型(Extended Validation,EV)证书。其相应的服务器身份认证证书就是 DV SSL 证书、OV SSL证书和 EV SSL 证书,其中,DV SSL 证书是给网站颁发的证书,审核不是很严格,一般免费居多;OV SSL 证书一般收费,面向申请的企业做审核;EV SSL 证书指遵循全球统一的严格身份验证标准颁发的 SSL 证书,是目前业界最高安全级别的 SSL 证书。按照客户端与服务器会话建立的流程,正常会话会传输证书,恶意的会话绝大多数不会传输证书或者利用证书来隐藏恶意活动,这给网络安全带来了一定的威胁与挑战。结合本文研究的方向,目前,通过证书来识别加密恶意流量的基本思路是通过比对恶意证书特征库,快速识别恶意的加密流量。具体来说,在恶意操作过程中依然会用到加解密及信任证书,通过搜集汇总大量已知的恶意流量的证书特征,对其版本号、名称、签发时间等信息做详细记录并进行大数据分析,如恶意证书的常见特征包括自签名、长期的证书有效期及证书扩展数目等,在检测恶意流量时,通过比对恶意证书特征库,来验证其是否为恶意流量。此外,基于证书文本数据进行手工特征提取也是识别恶意证书的热点研究方向。

3.1.2 数据包特征

除了上述提到的证书特征,数据包特征也是加密恶意流量识别的重要技术,在流量中,数据包属于较小单位,通过对加密流量中的数据包特征进行提取,能够实现对加密流量中载荷内容的分类和识别。数据单元统计特征包括数据包大小、到达时间序列和字节分布等。数据包数量在正常通信和恶意软件在通信时是不同的,浏览网页时客户端向服务端的请求数据包通常较少,而服务端回复客户端的响应数据包非常多,但是恶意软件完全相反,服务端仅向客户端发送少量的控制命令,而客户端因为进行数据回传会向服务端发送大量的数据包。由于数据包体量特征不受数据加密的影响,所以非常适合用于加密流量的检测。此外,还可以从数据流量大小来看,上下行流量通常情况下存在下行远大于上行,恶意流量则相反,当出现上行流量比较大时,需要结合网络情况综合研判其是良性的流量增长还是恶意的流量攻击。这种方法较为复杂,有时候需要结合外部的情报分析,但数据包中的信息是丰富且复杂的,某一字段的增加或者更改都可能是一种恶意行为的特征,基于数据包的加密恶意流量特征分析能力也需要更多的技术手段来提升。

3.1.3 协议特征

为保障网络安全,搭建了很多互联网加密协议,如传输层安全协议 TLS、安全外壳协议(Secure Shell,SSH)和安全电子交易协议(Secure Electronic Transaction,SET)等。其中,TLS 协议是当前业界常用的加密通信协议之一,TLS 协议位于传输层和应用层之间,用于两个通信应用程序之间保障其保密性和数据完整性。其相应的基于 TLS 协议的加密流量也成为业界主流,但在增强安全性的同时也带来了网络安全风险。很多恶意流量借助 TLS 协议隐藏在加密流量中,对网络和业务的安全带来了极大的威胁。TLS 协议是由握手协议、记录协议、更改密文协议和警报协议组成。TLS 一个握手流程如图 1 所示,该流程主要包含 client hello、server hello、client_key_exchange、encrypted_handshake_message 等类型的消息。这几个阶段包括协议版本协商、密码算法协商、身份认证以及密钥交换、会话密钥等信息的确定,目前TLS1.3 版本以下在握手阶段都是明文传输,这也成为了很多攻击者利用的对象。加密恶意流量通常包括以下 3 类特征:内容特征、数据流特征和网络连接行为特征,根据不同的特征可以从流量中识别出来。正常的加密流量和加密恶意流量在密码算法使用、密钥长度使用等方面具有很大的区别。在密码算法使用上,恶意流量中通常使用已经过时的或者已被证明不再安全的算法,如 MD5、RC4 等;在密钥长度使用上,正常的加密流量可能采用基于椭圆曲线的 256 位密钥长度,而恶意流量中则使用基于RSA 的 2048 位密钥长度;在签名方式上,恶意流量通常采用自签名的方式,缺乏信任。因此,通过检测 TLS 协议交互的报文信息,根据其特征,可以识别加密恶意流量。

图 1 TLS 握手流程

3.2 基于多维特征流量分析

随着大数据的不断发展,机器学习、深度学习等大数据分析方法得到崛起与普遍应用。利用自动化手段的识别技术可以极大地提升流量识别效率及使用便捷性,同时效果评价指标成为衡量各种方法的重要指标。其主要思想在于模型的选择、优化和特征库的建立,以及识别效率与准确率、漏报率与误报率等关键指标。理解数据流基本特征是开展机器学习模型算法应用的重要基础。图 2 是常见的数据流特征,数据流中包括版本号、包头长度、时间戳等多种信息,这些信息均可作为多维特征,利用机器学习的算法把各种特征聚合分析,得到一个好的模型,再通过不断优化模型输出好的结果。机器学习常用的数据流特征包括时空特征、头部特征、负载特征和统计特征等,比较流行的方法包括基于支持向量机(Support Vector Machines,SVM)、随机森林(利用多棵树对样本进行训练并预测的一种分类器)、卷积神经网 络(Convolutional Neural Networks,CNN) 和提升方法(Boosting 算法) 等。

图 2 数据流特征

基于时空特征采用的识别方法常见的是CNN,主要目的在于利用深层次的神经网络来学习原始流量数据的时空特征,时空特征包括流量的时间特征和空间特征,具体包括如数据包到达的时间、传递的方向等。

基于头部特征采用的识别方法较多,如基于聚类、CNN 和随机森林等,从小规模的数据集来看,机器学习和深度学习差异不大,但面对大规模的数据集时,深度学习表现出较好的优势,也符合深度学习的本质。

基于负载特征采用的识别方法常见的是CNN、SVM,负载特征较为复杂,主要包括流量包中的有效载荷部分,如将流量数据转化为可视化的图像,再使用 CNN 对图像进行分类,通过这种方法,可以实现端到端的恶意流量识别,并且能够满足实际应用的精度,此外,有的从元数据本身出发,提取上下文的特征;还有的是利用自然语言处理网络流量文本语义检测的方式进行恶意应用检测。

基于统计特征采用的识别方法常见的是随机森林和 C4.5(C4.5 算法是由 Ross Quinlan 开发的用于产生决策树的算法),C4.5 算法应用 较 广, 如 加 密 的 VoIP(Voice over Internet Protocol,基于 IP 的语音传输)包的长度可以用来识别通话中所说的短语,也可以利用 C4.5算法分析 TLS 的 6 个统计特征(上传字节、下载字节大小等)和 HTTPS 流中的 4 个统计特征(用户代理、请求统一资源定位符等),以识别出恶意应用流量。

除了机器学习与深度学习,近年来,集成学习成为大数据分析领域的热门方法,它属于机器学习的一种,但又不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。集成学习的代表Boosting 算法是从训练数据集中先训练得到一个基学习器,再根据基学习的性能调整训练样本分布,使得在前一个基学习器中识别错误的训练样本并在接下来的训练过程中进行调整。下一次训练迭代开始时,会使用新的样本数据集来训练下一个基学习器,训练过程结束以基学习器的个数是否达到预定值为准,最后预测结果是所有基学习器预测结果的加权综合。其算法的典型代表有梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、 极 端 梯 度 提 升(eXtreme Gradient Boosting,XGBoost)以及基于决策树算法的分布式梯度提升框架(Light Gradient Boosting Machine,LightGBM)。

总之,无论使用哪种机器学习的方法,其核心思想均是围绕特征展开,通过特征提取、算法模型建立与调优,能够输出有效的分析结果,最后对结果进行评估。当单一的方法无法满足复杂环境下的流量数据分析时,需要使用混合的分析方法,基于混合方法的流量分析流程如图 3 所示。流量采集主要是通过镜像或分光等方式采集出口处的流量;流量清洗及预处理把流量清洗转换,处理成为符合算法处理的数据流格式,同时也清除一些无效的数据流,提高数据集的质量;恶意特征识别分析则是构建分析模型的核心组件,针对不同的样本特征,选取合适的多种算法进行恶意流量识别,最后输出分析结果,其分析结果也会再次助力模型算法不断优化,进一步提升各项评估指标。

图 3 基于混合方法的流量分析流程

4前沿技术

随着网络安全技术能力的不断增强,新技术的融合创新,面对大数据环境下的加密恶意流量分析技术的能力也在大幅提升,虽然现有的一些技术手段也能有效地处理这种恶意流量,但是技术手段体系需要不断的完善,对恶意流量特征识别精准率需要进一步提升。目前,较为前沿的技术包括密码学、AI、黑客画像等,新技术在流量检测领域的融入让检测能力换发风采。

4.1 基于密码学的特征分析

利用密码学来分析加密恶意流量是目前业界和学术界研究的重点方向。基于密码学来分析加密恶意流量有难点,但同时具有前瞻性与可靠性,加密流量本身就涉及密码技术,通过分析恶意流量中使用密码技术应用的特征,比对正常流量,能够有效地识别出恶意流量,为此,研究密码学中的关键技术是有必要的。其中,基于公钥密码体制的密文检索和密文计算是主要研究的热点,如密文检索可以通过检索关键词的方式直接对密文数据进行访问,通过单个关键词、多个关键词、模糊关键词和区间检索识别恶意流量的关键词的方式识别恶意流量。而密文计算是在密文形式数据上的任意计算,其核心包括同态加密与安全多方计算,主要实现对密文的安全访问与处理,结合密文检索技术,在保护用户数据隐私的前提下,利用检索加密流量上的恶意关键词的方式识别恶意流量,从而让恶意流量无所遁形。

4.2 基于人工智能的特征分析

在一定程度上,利用单维及多维特征方法可以识别加密流量中的恶意流量。但这类方法缺乏从全局出发,结合外部资源如威胁情报、用户行为分析等更深层次的技术分析,难以最大限度地提取加密流量中的恶意流量。随着人工智能(Artificial Intelligence,AI)技术的发展,通过大量的测试验证,基于人工智能的加密流量安全检测将是一种新的技术手段。该技术手段以 AI 技术赋能恶意流量检测,通过 AI 建模、解析和检测,基于 AI 的灵活与高效,检测效果获得了显著的提高,充分展现了基于 AI 的加密恶意流量检测具有高度的可行性和良好的应用前景。例如,基于人工智能引擎,实时分析网络全流量,结合威胁情报数据及网络行为分析技术,深度检测可疑行为,有助于清晰地掌握攻击者所处的攻击链阶段和成功概率。基于 AI的加密恶意流量分析是未来发展的重要方向,将 AI 技术与现有网络不断融合,例如,引入了TLS/SSL 数据流的上下文信息,其中,域名系统(Domain Name System,DNS) 在 TLS/SSL 通信中占据重要地位,通过提取 DNS 上下文的统计特征,能够提高 AI 模型的准确性。同时,可利用的上下文还包括 HTTP(HyperText Transfer Protocol,超文本传输协议)上下文,通过不断探索,相信基于 AI 的加密恶意流量检测将越来越及时有效。

4.3 基于黑客画像的特征分析

目前,大多数的技术手段都是具有策略性质的,在网络安全攻防对抗中,人才是最关键且重要的因素,用户画像在不同的领域中具有不同的侧重点。例如,在金融领域侧重分析消费者资金理财特点,在电商领域侧重分析消费者消费习惯,用户画像技术在网络安全领域的网络预警、溯源等方面有着不可替代的作用,随着应用越来越广,现已成为网络安全防护的一种重要辅助技术。结合本文的研究,构建基于黑客画像的加密恶意流量分析模型,事前能够有较好的预警效应,事后助力溯源定位,丰富恶意特征库。其核心思想是根据分析现有黑客攻击的偏好特征(攻击 IP、时间段、攻击方式等),提取黑客画像特征,采用机器学习、深度学习等方法,把黑客画像与加密流量数据特征参与计算并输出分析结果。通过基于黑客画像的特征分析,构建加密流量分析的预警机制,增强“防”的能力,实现对加密恶意流量的及时预警、追踪,根据分析结果不断丰富恶意特征库,形成闭环效应,更加有效地阻断恶意攻击,增强网络韧性。

5结 语

本文通过梳理加密恶意流量分析识别技术现状,聚焦大数据分析方法与前沿技术,总结加密恶意流量分析识别方法。随着网络安全相关法律法规体系的不断完善,网络流量作为当今社会重要的数据资源,每一位流量资源的拥有者、处理者都是这些资源的安全守护者。技术在不断进步,科技日新月异,相信在未来网络安全的发展道路上,加密恶意流量的检测分析将不再是安全发展的绊脚石,智能、可靠、多元的技术将是流量安全守护的定心丸。

引用本文:陆勰 ,徐雷 ,张曼君 ,等 .攻防对抗中的加密恶意流量分析技术 [J].信息安全与通信保密 ,2022(3):71-79.