Security AI持续深耕,安恒信息研究成果获国际学术会议认可

VSole2022-10-25 07:42:58

近日,安恒信息中央研究院安通鉴博士带领的AI安全团队针对网络攻防场景的基于深度学习的webshell检测的研究成果“Deep Learning Based Webshell Detection Coping with Long Text and Lexical Ambiguity”,被高等级国际学术会议ICICS International Conference on Information and Communications Security 2022(隶属中国计算机学会推荐国际学术会议和期刊目录)收录并在线发表。

该研究的唯一完成单位为安恒信息,是安恒信息中央研究院在信息安全和人工智能领域交叉创新和持续深耕的成果。ICICS是网络信息安全领域的老牌学术会议,至今已经举办24届。该国际学术会议录用比例较低,每年仅有30篇左右的论文可以录用,2022年的录用比例为22.7%。安恒信息的论文经过5位专家审稿人2轮的同行审议(peer review),从全球164篇投稿论文中脱颖而出,被ICICS 2022成功录用。

研究内容简介

Webshell是一种可以让攻击者获取主机权限的恶意脚本,攻击者通过网站的漏洞上传webshell后,可以持续的获取主机的控制权,因此webshell的检测在网络攻防环境中具有重要意义。Webshell种类繁多,语法灵活,传统基于规则的方法、基于启发式的方法和基于机器学习的方法在webshell检测中都有一定的局限性,导致误报率和漏检率较高,而深度学习的方法可以充分挖掘文本的上下文信息,但仍然面临处理长文本时的低效和语义损失,以及在面对复杂语法时的一词多义性问题。

长文本在webshell检测领域是频繁出现的,对已知webshell和正常样本的代码行数和token数统计,一半以上的webshell代码token个数超过3400,代码行数超过49行,而一半以上的正常代码token个数超过1000,代码行数超过70. 所以需要合适的方法在保留核心语义的同时去除冗余信息。

文本长度统计信息

一词多义在文本处理中是比较棘手的问题,就像“苹果”在不同的上下文中可以呈现水果的语义也可以呈现手机的语义。一词多义在webshell检测中表现为同一个名称的token,有时呈现变量语义,有时呈现函数语义,有时呈现类成员语义等(如下图中的‘status’分别呈现了成员语义和变量语义)。所以需要在不同的上下文中给token以不同的向量表示。

面对长文本,论文采用了textrank模型来筛选重要语义信息,该算法可以通过相似度加权迭代的方式对代码进行重要性排序。

Textrank模块架构

面对一词多义问题,论文采用codebert方法学习token的上下文信息,在不同的语境下给token以不同的变量表示。

Codebert模块架构

结合textcnn结构的分类head,模型的整体为一个two-stage的架构,loss在textcnn和codebert中进行反向传播,而textrank模型不参与误差的反向传播。

模型整体架构

模型经过数十epoch的训练,在数十万样本的测试中,其综合表现F1-score超过了3种webshell检测工具和3种基于深度学习的webshell检测模型。在达到较高检出率的同时,也保证了较低的误报率。

部分实验结果

信息安全webshell
本作品采用《CC 协议》,转载必须注明作者和本文链接
Webshell 检测综述
2022-12-13 16:15:17
通过Webshell,攻击者可以在目标服务器上执行一些命令从而完成信息嗅探、数据窃取或篡改等非法操作,对Web服务器造成巨大危害。Webshell恶意软件是一种长期存在的普遍威胁,能够绕过很多安全工具的检测。许多研究人员在Webshell检测领域进行了深入研究,并提出了一些卓有成效的方法。本文以PHP Webshell为例。
据报道,GPT-3.5系列模型自2021年四季度就开始混合使用文本和代码进行训练。
云计算的发展及普及应用,降低了软硬件成本、提高了数据的可靠性,其业务按需快速定制, 时间快。但是由于云计算的开放及共享虚拟特性,使得存贮其上的信息必然面临信息安全的挑战。怎样才能使得云计算安全运行于互联网中是大家一直在探讨的问题。针对互联网环境中云计算运 行的传统及固有安全问题,我们进行了详细的阐述,并提出了科学、有效的信息安全防护方案,希 望对云计算运行以及互联网的健康发展起到积极作用。
以下为信息安全各个方向涉及的面试题,星数越多代表问题出现的几率越大,没有填答案是希望大家如果不懂能自己动手找到答案,祝各位都能找到满意的工作:) 注:做这个List的目标不是全,因为无论如何都不可能覆盖所有的面试问题,更多的还是希望由点达面,查漏补缺。
ICICS是网络信息安全领域的老牌学术会议,至今已经举办24届。模型整体架构模型经过数十epoch的训练,在数十万样本的测试中,其综合表现F1-score超过了3种webshell检测工具和3种基于深度学习的webshell检测模型。
声明:本人坚决反对利用文章内容进行恶意攻击行为,一切错误行为必将受到惩罚,绿色网络需要靠我们共同维护,推荐大
与俄罗斯有关联的国家支持的威胁者SandWorm被认为与一项为期三年的秘密行动有关,该行动利用一种名为Centreon的IT监控工具来入侵目标。此外,ANSSI的调查显示,为了连接到Web Shell,使用了常见的VPN服务,在C2基础结构中存在重叠,从而将操作连接到Sandworm。ANSSI警告说:“因此,建议在漏洞公开并发布纠正补丁后立即更新应用程序。”
近日,广西北海公安网安部门在查处一起涉个人信息保护违法案件时发现,北海某网站存在数据泄露问题,网站约22万个人信息数据被挂在境外论坛售卖。
之前在强网杯做过一道popmaster,在打SCTF又遇到这种类型的题目,简单总结一下这类题目的思路和一些暴力取巧的做法。
看陕西省联社在数字化转型中,如何做好网络安全主动防御
VSole
网络安全专家