Twitter 威胁情报跟踪与评估

VSole2022-05-31 09:45:05

工作来源

WWW 2021

工作背景

根据 2019 年对北美与英国 1908 名从业者的调查,至少 37% 的受访者表示他们的组织将公共情报源与商业情报源结合使用。41% 的受访者表示他们的组织使用一个商业情报源,78% 的受访者使用多个情报源。

Twitter 上的威胁情报信息,保证了威胁的及时性和多样性,许多安全产品中也嵌入 Twitter 进行 IOC 检索。

工作设计

设计通过 Twitter 提取恶意软件 IOC 的系统 Twiti。识别可能包含 IOC 指标的推文,通过推文内容与外部链接提取 IOC 指标。其整体结构如下所示:

推文收集

使用 Search API 跟踪 35 个常见关键字(如 malware、ransomware、botnet、iocs 与 virustotal.com 等)、使用 Timeline API 跟踪 146 个典型用户(86% 是安全专家、12% 是安全厂商、2% 是其他安全组织)收集数据。

推文选择

直接使用模式匹配肯定会导致很多误报,比如某些固件版本号和 IP 地址类似(Tuleap 9.17.99.189)、区块链事务哈希值等。

预处理

Twitter 会自动缩短推文中的 URL 为短链接,在缩短时还会进行安全检查,所以要删掉 http://t.co 的链接,避免保留良性地址。与此同时,bit.ly、tinyurl.com、buff.ly、goo.gl、youtu.be 和 ow.ly 等短链接地址也会被删除。

继而通过正则进行 IOC 检查,发现哈希、IP 地址、域名或者 URL 等。再利用 NLP 技术提取特征:

  • 将哈希、IP 地址、URL、域名、文件名、文件路径、电子邮件替换为 [hash]、[ip]、[url]、[domain]、[filename]、[filepath]、[email]。用户名、CVE 编号、数字都替换为 [username]、[cve]、[num]。
  • 通过 NER 识别恶意软件词汇,标记为 [malware_name]
  • 删除前后文的 Twitter 用户名
  • 删除 Unicode 字符与符号
  • 别名标准化替换,将 c&c、cnc、command and control 都替换为 c2
  • 进行 Token 化与词形还原(Lemmatization),并删除单个字符、[username] 与 [num]
  • 由于已有 NER 工具都没有针对网络安全领域知识进行适配,使用相关推文训练了 BERT 模型并在此处使用。

推文分类

收集了 2019 年 1 月至 9 月的 21937 条推文,去掉相似度大于 0.7 的重复推文后,剩下 5675 条推文。三位安全专家手动标注是否包含 IOC 指标,其中共有 3007 条包含 IOC 指标的推文,另外 2668 条推文不包含 IOC 指标。

分类的特征为:

  • Defanged IOC:例如 hxxp://92.63.197.106/c.exe、67[.]198.129.27、hold[.]jcgloball[.]org:11880 等
  • 上下文 n-gram:有 IOC 的推文中一般都有明显的上下文,例如 version [ip]、up to [ip]、before [ip]、prior to [ip]。提取目标词前后 1-2 个单词组成二元组/三元组
  • 利用之前的 NLP 技术进行预处理并删除常见英文单词,利用 bag of word 补充上下文无法预料到的变化
  • 在 22316 个初始特征中,选择了 1456 个特征,其中包含 483 个单词与 972 个二元组/三元组。

评估使用逻辑回归、随机森林和 XGBoost 后确认随机森林表现最好,精度为 0.95 召回率为 0.96,其 ROC 曲线如下所示:

IOC 提取

由于推文有长度限制,外部链接也经常被使用,对这些外部链接也许要进行跟踪。IOC 要么包含在推文中,要么包含在外部链接中。

推文中 IOC 提取

利用 ioc-fanger、iocextract 等工具处理 defanged IOC,并完善更多模式。

可以发现,收集的 38% 的 IP 地址、73% 的 URL 都是 defanged 的情况。

外部链接中 IOC 提取

外部链接中安全公司的博客、恶意软件分析服务和 pastebin.com 是 IOC 的主要来源,分别进行处理:

  • pastebin.com:其中有各种各样的信息,太多并不能处理。只在有例如 malware、ransomware、trojan、botnet、[malware_name]、c2、ioc 与 payload 等 18 个词共同出现时进行提取。
  • 在恶意软件分析服务:57% 来自 VirusTotal、33% 来自AnyRun、7% 来自 urlscan.io,其余 3% 来自其他分析服务。使用 API 获取相关 IOC 指标信息,但由于 AnyRun 并没有提共 API 接口,很多比 VirusTotal 早的样本都无法收集 IOC 指标。
  • 安全公司的博客:跟踪一百余个安全公司的博客,为每个博客都开发专用的解析提取工具。

工作评估

在 2019 年 11 月,尝试跟踪了 35 个关键字和 82 个用户进行验证。收集到的 IOC 指标有 36.2% 来自关键字跟踪,25.6% 来自用户跟踪,38.2% 两者都有。这些推文中共有 25437 个外部链接,其中有 5605 个独立域名。其中 6.2% 来自恶意软件分析服务、4.2% 来自安全公司博客、1.4% 来自 pastebin.com、0.15% 来自 AlienVault OTX。

评估指标(排他性、延迟性、准确性)与评估对照来源:

  • MalwareBazzar 声称其三分之二的样本都未被 VirusTotal 检测。
  • 流行域名综合了Alexa top 1M、Cisco Umbrella top 1M 和 Majestic 1M 中的 top 25k。
  • CDN 服务包括 AWS CloudFront、CloudFlare、Fastly、EdgeCast 与 MaxCDN
  • 黑名单包括 AlienVault IP Reputation、Bambenek_c2、Feodo Tracker、SSL Blacklist 和与 Mirai 相关的地址。

2020 年 2 月到 4 月,收集了 978414 条推文。经过处理后,剩下 17904 条包含 IOC 指标的推文。收集到 32000 个哈希、18718 个 URL、70515 个 IP 地址和 11060 个域名。所有的文件哈希都在评估范围内,但受限于 API 查询限制,其他的 IOC 指标只处理 4 月内的。

文件哈希

三个月收集了 32200 个文件哈希,三个月分别 20837 个、5306 个、6057 个。其中有 10022 个(31.1%)MD5、2024 个(6.3%)SHA-1、20154 个(62.6%)SHA-256。

每天收集到的文件哈希数如下所示,平均每天收集 421 个文件哈希。去除掉突然量大的情况,平均每天可以收集 200 个文件哈希。

截至 5 月 1 日,32200 个文件哈希中,7.2% VirusTotal 未发现,62.74% AlienVault OTX Pulse 未发现。

Twiti 平均比 VirusTotal 早 1.2 天,最早可提前 27.5 天。

Twiti 平均比 AlienVault OTX Pulse 早 3.5 天,最早可提前 86.2 天。

利用 VirusTotal 可以发现 Twiti 中 92.86% 的文件哈希是恶意的,0.03% 是良性的,但仍有 7.11% 的文件是未知的。未知文件中,10.5% 来自安全公司分析报告、6.6% 来自恶意软件分析服务、5.4% 来自 AnyRun 沙盒、1.9% 来自沙盒。

Twiti 收集了 11761 个 Emotet 样本的 16539 个文件哈希。通过 VirusTotal 发现 95.04% 样本是恶意的,4.95% 样本是未知的,只有一个样本是良性的。

Twiti 可以比 AlienVault OTX Pulse 早 1.8 天发现 92.09% 的 Emotet 文件哈希,比 MalwareBazaar 早 33.3 天发现所有 Emotet 文件哈希。对比如下所示,Twiti 可以收集大量独占样本。

URL

收集了 6873 个恶意 URL,平均每日 229 个。

其中 34.45%(2368 个)并未在 VirusTotal 上出现过。当然,恶意 URL 通常生存周期都较短,由于时间的延迟检测可能存在视野盲区。

Twiti 平均比 VirusTotal 早 1.2 天早检测出 51.81%(2191 个)的 URL,同天检出 41.17% 个 URL,更晚的占 7.02%。

在 2368 个 URL 中,VirusTotal 认为是恶意的有 2134 个,可疑的有 72 个,清白的有 175 个,未知的有 5 个。即 89.44% 为恶意 URL,如果包括可疑 URL 在内的话为 92.45%。被 VirusTotal 确定为清白的 175 个 URL 中经过人工确认,其实只有 98 个 URL 确实是清白的,准确率进一步提升到 95.89%。

IP

收集了 12765 个恶意 IP 地址,平均每日 426 个。

对 VirusTotal 来说,53.63% 的 Twiti 收集到的 IP 地址都是独有的。与 AlienVault OTX Pulse 相比,重合的 IP 只有 9.8%。

Twiti 相比 VirusTotal 有 813 个 IP 可以提前 5.9 天检测,相比 AlienVault OTX Pulse 有 274 个 IP 可以提前 10.6 天检测,与其他 IP 黑名单相比最多甚至可以提前 25 天。

域名

收集了 3302 个恶意域名,日均 110 个。

与 VirusTotal 相比,有 1888 个域名也在 VirusTotal 存在。452 个域名(38.4%)比 VirusTotal 检测早,39.34% 的域名与 VirusTotal 同天检出,只有 22.26% 的域名比 VirusTotal 检测晚。

同类工具横向对比

与 InQuest IOC DB 和 Twitter IOC Hunter 进行对比,Twiti 从数量与精度上都更好。


整体数据分析

所有数据来源收集的整体数据情况如下所示:

其中有一些很有特点的地方:

  • pastebin 是最大的 IOC 指标来源,并且这些指标都很“新鲜”。
  • 推特文本是恶意 IP 地址最大的独家来源。
  • URLhaus 的数量虽少,但是质量相对较高。
  • 安全公司的报告要么提前了非常多,要么延迟了很多,这也体现了各家情报的独特性。
  • 收集的情报中有 31.1% 来自关键词跟踪、16.3% 来自用户跟踪,52.6% 二者都有。
  • 95.9% 的文件哈希都是通过关键词跟踪得到,但是在恶意 URL、IP 地址和域名上用户跟踪更具优势。
  • Twiti 收集的 IOC 指标中,96% 都可以在商业与非商业两种常场景下使用,0.4% 只能用于被许可的商业场景,3.6% 不被允许在任何情况下商用。

恶意文件

PE 文件占绝对多数,但也有很多其他不同类型的恶意文件:

在 VirusTotal 上检出的样本,木马和勒索软件的数量都非常多。

在 VirusTotal 上未能检出的样本,只有四分之一的样本提到了恶意软件的类型。其中较多的是远控(5.5%)、钓鱼(5.4%)和僵尸网络(4.6%)。

按照恶意软件家族进行归并,可以发现:

  • Windows 平台上,Emotet 在 Twitter 上被频繁披露跟踪
  • Linux 平台上,则是以 Mirai、Gafgyt 僵尸网络为主
  • 移动平台上,Cerberus、Anubis 等银行木马最多

大多数哈希只会在 1-2 天内被提到,最长的是 NetWalker 勒索软件被连续提到 35 天。

研究人员

报告文件哈希比 VirusTotal 还早的典型用户如下所示,其中大部分都是独立恶意软件分析专家。

而 VirusTotal 上没有的部分,其中 70% 来自独立恶意软件分析专家、15% 来自安全公司。

URL/DGA

根据 VirusTotal 的数据,收集到的 URL 中 75.5% 属于恶意软件、16.5% 属于钓鱼网站、8% 属于漏洞利用。共有 65% 的钓鱼网站都来自用户跟踪。

5.6% 的恶意 URL 都伴有 c2 标签,并且 VirusTotal 未知的 URL 伴有 c2 的比例相比 VirusTotal 已知的 URL 伴有 c2 的比例高两倍。这可能是由于 C&C 的 URL 可能生存周期较短,VirusTotal 由于时延无法检出。

DGA 的活跃期较短,Twiti 发现的域名中 2% 都伴有 dga 描述,能够比 VirusTotal 提前一天检测。利用基于 LSTM 的 DGA 检测算法,Twiti 中 5.4% 的域名都是 DGA 域名,Twiti 可以比 VirusTotal 提前 1.9 天检测 64% 的 DGA 域名,同时检测到 18% 的 DGA 域名。

工作思考

这是来自三星研究院的工作,项目开源在 GitHub 上。需要注意的是 Twiti 是用于收集威胁情报的,但它自身并不能保证威胁情报的准确性,使用这些数据需谨慎。

TwiTi GitHub
https://github.com/SamsungLabs/TwiTi

Twitter 的威胁情报质量实际上一直被很多安全研究人员称赞有加,时效上很多安全研究人员在 Twitter 上率先发布消息、质量上有人物背书可信程度能够保障、社区氛围上大家经常沟通和探讨关于威胁与安全的问题,甚至能与攻击者进行直接互动。这些都使得安全业界围绕 Twitter 建立起了一个良好的生态,Twiti 即是从这种生态汲取养分的工具。

三星研究院的这一工作不仅是构建获取威胁情报的工具,也对 Twitter 上的威胁情报进行了一次测量。不过其实说威胁情报还是有些宽泛的,更具体来说该工作还是聚焦在 IOC 指标的测量上。如果对比 IOC 指标更高层级的威胁情报信息能有所跟踪和提炼,肯定会更有用,同时也更难。MITRE 正在尝试的 TRAM 就是试图通过机器学习模型识别分析报告中的 ATT&CK 技术并映射为 MITRE ATT&CK 技术项,降低威胁情报整合运营所需的时间与精力。未来也应该会有更多类似的工作出现,综合利用各种前沿技术提升威胁情报的知识密度。

域名结构威胁情报
本作品采用《CC 协议》,转载必须注明作者和本文链接
截止日期到2022年5月。计算指标是从安全事件中提取的数据中获得的,比如哈希值和正则表达式。调查型思维不同于批判性思维,它将研究和分析结合起来,识别和解释认知和逻辑偏见并使用结构化分析技术来克服它们。这包括结构化威胁信息
近日,奇安信威胁情报中心注意到外国安全厂商humansecurity在外网揭露了一个名为BADBOX的事件,其报告称观察到至少观察到74000 部基于 Android 的手机、平板电脑、和全球联网电视盒有遭遇BADBOX 感染的迹象;而来自趋势科技的说法是该后门据信被植入了2000万数量级别的设备。实际上,humansecurity在其分析报告中已经对该事件进行了比较详细的技术分析,各位如果有兴
本文介绍了六个增强企业SOC安全分析的SOAR用例,可简化SOC流程并增强人类分析师的能力。
NTIP聚焦多源威胁情报管理,全面提供多源情报接入、融合存储、情报生命周期管理、情报共享输出、威胁预警、情报查询展示等能力。作为威胁情报体系的关键组件,NTIP支持客户在离线、在线、云计算等不同环境下,融汇多方情报数据并整合应用到自身安全体系中,全面提升威胁检测和响应能力。
根据 2019 年对北美与英国 1908 名从业者的调查,至少 37% 的受访者表示他们的组织将公共情报源与商业情报源结合使用。41% 的受访者表示他们的组织使用一个商业情报源,78% 的受访者使用多个情报源。 Twitter 上的威胁情报信息,保证了威胁的及时性和多样性,许多安全产品中也嵌入 Twitter 进行 IOC 检索。
1.虚假移动应用程序可以窃取用户Facebook凭据 Facestealer是于2021年7月披露的一款间谍软件,可以通过Google Play的欺诈性应用程序窃取用户的Facebook凭据。近日,研究人员发现了200多款与Facestealer间谍软件有关的应用程序,用户成功登录帐户后,应用程序会收集cookie,随后间谍软件会加密所有个人身份信息(PII)并将其发送到远程服务器。
面对杂乱无章的大量数据,想要高效抽取有用的威胁情报,离不开图数据库的强力助推。 组织壮大到一定程度,总免不了面对网络威胁的日常侵袭。可以说,组建一支团队专门处理威胁情报是很有必要的。但威胁情报涉及多方面因素,需要前所未有的复杂方法加以处理。首先就得弄清楚该怎样合理利用数据来应对安全威胁威胁情报涉及多个方面。各类实体的入口点或接入点种类庞杂、分布广泛,包括网站、应用、后台办公系统和用户账户等
例如,杀毒软件和端点检测与响应工具可帮助安全团队降低日志噪音,密切关注端点并识别已知威胁,但它们无法识别环境中所有的威胁。安全专业人员通常不认为威胁情报有价值,因为它通常缺乏具体环境。例如,威胁情报中表明含有特定MD5哈希的文件是恶意的。安全运营中心,事件响应和研究团队周围的功能墙干扰了有效的通信和信息共享。例如,SOC使用SIEM,IR使用取证工具,而威胁 情报用户使用威胁情报平台。
覆盖事前、事中、事后三大阶段,实现对业务风险从感知到应对的闭环。
瑞星威胁情报平台率先捕获到一批攻击流程异常复杂的.NET恶意程序,经瑞星安全研究院深入分析发现,这些恶意程序实则是一整套黑产工具,名为“FastDesktop”,该工具可以通过衍生出的病毒及变种远程控制用户主机,并上传用户隐私信息。经溯源发现该病毒作者疑为国内黑客,通过售卖这套黑产工具牟取利益,定价为300块/天。
VSole
网络安全专家