Twitter 威胁情报跟踪与评估
工作来源
WWW 2021
工作背景
根据 2019 年对北美与英国 1908 名从业者的调查,至少 37% 的受访者表示他们的组织将公共情报源与商业情报源结合使用。41% 的受访者表示他们的组织使用一个商业情报源,78% 的受访者使用多个情报源。
Twitter 上的威胁情报信息,保证了威胁的及时性和多样性,许多安全产品中也嵌入 Twitter 进行 IOC 检索。
工作设计
设计通过 Twitter 提取恶意软件 IOC 的系统 Twiti。识别可能包含 IOC 指标的推文,通过推文内容与外部链接提取 IOC 指标。其整体结构如下所示:
推文收集
使用 Search API 跟踪 35 个常见关键字(如 malware、ransomware、botnet、iocs 与 virustotal.com 等)、使用 Timeline API 跟踪 146 个典型用户(86% 是安全专家、12% 是安全厂商、2% 是其他安全组织)收集数据。
推文选择
直接使用模式匹配肯定会导致很多误报,比如某些固件版本号和 IP 地址类似(Tuleap 9.17.99.189)、区块链事务哈希值等。
预处理
Twitter 会自动缩短推文中的 URL 为短链接,在缩短时还会进行安全检查,所以要删掉 http://t.co 的链接,避免保留良性地址。与此同时,bit.ly、tinyurl.com、buff.ly、goo.gl、youtu.be 和 ow.ly 等短链接地址也会被删除。
继而通过正则进行 IOC 检查,发现哈希、IP 地址、域名或者 URL 等。再利用 NLP 技术提取特征:
- 将哈希、IP 地址、URL、域名、文件名、文件路径、电子邮件替换为 [hash]、[ip]、[url]、[domain]、[filename]、[filepath]、[email]。用户名、CVE 编号、数字都替换为 [username]、[cve]、[num]。
- 通过 NER 识别恶意软件词汇,标记为 [malware_name]
- 删除前后文的 Twitter 用户名
- 删除 Unicode 字符与符号
- 别名标准化替换,将 c&c、cnc、command and control 都替换为 c2
- 进行 Token 化与词形还原(Lemmatization),并删除单个字符、[username] 与 [num]
- 由于已有 NER 工具都没有针对网络安全领域知识进行适配,使用相关推文训练了 BERT 模型并在此处使用。
推文分类
收集了 2019 年 1 月至 9 月的 21937 条推文,去掉相似度大于 0.7 的重复推文后,剩下 5675 条推文。三位安全专家手动标注是否包含 IOC 指标,其中共有 3007 条包含 IOC 指标的推文,另外 2668 条推文不包含 IOC 指标。
分类的特征为:
- Defanged IOC:例如 hxxp://92.63.197.106/c.exe、67[.]198.129.27、hold[.]jcgloball[.]org:11880 等
- 上下文 n-gram:有 IOC 的推文中一般都有明显的上下文,例如 version [ip]、up to [ip]、before [ip]、prior to [ip]。提取目标词前后 1-2 个单词组成二元组/三元组
- 利用之前的 NLP 技术进行预处理并删除常见英文单词,利用 bag of word 补充上下文无法预料到的变化
- 在 22316 个初始特征中,选择了 1456 个特征,其中包含 483 个单词与 972 个二元组/三元组。
评估使用逻辑回归、随机森林和 XGBoost 后确认随机森林表现最好,精度为 0.95 召回率为 0.96,其 ROC 曲线如下所示:
IOC 提取
由于推文有长度限制,外部链接也经常被使用,对这些外部链接也许要进行跟踪。IOC 要么包含在推文中,要么包含在外部链接中。
推文中 IOC 提取
利用 ioc-fanger、iocextract 等工具处理 defanged IOC,并完善更多模式。
可以发现,收集的 38% 的 IP 地址、73% 的 URL 都是 defanged 的情况。
外部链接中 IOC 提取
外部链接中安全公司的博客、恶意软件分析服务和 pastebin.com 是 IOC 的主要来源,分别进行处理:
- pastebin.com:其中有各种各样的信息,太多并不能处理。只在有例如 malware、ransomware、trojan、botnet、[malware_name]、c2、ioc 与 payload 等 18 个词共同出现时进行提取。
- 在恶意软件分析服务:57% 来自 VirusTotal、33% 来自AnyRun、7% 来自 urlscan.io,其余 3% 来自其他分析服务。使用 API 获取相关 IOC 指标信息,但由于 AnyRun 并没有提共 API 接口,很多比 VirusTotal 早的样本都无法收集 IOC 指标。
- 安全公司的博客:跟踪一百余个安全公司的博客,为每个博客都开发专用的解析提取工具。
工作评估
在 2019 年 11 月,尝试跟踪了 35 个关键字和 82 个用户进行验证。收集到的 IOC 指标有 36.2% 来自关键字跟踪,25.6% 来自用户跟踪,38.2% 两者都有。这些推文中共有 25437 个外部链接,其中有 5605 个独立域名。其中 6.2% 来自恶意软件分析服务、4.2% 来自安全公司博客、1.4% 来自 pastebin.com、0.15% 来自 AlienVault OTX。
评估指标(排他性、延迟性、准确性)与评估对照来源:
- MalwareBazzar 声称其三分之二的样本都未被 VirusTotal 检测。
- 流行域名综合了Alexa top 1M、Cisco Umbrella top 1M 和 Majestic 1M 中的 top 25k。
- CDN 服务包括 AWS CloudFront、CloudFlare、Fastly、EdgeCast 与 MaxCDN
- 黑名单包括 AlienVault IP Reputation、Bambenek_c2、Feodo Tracker、SSL Blacklist 和与 Mirai 相关的地址。
2020 年 2 月到 4 月,收集了 978414 条推文。经过处理后,剩下 17904 条包含 IOC 指标的推文。收集到 32000 个哈希、18718 个 URL、70515 个 IP 地址和 11060 个域名。所有的文件哈希都在评估范围内,但受限于 API 查询限制,其他的 IOC 指标只处理 4 月内的。
文件哈希
三个月收集了 32200 个文件哈希,三个月分别 20837 个、5306 个、6057 个。其中有 10022 个(31.1%)MD5、2024 个(6.3%)SHA-1、20154 个(62.6%)SHA-256。
每天收集到的文件哈希数如下所示,平均每天收集 421 个文件哈希。去除掉突然量大的情况,平均每天可以收集 200 个文件哈希。
截至 5 月 1 日,32200 个文件哈希中,7.2% VirusTotal 未发现,62.74% AlienVault OTX Pulse 未发现。
Twiti 平均比 VirusTotal 早 1.2 天,最早可提前 27.5 天。
Twiti 平均比 AlienVault OTX Pulse 早 3.5 天,最早可提前 86.2 天。
利用 VirusTotal 可以发现 Twiti 中 92.86% 的文件哈希是恶意的,0.03% 是良性的,但仍有 7.11% 的文件是未知的。未知文件中,10.5% 来自安全公司分析报告、6.6% 来自恶意软件分析服务、5.4% 来自 AnyRun 沙盒、1.9% 来自沙盒。
Twiti 收集了 11761 个 Emotet 样本的 16539 个文件哈希。通过 VirusTotal 发现 95.04% 样本是恶意的,4.95% 样本是未知的,只有一个样本是良性的。
Twiti 可以比 AlienVault OTX Pulse 早 1.8 天发现 92.09% 的 Emotet 文件哈希,比 MalwareBazaar 早 33.3 天发现所有 Emotet 文件哈希。对比如下所示,Twiti 可以收集大量独占样本。
URL
收集了 6873 个恶意 URL,平均每日 229 个。
其中 34.45%(2368 个)并未在 VirusTotal 上出现过。当然,恶意 URL 通常生存周期都较短,由于时间的延迟检测可能存在视野盲区。
Twiti 平均比 VirusTotal 早 1.2 天早检测出 51.81%(2191 个)的 URL,同天检出 41.17% 个 URL,更晚的占 7.02%。
在 2368 个 URL 中,VirusTotal 认为是恶意的有 2134 个,可疑的有 72 个,清白的有 175 个,未知的有 5 个。即 89.44% 为恶意 URL,如果包括可疑 URL 在内的话为 92.45%。被 VirusTotal 确定为清白的 175 个 URL 中经过人工确认,其实只有 98 个 URL 确实是清白的,准确率进一步提升到 95.89%。
IP
收集了 12765 个恶意 IP 地址,平均每日 426 个。
对 VirusTotal 来说,53.63% 的 Twiti 收集到的 IP 地址都是独有的。与 AlienVault OTX Pulse 相比,重合的 IP 只有 9.8%。
Twiti 相比 VirusTotal 有 813 个 IP 可以提前 5.9 天检测,相比 AlienVault OTX Pulse 有 274 个 IP 可以提前 10.6 天检测,与其他 IP 黑名单相比最多甚至可以提前 25 天。
域名
收集了 3302 个恶意域名,日均 110 个。
与 VirusTotal 相比,有 1888 个域名也在 VirusTotal 存在。452 个域名(38.4%)比 VirusTotal 检测早,39.34% 的域名与 VirusTotal 同天检出,只有 22.26% 的域名比 VirusTotal 检测晚。
同类工具横向对比
与 InQuest IOC DB 和 Twitter IOC Hunter 进行对比,Twiti 从数量与精度上都更好。
整体数据分析
所有数据来源收集的整体数据情况如下所示:
其中有一些很有特点的地方:
- pastebin 是最大的 IOC 指标来源,并且这些指标都很“新鲜”。
- 推特文本是恶意 IP 地址最大的独家来源。
- URLhaus 的数量虽少,但是质量相对较高。
- 安全公司的报告要么提前了非常多,要么延迟了很多,这也体现了各家情报的独特性。
- 收集的情报中有 31.1% 来自关键词跟踪、16.3% 来自用户跟踪,52.6% 二者都有。
- 95.9% 的文件哈希都是通过关键词跟踪得到,但是在恶意 URL、IP 地址和域名上用户跟踪更具优势。
- Twiti 收集的 IOC 指标中,96% 都可以在商业与非商业两种常场景下使用,0.4% 只能用于被许可的商业场景,3.6% 不被允许在任何情况下商用。
恶意文件
PE 文件占绝对多数,但也有很多其他不同类型的恶意文件:
在 VirusTotal 上检出的样本,木马和勒索软件的数量都非常多。
在 VirusTotal 上未能检出的样本,只有四分之一的样本提到了恶意软件的类型。其中较多的是远控(5.5%)、钓鱼(5.4%)和僵尸网络(4.6%)。
按照恶意软件家族进行归并,可以发现:
- Windows 平台上,Emotet 在 Twitter 上被频繁披露跟踪
- Linux 平台上,则是以 Mirai、Gafgyt 僵尸网络为主
- 移动平台上,Cerberus、Anubis 等银行木马最多
大多数哈希只会在 1-2 天内被提到,最长的是 NetWalker 勒索软件被连续提到 35 天。
研究人员
报告文件哈希比 VirusTotal 还早的典型用户如下所示,其中大部分都是独立恶意软件分析专家。
而 VirusTotal 上没有的部分,其中 70% 来自独立恶意软件分析专家、15% 来自安全公司。
URL/DGA
根据 VirusTotal 的数据,收集到的 URL 中 75.5% 属于恶意软件、16.5% 属于钓鱼网站、8% 属于漏洞利用。共有 65% 的钓鱼网站都来自用户跟踪。
5.6% 的恶意 URL 都伴有 c2
标签,并且 VirusTotal 未知的 URL 伴有 c2
的比例相比 VirusTotal 已知的 URL 伴有 c2
的比例高两倍。这可能是由于 C&C 的 URL 可能生存周期较短,VirusTotal 由于时延无法检出。
DGA 的活跃期较短,Twiti 发现的域名中 2% 都伴有 dga
描述,能够比 VirusTotal 提前一天检测。利用基于 LSTM 的 DGA 检测算法,Twiti 中 5.4% 的域名都是 DGA 域名,Twiti 可以比 VirusTotal 提前 1.9 天检测 64% 的 DGA 域名,同时检测到 18% 的 DGA 域名。
工作思考
这是来自三星研究院的工作,项目开源在 GitHub 上。需要注意的是 Twiti 是用于收集威胁情报的,但它自身并不能保证威胁情报的准确性,使用这些数据需谨慎。
TwiTi GitHub
https://github.com/SamsungLabs/TwiTi
Twitter 的威胁情报质量实际上一直被很多安全研究人员称赞有加,时效上很多安全研究人员在 Twitter 上率先发布消息、质量上有人物背书可信程度能够保障、社区氛围上大家经常沟通和探讨关于威胁与安全的问题,甚至能与攻击者进行直接互动。这些都使得安全业界围绕 Twitter 建立起了一个良好的生态,Twiti 即是从这种生态汲取养分的工具。
三星研究院的这一工作不仅是构建获取威胁情报的工具,也对 Twitter 上的威胁情报进行了一次测量。不过其实说威胁情报还是有些宽泛的,更具体来说该工作还是聚焦在 IOC 指标的测量上。如果对比 IOC 指标更高层级的威胁情报信息能有所跟踪和提炼,肯定会更有用,同时也更难。MITRE 正在尝试的 TRAM 就是试图通过机器学习模型识别分析报告中的 ATT&CK 技术并映射为 MITRE ATT&CK 技术项,降低威胁情报整合运营所需的时间与精力。未来也应该会有更多类似的工作出现,综合利用各种前沿技术提升威胁情报的知识密度。
