有限样本下的暗网指纹识别 - 网安 - 专业的网络安全产业、社区、知识平台

有限样本下的暗网指纹识别

VSole2021-11-10 19:06:57

简介

该文为发表于PETS 2021的GANDaLF: GAN for Data-Limited Fingerprinting。目前Tor是使用最广泛的匿名网络之一，虽然Tor具有一定的匿名性，但已经存在一些手段能够恢复有关Tor流量的部分信息。其中已有大量针对Tor网站指纹的研究。利用暗网网站指纹技术，能够通过Tor连接中发送和接收的流量模式来识别连接是否指向特定的目的地。由于大多数暗网网站会定期更新和修改，因此训练指纹识别分类器面临数据较少或者需要经常重新收集数据的问题。为此，在本篇论文中，作者提出了一种基于对抗生成网络的指纹识别方法:GANDaLF。GANDaLF旨在使用很少的训练样本，并通过使用对抗生成网络生成大量“假”数据来帮助训练深度神经网络来区分实际训练数据的类别。

方法

首先在数据集层面上，作者不仅关注模型在实验环境下的性能，更关注开放世界环境下的指纹分辨能力。因此做出两种假设，在封闭世界的假设下，受害者正在访问一个攻击者感兴趣并可以训练的一组固定站点，称为受监控的集合。相比之下，开放世界环境的假设下，还允许受害者访问非受监控集中的站点。此外，作者还将数据集分为只包含网站索引页和包含网站子页面数据两类。

之后，针对上述四种数据（是否假设为开放世界环境、是否包含网站子页面数据）集分别训练模型，进行实验。神经网络结构如下图所示。

该网络为作者优化过的SGAN网络，SGAN是对抗生成网络结合了半监督学习的一个变种。SGAN同时训练生成器与半监督式分类器，通过在无监督模式下的训练，使得网络能够从大量未标记的数据集中学习有用的特征提取功能，然后将这些特征用于监督模式下的分类任务，从而得到一个效果更好的半监督式分类器。SGAN的判别器通常为多分类，类型数量为N+1(N种有标签的类型和1种生成器伪造的假数据)。作者基于SGAN，并针对网络流量分类的特点对模型做出改进。由于网络流量并不像图像那样存在二维层面上的特征，因此作者使用更深的1D卷积结构对流量隐含特征进行提取，并尝试引入dropout、批归一化和不同的损失函数进行实验。

实验

作者主要针对GANDaLF的效果与相关工作进行对比。如下表所示，在封闭世界环境的假设下，针对只包含网站索引页的数据集的测试中，GANDaLF的综合效果不错，但是在任何一组测试中都没有取得完全击败相关工作的分类准确率。

相似的，在封闭世界环境的假设下，针对包含网站子页面的数据集的测试中，GANDaLF同样没有超过其相关工作。但是这组实验中，GANDaLF的速度快于第二名20%以上。

但是，在切换到开放世界环境的假设下（用户不仅会流量受监控的网站，还会浏览不受监控的网站），GANDaLF的表现很强。如下图所示，GANDaLF的效果明显优于在封闭世界假设下表现出色的TF和k-FP分类器。GANDaLF能够在保持不错的准确率的情况下保持查全与查准的平衡。

显然，开放世界环境的假设更加贴近现实情况，并且查全、查准也确实需要进行一定的取舍与平衡，不能简单地追求高准确率。由上述实验中可以看到，不同训练源的组合使GANDaLF能够从更广泛的角度进行学习，从而仅使用少量标记样本进行训练就可以进行更精确的网站指纹分类。相比之下，当使用少量训练样本时，有监督的方法由于学习能力受限于数据分布，从而导致性能显着降低。

暗网指纹识别

撤稿纠错

本作品采用《CC 协议》，转载必须注明作者和本文链接