无监督算法在OPPO黑产团伙挖掘中的实践

VSole2022-09-20 17:15:40

前言

近年来,人工智能,图算法,大数据技术,以及机器学习平台建设快速发展,推动业务风控迈向智能化时代。以无监督算法为依托,我们构建了全场景的黑产团伙挖掘模型,识别精准且覆盖率高,增加了黑产团伙攻击成本,同时增强了业务风险防控能力。本次文章介绍的主题是:无监督算法在OPPO黑产团伙挖掘中的实践。

背景介绍

黑产团伙在OPPO在线服务中部分作恶场景: 

场景1:在OPPO在线服务相关APP里,通过签到、打卡及其它各种任务薅积分,然后在积分商城做积分兑换、在OPPO商城做积分抵扣购物甚至0元购; 

场景2:在各业务场景的营销活动中,恶意攻击,获取非法利益; 

场景3:在软件商店、游戏中心、浏览器、主题商店等业务场景中,伪造虚假曝光、点击、下载、阅读、评论等行为,进行恶意ASO、恶意引流等; 

场景4:在广告场景进行虚假的广告曝光、点击等作弊行为,以获取非法收益。

传统风控中,我们会利用黑产手机号、ip等名单,特点是覆盖率低,应用的业务场景受限;或是策略算法(专家规则),它的特点是准确性高,可解释性强,但覆盖率低,只能识别明显有问题的黑产;规则设计相对简单,无法应对不断变化的欺诈手段,且阈值易被识破和绕过。还有就是有监督算法,其特点是覆盖率较高,但可解释性较弱;严重依赖样本标注.

DBSCAN算法在黑产团伙挖掘中的实践

首先我们来了解一下DBSCAN算法几个核心定义:

1.E,MinPts定义:E描述了某一样本的邻域距离阈值,MinPts描述了某一样本的距离为E的邻域中样本个数的阈值

2.E-邻域:对于xj∈D(D是样本集),D中与xj距离不大于E的子样本集(子样本集的个数记为|Ne(xj)|)

3.核心对象:对于xj∈D,如果|Ne(xj)|>=MinPts,则xj是核心对象

4.密度直达:如果xi位于xj的E-邻域中,且xj是核心对象,则称xi由xj密度直达

5.密度可达:对xi和xj,若存在样本序列p1,p2,...,pn,其中p1=xi,pn=xj且pi+1由pi密度直达,则称xj与xi密度可达

6.密度相连:对xi和xj,若存在xk使得xi和xj均由xk密度可达,则称xi和xj密度相连

下图给出了上述概念的直观显示:

DBSCAN和K-means算法对比如下:

聚类类型

密度聚类

原型聚类

是否需要指定类簇数量

不需要

需要

是否可以发现任意形状的簇

可以

只能处理球形簇

是否对异常值敏感

不敏感

敏感

下图可以看出,由于K-means算法只能发现球形簇,而DBSCAN算法可以处发现任意形状的簇,因此在黑产团伙挖掘场景中,DBSCAN算法比K-MEANS算法更合适。 

DBSCAN黑产团伙挖掘系统框架:

从下图可以看出,对比传统策略算法和有监督算法,DBSCAN算法在黑产识别覆盖率上有明显提升,同时DBSCAN算法能保证非常高的黑产团伙识别准确率。但DBSCAN算法也存在一些缺点,当样本集较大时,聚类收敛时间较长,同时调试参数比较复杂,主要需要对距离阈值 E,邻域样本数阈值 MinPts 进行联合调参,不同的参数组合对最后的聚类效果有较大影响。

基于Spark on angel的Louvain算法在黑产团伙挖掘中的实践

模块度是评估一个社区网络划分好坏的度量方法,其物理含义是社区内节点的连边数与随机情况下的边数之差

Louvian算法工作步骤可以分为如下几步:

1.初始时将每个顶点当作一个社区,社区个数与顶点个数相同

2.依次将每个顶点与之相邻顶点合并在一起,计算它们最大的模块度增益是否大于0,如果大于0,就将该结点放入模块度增益最大的相邻结点所在社区

3.迭代第二步,直至算法稳定,即所有顶点所属社区不再变化

4.将各个社区所有节点压缩成为一个结点,社区内点的权重转化为新结点环的权重,社区间权重转化为新结点边的权重

5.重复步骤1-3,直至算法稳定

Louvain算法和DBSCAN算法对比:

DBSCAN

Louvain

时间复杂度

资源占用

运行时间

Angel是由腾讯开源的高性能计算平台,可以无缝衔接Spark,提高图算法的挖掘效率,对于Fast Unfolding算法,在10亿节点和百亿边的数据量下,PSGraph框架性能是大约是GraphX框架的3倍

基于Spark on angel的louvain算法黑产团伙挖掘系统框架如下图所示:

基于Spark on angel的Louvain和DBSCAN黑产团伙挖掘效果对比可以看出,Louvain(Spark on angel)算法对比DBSCAN算法运行效率提升明显,同时覆盖率略有提升,但Louvain(Spark on angel)算法也存在一些缺点,不如没有充分利用节点本身的特征,且只能离线挖掘黑产团伙,不能实时拦截黑产团伙

展望

后期计划使用DGL和图数据库搭建实时GNN在线推理服务。相比Louvain等传统图挖掘算法,GNN不仅能聚合关系网络特征,而且能充分利用节点本身特征;相比离线挖掘算法,实时在线推理服务能对黑产作恶行为进行实时拦截,减少业务损失。

算法dbscan
本作品采用《CC 协议》,转载必须注明作者和本文链接
以无监督算法为依托,我们构建了全场景的黑产团伙挖掘模型,识别精准且覆盖率高,增加了黑产团伙攻击成本,同时增强了业务风险防控能力。本次文章介绍的主题是:无监督算法在OPPO黑产团伙挖掘中的实践。相比Louvain等传统图挖掘算法,GNN不仅能聚合关系网络特征,而且能充分利用节点本身特征;相比离线挖掘算法,实时在线推理服务能对黑产作恶行为进行实时拦截,减少业务损失。
AI安全论文第20篇是RAID19 Android位置数据(POI)泄露分析的译文,希望您喜欢
系统安全第31篇文章介绍恶意代码攻击溯源基础知识
无监督学习(无监督学习)是和监督学习的另一种数据监督机器的方法,无监督学习是没有的明显学习数据本身。
在近些年网络空间安全形势愈发严峻的情况下,对网络协议分析提出了越来越高的要求,其中,对未知协议分类分析更是亟需攻克的难点。针对未知协议的分类问题,提出一种基于层次聚类的多策略未知协议分类方法。
SPA在实际测评中主要依赖于测评人员的肉眼观察,因此需要测评人员具有丰富的侧信道安全性测评经验;同时,其结论具有较强的主观性,不同测评人员可能会得到截然不同的结论;易漏判。也就是说,如果用肉眼观测的方法进行安全性测评,最终得到的结果很有可能是无泄露。聚类分析的总体准确率是聚类分析正确的操作数与总操作数的比值。
通过自动化决策方式作出对个人权益有重大影响的决定,个人有权要求个人信息处理者予以说明,并有权拒绝个人信息处理者通过自动化决策的方式作出决定。开展评估和监督检查。重视特殊群体的权益保护。依法对未成年人、老年人和劳动者履行特殊的保障义务,建立特殊群体维权投诉处理机制和赔偿制度,确保其获得法律保护。
本文将详细分析Shor算法的实现过程,整数周期数及非整数周期数下Shor算法分析,Shor算法概率评估,实例分析。比如Hadamard门,简称H门,他的一个主要功能就是通过计算基态产生等概率的叠加态。shor算法最令人振奋的是直接将质因子分解以及离散对数问题以指数级速度提升,这给人们的启示是可以利用同样算法思想来解决更为广泛的隐含子群问题。
2022年3月1日实施的《互联网信息服务算法推荐管理规定》(以下简称《规定》),作为第一个正式出台的规制算法推荐运用的部门规章,既是互联网信息服务算法推荐管理的法律依据,又为推荐算法发展树立了法治路标。
随着移动互联基础设施的大力建设和移动终端设备的广泛普及,信息通信技术和数字数据技术的应用场景和频次得到极大丰富和提升,海量的用户数据的生产、流动、使用、开发得到极大提速,算法技术的开发和应用得到极大激励。以海量数据为基础的人工智能算法与网约车、网络购物、灵活用工等应用场景的深度融合,给数字经济高质量发展注入强大动能。同时,由于算法技术及应用场景的深度商业化和广泛市场化,“大数据杀熟”、诱导用户沉迷
VSole
网络安全专家