前言

近年来,人工智能,图算法,大数据技术,以及机器学习平台建设快速发展,推动业务风控迈向智能化时代。以无监督算法为依托,我们构建了全场景的黑产团伙挖掘模型,识别精准且覆盖率高,增加了黑产团伙攻击成本,同时增强了业务风险防控能力。本次文章介绍的主题是:无监督算法在OPPO黑产团伙挖掘中的实践。

背景介绍

黑产团伙在OPPO在线服务中部分作恶场景: 

场景1:在OPPO在线服务相关APP里,通过签到、打卡及其它各种任务薅积分,然后在积分商城做积分兑换、在OPPO商城做积分抵扣购物甚至0元购; 

场景2:在各业务场景的营销活动中,恶意攻击,获取非法利益; 

场景3:在软件商店、游戏中心、浏览器、主题商店等业务场景中,伪造虚假曝光、点击、下载、阅读、评论等行为,进行恶意ASO、恶意引流等; 

场景4:在广告场景进行虚假的广告曝光、点击等作弊行为,以获取非法收益。

传统风控中,我们会利用黑产手机号、ip等名单,特点是覆盖率低,应用的业务场景受限;或是策略算法(专家规则),它的特点是准确性高,可解释性强,但覆盖率低,只能识别明显有问题的黑产;规则设计相对简单,无法应对不断变化的欺诈手段,且阈值易被识破和绕过。还有就是有监督算法,其特点是覆盖率较高,但可解释性较弱;严重依赖样本标注.

DBSCAN算法在黑产团伙挖掘中的实践

首先我们来了解一下DBSCAN算法几个核心定义:

1.E,MinPts定义:E描述了某一样本的邻域距离阈值,MinPts描述了某一样本的距离为E的邻域中样本个数的阈值

2.E-邻域:对于xj∈D(D是样本集),D中与xj距离不大于E的子样本集(子样本集的个数记为|Ne(xj)|)

3.核心对象:对于xj∈D,如果|Ne(xj)|>=MinPts,则xj是核心对象

4.密度直达:如果xi位于xj的E-邻域中,且xj是核心对象,则称xi由xj密度直达

5.密度可达:对xi和xj,若存在样本序列p1,p2,...,pn,其中p1=xi,pn=xj且pi+1由pi密度直达,则称xj与xi密度可达

6.密度相连:对xi和xj,若存在xk使得xi和xj均由xk密度可达,则称xi和xj密度相连

下图给出了上述概念的直观显示:

DBSCAN和K-means算法对比如下:

聚类类型

密度聚类

原型聚类

是否需要指定类簇数量

不需要

需要

是否可以发现任意形状的簇

可以

只能处理球形簇

是否对异常值敏感

不敏感

敏感

下图可以看出,由于K-means算法只能发现球形簇,而DBSCAN算法可以处发现任意形状的簇,因此在黑产团伙挖掘场景中,DBSCAN算法比K-MEANS算法更合适。 

DBSCAN黑产团伙挖掘系统框架:

从下图可以看出,对比传统策略算法和有监督算法,DBSCAN算法在黑产识别覆盖率上有明显提升,同时DBSCAN算法能保证非常高的黑产团伙识别准确率。但DBSCAN算法也存在一些缺点,当样本集较大时,聚类收敛时间较长,同时调试参数比较复杂,主要需要对距离阈值 E,邻域样本数阈值 MinPts 进行联合调参,不同的参数组合对最后的聚类效果有较大影响。

基于Spark on angel的Louvain算法在黑产团伙挖掘中的实践

模块度是评估一个社区网络划分好坏的度量方法,其物理含义是社区内节点的连边数与随机情况下的边数之差

Louvian算法工作步骤可以分为如下几步:

1.初始时将每个顶点当作一个社区,社区个数与顶点个数相同

2.依次将每个顶点与之相邻顶点合并在一起,计算它们最大的模块度增益是否大于0,如果大于0,就将该结点放入模块度增益最大的相邻结点所在社区

3.迭代第二步,直至算法稳定,即所有顶点所属社区不再变化

4.将各个社区所有节点压缩成为一个结点,社区内点的权重转化为新结点环的权重,社区间权重转化为新结点边的权重

5.重复步骤1-3,直至算法稳定

Louvain算法和DBSCAN算法对比:

DBSCAN

Louvain

时间复杂度

资源占用

运行时间

Angel是由腾讯开源的高性能计算平台,可以无缝衔接Spark,提高图算法的挖掘效率,对于Fast Unfolding算法,在10亿节点和百亿边的数据量下,PSGraph框架性能是大约是GraphX框架的3倍

基于Spark on angel的louvain算法黑产团伙挖掘系统框架如下图所示:

基于Spark on angel的Louvain和DBSCAN黑产团伙挖掘效果对比可以看出,Louvain(Spark on angel)算法对比DBSCAN算法运行效率提升明显,同时覆盖率略有提升,但Louvain(Spark on angel)算法也存在一些缺点,不如没有充分利用节点本身的特征,且只能离线挖掘黑产团伙,不能实时拦截黑产团伙

展望

后期计划使用DGL和图数据库搭建实时GNN在线推理服务。相比Louvain等传统图挖掘算法,GNN不仅能聚合关系网络特征,而且能充分利用节点本身特征;相比离线挖掘算法,实时在线推理服务能对黑产作恶行为进行实时拦截,减少业务损失。