针对电商欺诈检测系统的“中毒攻击”

X0_0X2022-01-05 10:30:57

几乎所有高级网络安全产品的销售都会告诉你,人工智能已经被用于保护计算基础设施的许多产品和服务。但是,您可能没有听说过机器学习应用程序自身也需要安全防护,而且这些应用在日常服务中变得越来越普遍。

人工智能应用已经在塑造我们的意识(信息茧房)。大型社交媒体平台普遍使用基于机器学习的推荐机制让用户与平台保持强关联、参与内容并投放精准广告。但很少有人知道,这些系统很容易受到“数据中毒攻击”。

对这些机器学习算法的操纵是司空见惯的,并且存在大量在线服务来帮助完成这些操作。而且,执行此操作不需要任何技术技能——只需掏出您的支付宝刷“点赞”、“订阅”、“关注”、阅读数、转发、评论或任何能够影响算法的数据。

由于这些攻击造成的损失仍然难以用金钱量化——而且成本通常由用户或社会本身承担——大多数互联网平台仅在立法者或监管机构强制要求时才解决其模型的潜在腐败(或腐化)问题。

事实上,任何在不可信数据上训练的模型都可能遭受数据中毒攻击。近日,F-Secure的资深数据科学家Samuel Marchal介绍了对抗电子商务网站的欺诈检测算法。如果这种攻击很容易达成,那么在线零售商就必须重视这个问题。

什么是数据中毒?

机器学习模型的好坏取决于用于训练它的数据的质量和数量。训练准确的机器学习模型通常需要大量数据。为了满足这种需求,开发人员可能会求助于可能不受信任的来源,这可能会打开数据中毒的大门。

数据中毒攻击旨在通过插入错误标记的数据来修改模型的训练集,目的是诱使它做出错误的预测。成功的攻击会损害模型的完整性,从而在模型的预测中产生一致的错误。一旦模型中毒,从攻击中恢复是非常困难的,一些开发人员甚至可能都不会去尝试修复。

数据中毒攻击有两个目标:

  • 拒绝服务攻击(DoS),其目标是降低模型的整体性能。
  • 后门/特洛伊木马攻击,其目标是降低性能或强制对攻击者选择的输入或输入集进行特定的、不正确的预测。

对欺诈检测模型的成功攻击

研究人员通过与电子商务网站上的欺诈检测系统类似的示例场景来研究数据中毒攻击。经过训练的模型应该能够根据订单中的信息预测订单是合法的(将被支付)还是欺诈(将不被支付)。此类模型将使用零售商可用的最佳数据进行训练,这些数据通常来自之前在网站上下的订单。

针对这种模型的攻击者可能希望从整体上降低欺诈检测系统的性能(因此它通常不善于发现欺诈活动)或发起精确攻击,使攻击者能够在不被发现的情况下进行欺诈活动。

为了对该系统发起攻击,攻击者可以向训练集中的现有数据点注入新数据点或修改现有数据点上的标签。这可以通过冒充一个用户或多个用户并下订单来完成。攻击者为某些订单付款,而不为其他订单付款。目标是在下一次训练模型时降低模型的预测准确性,因此欺诈变得更加难以检测。

在研究人员的电子商务案例中,攻击者可以通过延迟支付订单以将其状态从欺诈变为合法来实现标签翻转。还可以通过与客户支持机制的交互来更改标签。通过对模型及其训练数据有足够的了解,攻击者可以生成优化的数据点,以通过DoS攻击或后门来降低模型的准确性。

数据下毒的艺术

研究者用实验生成了一个小数据集来说明电子商务欺诈检测模型的工作原理。有了这些数据,研究者训练了算法来对该集中的数据点进行分类。选择线性回归和支持向量机(SVM)模型是因为这些模型通常用于执行这些类型的分类操作。

研究者使用梯度上升方法基于拒绝服务或后门攻击策略以最佳方式生成一个或多个中毒数据点,然后研究模型在接受新数据训练后的准确性和决策边界发生了什么变化,其中包括中毒的数据点。自然,为了实现每个攻击目标,需要多个中毒数据点。

通过中毒攻击实施电子商务欺诈

研究者的实验结果发现,与拒绝服务中毒攻击(两者均为100)相比,研究者需要引入更少的中毒数据点来实现后门中毒攻击(线性回归为21,SVM为12)。

线性回归模型比SVM模型更容易受到拒绝服务攻击。在中毒数据点数相同的情况下,线性回归模型的准确率从91.5%降低到56%,而SVM模型的准确率从95%降低到81.5%。请注意,在这种情况下,50%的准确率与掷硬币相同。

SVM模型更容易受到后门中毒攻击。由于SVM模型比线性回归模型具有更高的容量,因此它们的决策边界可以更好地拟合训练集中的异常并在其预测中创建“异常”。另一方面,它需要更多中毒数据点来移动线性回归模型的线性决策边界以适应这些异常。

总结

该实验发现,只要攻击者对机器学习和优化技术有足够的了解,中毒攻击就可以很容易地被攻击者执行。目前已经存在几个公开可用的库,以帮助攻击者创建中毒攻击。

一般来说,任何使用第三方数据训练的机器学习模型都容易受到此类攻击。攻击者可以很容易使用中毒攻击来获取潜在的经济利益。

在研究者的实验设置中,我们观察到复杂的模型更容易受到后门攻击,而简单的模型更容易受到DoS策略的影响,这表明这些模型从设计上没有灵丹妙药来防止所有攻击技术。鉴于重新训练对于现实中使用的模型来说非常困难,同时考虑到自动欺诈的较低潜在成本,我们需要增加额外的防御层来保护这些脆弱而重要的机器学习应用。

为了拥有值得信赖的人工智能,它需要是安全的,但是已经在使用的机器学习算法已经带来了机器无法自行解决的安全挑战。

(来源:@GoUpSec)

大数据机器学习
本作品采用《CC 协议》,转载必须注明作者和本文链接
这篇技术干货 带你了解深信服的AI技术
近日,Mintegral通过了2022年网络安全等级保护第三级测评,表明Mintegral的信息安全管理能力,已达到国内非银行机构的最高标准。据了解,Mintegral在算法技术上持续投入,是首批将DCO动态创意优化技术与互动创意相结合的广告平台之一。在每次广告请求筛选广告时,Mintegral的算法会自动增加一个创意组合维度、产生更多的候选结果,让Mintegral的投放效率具备一定的比较优势。
近年来,移动金融发展迅速,新业态、新模式层出不穷。用户通过智能手机终端进行投资理财、消费借贷、交易支付等金融业务操作,大大提升了金融业务的便捷性。各商业银行也都推出了手机银行、直销银行、微信银行等多元化移动金融渠道。
近日,国际权威IT研究机构Gartner发布《2022中国网络安全技术成熟度曲线》报告。快速满足等级保护要求,为600多朵私有云提供安全资源池服务。可视化的安全监控与态势感知,统一管理提升运维处置效率。态势感知建立基于全国的纵横联动态势感知Gartner认为,中国态势感知技术是安全信息和事件管理平台的现代、集中和发展版本。数据分类分级对数据安全、数据治理和合规项目至关重要。
Github渗透测试文档资料集合
没有数据安全就没有国家安全,数据安全治理作为数据安全体系重要的组成部分引起了各行各业越来越多的关注。从数据环境下海量数据面临的安全风险出发,结合数据在使用过程中的安全需求,给出了一种动态防御的数据安全治理架构,并对该架构下的关键技术进行了研究。该架构能够为数据安全治理提供体系化安全治理思路,其中的关键技术可以为该架构的实现提供有效支撑。 《中华人民共和国数据安全法》(下文简称:数据安全法)的正
数据质量的高度敏感要求,数据质量的优劣极大程度影响AI模型的应用效果,必须进行多维度的质量检查,以及对实时性高要求,实时数据分析、推荐和预警时,数据源更强调具备实时性接入能力。最后是AI引擎的自我迭代阶段。达到AI模型上线后的持续迭代优化。考虑到数据训练规模扩张,数据类型异构,数据噪声指数级增加,对此AI 引擎能针对性地进行数据自动发现。
数据暴政与数据光明
2022-06-09 11:26:54
背景:现如今,空前且大规模的人类行为数据的可用性正在深刻地改变着我们所处的世界,经济学、公共卫生学、医学、生物学、城市科学等在这一趋势中都受到影响。各个组织、公民个人正在积极尝试、创新和改编算法决策工具以了解全球人类行为模式,并为解决社会重要性问题提供决策支持。
此前,本公号发表过的关于数据要素治理的相关文章包括: 《非个人数据在欧盟境内自由流动框架条例》全文中文翻译(DPO沙龙出品) 简析欧盟《数字市场法》关于数据方面的规定 数据流通障碍初探——以四个场景为例 对“数据共享合法化”的分析与思考系列之一:以《关于欧洲企业间数据共享的研究》为起点 对“数据共享合法化”的分析与思考 系列之二 ——欧盟B2B数据共享的案例研究 对“数据共享合法化”的分析与思考
X0_0X
暂无描述