对抗性AI攻击凸显基本安全问题

采用真实数据训练出来的人工智能和机器学习（AI/ML）系统越来越被认为是对特定攻击不设防，用非预期的输入就能骗过这些系统。

2022年机器学习安全逃逸竞赛（MLSEC 2022）中，参赛者成功篡改名人照片，在不做明显改动的情况下使之被识别为另一个人。最常用的方法包括类似深度伪造（deepfake）的两图融合，以及将较小的图像插入到原图中。

另一案例中，来自麻省理工学院（MIT）、加利福尼亚大学伯克利分校和FAR AI的研究人员发现，下出让机器以为棋局已结束的几步棋就能轻松击败专业级Go AI。尽管Go AI能用合乎逻辑的套路击败职业或业余围棋选手，但对抗性攻击采用理性棋手通常不会做出的决策就能乱拳打死老师傅，轻松击败存了一堆棋谱的机器。

这篇Go AI论文的主要作者之一，加州大学伯克利分校人工智能博士研究生Adam Gleave表示，这些攻击突显出，尽管AI技术可能效率超人，甚至在现实场景中饱经验证，但其仍然容易受到非预期输入的影响。

“我会默认任何机器学习系统都是不安全的。”他说道，“我们应该一直避免在非必要情况下依赖机器学习系统（或任何其他单独的代码），要让AI系统推荐决策，但在执行前由人审批。”

以上种种显露出了一个基本问题：由真实数据和场景训练出来，能够有效应对“真实世界”情况的系统，在遇到异常或恶意输入时，可能会表现出不稳定、不安全的行为。

各种应用和系统都存在这个问题。例如，贝里维尔机器学习研究所（BIML）联合创始人、网络安全专家Gary McGraw就表示，自动驾驶汽车能处理普通驾驶员在路上可能会遇到的几乎全部情况，但遇到异常事件或攻击时就会闯祸，造成灾难性后果。

他说：“机器学习的真正挑战是搞清楚如何做到非常灵活，按常规处理事务，但在异常事件发生时能做出正确的反应。你通常会概括专家做法，因为你就是想养成一个专家……而无知的人会做出令人意外的操作……这就会导致一些状况了。”

欺骗AI（和用户）不难

由于几乎没有机器学习模型和AI系统开发人员关注对抗性攻击，他们也不用红队测试自己的设计，找到骗过AI/ML系统的方法相当容易。MITRE、微软及其他组织机构已敦促公司企业重视对抗性AI攻击的威胁，他们通过人工智能系统对抗性威胁态势（ATLAS）知识库描述当前攻击，并指出AI往往缺乏任何形式的稳健性或安全性，对AI的研究早已遍地开花。

部分问题在于，不了解机器学习背后数学知识的非专家通常认为这些系统了解上下文及其所处环境。

SANS技术研究所研究员David Hoelzer表示，大型机器学习模型，比如图像生成模型DALL-e和文章生成模型GPT-3，拥有大量数据集和新兴模型，似乎可产生能够推理的机器。

然而，这些模型的“世界”里只存在训练出自己的数据，并没有上下文。而想要创建在面对异常或恶意攻击时能够正确应对的AI系统，却需要威胁建模考虑进各种问题。

Hoelzer表示：“根据我的经验，打造AI/ML解决方案的人，大多数都没真正考虑过怎样保护这些解决方案。当然，聊天机器人开发人员已经知道需要非常小心地处理训练期间提供的数据，谨慎准入可能影响训练的人提供的输入，从而避免弄出个令人反感的聊天机器人。”

专注机器学习和AI系统对抗性攻击的Adversa.AI公司AI安全技术总监Eugene Neelou表示，在较高层面上，有三种方法可以攻击AI驱动的系统，例如图像识别系统。

分别是：在主图像中嵌入较小的图像；混合两组输入（例如图像）来创建变形版本；添加特定噪声导致AI系统以特定方式失效。最后一种方法没多少人注意到，但对AI系统仍然有效。

Adversa.ai举行了一场AI系统欺骗竞赛，该公司在赛后总结中发现，除一名选手外，其他所有选手都使用了前两种攻击。Adversa.AI公司AI安全技术总监Neelou称，我们从中得到的经验教训是，AI算法不会增加系统的攻击难度，反而会让系统更容易攻击，因为它们扩大了常规应用程序的攻击面。

他表示：“传统网络安全无法抵御AI漏洞——AI模型安全是个独特的领域，应该在AI/ML负责任务关键或业务关键决策的部门中实施。而且不仅仅是人脸识别，反欺诈、垃圾邮件过滤器、内容审查、自动驾驶，甚至医疗AI应用程序都能以类似的方式绕过。”

测试AI模型稳健性

类似其他类型的暴力攻击，限制输入尝试次数也可以帮助AI系统创建者防止ML攻击。在Go系统攻击中，加州大学伯克利分校的Gleave和其他研究人员构建了自己的对抗系统，该系统反复与目标系统对弈，随着对抗系统越来越成功，目标AI的难度水平也节节攀升。

Gleave表示，该攻击技术凸显了一种潜在对策。

他说道：“我们假设攻击者可以针对固定的‘受害者’代理进行数百万次的训练。如果‘受害者’是可在本地计算机上运行的软件，这种假设就很合理，但如果‘受害者’是在API背后运行的，那输入尝试可能会被检测为滥用并踢出平台，或者受害者随时间推移逐渐变得不再易受攻击——这会引入一系列围绕数据投毒的安全风险，但有助于防御我们的攻击。”

公司企业应继续遵循安全最佳实践，例如最小特权原则：不赋予员工工作所需之外的敏感系统访问权限，也不过分依赖这些系统的输出。最后，整个ML流程和AI系统设计中融入稳健性。

Gleave表示：“我会更信任经过了广泛对抗测试的机器学习系统，最好测试是由独立红队进行，且设计者使用了已知较稳健的训练技术。”