2023年1月11日,美国乔治城大学(Georgetown University)安全与新兴技术研究中心(CSET)、OPENAI和斯坦福互联网天文台发布题为《生成语言模型和自动化影响行动:新兴威胁和潜在缓解措施》研究报告。这份重量级报告指出,诸如ChatGPT之类的人工智能系统凭借其产生类似人类文本的不可思议的能力而俘获了公众的想象力,有望改变各国部署数字宣传行动以操纵公众舆论的方式。


报告摘要称,近年来,人工智能(AI)系统有了显著的改进,其功能也得到了扩展。特别是,被称为“生成模型”的AI系统在自动内容创建方面取得了巨大进展,例如从文本提示生成图像。一个发展特别迅速的领域是可以生成原始语言的生成模型,这可能对法律和医疗卫生等不同领域产生积极影响。

    然而,生成语言模型(或简称“语言模型”)也可能有负面应用。对于恶意行为者来说,他们希望传播宣传信息,这些信息旨在塑造人们的看法,以维护宣传者的利益,这些语言模型有望自动创建令人信服和误导性的文本,用于影响力行动。对于社会来说,这些新进展带来了一系列新的担忧:那些试图暗中影响公众舆论的人可能会发动大规模的——甚至可能是极具说服力的——影响运动。

    研究团队称报告旨在评估语言模型的变化如何影响运营,以及可以采取哪些步骤来减轻这些威胁?这个任务本质上是推测性的,就像人工智能和影响力一样正在迅速变化。报告中的许多想法都是由作者于2021年10月召开的一次研讨会提供的,该研讨会汇集了人工智能、影响力操作和政策分析领域的30名专家,讨论语言模型对影响力操作的潜在影响。得出的报告并不代表研讨会参与者的共识,错误是研究人员自己的。

    研究团队希望这份报告对那些对新兴技术的影响感兴趣的虚假信息研究人员、制定政策和投资的人工智能开发人员,以及为技术和社会交叉路口的社会挑战做准备的政策制定者提供有益帮助。

通过利用大型语言模型(LLM)快速部署和扩大影响力活动,在线影响力和虚假信息操作的提供者将能够更轻松地扩大和加速他们的努力。 

借助功能更强大、更容易获得的大型语言模型,开展影响力行动的参与者将能够自动化社交媒体帖子;使用这些模型撰写完整的文章来填充假新闻网站。据研究人员称,可构建聊天机器人以一对一的方式与目标进行交互。简而言之,语言模型可能会降低构成大规模影响力活动的宣传成本,并创造更具影响力的内容。 

大型语言模型的进步引起了极大的兴趣,并促使投资者向所谓的生成式人工智能公司投入数十亿美元。例如, 据报道,微软将向OpenAI投资100亿美元——其研究人员为周三(11日)的研究做出了贡献——这笔注资将使该公司的估值达到290亿美元。该公司的进步刺激了对构建人工智能模型以生成内容的公司的投资热潮,并在谷歌造成了恐慌。据报道,谷歌的管理人员已 宣布“红色代码” ,以确保OpenAI不会蚕食该公司利润丰厚的搜索引擎业务.

到目前为止,大型语言模型尚未作为影响力活动的一部分进行部署,该报告的作者正在敦促公司和政策制定者积极主动地建立护栏。“我们不想等到这些模型被大规模部署用于影响力操作之后,才开始考虑缓解措施,”该报告的主要作者之一、安全与新兴技术中心的研究员乔什·A·戈德斯坦 (Josh A. Goldstein) 说。

要使用语言模型执行影响力行动,操作员需要模型存在、访问该模型、传播由它生成的内容以及用户使用它的能力。作者考虑了多种干预措施,以防止大型语言模型被用于影响力活动。

例如,这些措施包括对AI硬件的访问控制,使构建LLM变得更加困难,对现有AI模型的使用限制,使宣传者无法访问他们需要的模型,采用数字来源标准,使语言模型产生的内容很容易被发现,而媒体素养活动则使用户更难受到影响。

但周三的报告说明了应对这些挑战的规模:报告指出,目前美国处理虚假信息的方法在社交媒体平台和研究人员中“支离破碎”。解决大型语言模型带来的威胁将需要社交媒体公司、政府和民间社会之间协调的“全社会”方法——打击在线虚假信息的努力中严重缺乏这种团结一致的努力。 

周三发布的报告是CSET研究人员之间长达一年多合作的结果;斯坦福大学互联网天文台,在网络影响力运营研究方面做出了开创性的研究;和OpenAI的研究人员一起,他们在机器学习方面的突破性进展在很大程度上促成了当前对该领域的强烈兴趣。 

通过简化与LLM的交互,OpenAI帮助研究人员、技术人员和许多普通用户看到了使用该模型执行查询、回答复杂问题但也可能将其用于有害用途的潜力——比如使用该模型考试作弊或编写恶意代码。 

虽然没有证据表明这些模型迄今已被用作影响行动的一部分,但有记录在案的用例说明了国家行为者如何以有害的方式使用语言模型。

去年,一位AI研究人员使用来自有毒在线留言板4chan的大量数据对现有的LLM进行了培训——一个称为微调的过程。然后,研究人员让该模型在论坛上肆虐,在该网站上发布了 30,000多个帖子——主要是愚弄该网站的用户,让他们认为这是一个合法用户在模仿该网站的种族主义、厌恶女性的言论。 

很容易想象法学硕士如何在外国选举中代表受青睐的候选人执行类似的任务,但戈德斯坦警告说,重要的是不要夸大这些模型在革命性的影响力操作中所构成的威胁。 

“我认为我们不参与威胁通胀是至关重要的,”Goldstein说。“仅仅因为我们评估语言模型会有用,并不意味着所有使用语言模型的影响行动都会自动产生很重大的影响。”

本周,《自然》杂志发表了一项重要研究,研究了俄罗斯互联网研究机构在2016年期间使用Twitter消息传递的影响,以及暴露于这种影响行动的用户是否改变了他们的信仰或投票行为。研究表明,没有证据表明暴露的 Twitter消息与俄罗斯的外国影响运动以及态度、两极分化或投票行为的变化之间存在有意义的关系。


像这样的研究强调,即使世界各国都投资于他们影响在线对象的能力,但仍然很难对改变思想产生影响。“我们不应该仅仅因为它们的存在就假设它们会产生重大影响,”Goldstein 说。