微软Copilot涉嫌“盗版”开源代码,遭索赔90亿美元

VSole2022-11-08 10:49:23

近日,程序员兼律师Matthew Butterick起诉微软、GitHub和OpenAI,指控GitHub的人工智能开发辅助工具Copilot违反了开源许可条款,窃取开发人员成果,并向微软索赔90亿美元。

GitHub Copilot发布于2022年6月,是一款基于人工智能技术的编程辅助工具,使用OpenAI Codex在Visual Studio中生成实时源代码和功能推荐。

Copilot使用GitHub公共存储库的数十亿行代码进行机器学习训练,支持将自然语言转换为多达数十种编程语言的代码片段。

用AI洗码?

此前火爆全网的人工智能绘画模型Stable Diffusion曾因训练数据“不干净”被起诉。一位名为Lapine的艺术家通过Have I Being Trained网站反查LAION-B图片库,惊讶地发现自己从未授权任何人发布的私人病例照片居然出现在训练数据集中。

微软的“人工智能写代码”项目似乎也遇到了类似的问题。虽然Copilot可以加快编写代码的过程并简化软件开发,但它对公共开源代码的使用让专家担心它违反了软件许可归属和限制。

GPL、Apache和MIT等开源许可证一般会要求使用者注明源代码作者姓名并注明许可证类型。

但是,根据程序员的爆料,Copilot会剔除代码版权信息。即便代码片段的长度超过150个字符并原封不动直接取自训练集,也不会附加任何版权归属信息。

一段时间以来,一些程序员曾私下议论微软的这种行为是“开源洗码”,该“阴谋论”似乎正在变成现实,一位程序员在推特上爆料,在Copilot生成的代码中包含其为前雇主编写的,仅允许免费游戏使用的代码(并要求附加版权声明):

“似乎微软无视基本的开源许可证条款和其他法律要求,用他人的劳动成果获利。”诉讼中代表Butterick的律师事务所Joseph Saveri评论道。

更糟糕的是,有人发现Copilot在公共存储库上错误发布并泄露敏感信息,因为很多开源代码中包含一些机密信息,例如API密钥。

除了违反许可证外,Butterick还声称Copilot的开发功能违反了以下内容:

  • GitHub的服务条款和隐私政策;
  • DMCA 1202,禁止删除版权管理信息;
  • 加州消费者隐私法;
  • 以及引起相关法律索赔的其他法律。

目前该诉讼已提交给美国加州北区地方法院,向微软索赔90亿美元。

根据起诉书:“每次Copilot向用户输出非法内容时,都会三次违反第1202条(分发许可相关内容时没有附加:1.出处、2.版权声明和3.许可条款)。即便平均每个Copilot用户在使用产品的整个过程中只生成一段违规代码(最早的Copilot用户已经使用该软件长达15个月),根据Copilot的用户基数,GitHub和OpenAI累计违反了DMCA法规360万次,每次违规的最低法定损失为2500美元,合计90亿美元。”

开源社区的生态灾难

Butterick在10月初的一篇博客文章中还谈到了另一个问题:Copilot可能给开源社区带来的生态灾难。

Butterick认为,通过向人们提供(人工智能生成的)代码片段但又从不告诉他们谁是代码的创作者,微软从根本上毁掉了开源生态赖以生存发展的贡献和协作激励机制。

“微软正在创建一个新的围墙花园,它将阻止程序员发现传统的开源社区,”Butterick写道。“随着时间的推移,这个过程将使开源社区挨饿。用户的注意力和参与度将远离开源项目本身——远离源代码库、问题跟踪器、邮件列表、讨论板等等。"

Butterick担心,如果有足够的时间,Copilot会导致开源社区衰败,并反噬Copilot自身,导致其用来训练模型的代码数据质量下降。

GoUpSec点评:用人工智能生产内容,提高知识工人生产力是当下人工智能应用市场最大的热点,但是人工智能绘画和编程应用接连爆出“眼镜蛇效应”,对版权图片库和开源社区的健康发展造成严重威胁。对于人工智能应用最大的细分市场——网络安全,我们同样要警惕人工智能“黑箱操作”和版权滥用在威胁情报、威胁检测和响应等生态领域导致的“负优化”、“负激励”和相关法律问题。

开放源代码人工智能
本作品采用《CC 协议》,转载必须注明作者和本文链接
总部位于柏林的Xayn公司正在做无广告、个性化、隐私安全的搜索,作为谷歌等广告技术巨头的替代产品。现在它已经扩大了其产品范围,推出桌面版产品,目前仅提供测试目的。
容器安全工具涵盖多种任务,包括配置加固和漏洞评估任务。Gartner持续观察AST市场发展的主要驱动力是支持企业DevSecOps和云原生应用程序的需求。Checkmarx SCA的供应链安全执行行为分析,并对给定的开源包添加操作风险指标。这得到了Gartner客户的积极反馈。Checkmarx一直在简化软件许可,将大多数产品与开发人员的数量联系起来。
痛苦的纯文本日志管理日子一去不复返了。虽然纯文本数据在某些情况下仍然很有用,但是在进行扩展分析以收集有洞察力的基础设施数据并改进代码质量时,寻找一个可靠的日志管理解决方案是值得的,该解决方案可以增强业务工作流的能力。 日志不是一件容易处理的事情,但无论如何都是任何生产系统的一个重要方面。当您面临一个困难的问题时,使用日志管理解决方案要比在遍布系统环境的无休止的文本文件循环中穿梭容易得多。
编者按:11月30日,工业和信息化部连续发布了《“十四五”信息化和工业化深度融合发展规划》《“十四五”软件和信息技术服务业发展规划》《“十四五”大数据产业发展规划》,中国电子报约请相关行业专家就三个产业发展规划进行深度解读,敬请期待。本期为国家工业信息安全发展研究中心主任赵岩对《“十四五”软件和信息技术服务业发展规划》的解读。
针对软件供应链的网络攻击,常常利用系统固有安全漏洞,或者预置的软件后门开展攻击活动,并通过软件供应链形成的网链结构将攻击效果向下游传播给供应链中所有参与者。近年来,软件供应链网络攻击事件频发,影响越来越大。据 Accenture 公司调查,2016 年 60% 以上的网络攻击是供应链攻击。装备软件供应链安全事关国家安全、军队安全,一旦出现安全风险将会给国家和军队带来重大安全挑战,产生的后果不堪设想。
张东亚表示,信息时代,网络安全已成为影响国计民生的关键要素。华为愿携手多方伙伴构建完整的安全生态体系,共同护航北京数字化产业发展。以上这些检测结果可以通过华为的网络设备、安全设备进行联动处置,确保用户的网络稳定运行。截至目前,华为安全已服务于北京600多家企事业单位,其中政府、运营商、互联网、金融、教育等行业的网络安全诉求超过了北京整体网络安全诉求的60%,是华为重点投入保障的目标。
美国国防高级研究计划局(DARPA)一直处在人工智能研究的前沿,可以说,美国人工智能的发展很大程度上归功于DARPA的支持。从20世纪60年代初至今,在60余年的研究中,从最初的基础研究项目到军事应用研究,DARPA在基础研究和应用研究之间建立了平衡,先后进行了自然语言理解、感知和机器人、可解释的人工智能、下一代人工智能、人机融合、基于人工智能的网络攻击与防御技术等领域的研究。
7月30日,2022北京网络安全大会AI安全论坛在京举行。论坛由奇安信集团、百度安全联合主办,以“智能改变生活,安全构筑基石”为主题,邀请来自复旦大学、浙江大学和清华大学的资深教授,围绕人工智能的安全和隐私保护进行深入探讨。
近日,安全研究人员用OpenSSF记分卡对GitHub上50个最流行的生成式AI大语言模型项目的安全性进行了评估,结果发现越流行的大语言模型越危险。OWASP给出的LLM漏洞示例包括提示注入、数据泄露、沙箱机制不充分和未经授权的代码执行。OpenSSF的每项检查都有一个与之相关的风险级别,代表与不遵守特定最佳实践相关的估计风险。OpenSSF记分卡为每项检查分配0到10之间的风险级别分数。
VSole
网络安全专家