越流行的大语言模型越不安全

VSole2023-07-03 09:22:58

近日,安全研究人员用OpenSSF记分卡对GitHub上50个最流行的生成式AI大语言模型项目的安全性进行了评估,结果发现越流行的大语言模型越危险。

软件供应链安全公司Rezilion的研究人员调查了GitHub上50个最受欢迎的生成式AI项目的安全状况。他们发现,生成式人工智能开源项目越流行、越新,其安全性就越不成熟。

Rezilion使用开源安全基金会(OpenSSF)记分卡来评估大型语言模型(LLM)开源生态系统,强调了安全最佳实践中的重大差距以及许多基于LLM的项目中的潜在风险。研究结果发表在题为《ExplAIning the Risk》报告中。

基于LLM的生成式人工智能技术呈爆炸性增长,机器已经能够生成接近甚至超过人类平均水平(效率)的文本、图像甚至代码的能力。集成LLM的开源项目数量正迅猛增长。例如,OpenAI推出ChatGPT仅7个月,但目前GitHub上已经有超过3万个使用GPT-3.5系列LLM的开源项目。

尽管需求空前旺盛,但生成式AI/LLM技术面临的安全风险也与日俱增,从利用先进的自学习算法共享敏感业务信息到恶意行为者利用生成式AI来大幅度提高攻击力。

本月早些时候,开放全球应用程序安全项目(OWASP)发布了大语言模型应用常见的10个最严重的漏洞(下图),强调了LLM面临的潜在风险、漏洞利用的难易程度和普遍性。OWASP给出的LLM漏洞示例包括提示注入、数据泄露、沙箱机制不充分和未经授权的代码执行。

OWASP大语言模型十大安全漏洞

什么是OpenSSF记分卡?

OpenSSF记分卡是OpenSSF创建的一个工具,用于评估开源项目的安全性并帮助改进它们。OpenSSF评估所依据的指标是代码库本身的问题,例如漏洞数量、维护频率以及是否包含二进制文件。OpenSSF能检查软件项目供应链的不同部分,包括源代码、构建依赖项、测试和项目维护。确保其遵守安全最佳实践和行业标准。

OpenSSF的每项检查都有一个与之相关的风险级别,代表与不遵守特定最佳实践相关的估计风险。然后将各个检查分数换算成总分数,以评估项目的整体安全状况。

目前,OpenSSF共有18项检查,可分为三大类:整体安全实践、源代码风险评估和构建过程风险评估。OpenSSF记分卡为每项检查分配0到10之间的风险级别分数。得分接近10的项目表示高度安全且维护良好,而得分接近0则表示安全状况较弱,维护不足且易受开源风险影响。

越流行的开源大语言模型项目越不安全

Rezilion的研究揭示了一个令人不安的趋势:生成式AI/LLM项目越受欢迎(基于GitHub的星级受欢迎程度评级系统),其安全评分就越低(基于OpenSSF记分卡)。

研究人员指出:“这凸显了一个事实,即LLM项目的受欢迎程度本身并不能反映其质量,更不用说其安全状况了。”报告称,GitHub上最受欢迎的基于GPT的项目Auto-GPT拥有超过13.8万颗星,上线还不到三个月,其记分卡得分仅为3.7。检查的50个项目的平均得分也好不到哪儿去,仅为4.6分(满分10分)。

研究人员进一步将GitHub上最受欢迎的生成式AI和LLM项目的风险与该平台上与生成式AI或LLM无关的其他流行开源项目进行了比较。他们分析了一组94个关键项目(由OpenSSF保护关键项目工作组定义),平均记分卡得分为6.18,还分析了一组7个将OpenSSF记分卡作为其SDLC工作流程一部分的项目,平均得分7.37。

研究人员写道:“围绕LLM的开源生态系统的成熟度和安全状况还有很多不足之处。事实上,随着这些系统越来越受欢迎,普及度越高,如果开发和维护的安全标准保持不变,重大漏洞将持续涌现,不可避免地会成为攻击者的目标。”

未来12-18个月,生成式AI、大语言模型风险将持续增加

报告指出:随着生成式AI和LLM系统的应用不断增长,给企业带来的风险预计将在未来12到18个月内发生重大变化。报告指出:“如果围绕LLM的安全标准和实践没有重大改进,针对性的攻击和发现这些系统中的漏洞的可能性将会增加。企业必须保持警惕并优先考虑安全措施,以缓解不断变化的风险并确保负责任和安全地使用LLM。”

降低LLM安全风险最重要的方法是“安全左移”,即在开发基于人工智能的系统时就采用安全设计方法来应对LLM的风险。企业还应该利用安全人工智能框架(SAIF)、NeMo Guardrails或MITRE ATLAS等现有框架,将安全措施纳入其人工智能系统中。

企业还需要监控和记录用户与LLM的互动,并定期审核和审查LLM的响应,以检测潜在的安全和隐私问题,并相应地更新和微调LLM。

风险模型
本作品采用《CC 协议》,转载必须注明作者和本文链接
为持续加强外部欺诈风险管理,充分发挥模型预警的智能化作用,新疆分行依托业务运营智能管理系统,广泛挖掘并聚焦外部欺诈风险账户特征,多维度开展外部欺诈风险管理难点和成因分析,提出相应管理建议。
本文提出 将网络安全风险量化评估与戈登—洛布模型结合 起来分析企业的网络安全预算的收益情况。网络安全风险是指由于网络系统存在脆弱 性,因人为或自然的威胁导致安全事件发生所 造成的损失。网络风险评估就是评估威胁者利 用网络资产的脆弱性造成网络资产损失的严重 程度。一是对机密性的威胁。二是对完整性的威胁。GL 模型使用安全漏洞概率函数作为条件, 这些函数有两种类型,一种是线性型,另一种 是指数型。
7月22日至26日,第五届数字中国建设成果展览会火热进行中,立体化展现数字中国建设成果。天融信科技集团受邀出席本次成果展,重磅发布“基于应用接口风险监测的解决方案”,并作主题演讲。《网络安全法》《数据安全法》《个人信息保护法》等相关法律条文的发布,更是时刻提醒着数据防护不可松懈。
随着IT产业爆炸式的发展,大数据技术已深入国家战略、企业发展和个人生活的方方面面。然而随着大数据技术的蓬勃发展,与之伴随安全方面的研究相对落后,大数据的安全问题往往会对国家、政府、企业及个人造成严重危害。通过研究已有的大数据框架,结合当前国内外最新大数据安全标准和法规,设计了一种在大数据环境下的安全稽查与风险评估平台。首先,以研究大数据资产监管为基础,对资产与安全能力进行安全稽查;其次,结合稽查结
Gartner 将 IT 风险定义为“可能导致计划外、负面的业务成果,包括 IT 故障或滥用”。负面的业务结果可能是由于由此产生的中断而导致的任何财务或声誉损失。
现在可以试用基于云的System of Trust(SoT)应用程序量化评估硬件、软件和服务供应商的风险了。
本周一,全球再保险巨头瑞士再保险发布新的研究报告,指出保险行业需要对网络安全风险承保采取不同的方法,同时再次呼吁发展网络保险相关证券市场。随着网络风险和威胁形势的迅速发展,瑞士再保险认为,无法准确量化风险是网络保险市场进一步发展的障碍,也是阻碍产能进入该行业的关键因素。瑞士再保险指出,利用ILS市场是提高网络风险能力的一种方式。
针对以上难点问题,目前业界逐步采用部署数据库安全审计防护系统的方式来解决。在保障业务连续性方面,大型国有银行数审系统针对生产系统服务器的性能指标和其自身的资源开销设置监控阈值和熔断策略,防止因数审系统占用过多系统资源而对生产系统性能造成业务影响。在数字化转型和数据安全治理齐头并进的过程中,部署数审系统对于银行业来说乃是大势所趋。
古德哈特定律是一句格言,经常被表述为“当一个措施成为目标时,它就不再是一个好的措施”。
VSole
网络安全专家