SecXOps：打造安全分析自动化运营平台 - 网安 - 专业的网络安全产业、社区、知识平台

一、概述

随着数据的积累和算力的提升，人工智能技术的演进，企业组织不断进行数字化转型，IT运营必然需要向着更高水平的自动化演进。Gartner指出XOps的目标是使用DevOps的最佳实践实现效率和规模经济，在确保可靠性、可用性和可重复性的前提下，减少技术和流程的重复，实现进阶自动化。随着不同的Ops发展，XOps已成为定义DevOps、DevSecOps、DataOps、PlatformOps、MLOps、ModelOps、GitOps和CloudOps等组合的总称。总的来说，XOps技术促进企业组织通过数据和分析的运营技术赋能业务，推动提升业务价值。

目前，对于企业组织而言软件的交付速度依旧优先于安全性的考量，导致应用程序遭受攻击的风险加大，进而导致敏感数据泄露的情况。根据GitLab的第五次全球DevSecOps年度调查显示 DevOps实践使得60%的开发人员以两倍的速度发布代码。需要注意的是当代码发布速度提升时可能导致在安全性上做出了取舍。一项关于DevSecOps的研究表明由于时间压力近一半的组织会有意识的部署易受攻击的应用程序。由此可以看出必须从软件开发开始就确保每个流程的安全性，并且只有当各个团队之间针对安全性有共同的责任感的时候，才能实现最佳的运营。安全运营（Security Operations, SecOps）的关键在于，通过流程覆盖、技术保障及服务化，为企业、组织等提供脆弱性识别与管理、威胁事件检测与响应等安全能力，以充分管控安全风险。如下图所示，SecOps倡导在软件开发生命周期中设置多个自动化的安全检测点，在不影响交付速度的同时来确保应用程序和基础架构的安全，以此降低企业组织应用程序、数据和基础架构面临的风险。

图1 DevOps中的“Sec”

当代的技术发展趋势推动着安全运营不断地迭代优化。企业组织的数字化转型带来了海量的数据，这些数据倾向于云存储而不是物理存储，这一趋势使得安全运营需要分析和监控云端。疫情的长远影响会加速安全分析自动化运营的发展。例如，为了保护在家和移动设备上的办公安全，需要新的身份管理系统去保障多源的数据和代码的安全性，机器学习等技术被引入来管理和分析，以自动化地识别威胁降低风险。因此，安全分析自动化运营平台需要在企业组织能够通过数据和分析的运营推动业务价值的过程中，提升安全分析运营的自动化水平，减少全流程中安全运营人员的参与。

二、打造安全分析自动化运营平台

SecXOps即XOps for security，其目的在于将安全分析充分融入到安全运营涉及的全场景中，涉及数据采集，模型开发，模型部署，模型管理，告警研判、攻击溯源、关联决策、应急响应等阶段。如下图所示，SecXOps从大数据的治理、模型开发、部署和管理、模型运营以及人工智能平台运营的融合方面构建数智融合的安全分析运营体系，在保证安全性的同时，减少技术和流程的重复，实现安全分析运营平台自动化的进阶。

图2 XOps for security

2.1 数据治理

随着全球数字经济的蓬勃发展，各种复杂业务越来越多，高级持续性威胁的出现和演进导致网络安全所要分析的内容急剧增加。传统的安全运营仍然深度依赖安全专家去研判，进行调查取证及分析，涉及的数据包括终端侧、网络侧、沙箱侧、蜜罐侧的告警，系统日志以及威胁情报、知识库、扫描的漏洞等。从数据层面来看，安全数据通常来源分散、语义多样、格式异构，因此，需要针对不同的数据源进行采集、预处理、打标签等工作。以往数据分析人员进行数据处理后仅将数据处理成适用于自己场景下的模型训练的输入，这种低耦合、低交互的方式导致数据的分析通常无法复用。

DataOps[9]是基于元数据开发和部署数据分析应用的一种灵活敏捷的方法，在提高质量的同时减少数据分析的周期时间，用于自动化数据交付的设计和管理。为了应对数据本地化理解，脆弱性和新的数据用例扩展速度慢等挑战，需要对安全数据进行有效的管理，包括数据提取，集成，转换和分析。面向网络环境数据、威胁行为数据、威胁情报数据、安全知识库等，引入机器学习和知识图谱等技术，根据攻击行为的特征与多源异构数据的特点对数据进行定义和分类，协调不同工具构建数据处理管道，基于深度学习技术进行实体消歧，实体统一等操作，提取安全数据的描述信息，将多源异构数据转换成可以连接的数据，以灵活的图数据结构将数据管道中不同阶段的数据提供给各个领域的安全专家，使其针对多源异构数据进行高效的协同组织与管理，促进专家知识储备不同的安全人员之间的合作，使得安全数据可以在动态环境中更快更智能地被利用。最终，实现对数据的持续评估，确保管道中的数据质量，在提高数据质量的同时减少数据分析的周期。

2.2 模型开发，部署和管理

目前各种模型算法在网络安全领域中大多较难落地。因为即使在各种学术论文中，模型的检测率达到了99.9%，一旦当安全数据为海量级别的时候，会造成大量的误报或者漏报。安全领域的建模仍需要业务人员，数据分析工程师、AI建模工程师，安全运营研判人员投入大量的精力，在场景中进行持续的反馈，沟通，迭代和优化。各种算法模型在安全领域的落地尚处于初步，大多方法存在泛化能力差，交付效率低，且在真实场景中无法解决实战的问题。

MLOps[9]是一种工程化实践，旨在可靠且高效地在生产中部署和维护机器学习模型，构建机器学习流程自动化，支持模型的发布，激活，监控，管理，更新等。MLOps采用DevOps 的持续集成和持续交付最佳实践，利用持续训练和评估来替代持续测试。随着安全对抗的升级，攻击手段的变化，以及业务需求的变动，当模型在真实网络安全环境中出现性能衰减的时候，需要进行模型的持续迭代和自动重新部署，通过在ML模型整个生命周期中融合模型的开发和管理阶段所需不同专家的能力，来打破沟通屏障，确保各种ML模型在安全领域的落地。

2.3 模型运营

就安全场景而言，流量分析、用户实体行为分析、样本分析、威胁关联、自动化响应等安全能力逐渐集成机器学习算法，但是在安全领域每一次针对安全事件的漏判错判都可能会造成无法挽回的损失。为了使AI技术在安全运营领域逐渐落地，从而减少安全运营人员的工作量，需要提供可信任的AI，需要AI以透明、可解释的方式输出其判断和决策，以AI 的性能弥补人类在数据处理上的低效性，AI的鲁棒性来适应不同的使用环境，并且保障AI自身的安全性。

IBM 研究人员提出ModelOps，是MLOps的扩展，专注于操作所有AI和决策模型，核心功能包括管理模型仓库，冠军/挑战者试验，模型回滚，持续集成与持续交付等。网络安全领域需要通过ModelOps来扩展人工智能的分析与应用，协助部署，治理和监控生产环境中的AI模型。通过为安全业务，开发和运营团队提供一定程度的透明度，帮助企业最大化和扩展AI相关计划。目前，ModelOps 在其他领域的动态环境中表现出色，能够针对不同的业务问题采用不同类型的模型，确保随着时间的推移模型预测会保持准确，并且遵守所有法规和风险要求。此外，ModelOps 为业务领域专家提供了可解释的结果，以及在不完全依赖专家的情况下升级和降级用于推理的AI模型的能力。网络安全分析运营需要在网络安全检测、溯源、响应等各环节自动化任务中为业务领域专家提供可解释的结果，结合AI模型进行推理，丰富安全知识和网络安全领域的应用，完成威胁建模，风险分析，攻击推理，加速安全进入认知智能。

2.4 人工智能平台运营

人工智能平台运营（Platform Ops for AI）是一种编排和扩展AI的方法，用于构建和交付基于AI的系统，涉及数据，ML，AI和应用程序开发管道的多种最佳实践，通过DataOps来管理数据管道，利用MLOps和ModelOps来构建机器学习和CI/CD管道，实现分析，ML和AI模型部署的管理，为基于AI的系统创建高效的交付模型。网络安全领域需要通过人工智能运营平台构建基于人工智能的安全系统，利用模块化和业务编排的底层平台来不断扩展人工智能在安全中的应用，利用DataOps，MLOps和ModelOps来管理端到端的AI安全平台，从数据到模型的管道建立一致性，在构建基于人工智能安全系统的各个阶段提供持续集成和持续交付的能力，为业务部门提供自主权，加快人工智能解决方案在网络安全领域的交付和采用。

三、智能安全运营

AIOps是任何模拟运维人员行为的计算机技术，它可以是基于专家知识、经验、自动化、机器学习、深度学习或它们的某种组合，通过“知识驱动+数据驱动”的手段实现智能自动化 IT 运营平台。人工智能+安全的技术融合给行业带来了新的期盼。无论是安全的AI还是AI的安全应用，都已成为学术、工业跨界的热点话题。AI技术在诸多单点安全技术和指定场景中，如恶意软件分类、恶意流量识别、入侵检测等，呈现出不错的效果。随着SIEM、SOAR等关键技术的产业化，安全能力不再停留在堆砌设备的阶段，数据、技术、流程与人员的“接口”被打通，安全运营逐渐得到行业各方的统一关注。而自动化安全运营，特别是基于AI技术的智能化方案，给我们描绘了美好的蓝图。AISecOps（智能安全运营）[6]技术正是安全运营与人工智能技术的碰撞，也是安全技术的重要发展方向之一。AISecOps技术是以安全运营目标为导向，以人、流程、技术与数据的融合为基础，面向预防、检测、响应、预测、恢复等网络安全风险控制、攻防对抗的关键环节，构建具有高自动化水平的可信任安全智能，以辅助甚至代替人提供各类安全运营服务的能力。

目前，大多数的企业认识到了自动化和可编排对于交付人工智能应用的价值，但是在网络安全领域的应用较少。SecXOps将XOps实践扩展到网络安全领域，从安全数据治理，ML模型，AI模型和底层基础设施等各个阶段建立强大的DevOps实践，以支撑安全数据治理，安全模型训练，管理和监控，为网络安全的数据分析人员，ML工程团队，应用开发团队和安全运营团队的协作搭建安全，兼容和经济高效的平台，从而实现基于AI的安全系统的持续交付。因此，安全分析自动化运营平台从数据治理，模型定制，关联决策，响应反馈四个层面完成智能安全运营系统的持续交付。数据治理层面，对数据的来源（网络环境数据、威胁行为数据、威胁情报数据、安全知识库等）以及预处理的质量进行自动化地评估，结合专家知识不断地进行研判和反馈，促进数据治理的自动化；模型定制层面，打造安全运营模型定制全流程的自动化，覆盖模型开发，模型训练，模型评估，模型部署以及模型监控的各个环节；关联决策层面，在动态复杂的安全环境中确保随着时间的推移和环境的变化模型仍然会保持有效性，并且将多源异构数据包括模型的运行情况、威胁情报与安全专家经验等全面融合关联，生成可行动的决策输出；响应反馈层面，执行决策，处置威胁事件和情报等，根据不同的运营目标、不同的安全场景（例如企业内网、工业互联网、云计算等）获取环境和专家的反馈，持续优化迭代，在运营流程中形成机器效率与运营不同阶段的安全人员经验融合的闭环，辅助AI模型在安全运营、攻防实战中逐渐落地，避免安全分析自动化运营平台成为“空中楼阁”。

四、总结

为了加快安全分析能力更全面、更深入的自动化，安全分析自动化运营平台创建一个集成的用于Sec的XOps实践，提升安全分析的场景覆盖和运营效率。当然脱离实际的场景与任务目标将导致落地的失败，在打造安全分析自动化运营平台的过程中，不能止于亦步亦趋，做其他场景的跟随者、方法的搬运工，理应针对安全分析涉及的场景，以及安全业务的自动化的实际需求所面临的挑战，打造自适应、持续迭代的自动化运营机制。DevOps发展至今成为了将IT全流程融入到应用整个生命周期中的过程、方法与系统的统称，指引IT运营自动化的发展，并让安全防护逐渐成为了整个项目团队的共同责任，其衍生出的DevSecOps进一步强调了安全文化的变革，将”Sec” 嵌入软件开发生命周期的每个阶段，自然融入开发、交付和运营流程。安全分析自动化运营则是将”Sec”始于数据收集阶段，嵌入安全运营涉及场景中的所有阶段，形成以各个场景需求为导向的运营方案，促进智能安全运营不断提升。

以上是笔者在探索搭建安全分析运营平台中的一些思考，不成熟之处，请各位读者不吝赐教