摘 要:在智慧电力快速发展的背景下,电力行业数字化转型进入跨越式的发展,新的应用不断涌现,整体网络规模逐渐扩大。物联网、云平台和数据中台等新型数字基建平台的建设,使网络边界从物理边界向物理和虚拟边界混合的模式演变。为保障电力生产、经营管理和客户服务等重要业务的正常开展,依据国网公司信息安全管理要求,国网上海市电力公司(SMEPC)构建了综合防线,覆盖互联网大区、管理信息大区和生产控制大区。为确保中国国际进口博览会等重大活动期间保电任务的万无一失,力推“智慧保电”新模式,一批基于“互联网 +”“物联网 +”的高、新、尖技术将使保电工作更有把握。基于 SMPEC 态势感知系统的实践,阐述智慧运维模型的创新点和应用,探讨以数据驱动运维,聚焦从传统运维向智慧运维转型,对全国范围内电力行业和关键信息基础设施安全保护工作有很好的借鉴意义。

0 引言

随着电网形态愈发复杂,保障供电系统稳定性及可靠性的难度越来越高。如今,一方面,面对互联网、数字经济发展,使社会经济形态产生的巨大变化,传统电力行业迎来了多重挑战,深化电力领域改革势在必行。另一方面,随着《中华人民共和国网络安全法》《国家网络安全战略》等一系列法律法规和标准规范相继出台,态势感知上升到战略高度。国家有关网络安全主管单位均在倡导、建设和积极应用网络安全态势感知技术以应对网络空间安全的严峻挑战。

安全是一个动态的过程,因为攻击者手段、攻击方法不断改变,导致新漏洞不断出现;同时电力行业的业务、软件和人员也在不断变化,因此安全管理人员试图通过一个系统、一套方案解决所有的问题是不切实际的。在实际安全保障过程中,安全管理、安全开发、漏洞挖掘、应急响应、漏洞修复等环节,都需要对产品和服务的系统进行设计、运行、评价和改进。因此将单点的安全体系整合成一个有机整体并持续优化,才能真正意义上达到智慧运维的目标。

去年,国家电网公司正式提出“三型两网”战略,聚焦建设世界一流能源互联网企业,打造“枢纽型、平台型、共享型”企业,为支撑公司业务智能化、数字化转型,信息运维同样需要数字化转型来适配 IT 架构的演进。数字化转型的本质,是以数据的自动流动化解复杂系统的不确定性,从而优化资源配置效率。今后工作目标就是不断推动信息运维工作规范化、标准化,通过自动化、可视化,将运维数字化贯穿于应用系统的全生命周期,向着智慧运维的方向迈进。

1 研究背景

随着电力行业数字化转型的跨越式发展和新应用的不断涌现,电力网络整体规模逐渐扩大,物联网、云平台、数据中台等新型数字基建平台的建设,使网络边界从物理边界向物理和虚拟边界混合的模式演变。虚拟边界和物理边界的融合,使得信息安全管理的难度随之不断增加,电力信息安全管理面临从被动支撑到主动服务的挑战,电力行业亟需构建新的网络安全智慧运维模式。

1.1  电力行业网络安全保护政策要求

近年来,党中央、国务院高度重视网络安全工作,《国家网络空间安全战略》《网络空间国际合作战略》《中华人民共和国网络安全法》等法律法规相继出台,为我国网络安全的发展提出了战略指引,为网络治理提供了法律准绳。在电力行业中,2018 年国家能源局印发了《关于加强电力行业网络安全工作的指导意见》(以下简称“意见”),总结了电力行业网络安全保护政策要求,从电力行业全局的角度指导、推进网络安全工作开展。意见围绕进一步落实电力企业网络安全主体责任,完善网络安全监督管理体制机制,加强全方位网络安全管理,强化关键信息基础设施安全保护,加强行业网络安全基础设施建设,加强电力企业数据安全保护,提高网络安全态势感知、预警及应急处置能力,支持网络安全自主创新与安全可控;积极推动电力行业网络安全产业健康发展,推进网络安全军民融合深度发展,加强网络安全人才队伍建设,拓展网络安全国际合作等方面提出要求。

1.2 智慧电力转型需求

近年来,物联网、云平台和数据中台等新型数字基建平台的大规模建设以及大量云原生、IoT 的新应用上线导致原来的网络环境发生了变化。从内部和外部环境来看,针对关键信息基础设施的新型攻击和破坏手段层出不穷,电力关键信息基础设施面临的安全威胁在急剧增加[1]。传统的信息安全管理模式难以为继,信息安全防护的难度越来越大,存在以下痛点。

定位慢、处置难。现有的信息化和安全防护设备种类繁多,安全策略配置、运维管理难度较大,当面对众多分散的信息时,安全人员无法快速、全面、直观地了解系统安全脆弱点、整体攻击状况以及安全防护效果;日常产生的重复、无效的告警过多,加大了平台运营和信息安全监测处置的难度,不能快速定位真正的运行和网络安全威胁,当前的安全手段只能在一定范围内发挥特定的作用,且企业缺乏专业的智慧运维工具,重复性工作占用现有人员大量精力,缺乏有效的数据融合和协同管理机制。

安全管理人才匮乏。网络安全产业发展面临人才短缺的问题,2017 年人才数量缺口已经高达 70 万人,缺口率 95%,预计到 2027 年这一数据将增长至 300 万人,市场竞争激烈,当前培养的网络安全人才数量远远不能满足社会需求,特别是急缺信息安全专家、复合型人才。在日益规模化的网络威胁下,网络安全攻击面不断扩大,攻击强度不断升级,企业应对复杂攻击的处理经验不足,水平不够,显得捉襟见肘,压力与难度与日俱增。

综上所述,电力信息安全管理面临从被动支撑到主动服务的挑战,传统的安全运维进入了需要依赖大数据分析、智能学习的人工智能模式[2],这些复杂因素都指向同一个结果——电力行业亟需构建新的网络安全智慧运维模式。

2 电力智慧运维模型构建与创新点分析

为应对挑战,国网上海市电力公司(SMEPC)综合运用多种技术手段,以运营安全可视和协同防御为核心,打造一套智能化、精准化、具备协同联动的大数据安全分析平台、数据中台和统一运营中心,实现全方位态势感知、全天候安全监控和全覆盖防御协同能力。

2.1 整体综合防线构建

为应对网络安全监测与防护在数字化转型中遇到的挑战,利用大数据、态势感知等新技术手段,融合公司平台运行、安全防护、流程处置信息和海量情报信息,构建了上海电力的“智慧运营和安全大脑”,如图 1 所示。

图 1 电力信息系统智慧运维新模式

依靠大数据和人工智能技术,构建了网络安全大数据平台与数据中台,对已建设的防火墙、攻击溯源系统、入侵防御系统、主机防护软件等安全防护产品的多源异构日志进行采集和治理,一次采集、多次消费,并结合关联分析、统计分析、交叉分析、行为分析等多种分析技术,对网络安全数据进行深度挖掘,有效发现网络资产的风险隐患和被攻击情况。通过汇聚、分析、研判相关数据,将人、技术和流程紧密结合起来,打造平台化和全景视角,让决策者能够实时掌握运营安全动态,形成对业务的有效支撑。

在管理流程方面,对信息安全的管理流程进行调整,针对监控、变更、指挥、处置等核心流程基于大数据分析和自动化工具进行配套调整,优化审批环节,减少管理资源投入,提高效率。通过运营平台适配应用系统全生命周期的各运维场景,汇总全维度运维数据,让数据驱动运维,通过构建运维能力体系,为用户提供运维支撑服务,最终实现公司全网网络安全态势可见、风险威胁可知、信息通报统一、应急处置高效的效果。

在监控方面,对指标管理体系进行重构,提取关键指标,建立了应用系统的健康度量化模型,将不同监控层面的数据,包括性能监控、运行监控、接口监控、数据库监控、业务流量监控等各层级相关指标,对其进行整合汇聚,实现监控规范化、集中化、标准化和敏捷化,分析故障发生的原因,辅助定位可能的故障根源,让应用系统的运行状态一目了然。在运营方面,提供了云资源、存储资源、数据库资源等资源的容量剩余情况、使用变化曲线、分配情况,实时显示当前检修、抢修状态的工单看板,通过应用系统访问量、流量等多维度信息展示应用系统的活跃度。

在运营方面,提供了云资源、存储资源、数据库资源等资源的容量剩余情况、使用变化曲线、分配情况,实时显示当前检修、抢修状态的工单看板 ,通过应用系统访问量、流量等多维度信息展示应用系统的活跃度。

2.2 构建安全态势量化模型,科学评估运维管理成效

安全数据中台依据数据安全和数据标准的规范,对数据采集、数据处理、数据治理、数据资产、数据服务和数据运维几个方面进行有机结合,实现安全数据汇聚、管理和统一的数据服务。采集的数据包括设备日志数据、流量数据、弱点漏洞数据、系统性能数据、威胁情报数据、资产人员数据等多种安全、泛安全类数据。安全数据经过数据处理、存储、挖掘后,形成包括基础库、业务库、原始库、知识库和分析库等,为上层应用提供数据支撑。

安全能力中台以安全数据中台的海量安全数据为基础,利用大数据关联分析技术,结合人工智能建模方法,对海量安全数据进行深度分析,揭示安全威胁和攻击事件,发现系统面临的安全风险和感知系统安全态势。安全能力中台通过聚焦各维度的安全需求,将系统各种安全能力服务化,形成安全服务目录,实现数据融合,进而挖掘数据价值,并通过安全数据场景化分析模块,提供关联规则、统计建模、场景关联、分析建模、情报建模以及机器建模等安全分析能力,提供支撑上层应用的数据。

安全态势量化的模型,如图 2 所示。

图 2 安全态势量化

综合态势评分采用的是多层次模糊综合评判模型,权重的确定采用层次分析法。综合态势评分考虑的影响因素较多,主要分为两个方面:一方面,权重分配很难确定;另一方面,即使确定了权重分配,由于要满足归一性,每一因素分得的权重必然很小。所以需要采用分层的办法来解决这一问题,主要采用了以下算法。

模糊综合评价法(FCE):是一种根据模糊数学隶属度理论把定性评价转化为定量评价的方法。它具有结果清晰、系统性强的特点,能较好地解决模糊的、难以量化的问题,适合解决各种非确定性的问题。

层次分析法(AHP):是把复杂问题中的各种因素通过划分为相互联系的有序层次,使之条理化,根据对一定客观现实的主观判断结构(主要是两两比较)把专家意见和分析者的客观判断结果直接而有效地结合起来,将每个层次元素两两比较的重要性进行定量描述。而后,利用数学方法计算反映每一层次元素的相对重要性次序的权值,通过所有层次之间的总排序计算所有元素的相对权重并进行排序。

FCE 计算的前提条件之一是确定各个评价指标的权重,也就是权向量,它一般由决策者直接指定。但对于复杂的问题,例如很多评价指标之间存在相互影响的关系,直接给出各个评价指标的权重比较困难,而这个问题正是 AHP所擅长的。综合运用上述两种算法,科学量化评估运维成效,起到良好的作用。

3 态势感知技术在智慧电力中的应用

2020 年 11 月,在上海中国国际进口博览会期间,SMEPC 集成 34 套信息系统,打造进口博览会全景智慧供电保障系统,实现人员、物资、车辆等保电资源全景可视化监控和主动指挥[3],为全网保电资源的统一调配与指挥决策提供科技支撑。随着感知终端、AI 机器人等智能技术的深化运用,进博会保电工作从“设备管理”进一步向“数据管理”转型,观测实时、反应及时,实现了“一屏观网”“一键响应”的智慧升级。

智慧运维支撑服务平台面向网络安全能力集成、数据集成和编排响应等需求,为网络安全人员提供风险汇聚、分析决策、编排调度和联动处置 4 种共性服务支撑。

3.1 风险汇聚支撑

安全数据中台提供了统一、开放、标准、完整的信息资源服务。全面开展内部和外部数据归集、整合、重新组织、共享等工作,建立完整的信息共享资源目录和信息资源服务能力;提供统一的大数据处理服务能力,提升信息资源服务能力,解决网络智慧运维对海量数据的深度挖掘、分析、应用的迫切需求。

3.2 分析决策支撑

依赖安全大数据分析引擎,针对监测数据中心内汇聚的数据,从情报碰撞、资产威胁分析、安全事件分析、风险隐患和网络攻击 5 个层面进行安全分析。

提供集中的安全规则、模型以及策略管理功能,制定统一的安全策略,并有效贯彻执行这些安全策略,不仅有助于提高安全水平,而且将这些安全策略进行上网发布也有助于知识的共享,让各级安全管理人员合理运用安全策略,有效地管理网络,保障网络的安全运行。

3.3  编排调度支撑

运营平台提供安全服务和能力的管理及编排调度能力。基于构建的能力体系,通过剧本编排,对分析、响应处置过程中各种复杂的分析流程和处理平台进行整合,形成自动化的能力集成,实现从静态事件响应到动态工作流跟踪的转变,提升整体的协调及决策能力。

3.4 联动处置支撑

安全编排自动化与响应(Security Orchestration,Automation and Response,SOAR)框架编排剧本进行自动化任务执行,利用自动化过程更有效地对告警进行分类,并更快速高效地响应关键事件,主要有以下 5 项核心技术能力。

(1)安全编排:可以实现将安全分析能力、安全处置流程以及人工干预动作进行无缝编排,保证安全流程真正高效地运行。

(2)自动化:是编排的一个子集,SOAR的编排会生成一个剧本(playbook),剧本包含了一次安全事件的全部或部分运维流程,剧本可自动化执行。

(3)响应:通过自动化执行消除大量重复任务,释放人工劳动力。利用自动化的误报过滤可以在消除大量误报的同时,更准确地识别真正的威胁,提高工作流程的效率,节省时间和资源。同时利用自动化更有效地进行告警分类,以更快地响应关键事件。

(4)案件管理:是对一个安全事件的全生命周期的统称,利用 SOAR 可以对一次安全事件响应全生命周期和自动化管理。

(5)协同合作:可以实现人机交互的安全事件响应,也可以实现不同权限 / 职责的人员共同编写剧本,共同完成安全事件的响应。

在进口博览会期间,SMEPC 凭借网络安全态势感知及分析系统详实全面的信息安全数据分析与处理能力,全面掌握进口博览会保电期间关键系统与设施面临的安全威胁、风险和隐患状况,实时定位信息网络中发生的各类安全事件,通过实时监测、快速处置、威胁感知、情报信息、数据查询等功能业务,形成 7×24小时全范围覆盖的网络监测与预警,为进口博览会的顺利召开起到了良好保障作用。

4 智慧运维人员体系规划

管理组织架构是智慧运维成功建设的重要组成部分,必须加强机构建设和团队建设,成立责任部门,做到分工明确、责任清晰、任务到人、考核到位,才能保障智慧运维中心顺利建设并能够让这套运维体系不断完善改进。

智慧运维中心设置了安全监测团队、分析处置团队、风险管控团队、架构管控团队、设备管理团队和技术支撑团队,以联动模式为用户提供运营服务。

安全监测团队:主要负责所辖范围的管理信息大区、生产控制大区、互联网大区边界网络与信息安全 7×24 小时日常监控预警及初步分析;负责内外网重点网站运行状态监控和上下级联动;负责安全监测值班规范的修订与完善和安全监测系统作业指导手册的编制。

分析处置团队:主要负责告警事件的分析判断、调查取证、事件处置等工作;负责组织完成安全事件常态化溯源分析;负责为公司信息系统安全防护提供攻击研判、态势分析、技术咨询等支撑工作;负责参与安全事件调查与事件处置,对确认的安全事件分析其危害程度、波及范围等,确定是否启动应急响应。

风险管控团队:主要负责系统端口管控和治理;负责风险预警处置相关工作;负责系统建转运审核工作和周期性进行安全风险评估工作;负责等级保护测评专项工作,根据等保合规要求、内控规范、审计要求制定相关的监测机制;负责内部信息安全意识教育培训和宣传。

架构管控团队:主要负责网络安全方案和应急预案的编制;负责上线系统方案安全架构评审;负责网络安全架构管控、优化调整工作以及网络安全防御体系和架构的设计与优化。

设备管理团队:主要负责根据安全策略的要求进行安全基础设施的规划、建设以及日常的运维工作;负责安全配置策略的统一管理、变更工作;负责安全设备的常态巡检、维护、故障处理和检修管理;负责安全平台接入方案的审批与执行;负责安全设备策略和权限的审批与维护,以及安全设备作业指导手册的编制。

技术支撑团队:主要负责安全新技术的研究、新型攻击手法研究、对智慧运维中心所涉及的高危漏洞的研究分析、未知威胁的探索发现、组织进行内部的红蓝对抗演练以及时发现新的安全风险,并将这些成果转化为知识库和安全分析模型;负责威胁情报的收集和管理工作。

5 总结与建议

电力关系国计民生,智慧电网的建设可以极大地提升电网的稳定性和持续性。将使我国能源紧张和环境污染问题得到缓解,极大地促进我国可持续发展。

网络安全直接关系到智慧电网的正常稳定运行,本文阐述了智慧运维模型的创新点和应用,探讨以数据驱动运维,聚焦从传统运维向智慧运维转型,对全国范围内电力行业和关键信息基础设施安全保护工作具有很好的借鉴意义。

卢士达 , 金玲丽 , 姚亦凡 . 智慧电力网络安全态势感知能力建设与提升——数据驱动从传统运维转型智慧运维 [J]. 信息安全与通信保密 ,2021(8):60-67.