实战 | 微众银行自研智能网络管理平台建设实践
作为一家坚持以科技为核心发展引擎的数字银行,微众银行自成立初,就已构建自主可控的分布式核心系统。随着业务的飞速发展,银行金融数据中心规模已从“两地三中心”扩展至“多地多中心”,全分布式架构在性能、弹性、成本、冗余、风险方面的优势逐渐显现,与此同时,这也对多活数据中心网络的健壮性、稳定性、灵活性、响应度提出了更高的要求。为解决大规模多数据中心网络规模逐步扩大带来的维护成本高、难度大的问题,提升网络可视化监控、场景运维、故障定位等多维度能力,微众银行网络团队经过数年来的努力,建设了一套包括基础数据管理、基础监控、自动化运维、网络可视化、网络自服务一体化的智能网络管理平台。
微众银行网络团队践行NetDevOps方法论和SOA设计理念,全自研实现配置管理、场景运维、数据可视化、告警自动化、设备巡检、网络架构设计建设等全方位网络运维功能,提升流程自动化能力,加快多场景响应效率,为运维人员与业务人员提供资产管理精细化、运营数据可视化、处理响应自动化的一站式网络管理平台,整体架构图如图1所示。
图1 微众银行网络智能管理平台整体架构图
自主可控底层监控
1.多维度设备监控
微众银行数据中心网络设备规模达到数千台,规模的扩大和监控维度的细化对设备监控提出了更高的性能、存储等技术要求,因此微众银行网络管理平台自研支持多协议、多监控平台的设备监控体系。
设备指标监控方面,平台支持SNMP、Telemetry网络协议的指标采集,支持Open-Falcon和Prometheus多监控平台数据上报,支持秒级采集频率,支持单设备单周期数千指标采集,针对大规模全光数据中心网络,基于季节性和趋势预测模型开发并适配10G/25G/100G等光模块故障预测功能,实现网络设备全天候实时监控和异常感知。
设备日志监控方面,平台已适配全厂商网络设备,关键字库已积累1100余条,采用缓存技术实现端口震荡等场景的告警收敛功能,自动过滤设备和链路抖动引发的正常告警,减少人工确认告警的成本,提升网络运维效率。
2.全覆盖质量监控
针对网络设备非显性告警、部分IP流转发异常等非常规网络故障,更好实时监控业务数据流在网络中的转发质量和路径,网络管理平台设计了多数据中心场景的网络质量监控方案。
方案针对全网部署大批量、高频率的质量探测,针对重点区域部署定制特殊探测任务,以业务系统视角方向监控端至端网络质量,进一步衡量网络数据流转发实时状态。
自研网络质量探测器组件提供多任务并行、高探测效率的实时质量监控,支持多监控平台指标上报,秒级完成万级目标IP探测,单周期内网探测流数量达十万级,保证每台设备均有探测流覆盖,全覆盖特征将为后续故障定位提供重要参考。
自研网络路径探测器组件提供多定制化参数、高效率的网络路径信息采集,支持自适应算法发送探测包的方式规避高频探测时路径点缺失的问题,能够在保证准确率的情况下,实现30分钟内完成数千路径的完整路径采集。
NetDevOps一体化运营
1.场景化运维工具
从解决问题的角度出发,微众银行网络管理平台聚焦于日常场景、应急场景、移动端场景的工具针对性和可用性。
日常场景包括但不限于融入脚本配置生成、审批、复核、下发、验证等流程实现私有云、公有云工单、变更的全生命周期自动化,提供指令级的风险操作态势感知等权限控制措施,支持秒级全网拨测和实时路径可视化展示,提供配置比对、流量统计、专线检查、VPN检查、波分检查等排障工具。
应急场景提供隔离、限速、旁路、切换、刷新等故障处置功能,选择参数、生成脚本、确认脚本、一键下发的快速流程能够提升响应速度和运维效率。
移动端场景通过接入微信机器人支持在移动端输入自定义指令实现灵活运维,支持设备指令交互、Ping探测、设备指标图形展示等检查类操作,支持设备隔离、防火墙旁路等应急类操作,支持实名权限申请、特殊指令申请等权限操作。
2.可视化运营数据
依托监控告警等大量的运营数据基础,平台利用图形组件,集成设备监控、网络质量、告警信息、流量统计、区域拓扑等实时数据,为网络运维人员和业务运维人员提供可视化展示服务。
平台从设备视角展示设备端口流量、设备日志、登录日志、Flow数据、上下联关系等关键信息,从专线、VPN视角展示流量、相关网络设备等信息,利用地图组件展示机房内、机房间、公网等场景的动态网络质量监控数据,利用拓扑组件实现机房维度、核心区域维度的网络设备连接关系、链路流量、告警等信息的可拖拽式展示,利用事件流转组件实现告警事件触发、根因分析、自动化处置、处置结果的全流程展示。
平台同样提供为业务运维人员提供业务视图功能展示,支持自定义监控视图(如业务专线流量、设备端口流量等),支持多数据源、多周期、多维度的图形数据对比,对外提供定制化感兴趣指标的数据拉取接口,协助业务快速感知网络流量实时状态。
3.自动化告警处置
告警处置的准确性和高效性是网络管理平台智能程度的关键体现,平台针对常见告警事件实现自动化处置,统计分析后执行检查、隔离、旁路等自动化指令,全流程实现可配置化和可视化。目前,平台已支持20余种自动化指令、20余种告警自动化场景,基本覆盖常见的告警场景。
特别是,在网络质量监控基础之上,平台基于多场景质量探测的故障诊断能够实现数据中心内部无设备显性告警情况下的故障快速定位,通过部署大批量实时探测数据流,使全三层CLOS网络架构中每个网络设备均被至少2条探测路径覆盖,结合具体故障场景采用异常流公共路径点及最短路径定位方法(如图2)与防火墙访问关系矩阵定位方法(如图3)快速找到故障网络设备或防火墙,并触发下一步自动设备隔离或人工处置。该自动化故障定位方案在实际生产环境中能够达到30秒定位、1分钟隔离的快速网络设备故障响应。
图2 异常流公共路径点及最短路径定位方法图
图3 防火墙访问关系矩阵定位方法图
4.精细化流量分析
精细到端口维度的网络流量分析是一种深入了解和优化网络性能的方法,通常通过sFlow和netFlow两种流量监测技术来实现基础数据采集,但也通常面临原始数据量巨大的问题。为此,平台结合Flow采样数据和ELK大数据组件,实现精细到端口的带宽值数据计算,为网络带宽使用量和资源成本可视化提供可靠数据基础。
平台支持自定义参数sFlow和netFlow配置并快速下发至重点设备,采集重点网络区域的数据流,利用Logstash实现Flow信息的采集、解析和上报,利用ElasticSearch实现Flow数据的大体量存储和统计计算,利用Kibana实现多维数据可视化功能。目前长期部署的重点网络区域包括骨干网、公网等计费场景,每日采样Flow数据量可达千万级,平台基于流数据计算精细到业务IP和端口的分钟级带宽值、天级带宽95峰值和月度计费,提供多周期、多维度的流量数据和账单可视化视图、查询服务和邮件推送服务。
5.定制化设备巡检
通常由设备厂商提供的网络设备巡检系统以灵活高效的特性逐渐成为网络运维人员的得力工具。然而,随着网络架构的复杂化和设备厂商的多元化,厂商提供的季度巡检系统逐步显现出功能局限、成本过高的弊端。
为此,平台集成任务编排和低代码脚本能力,将周期性、重复性的设备巡检工作,转化为标准化、自动化的批量任务,支持管理员编写或导入简易巡检脚本,用于检查设备的运行状态、连通性和多维性能指标。此外,平台支持按需配置重点和全量巡检任务,提供分析、比对、评分等数据处理能力,提升设备巡检自动化程度,利用自研能力打破厂商壁垒,降低运营成本。
在具体功能特性方面,较传统厂商季度巡检系统,平台巡检模块支持自定义周期、自定义范围、多厂商设备适配的批量任务编排,支持网络设备与专线巡检指标的差异定制化和覆盖率检查,支持自定义可视化报告、邮件、工单、开放接口等结果输出,支持定制化管理员提醒功能,实现以设备资产为中心视角提升运维管理质量,发挥资产数据效能。
架构规划与平台部署
网络架构设计、建设、验收是企业级数据中心新建或扩容建设的通用流程,平台提供从网络架构规划、网络建设、扩容及测试验收的工作流服务,极大程度地实现高效、规范和可追溯的工作流程,整体架构图如图4所示。
图4 网络架构规划、建设、验收工作流服务整体架构图
1.灵活的架构设计
平台通过将高低阶设计方案解耦,提供灵活的架构设计功能,更好地适配多厂商及信创设备的交付。用户可以根据实际需求设计出的网络架构,包括物理设备、逻辑设备、网络连接和服务分配等。在新建项目阶段,系统能够协助用户进行需求分析和规划,并提供项目进度追踪和资源分配的支持。对于扩容需求,系统能够评估现有架构的可扩展性,并提供资源配置和扩容过程的管理,支持自动化地进行验证,确保架构设计的可靠性和可扩展性。
2.高效的架构部署
平台提供自动化的架构部署流程,将设计完成的网络架构快速、准确地部署到实际的网络环境中,通过预先定义的任务和工作流程,利用5G+ZTP部署方案实现自动化地执行设备批量配置和服务部署等步骤。高效、准确的部署流程可以减少人工干预,降低人力和时间成本,并提供实时的部署状态监测和错误处理。
3.标准的测试验收
平台提供一套标准化的软硬件资源、网管监控、配置的规范化验收流程,以确保每个网络架构在验收过程中都能经过全面的测试,避免交付阶段引入问题,消除人为因素和疏忽所带来的错误风险,保证了验收测试的一致性和准确性。
总之,平台提供的规划、建设、验收的一体化流程服务从交付成本、建设效率和交付质量上获得了整体收益,通过集成这些关键环节,促进数据中心网络建设项目的高效进行,提高网络架构设计和实施的质量,为企业数据中心网络建设提供全方位的支持。
以实际业务需求为驱动,从数据中心网络自身的特征出发,微众银行在金融科技创新的摸索过程中,集成了一套包括网络设备监控、网络质量监控、场景运维工具、运营数据可视、关键数据分析、工单和变更流程管理等功能的智能化网络管理平台,在未来也将持续丰富设备监控与质量监控维度,提升自动化告警响应能力,完善监控运维的流程化、规范化,为银行业务的稳定运行保驾护航。
