近年来,随着银行业务的发展,需求的多样化,特别是互联网业务的爆发式增长对银行信息系统的敏捷扩张能力提出了更高要求,银行纷纷基于云架构的思维来构建新一代数据中心。邮储银行也正经历改造传统网络架构,建设面向多业务、支持多点多活数据中心的新型网络架构变革。在此过程中,网络运维能力也在同步建设、转型和提升。加大网络流量采集建设和可视化分析技术应用,以实时查看数据中心内各种类型设备的网络性能、链路状态和业务系统运行情况,成为网络运行维护的重要手段。

网络精细化运维的挑战及应对

数据中心网络运维数据类型多种多样,网络运维监控工具和手段不断丰富,传统的基础网管监控工具,通过SNMP获取网络设备硬件的运行状态、链路的使用状态等,能够实现网络基础数据源的运维监控。随着DevOps和敏捷开发的广泛采用、新系统上线和应用变更频率越来越高、网络设备和应用数量越来越多,应用间的访问关系和网络路径也变得越来越复杂,网络上对流量和原始数据报文的监控与深入分析需求也越来越重要,尤其是针对网络数据包中IP流量、TCP连接、网络延迟等精细化的网络监控分析,需要形成以提高网络性能和服务质量为目标的精细化运维。运维视角从硬件资源基础数据监控提高到全面的网络业务服务视角,运维体系建设也从常规的指标监控角度转变到全景业务可观测性维度。

为迎接挑战,提高网络精细化运维水平,邮储银行数据中心在网络流量采集与分析方面开展探索,以网络镜像流量为基础数据源,采用流量分析技术进行网络性能和服务质量监控。网络流量采集通过部署采集设备TAP交换机来实现,对流量数据包处理和标记后再转发给流量分析设备进行实时解析。流量分析设备能够通过解析各种通用协议和业务协议,分析原始数据包内容,获取到网络层、传输层以及应用层元数据等多个维度的全量信息,再根据规则对这些信息进行指标归类统计、多维度KPI运算、网络及应用性能评估、业务多段关联对比分析等方面加工,从而实现网络状态、应用状态以及业务状态的监控。在发现异常行为和安全事件时,能够及时掌握数据中心网络中承载的业务流量特征,并据此对网络配置进行优化调整,及时解决网络故障风险和隐患,最终实现保障数据中心核心业务应用的稳定运行。对于银行数据中心而言,提高网络流量采集和分析能力,是进行网络深度分析、处理各种疑难问题、实现运维可视化、提升运维能力必不可少的手段。

网络流量采集标准化建设

利用交换机镜像技术建设独立于业务网络之外的流量采集网,一直作为可视化运维的基础,对原始流量数据进行统一采集,并且根据不同流量分析工具的需求,对网络流量进行去重、切片、脱敏、移除数据包包头封装等操作,将分析工具常用的数据包梳理工作卸载到流量采集网上统一实现,提升流量分析工具的分析效率。统一的流量采集网,使数据中心全网流量可视化成为可能,可实现不中断业务的实时监控,并且根据需求随时添加新的分析工具对网络进行分析和监控。流量采集网的建设,使多种类型的分析工具可以便捷地共享流量采集层面数据,并且可以优化工具的部署和使用,节约成本。

流量采集网的设计采用了“SpineLeaf”架构,按照接入层、汇聚层和监控输出层三层结构部署,在多个数据中心间形成了标准化的部署架构。技术实现上采用集群部署方式实现TAP交换机智能堆叠或虚拟化部署,将接入层、汇聚层和监控层TAP交换机组成一个全连接的智能负载分流的冗余集群架构。针对同城数据中心间的流量采集,采用波分设备将跨中心Spine设备互联,跨数据中心组建集群,实现流量采集层和输出层共享。流量采集网部署架构如图所示。

图 流量采集网部署架构

邮储银行数据中心多中心流量采集网采用上述标准化方案建设后,流量采集能够实现:一是架构统一、配置简化,实现标准化管理。流量采集网采用集群技术,可实现端口到端口的流量转发,简化配置以及问题排查。二是扩展性较高,设备横向扩展较容易,Leaf设备可直接上联到Spine设备加入集群。三是链路冗余高可用,采用多Spine方式部署,流量采集层至输出层的流量通过Spine进行负载转发,实现架构高可用。

网络流量分析实践与应用

邮储银行数据中心网络流量分析实践与应用,主要分为两个阶段。

第一阶段是部署流量分析设备,建设网络流量分析系统。通过将网络交换机流量镜像输出到流量采集网,进行汇聚、复制、过滤、打标签等统一处理及规范化输出,按需提供给流量分析系统实现网络流量的采集、存储和分析展示。本阶段主要实现网络流量统计与应用展示,逐步实现了覆盖骨干网、互联网及数据中心网络等多个重要网络区域的流量分析功能,为我行的日常网络运维、新业务上线、年终决算/双十一等重保、线路容量规划报表等场景提供了及时有效的保障。

网络流量分析系统在我行使用场景中有两个方面的重要应用。一个场景是通过Tap交换机对接入的每个镜像流量打上不同的Vlan标签,在网络分析设备采集探针接收到流量采集网的流量时,通过识别Vlan标签可以区分流量来源,这在日常排障分析中作用明显,可以快速定位到发生网络问题的故障点,判断网络是否有丢包以及具体的丢包点。另外一个重要的场景是,我行数据中心骨干网已经完成SRv6技术改造,实现了更高效率的网络传输和带宽使用,网络流量分析系统能够准确识别SRv6流量并解析内层业务IP信息,并提供SRv6类型、剩余跳数、SRv6path等,实现骨干网的流量可视化分析,同时还能通过SRv6的opcode数据识别和区分不同区域或功能区的流量,实现了骨干网线路更加精细化的监控和管理。

第二阶段是以网络流量分析系统为工具,通过对网络流量原始数据报文深度解析,实现对IP流量、TCP连接、网络延迟等精细化的网络服务质量的监控分析,希望能与应用系统更紧密结合、围绕业务运行提供有益的网络分析能力和数据。

为此,我们开展了多方研究和技术创新,不断拓展网络流量分析应用场景,持续提高运维能力。

一是研究针对业务系统单笔交易路径追踪分析。采用“网络+应用”智能关联全流量分析技术实现业务单笔交易追踪,即通过业务的交易流水号等标识对单笔交易的关联追踪,自动化展示单笔交易所经过的网络路径,展示出各个网络节点针对交易的TCP连接、网络时延、处理时间等精细指标,并进行交易全链路的关联分析,自动评估各节点运行状况,快速定位导致单笔交易异常的关键节点。通过研究测试,能够实现根据流水号、卡号等交易特征进行关联,进行跨数据中心的单笔交易全路径评估及分析,提高网络精细化运维能力。

二是试点创新网络会话级的全路径关联追踪分析。从网络原始数据包入手,借鉴Telemetry技术思想,采用智能标签关联和会话算法技术对网络原始数据包进行标准化和统一化处理,实现更快速的数据传输和极高的数据处理性能,对网络流量分析系统进行技术更新和优化,实现网络会话级的关联追踪分析。经过试点测试,对业务系统关键网络节点流量通过七层解码交易流水,其他节点通过四层解码,能够实现性能和功能的平衡,同时和具体的业务系统松耦合,在脱离交易流水的情况下也能实现业务系统全路径的网络会话级关联追踪分析,普适性更强。除了实现路径会话追踪,还可以进行流式实况会话分析、多维度统计分析,网络会话的分析能力更强。

总结与展望

在网络架构变革和创新过程中,邮储银行持续关注提升网络精细化运维能力。网络流量采集网建设已初具规模和多中心标准化部署,网络流量分析技术和工具的应用,也逐渐深入细化到网络数据包层面,积极探索网络会话、业务交易关联的流量分析,成为网络配置优化调整,以及复杂网络环境下开展快速、精准故障排查的得力工具。随着数据中心规模不断扩大,承载应用越来越丰富,面临的挑战也越来越多,下一步研究重点将围绕云平台虚机流量的采集与分析、云网融合架构下的流量分析等,不断优化和创新,为全行业务稳定运行保驾护航。