新一代云网融合数据中心关键技术研究
摘要:云网融合是通信技术和信息技术深度融合发展的必然趋势,国家政策、市场和技术等各方面推动着云网体系架构从云网协同向云网一体的融合架构演进。以云网融合为代表的新型数据中心是产业的发展方向,伴随着业务的拓展,迫切需要关键技术的革新。从云网融合数据中心演进趋势出发,阐述了新业务与新挑战,研究分析了新一代云网融合数据中心的关键技术。
关键词:云网融合;数据中心;云网融合新型产品
0、引言
数字经济时代,通信技术与信息技术快速融合,给信息基础设施技术架构、业务形态和运营模式带来了深刻变革。《“十四五”数字经济发展规划》明确指出,要推动云网协同和算网融合发展,加快构建以算力、算法、数据等多维资源协同为核心的全国一体化数据中心体系[1-2]。云网融合是通信技术与信息技术深度融合所带来的信息基础设施的深刻变革,在发展历程上要经过协同、融合和一体三个阶段,最终使得传统上相对独立的云计算资源和网络设施融合形成一体化供给、一体化运营、一体化服务的体系[1]。
云网融合作为新型数字信息基础设施的核心特征与重要底座,代表了信息产业发展的未来方向。以数据中心、云计算、边缘计算等为代表的计算资源,以4G/5G、光网络、互联网等为代表的网络资源,正通过新技术变革,使得具有不同特征与不同路径的计算技术和网络技术相互渗透,相互影响,最终实现深度融合与创新,为数字化转型奠定坚实、安全的基石。数据中心作为算力资源在现实世界中的物理承载,是完成数字化发展的重要基础设施[1-3]。以云网融合数据中心为代表的新型数据中心正成为产业发展方向,高算力、高技术是最主要的两个特征[4]。下一代云网融合数据中心也在向高质量发展全面演进。当前,业界对云网融合数据中心的关键技术、应用场景做了较多的研究。然而,随着数据中心逐步演变为地理上的分布式部署,出现了超大数据量远距离访问造成的高延迟、宽带受限等难题;基于新一代网络技术以及超强计算、存储能力的全域统一的新型架构—超级云网架构被提出,迫切需要面对新一代云网融合数据中心的关键技术难点,有针对性地开展研究。笔者首先分析了促进云网融合数据中心发展的几大因素,然后从云网融合数据中心最适宜的业务与衍生的产品出发,分析了影响业务扩张发展的几个因素,对新一代云网融合数据中心的九大关键技术进行研究。
1、云网融合数据中心演进趋势分析
1.1 云网融合数据中心新业务
云网融合数据中心承载了大数据业务、智算业务、科学计算业务等新型业务,自2017年起,这些新型业务都呈现出加速发展的趋势,在电信业务收入中占比逐年扩大。这些新业务带来了新的算力和网络挑战。云网融合的不断发展可以为这些新型业务提供有力的计算、存储、网络资源等方面的支撑。新一代云网融合数据中心作为创新技术引领的“新基建”,伴随着“东数西算”工程的实施不断发展,构建了强有力的高性能网络,来支持大数据业务、智算业务、科学计算业务等新兴业务日益增长的高性能算力需求。
1.2 新业务带来新趋势
《关于加快构建全国一体化大数据中心协同创新体系的指导意见》提出要形成布局合理、绿色集约的基础设施一体化格局[2]。企业系统部署模式从单数据中心为主演进为跨东西部的多个数据中心成为常态。其核心特征是利用西部数据中心的计算、存储、网络资源,为东部地区用户提供高性能的访问服务。重点是解决上千公里远距离访问的难题,最终为用户提供透明的、顺畅平滑的访问体验。算力资源的统筹、部署和调度需要布局以云网融合为核心特征的新型信息基础设施,两者的融合创新才能更好地支撑经济社会数字转型、智能升级。
总体来看,云网融合数据中心的发展受三个方面的影响:一是在国家政策方面,国家已经相继出台了数据中心相关的政策文件,强调全国一体化数据中心、新型数据中心、云网融合建设等,以及“东数西算”等相关工程的加速实施,这些都为云网融合数据中心的演进阐明了发展方向;二是在市场方面,异构算力需求加速涌现,为满足多样化算力需求提出的新型云网融合数据中心为云网融合的部署与建设提供了有效的市场牵引;三是在技术方面,高性能网络、智能运维、超融合架构等技术的创新为云网融合数据中心的发展提供了技术保障[2]。
1.3 新趋势下的机遇与挑战
“东数西算”工程具有重大意义,但需要更加清晰地划分各参与方之间的分工,可引导东部地区政府主导的智慧城市等平台把大数据和视频存储放到西部地区,运营商重点负责解决超大数据量在远距离访问时的延迟和带宽等难题。
“东数西算”业务需要探索新型计费模式和补贴模式,避免现阶段直接对当前基础云网产品计费带来冲击,以市场化的机制实现示范性的业务引导。
“东数西算”需要基于最新一代计算、存储、网络技术构建出覆盖全国数据中心的新型国家级全域统一的超级云网架构,实现真正的对用户透明的全算力全存力的一体化服务。
超级云网架构投资巨大,运营商具备最独特的优势,需要在政策上把需求方和建设方无缝地组织到一起。
2、云网融合数据中心新型产品
2.1 新一代云网融合数据中心对标产品架构分析
能源科学网络(Energy Sciences Network,ESnet)是由美国能源部(The U.S. Department of Energy,DOE)资助研发的国家级高性能网络平台,基于云网融合、数据中心技术为美国全国范围内的科研工作人员提供重要、可靠的技术支撑[5]。每天传输的流量包含来自数万名研究人员的数据,总计为40多个DOE研究站点提供服务,涵盖了国家实验室系统、超级计算设施等科学仪器。为解决DOE资助的世界各地科学家之间的合作问题,该系统已经被连接到140 个研究和商业网络[5]。2022年10月发布的Esnet6是Esnet下一代全国范围内的数据中心网络平台,通过更为智能的云网融合技术,实现了更大容量和控制网络上大量数据流的能力,旨在通过为DOE研究社区提供更高带宽、更大灵活性、更快的数据传输能力和更好的安全性保证来驾驭当今世界面临的“数据洪流”。ESnet6将美国全国范围内一体化数据中心的可用性和智能性提升到一个新的水平,带宽超过每秒46 TB,与前几代网络相比带宽显著增加。有了这种能力的提升,科学家们可以更快地处理、分析、可视化、共享和存储由实验、建模和模拟产生的大量研究数据[5]。
新网络的作用不仅仅是增加容量,对于跨数据中心的数据流管理同样发挥着极为重要的作用。ESnet工程师开发了智能、可编程和自动化的服务,这些服务是专门为支持当今科学研究中典型的PB数据流而开发的,并且可以用于新兴的EB数据时代的管理。2021年,ESnet承载了超过1.1 EB的科学数据[5]。由于更强大的超级计算机的出现,ESnet承载的平均网络流量每四年将会增加十倍[5]。同时,ESnet6还配备了新的自动化平台,能够快速配置跨数据源、跨数据中心的网络路径,以支持在两分钟的时间内在美国全国范围内传输大型科学数据集。此外,ESnet6还在美国橡树岭计算中心(Oak Ridge Leadership Computing Center)和国家能源研究科学计算中心之间进行了数TB的实时地震模拟数据传输,同样可以在几分钟内实现。
2.2 云网融合数据中心新型产品
2.2.1 长途数据高速传输公共服务平台
“东数西算”工程需要公共服务平台提供用于远距离传输大数据的超大带宽,东部地区用户的数据产生速率和东部地区到西部地区的远程复制速率的差距是目前限制全国一体化数据中心发展的原因之一。通过建设超大带宽的公共服务平台以满足东部地区大数据远距离传输到西部地区,提高东部地区用户数据的远程复制速率,能够有效匹配海量设备的数据生产和传输。如图1所示,在云网融合产品中提供多种访问协议的支持和自动选择,能够在不需要对现有系统进行大的业务改造的基础上,实现东部地区用户产生的数据到西部地区数据中心的透明迁移。
图1 长途数据传输方案
数字经济的发展带来的是数据量的迅速增长,在实践上则体现为对强大算力资源的要求。西部地区具有优惠的电力资源和适宜的气候,能够促进整体产业的绿色低碳发展,优化全国范围的数据中心布局,同时可以提高当地的信息化水平和数字经济水平。数据的大量产生,东西部地区之间的地理间距,都对数据的传输平台提出了新的要求,需要建设一个具有超大带宽的公共服务平台以满足东部地区大数据远距离传输到西部地区的要求。用户提交的不同访问需要用到多种服务,包括文件、大数据、对象等,保证足够的传输速度是实现高效访问各种流程的基础。云网融合技术可支持多种协议,解决东部地区用户数据远程复制速率远低于海量设备数据生产速率的问题,实现多协议互通,提升复制效率和流程效率。在不需要对现有系统进行大的业务改造的同时,实现用户数据向西部数据中心的透明迁移。
云网融合[1,4]技术是当下技术发展的趋势,也是未来客户需求变化的必然结果,并且逐步向算网融合发展,云、边、端算力的智能协同对网络提出了更高的要求,在管道连接和流量服务等基础服务之外需要提供更加智能的服务。传统的云部署方案由于其中心化的结构难以高效服务于超低时延业务,对于终端应用所要求的低功耗、低成本、高性能,只有通过多云协同、云边协同乃至云网边端协同等方式提升实时性和可用性。运营商在云服务供应方面具有非常大的优势,其中和传统云服务提供商的重要区别是可以基于网络的快速发展协同云服务实现多种形式和类型的云网融合产品,能够实现二者更好的匹配,在提供高速数据传输的基础上实现高效率的业务。
2.2.2 长途超大容量高速缓存公共服务平台
如图2所示,新一代云网融合数据中心平台应具备低延迟访问的特点,通过对西部地区离线计算结果和周期性热数据的预加载,能够保证东部地区用户对保存在西部地区数据中心的数据的低延迟访问。通过提供大数据内容分发网络(Content Delivery Network,CDN)功能,实现更加流畅的“西经东送”。解决单一用户建设此类大数据缓存资源池投资过大问题,通过公共建设与共享使用实现资源集约。
图2 长途高速缓存方案
基础网络设施的升级能够带来数据中心的进化,同时也会带来数据链路中流量的激增,对带宽的要求也随之变化。CDN能够有效应对这种需求,可以实时地对数据加以监控和分析,进而提升服务质量。智能调度平台的搭建在新一代数据中心的落地方案中变得更为重要,通过使用更为智能的调度策略来使整体过程协同完成,提升用户访问体验。现在的用户对于服务的低时延和流畅性具有更强的关注,低时延要求能够及时反馈数据处理的结果,流畅性要求为用户提供不间断的服务。针对这两点,CDN能够解决由于物理传输距离过远导致的多次网络转发问题,在面对海量请求时能够提供低时延的响应和稳定的可用性。大数据CDN服务能够为东部地区用户提供更加实时性的服务,实现跨运营商、全国范围的全网覆盖,通过将边缘分布存储节点部署在全国骨干节点,高效利用带宽资源,加速计算结果和热数据的快速访问,平衡源站的流量。这种负载均衡的分布式存储技术也可以加强应对互联网攻击的可靠性。实现边缘存储节点的全国铺设,通过提供超大容量高速缓存平台能够更好地实现“东数西算”的意义。
2.2.3 跨数据源、跨数据中心、跨引擎大数据智能计算公共服务平台
新一代云网融合数据中心提供跨数据源、跨数据中心、跨引擎的大数据智能计算公共服务。其中包含智能计算优化器,为包含不同计算范式的数据处理链路提供整体优化方案,从而对分布在不同数据中心、不同存储系统、不同集群的异构数据进行快速处理。如图3所示,跨数据源、跨数据中心、跨引擎大数据智能计算公共服务平台通过将计算下推到分布在各地的异构数据源,实现快速的异构数据分析响应,获得比传统处理方式更优的性能表现。计算需要的算力资源和数据传输需要的网络资源通过深度融合可以提供更加自动化和智能化的服务,同时能够压缩时延和成本。算力就近分配,在降低时延的同时可以缩短实际的物理传输距离,大大降低了传输成本。运营商在实现新一代智能计算平台中发挥着重要作用,根据实际需求将算力资源分配给不同的应用服务商,承担算力和应用的中介身份串联起整体服务过程,最终提供给用户的将是真正的算力加应用的高度一体化服务。这也将促进运营商的身份转型,从传统的管道运营商到新兴的综合信息服务供应商。
图3 大数据智能计算公共服务平台架构图
智能计算公共服务平台对网络提出了更高的要求,需要具备对应用和算力的感知能力,在应用信息被传入到网络后能够合理部署业务、分配资源来满足应用的服务等级协议要求。基于在代价估算中加入对集群负载、链路带宽等因素的考量,得出最优的执行方案,拆分子查询到不同数据中心的多个计算引擎执行。实现东西部融合的大数据计算和存储,新业务无需重复建设大数据平台,只需根据东西部智算平台接口规范传入数据和查询数据,无需感知底层架构和数据地域分布。
3、新一代云网融合数据中心的九大关键技术
(1)可实时调整的新一代超大带宽智能广域网互联技术:根据实际应用场景的需求,可以为企业提供弹性的数据中心互联链路,可以从MB级别弹性提升到百GB级别至TB级别,且调整可在分钟级别实现全链路提速和降速,无需长期租用昂贵的大带宽长途专线。
云网融合数据中心服务平台支持弹性适配和部署,能够满足智能应用任意量级的场景和终端设备的服务需要,并按照实际使用情况进行自适应化的资源调配。在云网融合数据中心之上需要构建多级的系统调度能力,实时高效获取云网融合中的各级应用节点资源信息,分析用户需求,实现动态的管理。采用算力路由技术将当前网络中的异构算力及网络态势以路由信息的形式发布在网络中,协同网络和算力信息,采用以软件定义广域网络(Software-Defined Wide Area Network,SD-WAN)与基于IPv6转发平面的段路由(Segment Routing over IPv6,SRv6)为代表的智能化网络隧道技术,在异构网络链路的基础上实现安全、弹性、灵活的网络连接。
(2)大数据漂移计算技术:通过算子下推、就近协同计算等方法,改变现有数据必须汇聚到中心大数据湖的弊端,大幅减少远距离数据传输的需求。
新一代云网融合数据中心作为一种全新的服务形态,协同调度云计算、边缘计算、高性能计算等多元计算力,通过算子下推、就近协同计算等方法催生全新泛在的服务形态,减少数据传输的需求,形成形态多样的服务。将在以大型数据中心为代表的云端,以边缘计算单元为代表的边缘端,以智能佩戴设备、个人电脑等为代表的终端形成算力“云—边—端”泛在云网融合部署实例,以满足各种业务场景下的带宽、时延、安全和成本需求。
(3)智算中心远程算力访问技术:以中央处理器(Central Processing Unit,CPU)为主的大量现有机房可以通过100 km以上的远距离无损网络直接调用智算中心算力集群的图形处理器(Graphics Processing Unit,GPU)的类统一计算架构(Compute Unified Device Architecture,CUDA)算子接口实现模型的训练和推理,而无需传输大量原始数据。
新一代数据中心提供无损的网络连接服务,通过流量控制、拥塞控制和流量调度等关键技术实现零丢包、低时延、高吞吐的远程访问。以CPU为主的现有机房对智算中心集群算力的调用可以通过这种远距离无损网络技术实现直接训练和推理,不需要传输大量的原始数据。通过专门或高端的交换设备对通信进行加速,或是将多个单元的计算能力进行整合,能够有效提高通信效率,解决传统以太网络拥塞丢包等问题。建设远距离无损智算中心访问平台,能够建立起算力、网络和存储的高效协同机制,提高效率。
(4)非结构化数据超大规模数据仓库技术:通过预处理结构化关键帧技术减少视频、图片原始数据二次分析的计算量和传输量。
新一代数据中心在数据的存储和计算方面具有优势,能够建立起非结构化的超大规模数据仓库。如视频类型的数据在形式上没有结构,内容上有较强的逻辑,根据内容粒度可以被结构化为帧、镜头、场景和视频四个层次。为了提高视频浏览和存储的效率,需要从没有结构化的视频数据中提取具有代表性的结构单元。关键帧是可以表述视频内容的关键性图像帧,通过结构化关键帧技术,可以减少检索的数据量从而减少视频、图像等原始数据在二次分析中的计算量和存储量。
(5)纠删码与全局数据在线重删压缩技术:突破性能下降问题,纠删码技术能够使可用容量从裸盘容量的33%提升到90%以上,全局重复数据删除与压缩技术能够使数据中心提供的业务存储容量提升为原来的40 倍以上[6]。
新一代数据中心能够在基础的存储业务之上提供更加智能和高效的纠删码和数据压缩服务。在数据中心中应用纠删码技术,不仅可以实现数据保护,还可以为分布式系统、云计算系统节省存储空间。通过将原始的数据进行编码得到冗余,一并存储数据和冗余以达到容错的效果。重复数据删除技术是一种消除重复数据的技术,识别并存储唯一的数据块或字节模式,通常与数据压缩技术配合使用以节省大量的存储空间。
(6)超高性能全闪并行文件存储技术:应用于全国性的广域网大规模跨数据中心数据高速缓存池,能够优化输入/输出(Input/Output,I/O)密集型应用场景。
新一代的数据中心能够提供全国范围内的密集I/O应用,实现跨数据中心的高速数据传输链路和数据缓存。新一代全闪存储硬件可以作为存储平台基座,实现更为高效的分布式存储结构,实现更好的协同效果。云网融合下的数据中心可以进一步突破性能的局限,通过网络资源将多个节点下的固态硬盘(Solid State Disk,SSD)资源进行组网,构建可用性高、拓展方便的存储资源池,并将其推广到全国范围内的各类具有高I/O要求的服务对象。
(7)智能化资源需求预测技术:在超级云网基础设施建设完成前,必须依赖智能化业务感知数据移动预测技术,精准调度各个企业的数据进行长途传输。
数据中心对资源的智能调度建立在需求感知的基础上,通过智能化的业务感知技术预测不同用户和应用的资源需求,为云网融合平台的服务编排提供支持。结合人工智能、大数据技术等创新技术,为云网融合提供基于数据分析的网络智能运维和监控,构建多种类型的算力服务模型,实现对服务的统一编排和调度,协同各个企业用户的数据传输和算力资源,使得算网平台成为云网融合的智慧中枢。
(8)基于数据处理器(Data Processing Unit,DPU)的数据压缩、加密卸载技术:数据压缩、数据存储加密、数据传输加密是云网融合数据平面的突出特征。
为了实现新一代数据中心的最高算效比,需要构建规模化的DPU设备承载海量数据的计算下移。由原来集中于中心服务器发展为下放边缘节点,依靠边缘设备与终端的短距离实现实时处理。缩短数据传输距离降低了成本,分散了网络面对数据激增时的压力,同时做到节能省时。
(9)新一代云原生安全服务器主动防御技术:由于西部地区的数据中心存有数字经济社会最全面的经济数据,必须确保算力的安全访问。
新一代云网融合技术将采用强调内生安全的新型网络安全理念,为服务平台的应用提供高可靠、高信用和高可用的三位一体的内生安全功能,保证数据和算力资源的安全访问。
4、结束语
云网融合数据中心是数字经济发展的重要支撑,算力和网络作为其中的信息基础设施核心,正在深度融合的发展中涌现出越来越多的发展形态,推动着新一代云网融合数据中心的持续演进。高算力、高技术是其中重要的特征,全国一体化、发展绿色化是核心布局。随着数据中心逐步演变为地理上的分布式部署,迫切需要关键技术的革新,为技术迭代提供核心动力。笔者针对云网融合数据中心的关键技术难点,阐述了其中的关键和挑战,并有针对性地对新一代云网融合数据中心在新时代基础设施建设下的发展进行了技术探讨,以促进其在当下信息资源布局下的快速发展。