CenturyLink 中断导致全球网络流量下降 3.5%

Andrew2020-08-31 10:06:02

CenturyLink事件导致Cloudflare,Reddit,Hulu,AWS,暴雪,Steam,Xbox Live,Discord等数十家网站瘫痪。

美国互联网服务提供商CenturyLink周日遭受重大技术故障,原因是该公司一个数据中心的错误配置造成了整个互联网的混乱。

由于中断的技术性质(包括防火墙和BGP路由),该错误从CenturyLink的网络向外传播,并且还影响了其他Internet服务提供商,最终导致更多其他公司的连接问题。

由于CenturyLink中断,今天提供服务的科技巨头的名单包括亚马逊,Twitter,微软(Xbox Live),EA,暴雪,Steam,Discord,Reddit,Hulu,Duo Security,Imperva,NameCheap,OpenDNS等知名公司都出现了中断。

今天还受到严重影响的Cloudflare表示,CenturyLink的向外传播问题导致全球互联网流量下降3.5%,这将成为有史以来最大的互联网中断之一。

根本原因:Flowspec规则配置错误

根据CenturyLink状态页面显示,此问题起源于CenturyLink位于加拿大Ontario附近城市Mississauga的数据中心。

电信公司说,事件的根本原因是错误的Flowspec公告。

Flowspec是BGP协议的扩展,允许公司使用BGP路由在其网络中分发防火墙规则。在处理诸如BGP劫持或DDoS攻击等安全事件时,通常使用Flowspec公告,因为它使公司可以更改整个网络以在几秒钟内做出反应并缓解攻击。

但是,今天,CenturyLink表示,其Mississauga数据中心发出了错误的Flowspec公告,这实际上阻止了该公司的BGP路由扎根。

Cloudflare从远处观察到这一事件,认为CenturyLink宣布了一组全新的BGP路由,然后通过错误配置的Flowspec规则意外丢失了所有路由,从而有效地将其整个网络带入了一个循环。

BGP路由是保持互联网畅通的粘合剂。它们是互联网公司之间相互传递的一种信息。BGP路由告诉每个互联网提供商其网络上哪些IP地址块可用。

但是,由于CenturyLink错误的Flowspec命令导致其网络内的某些路由器瘫痪,其中一些路由器还开始宣告到其他“Tier 1”相邻互联网服务的BGP路由不正确。

这反过来又导致了其他网络像domino-like一样崩溃。

故障需要七个小时才能解决

CenturyLink通过采取罕见的步骤告诉所有其他 Tier 1 互联网提供商取消对等网络,而忽略了来自其网络的任何流量,从而解决了该问题。公司很少做出此类决定,因为这会导致其所有客户的全部连接中断。

CenturyLink中断导致全球Web流量下降了3.5%

该公司表示,总而言之,CenturyLink必须重置所有设备,并从干净的BGP路由表开始,该过程花费了将近七个小时的时间,从大约12:13 UTC到18:58 UTC。

Cloudflare的联合创始人兼首席执行官Matthew Prince在对中断进行分析时说:“这是一次重大的全球Internet中断。”

网络流量中断处理
本作品采用《CC 协议》,转载必须注明作者和本文链接
这样一旦运行的服务器宕机,就把备份的服务器运行起来。冷备的方案比较容易实现,但冷备的缺点是主机出现故障时备机不会自动接管,需要主动切换服务。当一台服务器宕机后,自动切换到另一台备用机使用。
CenturyLink事件导致Cloudflare,Reddit,Hulu,AWS,暴雪,Steam,Xbox Live,Discord等数十家网站瘫痪。电信公司说,事件的根本原因是错误的Flowspec公告。在处理诸如BGP劫持或DDoS攻击等安全事件时,通常使用Flowspec公告,因为它使公司可以更改整个网络以在几秒钟内做出反应并缓解攻击。Cloudflare从远处观察到这一事件,认为CenturyLink宣布了一组全新的BGP路由,然后通过错误配置的Flowspec规则意外丢失了所有路由,从而有效地将其整个网络带入了一个循环。
 网络中断已成为一个可怕的现实,扰乱了企业、个人生活和沟通渠道。虽然没有任何网络能够幸免于这一不幸事件,但最近澳大利亚电信中断事件清楚地提醒我们此类中断可能产生的影响。这次停电持续了几个小时,给澳大利亚全国范围内的企业、基本服务和日常生活造成了干扰。这个例子凸显了现代电信网络的复杂性以及发生中断的可能性。即使拥有最先进的基础设施和强大的冗余措施,软件故障、硬件故障或自然灾害等不可预见的事
ProtonMail是一家以隐私为中心的端到端加密电子邮件服务提供商。
微软已经证实,最近Azure、Outlook和OneDrive门户网站的中断是由于针对该公司服务的第7层DDoS攻击造成的。故障发生在6月初,Outlook.com的网络门户在6月7日被攻击,OneDrive在6月8日被攻击,而微软Azure门户在6月9日被攻击。目前微软方面表示没有客户数据被访问或泄露。
流量采集网的设计采用了“SpineLeaf”架构,按照接入层、汇聚层和监控输出层三层结构部署,在多个数据中心间形成了标准化的部署架构。二是扩展性较高,设备横向扩展较容易,Leaf设备可直接上联到Spine设备加入集群。三是链路冗余高可用,采用多Spine方式部署,流量采集层至输出层的流量通过Spine进行负载转发,实现架构高可用。一是研究针对业务系统单笔交易路径追踪分析。
APT攻击不仅危害性大,而且隐蔽性强。我国是APT攻击的最大受害国之一。做好溯源工作不仅能使相关部门掌握APT攻击的活动规律,做好应对与防范,有效减少损失,还能使我国在面对敌对势力在网络安全问题上的舆论攻击的时候,拿出确凿的证据进行有力的反驳,有效维护国家尊严。综合以上原因,这种溯源的方式在面对有组织的APT攻击的时候成功率会大大降低,而成本则会大大增加。APT攻击溯源的最终目的是定位到发起攻击的组织或个人。
很多业务在运行过程中会碰到这样的矛盾: 为保证数据和网络安全,进入数据中心的流量均需受到安全设备的层层防护;同时,业务要保证7*24小时不中断,突发状况下也需确保“业务先行”。 但此时如果遇到数据中心“网络安全设备故障”和“业务停止访问”同时发生,想在保证网络安全的前提下恢复业务运行,会非常耗时。 为什么会出现这种情况?先来看看现在的数据中心架构:
8月17日,由国家计算机网络应急技术处理协调中心指导、奇安信主办的数据安全分论坛顺利举办。
例如,为了检测web服务器的运行状况,网络监视软件将定期不间断地发送32位字节的ping请求,跟踪服务器是否收到了该请求并及时响应。它是开源的监控解决方案,它表现非凡并且持续为全球成千上万的组织提供可靠的监测。
Andrew
暂无描述