CenturyLink 中断导致全球网络流量下降 3.5%

Andrew2020-08-31 10:06:02

CenturyLink事件导致Cloudflare，Reddit，Hulu，AWS，暴雪，Steam，Xbox Live，Discord等数十家网站瘫痪。

美国互联网服务提供商CenturyLink周日遭受重大技术故障，原因是该公司一个数据中心的错误配置造成了整个互联网的混乱。

由于中断的技术性质（包括防火墙和BGP路由），该错误从CenturyLink的网络向外传播，并且还影响了其他Internet服务提供商，最终导致更多其他公司的连接问题。

由于CenturyLink中断，今天提供服务的科技巨头的名单包括亚马逊，Twitter，微软（Xbox Live），EA，暴雪，Steam，Discord，Reddit，Hulu，Duo Security，Imperva，NameCheap，OpenDNS等知名公司都出现了中断。

今天还受到严重影响的Cloudflare表示，CenturyLink的向外传播问题导致全球互联网流量下降3.5％，这将成为有史以来最大的互联网中断之一。

根本原因：Flowspec规则配置错误

根据CenturyLink状态页面显示，此问题起源于CenturyLink位于加拿大Ontario附近城市Mississauga的数据中心。

电信公司说，事件的根本原因是错误的Flowspec公告。

Flowspec是BGP协议的扩展，允许公司使用BGP路由在其网络中分发防火墙规则。在处理诸如BGP劫持或DDoS攻击等安全事件时，通常使用Flowspec公告，因为它使公司可以更改整个网络以在几秒钟内做出反应并缓解攻击。

但是，今天，CenturyLink表示，其Mississauga数据中心发出了错误的Flowspec公告，这实际上阻止了该公司的BGP路由扎根。

Cloudflare从远处观察到这一事件，认为CenturyLink宣布了一组全新的BGP路由，然后通过错误配置的Flowspec规则意外丢失了所有路由，从而有效地将其整个网络带入了一个循环。

BGP路由是保持互联网畅通的粘合剂。它们是互联网公司之间相互传递的一种信息。BGP路由告诉每个互联网提供商其网络上哪些IP地址块可用。

但是，由于CenturyLink错误的Flowspec命令导致其网络内的某些路由器瘫痪，其中一些路由器还开始宣告到其他“Tier 1”相邻互联网服务的BGP路由不正确。

这反过来又导致了其他网络像domino-like一样崩溃。

CenturyLink通过采取罕见的步骤告诉所有其他 Tier 1 互联网提供商取消对等网络，而忽略了来自其网络的任何流量，从而解决了该问题。公司很少做出此类决定，因为这会导致其所有客户的全部连接中断。

CenturyLink中断导致全球Web流量下降了3.5％

该公司表示，总而言之，CenturyLink必须重置所有设备，并从干净的BGP路由表开始，该过程花费了将近七个小时的时间，从大约12:13 UTC到18:58 UTC。

Cloudflare的联合创始人兼首席执行官Matthew Prince在对中断进行分析时说：“这是一次重大的全球Internet中断。”

网络流量中断处理

本作品采用《CC 协议》，转载必须注明作者和本文链接