CenturyLink 中断导致全球网络流量下降 3.5%
CenturyLink事件导致Cloudflare,Reddit,Hulu,AWS,暴雪,Steam,Xbox Live,Discord等数十家网站瘫痪。
美国互联网服务提供商CenturyLink周日遭受重大技术故障,原因是该公司一个数据中心的错误配置造成了整个互联网的混乱。
由于中断的技术性质(包括防火墙和BGP路由),该错误从CenturyLink的网络向外传播,并且还影响了其他Internet服务提供商,最终导致更多其他公司的连接问题。
由于CenturyLink中断,今天提供服务的科技巨头的名单包括亚马逊,Twitter,微软(Xbox Live),EA,暴雪,Steam,Discord,Reddit,Hulu,Duo Security,Imperva,NameCheap,OpenDNS等知名公司都出现了中断。
今天还受到严重影响的Cloudflare表示,CenturyLink的向外传播问题导致全球互联网流量下降3.5%,这将成为有史以来最大的互联网中断之一。
根本原因:Flowspec规则配置错误
根据CenturyLink状态页面显示,此问题起源于CenturyLink位于加拿大Ontario附近城市Mississauga的数据中心。
电信公司说,事件的根本原因是错误的Flowspec公告。
Flowspec是BGP协议的扩展,允许公司使用BGP路由在其网络中分发防火墙规则。在处理诸如BGP劫持或DDoS攻击等安全事件时,通常使用Flowspec公告,因为它使公司可以更改整个网络以在几秒钟内做出反应并缓解攻击。
但是,今天,CenturyLink表示,其Mississauga数据中心发出了错误的Flowspec公告,这实际上阻止了该公司的BGP路由扎根。
Cloudflare从远处观察到这一事件,认为CenturyLink宣布了一组全新的BGP路由,然后通过错误配置的Flowspec规则意外丢失了所有路由,从而有效地将其整个网络带入了一个循环。
BGP路由是保持互联网畅通的粘合剂。它们是互联网公司之间相互传递的一种信息。BGP路由告诉每个互联网提供商其网络上哪些IP地址块可用。
但是,由于CenturyLink错误的Flowspec命令导致其网络内的某些路由器瘫痪,其中一些路由器还开始宣告到其他“Tier 1”相邻互联网服务的BGP路由不正确。
这反过来又导致了其他网络像domino-like一样崩溃。
故障需要七个小时才能解决
CenturyLink通过采取罕见的步骤告诉所有其他 Tier 1 互联网提供商取消对等网络,而忽略了来自其网络的任何流量,从而解决了该问题。公司很少做出此类决定,因为这会导致其所有客户的全部连接中断。
该公司表示,总而言之,CenturyLink必须重置所有设备,并从干净的BGP路由表开始,该过程花费了将近七个小时的时间,从大约12:13 UTC到18:58 UTC。
Cloudflare的联合创始人兼首席执行官Matthew Prince在对中断进行分析时说:“这是一次重大的全球Internet中断。”
