谷歌披露 “零日” 漏洞导致 Gmail 和 YouTube 大量宕机
Google透露,其全球身份验证系统失败的原因是一个简单的“零日”值,该系统阻止了对YouTube,Gmail和Google Cloud Platform服务的访问。
周一事件发生后的第二天,Google在初步分析中说,根本原因是其自动存储配额管理系统中存在问题,这减少了其中央身份管理系统的容量,从而又阻止了所有人访问许多Google服务需要用户登录。
宕机仅持续了50分钟,但阻止了全球数十亿用户访问Gmail和YouTube。该事件还影响了依赖Google Cloud Platform来计算资源的公司。
Google的工程师在其完整的事件报告中描绘的图片详细说明了一个短暂但重大的事件,所有事件都归结为Google用于自动为其身份验证系统配置存储的旧版存储配额系统生成的“零日”漏洞。
报告称:“作为将用户ID服务持续迁移到新配额系统的一部分,10月份进行了更改,以在新配额系统中注册用户ID服务,但先前配额系统的某些部分保留了下来,但报告有误用户ID服务的使用为0。”
“结果,减少了帐户数据库的配额,这阻止了Paxos领导者进行写操作。不久之后,大多数读取操作已过时,从而导致身份验证查找漏洞。”
谷歌表示,宕机是由于10月份对Google用户ID服务所做的更改,这是向新配额系统迁移的一部分。
宕机的核心是Google用户ID服务,该服务对每个帐户都有唯一的标识符,并处理OAuth令牌和Cookie的身份验证凭据。OAuth令牌用于将用户登录到服务,而无需用户输入或重新输入密码。
Google将此帐户数据存储在分布式云数据库中,该数据库在同意处理所需的数据值后使用Paxos协议协调更新。
Google解释说:“出于安全考虑,此服务在检测到过时的数据时将拒绝请求。”
“执行配额限制的现有宽限期延迟了影响,该影响最终终止,触发了自动配额系统减少了User ID服务允许的配额并触发了此事件。现有的安全检查可防止许多意外的配额更改,但在他们没有涵盖单个服务的零报告负载的情况。”
Google还详细介绍了对Google Cloud Storage,Google Cloud Network,Google Kubernetes Engine(GKE),Google Workspace(以前称为G Suite)和Google Cloud支持的用户的影响程度。
“在2020年12月14日(星期一)美国/太平洋地区从03:46到04:33,所有Google用户帐户的证书颁发和帐户元数据查找失败。因此,我们无法验证用户请求已通过身份验证并在5xx错误上提供几乎所有经过身份验证的流量,” Google在针对Google Cloud Infrastructure Components事件20013的报告中说。
Google确认“在事件发生期间,所有经过身份验证的Google Workspace应用程序都已关闭”,并且“大约有4%的GKE控制平面API请求失败,并且几乎所有Google管理和客户的工作负载都无法向Cloud Monitoring报告指标。”
Google多数经过身份验证的服务都“在所有Google Cloud Platform以及Google Workspace API和控制台上的错误率均升高了”。
谷歌表示,尽管大多数服务可以快速自动恢复,但某些服务却具有“独特或持久的影响”。
谷歌在周二发布的对其根本原因分析的更正中指出,“所有需要通过Google帐户登录的服务都会受到不同程度的影响。”
