宕机超 12 小时,损失过亿,唯品会基础平台负责人被“祭天”

VSole2023-07-14 09:50:12

对于后端程序员来说,“高并发”并非新鲜的话题,经历过一次服务器宕机,职业生涯才“完整”。

但如果事故超过 12 小时,或许会直接造成职业生涯“宕机”!

3 月 29 日,#唯品会崩了#的话题登上热搜。 

近日,事件后续来了。

唯品会发布了关于 329 机房宕机故障处理公告:此次南沙机房重大故障,影响客户达 800 多万,判定为 P0 级故障,对负责人予以免职处理。

1、“崩”上热搜:损失超亿元,持续12小时

说起来,一切都还要追溯到 3 月末。

3 月 29 日,有多名网友反馈唯品会“崩了”,用验证码登录时显示网络错误,登不上去。

随后,唯品会官方微博表示:因系统短时故障,导致主站“加购”等功能或出现异常。

图源:微博截图

时隔 2 个多月,唯品会官方对故障事件做出了回应。

据悉,此次南沙机房重大故障的主要原因是南沙 IDC 冷冻系统故障导致机房设备温度快速升高宕机,造成线上商城停止服务。

故障影响时间持续 12 个小时,导致公司业绩损失超亿元,影响客户达 800 多万,公司将此次故障判定为 P0 级故障。( P0 属于最高级别事故,比如崩溃、页面无法访问、主流程不通、主功能未实现,或在影响面上影响很大。)

与此同时,唯品会认为此次事故暴露出容灾应急预案和风险防范措施不到位,并决定对此次事件严肃处理。对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职做相应处理。

其实,类似 329 号机房宕机的事故并非首次发生。

但毋庸置疑的是,唯品会作为拥有大量用户的电商平台,服务器和网络设备的正常运行至关重要。任何一次宕机事件,都会导致平台无法提供正常的服务,因此,每一次故障背后的原因和影响都值得大家思考,并引以为戒。

2、腾讯旗下社交软件受到“牵连”

同样值得注意的是,受到此次机房事故影响的还有微信、QQ 等腾讯旗下社交软件,包括微信语音对话、朋友圈、微信支付,以及 QQ 文件传输、QQ 空间和QQ 邮箱在内的多个功能无法使用。

图源:微博截图

对此,腾讯微信团队在 3 月 29 日上午发布信息称:“今天凌晨部分用户使用微信、微信支付相关功能出现异常,经工程师抢修,系统正在逐步恢复,很抱歉给大家带来不便。”

与此同时,腾讯内部对此事件的评估为“一级事故”,并对几名高管进行了不同程度的批评、降级和和免职处罚处理。

3、高并发引起的服务器宕机,频繁发生

随着直播电商平台的发展,用户数的增多导致高并发的概率增大。

近年来,各大平台、热门 APP 的服务器,都似乎难逃卡顿、崩溃乃至宕机的宿命。

2017 年双十一凌晨,在数百万消费者的激情涌入天猫之际,出现了大量手机淘宝、手机天猫的用户无法付款和修改地址,订单、足迹、收藏夹、红包卡券等异常问题,直到 12 点 30 分,天猫的服务器才恢复正常。

2021 年 10 月 20 日晚上,就在淘宝电商大促“双十一”刚开始之际,不少用户发现淘宝出现了客服聊天窗口消息发不出、不能点确认收货等诸多问题。随后,#淘宝崩了# 话题迅速登上微博热搜榜,并占据榜首第一。

如今,即使互联网相关技术已经迭代多轮,却仍然存在许多大规模以及时间长的宕机事件发生。

针对这类问题,在 CSDN 之前报道的《“一天宕机三次”,为什么高并发这么难?》一文中提到,可以从两个方面进行解析:

  • 一方面故障是不可避免的,有人为的故障(人是容易出错的——Human Error)和非人为的故障(机器 Failure)。这些是无计划的停机,还有有计划的停机,如发布新系统、升级维护、更新硬件等。这也是为什么行业中即使部分公司做得再好也只能说自己能做到多少个 9,而非 100% 的主要原因。
  • 当前,我们所能努力的就是尽可能地做到多少个 9,这其中需要很强的技术实力支撑。

级别

可用性级别

通俗说法

年度停机时间

配套措施

基本可用性

99%

2 个 9

3d-15h-39m-29s

服务在一个数据中心里有冗余,简单基础的自动化运维

高可用性

99.9%

3 个 9

8h-45m-56s 

大量的自动化故障工具,以及各种控制调度系统等基础设施要做好

具有故障自动恢复

99.99%

4 个 9

52m-35s

本地多机房(像 AWS 一样每个地方都有三个可用区)

极高可用性

99.999%

5 个 9

5m-15s

远程多机房,异地多活

  • 另一方面,从分布式架构设计来说,世界上的软件都是有故障的,当故障发生时,大家首先希望故障不要蔓延开,能够控制得住,其次还希望故障的时间越短越好,不要太长。

然而,架构系统也有很多的依赖,如基础设施 DNS、CDN、运营商、机房等等,想要实现稳定,需要大家一起实现。

4、网友:请给程序员加工资!

的确,服务器一旦宕机,消费者就无法对网站进行访问,客户下不了单,直接就会对公司经济利润造成很大的影响,甚至还可能影响到网站在搜索引擎上的收录和排名。

因此,每一年各个平台的促销拉开序幕之际,开发和运维人员都面临巨大的挑战。

伴随着#唯品会崩了相关负责人被免职#等话题再次引发大家关注,许多人纷纷留言表示:

  • “希望以后大公司会有一套很完善的避免和处理宕机事故的流程”;
  • “宕机是各家常有现象,这么久的处理时间就确实邋遢了”;
  • “还是要加强基础设施建设和技术管理”;
  • “关键时候千万不能崩,这个影响到的客户数量”。

与此同时,也有不少网友借此表达了对程序员职业的关怀:

  • “服务器宕机这个事情挺正常的,辛苦开发人员们维护了”;
  • “我曾经是程序员,知道维护的不易,请给程序员们加工资”。

那么,你经历过服务器宕机吗?可以在评论区留言和讨论。

参考链接:

https://news.mydrivers.com/1/914/914671.htm

https://www.163.com/dy/article/I6HMABGN0553V12F.html

https://k.sina.com.cn/article_3172142827_bd130eeb0190120sh.html

移动互联网
本作品采用《CC 协议》,转载必须注明作者和本文链接
与个人消费者移动应用相比,企业移动应用的显著特点是业务本身的敏感性,特别是企业敏感程度较高的办公类、生产类、销售类应用,其业务更需要严格保护。由于企业移动业务的重要性和特殊性,其面临的安全风险将比公众移动网络更加突出和严峻,一旦遭受攻击其影响和后果将非常严重。
标准内容简析SDK在设计开发时聚焦于功能的实现,安全风险难以完全避免,需要通过规范安全开发、运营流程尽量减少风险。对SDK数据传输机制进行规范,可以降低数据在传输过程中被截获、窃取的风险,是提高产品安全水平的重要一环。针对其这一特征,对SDK重要组件、联调机制、安全配置提出要求,提升SDK开发集成的安全性、便利性,为产品推广提供助力。测评方法紧扣安全要求,可以有效指导SDK安全测评工作的开展。
为了进一步规范移动互联网应用程序信息服务管理,促进行业健康有序发展,保障公民、法人和其他组织的合法权益,营造清朗网络空间,根据《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》《互联网信息服务管理办法》《网络信息内容生态治理规定》等法律规定,国家互联网信息办公室对2016年8月1日正式施行的《移动互联网应用程序信息服务管理规定》进行了修订,现向社会公开征求意见
对通过浏览器以链接或二维码等方式提供下载服务的,须按照《移动互联网应用程序信息服务管理规定》进行备案。三是严厉打击诱导充值。从严惩处应用程序诱导未成年人充值消费。采取多种形式,强化舆论宣传引导,加强典型案例通报,有效凝聚社会共识,动员社会各方广泛参与。
中国信息通信研究院一直以来专注于移动互联网反欺诈方面的研究,在2021年5月面向行业发布了《移动数字广告与互联网反欺诈蓝皮报告》。为了更好地研判移动互联网反欺诈现状、探讨流量造假防护手段、构建高质量流量标准,中国信通院拟于2022年8月12日举办2022移动互联网反欺诈研讨会。本次研讨会将邀请研究机构、运营商、互联网厂商、反欺诈服务商相关专家。
新《规定》自2022年8月1日起施行。国家互联网信息办公室有关负责人表示,修订发布新《规定》旨在进一步依法监管移动互联网应用程序,促进应用程序信息服务健康有序发展。
中国电子技术标准化研究院联合北京理工大学、中国网络安全审查技术与认证中心等34家单位,研制了《移动互联网应用程序(App)收集个人信息基本要求》。
近日,证监会发布《证券期货业移动互联网应用程序安全检测规范》金融行业标准,自公布之日起施行。 近年来,证券期货业移动应用体系建设快速发展,环境日臻完善,工具应用日益广泛,移动应用提供了快速便捷的证券业务服务,同时也存在一些安全隐患。《证券期货业移动互联网应用程序安全检测规范》规定了证券期货业移动互联网应用程序安全检测的总体要求及检测方法等,适用于信息安全检测服务、移动互联网应用程序的安全测试评估
VSole
网络安全专家