阿里云发布香港Region可用区C服务中断事件的说明 – 蓝点网 | {$randkws}热点解读 以下信息转自阿里云权威
以下信息转自阿里云权威,阿里云本着负责任的态度公开了这次中断事情的完整报表,欲知晓更多商品请访问阿里云官网:https://ourl.co/aliho
北京时间2022年12月18日,阿里云香港Region可用区C发生大规模办事中断事情。经过复盘,我们在这里向大家进一步说明故障状况、李现就业形势难题确认和改进举措。
处理过程
12月18日08:56,阿里云监控到香港Region可用区C机房包间通道温控告警,阿里云工程师介入应急处理,通知机房办事商开展实地排查。09:01,阿里云监控到该机房多个包间温升告警,此时工程师排查到冷机异常。09:09,机房办事商按应急预案对异常冷机开展4+4主备切换以及重启,但操控失利,冷水机组无法重启正常。09:17,依照故障处理流程,开启制冷异常应急预案,开展辅助散热和应急通风。使用对冷机控制操控系统逐个开展隔离和手工重启操控,但察觉无法稳定管理,联系冷机设备供应商到实地排查。关注纪录片分析此时,由于高温缘由,若干办事器着手受到作用。
自10:30着手,为避免或许呈现的高温消防难题,阿里云工程师陆续对全部机房计算、存储、联网、资料库、大资料集群开展降载处理。期间,持续多次对冷机设备开展操控,但均不能维持稳定管理。
12:30,冷机设备供应商到场,在多方工程师诊断下,对冷塔、冷却水管路及冷机冷凝器开展手工补水排气操控,但操控系统依然无法维持稳定管理。阿里云工程师对若干高温包间开启办事器关机操控。14:47,冷机设备供应商对设备难题排查遇到艰难,其中一个包间因高温触发了强制消防喷淋。15:20,今天权威王者荣耀经冷机设备商工程师实地手工改动参数,冷机群控解锁达成并独立管理,第1台冷机重启正常,温度着手下降。工程师接着持续经由一样方法对其他冷机开展操控。18:55,4台冷机重启到正常制冷量。19:02,分批开启办事器,并持续观察温升状况。19:47,机房温度趋于稳定。另外,阿里云工程师着手开展办事开启重启,并开展必要的资料完整性检查。
21:36,大若干机房包间办事器陆续开启并达成检查,机房温度稳定。其中一个包间因消防喷淋开启,未开展办事器上电。由于维持资料的完整性至关重大,工程师对这个包间的办事器开展了认真的资料可靠检查,这里花费了一些必要的时间。22:50,回顾短视频算法解读资料检查以及隐患评估达成,最后一个包间依据可靠性逐步开展供电重启和办事器开启。
办事作用
12月18日09:23,香港Region可用区C若干ECS办事器着手呈现停机,触发同可用区内宕机迁移。随着温度持续升高,受作用的办事器停机数量持续增多,客户业务着手受到作用,作用面拓展到香港可用区C的EBS、OSS、RDS等更多云办事。
阿里云香港可用区C的故障,没有直接作用客户在香港其他可用区管理的业务,但作用了香港Region ECS推动办事(Control Plane)的正常使用。因众多可用区C的客户在香港其他可用区新购ECS实例,从12月18日14:49着手,ECS推动办事触发限流,可用性最低跌至20%。客户在使用RunInstances/CreateInstance API采购新ECS实例时,假如指定了自定义镜像,若干实例在采购顺利之后会呈现开启失利的现象,由于自定义镜像资料办事依赖可用区C的单AZ冗余版次的OSS办事,无法经由重试解决。此时,若干Dataworks、k8s使用者控制台操控也受到了故障作用。API完全重启可用为当日23:11。
12月18日10:37,阿里云香港可用区C的若干存储办事OSS着手受到停机作用,此时客户暂不会感知,但持续高温会导致磁盘坏道,作用资料可靠,工程师对办事器开展停机操控,从11:07至18:26中断了办事。阿里云在香港Region可用区C提供了2种类型的OSS办事,一种是OSS本地冗余LRS办事(通常叫单AZ冗余办事),仅部署在可用区C;另一种是OSS同城冗余ZRS办事(通常叫3AZ冗余办事),部署在可用区B、C和D。在此次故障中,OSS同城冗余ZRS办事基础没有受到作用。可用区C的OSS本地冗余办事中断时间较长,因不扶持跨可用区切换,需要依赖故障机房的重启。从18:26着手,存储办事器重新分批开启。其中,单AZ本地冗余LRS办事有若干办事器因消防难题需要做隔离处理。重启办事前,我们必须要确保资料可靠性,花费了较多的时间开展完整性测试岗位。直至12月19日00:30,这若干OSS办事(单AZ冗余办事)才重启了对外办事能力。
阿里云联网些许单可用区商品(如:VPN、Privatelink以及些许GA实例)在此次故障中受到作用。12月18日11:21,工程师开启联网商品可用区容灾逃逸,12:45达成SLB等大若干联网商品可用区容灾逃逸,13:47NAT商品达成收尾逃逸。除上述些许单可用区商品以外,各联网商品在故障期间维持了业务连续性,NAT有分钟级业务受损。
12月18日10:17着手,阿里云香港Region可用区C若干RDS实例呈现不可用的报警。随着该可用区受故障作用的主机范围拓展,呈现办事异常的实例数量随之增多,工程师开启资料库应急切换预案流程。截至12:30,RDS MySQL与Redis、MongoDB、DTS等大若干跨可用区实例达成跨可用区切换。若干单可用区实例以及单可用区高可用实例,由于依赖单可用区的资料备份,仅些许实例做到有效迁移。些许扶持跨可用区切换的RDS实例没有及时达成切换。经排查是由于这若干RDS实例依赖了部署在香港Region可用区C的代理办事,由于代理办事不可用,无法经由代理地址访问RDS实例。我们合作有关客户经由暂时切换到使用RDS主实例的地址访问来开展重启。随着机房制冷设备重启,21:30左右绝大若干资料库实例重启正常。针对受故障作用的单机版实例及主备均在香港Region可用区C的高可用版实例,我们提供了克隆实例、实例迁移等暂时性重启计划,但由于底层办事资源的限制,若干实例的迁移重启过程遇到一些异常状况,需要花费较长的时间来处理解决。
我们注意到,另外在多个可用区管理业务的客户,在这次事情中依然可以维持业务管理。针对业务需要绝对高可用的客户,我们持续提议您使用全链路多可用区的业务架构设计,以应对各类或许的意外事情。
难题确认与改进举措
1、冷机操控系统故障重启时间过长
缘由确认:机房冷却操控系统缺水进气形成气阻,作用水路循环导致4台主冷机办事异常,开启4台备冷机时因主备共用的水路循环操控系统气阻导致开启失利。水盘补水后,因机房冷却操控系统的群控逻辑,无法单台独立开启冷机,手工更改冷机参数,将冷机从群控改动为独立管理后,陆续开启冷机,作用了冷却操控系统的重启时长。全部过程中,缘由定位耗时3小时34分钟,补水排气耗时2小时57分钟,解锁群控逻辑开启4台冷机耗时3小时32分钟。
改进举措:完整检查机房基础设施推动操控系统,在监控资料采集层面,拓展覆盖度,提升精细度,提升对故障的排查和定位速度;在设施推动逻辑层面,确保操控系统自动切换逻辑符合预期,另外保证手工切换的精确性,防止内部状态死锁从而作用故障的重启。
2、实地处置不及时导致触发消防喷淋
缘由确认:随着机房冷却操控系统失效,包间温度逐步升高,导致一机房包间温度达到临界值触发消防操控系统喷淋,电源柜和多列机柜进水,若干机器设备损坏,增多了后续重启难度和时长。
改进举措:加强机房办事商治理,梳理机房温升预案及规范化执行动作,明确温升场景下的业务侧关机和机房强制关电的预案,力求更简易有效,并经由常态化演练强化执行。
3.客户在香港地域新购ECS等推动操控失利
缘由确认:ECS推动操控系统为B、C可用区双机房容灾,C可用区故障后由B可用区对外提供办事,由于众多可用区C的客户在香港其他可用区新购实例,另外可用区C的ECS实例拉起重启动作引入的流量,导致可用区 B 推动办事资源不足。新扩容的ECS推动操控系统开启时依赖的中间件办事部署在可用区C机房,导致较长时间内无法扩容。ECS推动依赖的自定义镜像资料办事,依赖可用区C的单AZ冗余版次的OSS办事,导致客户新购实例后呈现开启失利的现象。
改进举措:全网巡检,整体完善多AZ商品高可用设计,避免呈现依赖OSS单AZ和中间件单AZ的难题。加强阿里云推动平面的容灾演练,进一步提升云商品高可用容灾逃逸能力。
4、故障信息亮相不够及时透明
缘由确认:故障发生后阿里云开启对客钉群、公告等通知手段,由于实地冷机处理进展慢慢,有效信息不够。Status Page页面信息升级不及时引发客户困惑。
改进举措:提升故障作用和客户作用的高效评估和确认拉取能力。尽快启动新版的阿里云办事养生状态页面(Status Page),提升信息亮相的速度,让客户可以更便捷地知晓故障事情对各类商品办事的作用。
归纳
最后,我们要向所有受到故障作用的客户公开致歉,并尽快处理赔偿事宜。此次香港Region可用区C办事中断事情,对很多客户的业务形成重大作用,也是阿里云管理十多年来持续时间最长的一次大规模故障。稳定性是云办事的生命线,对我们的客户至关重大。我们将尽一切奋斗从此次事情中吸取经验教训,持续提升云办事的稳定性,不辜负客户所托!
阿里云
2022年12月25日
上一篇:LOL英雄联盟2018赛季正式开启 全新征程不容错过