阿里云发布香港Region可用区C服务中断事件的说明 – 蓝点网 | {$randkws}热点解读以下信息转自阿里云权威

来源：齿如编贝网 | 栏目：探索 | 2026-06-15 09:51:22

以下信息转自阿里云权威，阿里云本着负责任的态度公开了这次中断事情的完整报表，欲知晓更多商品请访问阿里云官网：https://ourl.co/aliho

北京时间2022年12月18日，阿里云香港Region可用区C发生大规模办事中断事情。经过复盘，我们在这里向大家进一步说明故障状况、李现就业形势难题确认和改进举措。

处理过程

12月18日08:56，阿里云监控到香港Region可用区C机房包间通道温控告警，阿里云工程师介入应急处理，通知机房办事商开展实地排查。09:01，阿里云监控到该机房多个包间温升告警，此时工程师排查到冷机异常。09:09，机房办事商按应急预案对异常冷机开展4+4主备切换以及重启，但操控失利，冷水机组无法重启正常。09:17，依照故障处理流程，开启制冷异常应急预案，开展辅助散热和应急通风。使用对冷机控制操控系统逐个开展隔离和手工重启操控，但察觉无法稳定管理，联系冷机设备供应商到实地排查。关注纪录片分析此时，由于高温缘由，若干办事器着手受到作用。

自10:30着手，为避免或许呈现的高温消防难题，阿里云工程师陆续对全部机房计算、存储、联网、资料库、大资料集群开展降载处理。期间，持续多次对冷机设备开展操控，但均不能维持稳定管理。

12:30，冷机设备供应商到场，在多方工程师诊断下，对冷塔、冷却水管路及冷机冷凝器开展手工补水排气操控，但操控系统依然无法维持稳定管理。阿里云工程师对若干高温包间开启办事器关机操控。14:47，冷机设备供应商对设备难题排查遇到艰难，其中一个包间因高温触发了强制消防喷淋。15:20，今天权威王者荣耀经冷机设备商工程师实地手工改动参数，冷机群控解锁达成并独立管理，第1台冷机重启正常，温度着手下降。工程师接着持续经由一样方法对其他冷机开展操控。18:55，4台冷机重启到正常制冷量。19:02，分批开启办事器，并持续观察温升状况。19:47，机房温度趋于稳定。另外，阿里云工程师着手开展办事开启重启，并开展必要的资料完整性检查。

21:36，大若干机房包间办事器陆续开启并达成检查，机房温度稳定。其中一个包间因消防喷淋开启，未开展办事器上电。由于维持资料的完整性至关重大，工程师对这个包间的办事器开展了认真的资料可靠检查，这里花费了一些必要的时间。22:50，回顾短视频算法解读资料检查以及隐患评估达成，最后一个包间依据可靠性逐步开展供电重启和办事器开启。

办事作用

12月18日09:23，香港Region可用区C若干ECS办事器着手呈现停机，触发同可用区内宕机迁移。随着温度持续升高，受作用的办事器停机数量持续增多，客户业务着手受到作用，作用面拓展到香港可用区C的EBS、OSS、RDS等更多云办事。

阿里云香港可用区C的故障，没有直接作用客户在香港其他可用区管理的业务，但作用了香港Region ECS推动办事（Control Plane）的正常使用。因众多可用区C的客户在香港其他可用区新购ECS实例，从12月18日14:49着手，ECS推动办事触发限流，可用性最低跌至20%。客户在使用RunInstances/CreateInstance API采购新ECS实例时，假如指定了自定义镜像，若干实例在采购顺利之后会呈现开启失利的现象，由于自定义镜像资料办事依赖可用区C的单AZ冗余版次的OSS办事，无法经由重试解决。此时，若干Dataworks、k8s使用者控制台操控也受到了故障作用。API完全重启可用为当日23:11。

12月18日10:37，阿里云香港可用区C的若干存储办事OSS着手受到停机作用，此时客户暂不会感知，但持续高温会导致磁盘坏道，作用资料可靠，工程师对办事器开展停机操控，从11:07至18:26中断了办事。阿里云在香港Region可用区C提供了2种类型的OSS办事，一种是OSS本地冗余LRS办事（通常叫单AZ冗余办事），仅部署在可用区C；另一种是OSS同城冗余ZRS办事（通常叫3AZ冗余办事），部署在可用区B、C和D。在此次故障中，OSS同城冗余ZRS办事基础没有受到作用。可用区C的OSS本地冗余办事中断时间较长，因不扶持跨可用区切换，需要依赖故障机房的重启。从18:26着手，存储办事器重新分批开启。其中，单AZ本地冗余LRS办事有若干办事器因消防难题需要做隔离处理。重启办事前，我们必须要确保资料可靠性，花费了较多的时间开展完整性测试岗位。直至12月19日00:30，这若干OSS办事（单AZ冗余办事）才重启了对外办事能力。

阿里云联网些许单可用区商品（如：VPN、Privatelink以及些许GA实例）在此次故障中受到作用。12月18日11:21，工程师开启联网商品可用区容灾逃逸，12:45达成SLB等大若干联网商品可用区容灾逃逸，13:47NAT商品达成收尾逃逸。除上述些许单可用区商品以外，各联网商品在故障期间维持了业务连续性，NAT有分钟级业务受损。

12月18日10:17着手，阿里云香港Region可用区C若干RDS实例呈现不可用的报警。随着该可用区受故障作用的主机范围拓展，呈现办事异常的实例数量随之增多，工程师开启资料库应急切换预案流程。截至12:30，RDS MySQL与Redis、MongoDB、DTS等大若干跨可用区实例达成跨可用区切换。若干单可用区实例以及单可用区高可用实例，由于依赖单可用区的资料备份，仅些许实例做到有效迁移。些许扶持跨可用区切换的RDS实例没有及时达成切换。经排查是由于这若干RDS实例依赖了部署在香港Region可用区C的代理办事，由于代理办事不可用，无法经由代理地址访问RDS实例。我们合作有关客户经由暂时切换到使用RDS主实例的地址访问来开展重启。随着机房制冷设备重启，21:30左右绝大若干资料库实例重启正常。针对受故障作用的单机版实例及主备均在香港Region可用区C的高可用版实例，我们提供了克隆实例、实例迁移等暂时性重启计划，但由于底层办事资源的限制，若干实例的迁移重启过程遇到一些异常状况，需要花费较长的时间来处理解决。

我们注意到，另外在多个可用区管理业务的客户，在这次事情中依然可以维持业务管理。针对业务需要绝对高可用的客户，我们持续提议您使用全链路多可用区的业务架构设计，以应对各类或许的意外事情。

难题确认与改进举措

1、冷机操控系统故障重启时间过长

缘由确认：机房冷却操控系统缺水进气形成气阻，作用水路循环导致4台主冷机办事异常，开启4台备冷机时因主备共用的水路循环操控系统气阻导致开启失利。水盘补水后，因机房冷却操控系统的群控逻辑，无法单台独立开启冷机，手工更改冷机参数，将冷机从群控改动为独立管理后，陆续开启冷机，作用了冷却操控系统的重启时长。全部过程中，缘由定位耗时3小时34分钟，补水排气耗时2小时57分钟，解锁群控逻辑开启4台冷机耗时3小时32分钟。

改进举措：完整检查机房基础设施推动操控系统，在监控资料采集层面，拓展覆盖度，提升精细度，提升对故障的排查和定位速度；在设施推动逻辑层面，确保操控系统自动切换逻辑符合预期，另外保证手工切换的精确性，防止内部状态死锁从而作用故障的重启。

2、实地处置不及时导致触发消防喷淋

缘由确认：随着机房冷却操控系统失效，包间温度逐步升高，导致一机房包间温度达到临界值触发消防操控系统喷淋，电源柜和多列机柜进水，若干机器设备损坏，增多了后续重启难度和时长。

改进举措：加强机房办事商治理，梳理机房温升预案及规范化执行动作，明确温升场景下的业务侧关机和机房强制关电的预案，力求更简易有效，并经由常态化演练强化执行。

3.客户在香港地域新购ECS等推动操控失利

缘由确认：ECS推动操控系统为B、C可用区双机房容灾，C可用区故障后由B可用区对外提供办事，由于众多可用区C的客户在香港其他可用区新购实例，另外可用区C的ECS实例拉起重启动作引入的流量，导致可用区 B 推动办事资源不足。新扩容的ECS推动操控系统开启时依赖的中间件办事部署在可用区C机房，导致较长时间内无法扩容。ECS推动依赖的自定义镜像资料办事，依赖可用区C的单AZ冗余版次的OSS办事，导致客户新购实例后呈现开启失利的现象。

改进举措：全网巡检，整体完善多AZ商品高可用设计，避免呈现依赖OSS单AZ和中间件单AZ的难题。加强阿里云推动平面的容灾演练，进一步提升云商品高可用容灾逃逸能力。

4、故障信息亮相不够及时透明

缘由确认：故障发生后阿里云开启对客钉群、公告等通知手段，由于实地冷机处理进展慢慢，有效信息不够。Status Page页面信息升级不及时引发客户困惑。

改进举措：提升故障作用和客户作用的高效评估和确认拉取能力。尽快启动新版的阿里云办事养生状态页面（Status Page），提升信息亮相的速度，让客户可以更便捷地知晓故障事情对各类商品办事的作用。

归纳

最后，我们要向所有受到故障作用的客户公开致歉，并尽快处理赔偿事宜。此次香港Region可用区C办事中断事情，对很多客户的业务形成重大作用，也是阿里云管理十多年来持续时间最长的一次大规模故障。稳定性是云办事的生命线，对我们的客户至关重大。我们将尽一切奋斗从此次事情中吸取经验教训，持续提升云办事的稳定性，不辜负客户所托！

阿里云

2022年12月25日

李现就业形势关注纪录片分析今天权威王者荣耀

上一篇：LOL英雄联盟2018赛季正式开启全新征程不容错过

下一篇：《全面战争传奇：不列颠王座》最新预告视频公布

《塞尔达传说：荒野之息》年度最佳游戏奖排名第一

西安景面保举西安有哪些景面值得一往

襄阳古隆中景面先容+门票+开放时候

家象谷玩耍攻略家象谷正在哪

《噬神者3》最新截图预览全新武器新荒神现身

超写真两战游戏《烽水兄弟连：天国公路》本日上市

《遗址2》尾款DLC预报 11月14日上线