因 AWS 数据中心断电,1TB 数据丢失了

美国劳动节周末,亚马逊网络服务中心的一个数据中心发生断电,导致部分客户数据丢失。

我们被告知,当电源耗尽,备份生成器随后出现故障时,一些虚拟服务器实例就会消失,而一些云承载的卷就会被销毁,必须从备份中恢复(在可能的情况下)。

今天一位注册读者向我们透露,周六上午,亚马逊的云业务开始在其 us – east -1 地区遭遇崩溃。

我们的情报人员告诉我们,他们在 Amazon 的云托管 Elastic Block Store(EBS)中有超过 1TB 的数据,这些数据在宕机期间消失了:他们被告知“与您的 EBS 卷相关的底层硬件发生了故障,与卷相关的数据不可恢复。”

我们的读者要求保持匿名,他能够手动从大约 8 小时前方便地拍摄的 EBS 快照中恢复数据。没有这个备份,他们可能无法恢复任何丢失的信息:亚马逊的工程师们能够恢复绝大多数被击落的系统,尽管不是所有的存储容量都能在这次硬着陆中幸存下来。

AWS 工作人员告诉那些不幸的客户,尽管他们试图恢复丢失的比特和字节,但有些 1 和 0 被永久打乱了:“少量的卷是驻留在硬件损失的不利影响的力量。但是,由于 power 事件造成的损坏,这些卷的底层 EBS 服务器还没有恢复。

“在进一步尝试恢复这些卷之后,它们被确定为不可恢复的。”

与此同时,一个客户和技术顾问 Andy Hunt,不仅在推特上抱怨说,他们的数据在断电时被破坏,但还声称失败的原因并不是迅速传达到用户:“AWS 电源故障,备用发电机失败,造成他们死亡 EBS 服务器,它带着我们所有的数据。然后他们花了四天的时间才弄明白并告诉我们。

“提醒:云只是莱斯顿的一台电源不好的计算机。”

记者无法联系到 AWS 发言人置评。

“受损”

虽然 AWS 的状态页面上公布了一些停机时间的细节,但 El Reg 看到了一系列更详细的通知,这些通知向客户解释了这个错误。

就在 11:00 PDT 之前,AWS 指出,“在 US-East-1 地区的六个可用区域之一的十个数据中心中,有一个出现了公用电力故障。备用发电机立即启动,但由于我们仍在调查的原因,在 06:00 PDT 左右开始迅速失灵。”

“这导致该可用性区域中 7.5% 的实例在 06:10 PDT 之前失败,”报告继续说道。“在过去几个小时内,我们已经恢复了大多数实例,但在可用性区域内仍有 1.5% 的实例有待恢复。EBS 也存在类似的影响,我们将继续恢复 EBS 中的卷。在该区域启动新实例将继续正常工作。”

大约几小时后,在太平洋标准时间 13:30 分,AWS 澄清并扩展了它的说明如下:

在 04:33 PDT,位于 US-East-1 地区六个可用区域之一的十个数据中心之一出现了公用电力故障。我们的备用发电机立即启动,但在 06:00 PDT 左右开始失灵。这影响了可用性区域中 7.5% 的 EC2 实例和 EBS 卷。

在 PDT 为 07:45 时,受影响的数据中心已完全恢复供电。到 10:45 PDT 时,除 1% 以外的所有实例都恢复了,到 12:30 PDT 时,只有 0.5% 的实例仍然受损。自影响开始以来,我们一直在努力恢复剩余的实例和卷。少量剩余的实例和卷托管在硬件上,这些硬件受到断电的不利影响。我们将继续努力恢复所有受影响的实例和卷,并将通过个人健康仪表板与其余受影响的客户进行通信。为了立即恢复,我们建议尽可能替换任何剩余的受影响的实例和卷。

因此,根据 Amazon 的说法,实际上,在美国西海岸时间周六凌晨,AWS 数据中心断电,一个半小时后,备份生成器发生故障,在可用性区域内,每 10 台 EC2 虚拟机和 EBS 卷中只有 1 台宕机。

几个小时后,99.5% 的受影响系统已经恢复,而在那些仍然“受损”的系统中,有些是不可恢复的,这迫使订阅者取出备份——假设他们保留了备份。