删库黑天鹅事件启示录:如何完善你的容灾体系?

再次发生黑天鹅事件

某云服务商发生员工删库,业务中断

最近某 SaaS 服务商遭员工恶意删库事件引发热评,据媒体报道,删库事件导致业务中断超 36 小时,影响商户 300 万。业界普遍关注删库事件的响应,对客户造成的影响和经济损失。

已建容灾却仍然造成数据丢失和业务中断,普通吃瓜群众不太能够理解为何仍然发生这种情况。

此类黑天鹅事件原因并不复杂,很多企业虽然建了容灾,但可能会犯以下“错误”:

1. 容灾技术方案不完善,只考虑数据的物理损坏保护,没有考虑逻辑损害保护,数据保护手段缺失,未形成立体防护:

  • 对物理损坏(系统故障、介质损坏等)进行了的保护,例如公有云普遍采用三份拷贝,单份拷贝损害不会导致数据丢失;

  • 遗漏了对逻辑损坏(人为误操作、恶意破坏、程序 bug 等)的保护,没有建立隔离数据保护。

2. 忽视了容灾体系中的管控和治理,管控、治理和技术互相融合才能形成容灾保护能力:

管控和治理是确保技术能够充分发挥作用的保障,通过流程和组织的管控发挥出人的主动性和创造性,并避免误操作和恶意破坏。而治理由上至下将组织的责任、权限进行设计并充分的贯彻并予以考核约束,最大化规避走过场和对容灾的忽视。

敲黑板划重点,具有以下情况的同学请注意

那只黑天鹅或许正潜伏在旁伺机而动

  • 已建容灾,没有定期演练

  • 已建容灾,数据保护手段不完善

  • 仅考虑容灾技术方案,没有建立容灾体系

  • 容灾体系疏于维护

新华三业务连续及容灾评估服务:

及时发现问题,提升容灾能力

新华三架构咨询服务参考国内外标准、依据多年服务各行业客户形成的最佳实践,提供业务连续及容灾评估服务,从技术、管控、治理角度,全方位评估客户业务连续和容灾能力,发现容灾和业务连续体系中的不足和欠缺,快速补齐短板,并提供后续优化完善建议,助力容灾能力形成及保持。