Reliability & Operations

Disaster Recovery

灾难恢复策略

Disaster recovery (DR) 是在自然灾害、网络攻击或业务中断后，恢复基础设施访问与功能的过程。

DR 依赖于把数据与计算复制到灾害影响之外的地点。当服务器因灾难宕机时，企业需要从备份地点恢复数据，并最好能将计算也切换过去，以继续运营。

DR 在 system design 面试中不常被问，但理解基础概念很重要。可参考 AWS Well-Architected Framework。

为什么需要 DR？

最小化中断与 downtime
降低损失
更快恢复
提升用户留存

Terms

disaster-recovery

RTO

Recovery Time Objective (RTO)：服务中断到恢复的最大可接受时间。

RPO

Recovery Point Objective (RPO)：可接受的最大数据丢失时间窗口。

Strategies

常见 DR 策略：

Back-up

最简单的 DR：数据离线或远端备份。

Cold Site

在第二站点搭建最基础设施，灾难时再恢复。

Hot site

Hot site 始终保持数据最新。建设成本高、准备耗时，但 downtime 最低。

相关练习题

Disaster Recovery

暂无相关练习题