Reliability & Operations
Disaster Recovery
灾难恢复策略
Disaster recovery (DR) 是在自然灾害、网络攻击或业务中断后,恢复基础设施访问与功能的过程。
DR 依赖于把数据与计算复制到灾害影响之外的地点。当服务器因灾难宕机时,企业需要从备份地点恢复数据,并最好能将计算也切换过去,以继续运营。
DR 在 system design 面试中不常被问,但理解基础概念很重要。可参考 AWS Well-Architected Framework。
为什么需要 DR?
- 最小化中断与 downtime
- 降低损失
- 更快恢复
- 提升用户留存
Terms

RTO
Recovery Time Objective (RTO):服务中断到恢复的最大可接受时间。
RPO
Recovery Point Objective (RPO):可接受的最大数据丢失时间窗口。
Strategies
常见 DR 策略:
Back-up
最简单的 DR:数据离线或远端备份。
Cold Site
在第二站点搭建最基础设施,灾难时再恢复。
Hot site
Hot site 始终保持数据最新。建设成本高、准备耗时,但 downtime 最低。