logo
Reliability & Operations

Disaster Recovery

灾难恢复策略

Disaster recovery (DR) 是在自然灾害、网络攻击或业务中断后,恢复基础设施访问与功能的过程。

DR 依赖于把数据与计算复制到灾害影响之外的地点。当服务器因灾难宕机时,企业需要从备份地点恢复数据,并最好能将计算也切换过去,以继续运营。

DR 在 system design 面试中不常被问,但理解基础概念很重要。可参考 AWS Well-Architected Framework

为什么需要 DR?

  • 最小化中断与 downtime
  • 降低损失
  • 更快恢复
  • 提升用户留存

Terms

disaster-recovery

RTO

Recovery Time Objective (RTO):服务中断到恢复的最大可接受时间。

RPO

Recovery Point Objective (RPO):可接受的最大数据丢失时间窗口。

Strategies

常见 DR 策略:

Back-up

最简单的 DR:数据离线或远端备份。

Cold Site

在第二站点搭建最基础设施,灾难时再恢复。

Hot site

Hot site 始终保持数据最新。建设成本高、准备耗时,但 downtime 最低。

相关练习题

Disaster Recovery

暂无相关练习题