业务连续性规划和灾难恢复

您正在查看的是 Apigee Edge 文档。
转到 Apigee X 文档
信息

Apigee 是一个多租户、自助式云端平台,可在全球多个地区的多个数据中心以完全冗余(实时/实时)配置运行。Apigee 将 Google Cloud Platform (GCP) 和 Amazon Web Services (AWS) 用于我们的云端平台。作为我们在 GCP 和 AWS 上构建的服务的一部分,我们使用每个区域内的多个数据中心,并为这些数据中心内的客户处理实时流量。我们没有“实时”数据中心和“备用”(或“辅助”或“故障切换”)数据中心。我们持续拥有两个(或更多)数据中心,同时为全球每个区域的客户流量提供服务。

BCP/DR 方案

Apigee 业务连续性规划和灾难恢复 (BCP/DR) 是一项平台级方案,不包含针对单个客户的详细任务。相反,平台配置为处理客户数据请求,而不考虑中断和服务中断。即使整个数据中心都处于离线状态,数据仍会继续流动。如果整个区域都将下线,单区域客户可能会遇到 API 处理服务中断的情况。对于需要“区域内”冗余服务的客户,Apigee 可提供全球冗余级别的冗余数据中心,并通过该数据中心在多个区域或国家/地区处理流量,这样即使整个区域离线,数据仍然可以流动。

由于数据处理和访问可能存在地理限制,单一区域的客户服务不会自动转移到另一个区域。Apigee 会为客户确定的区域内的客户提供服务。由于数据的地理位置可能有特定的法规或客户承诺,因此 Apigee 不会自动将服务迁移到备用区域,因为这可能会破坏 Apigee 对客户的承诺或 Apigee 客户对其客户的承诺。

Apigee 不与任何个人客户共享完整的 BCP/DR 计划,因为它包含 Apigee 内部敏感信息以及对我们客户的参考。我们的隐私权政策禁止与可能会泄露其他客户名称的个人客户共享平台 BCP/DR 方案。我们为每个客户提供同等级别的隐私保护。

BCP/DR 管理

Apigee 信息安全团队负责监督业务弹性计划,而轮班的突发事件指挥官则负责所有突发事件的管理和解决。 突发事件指挥官将随时值班的运营和工程人员,以及需要采取的所有行动的策略方案。

BCP/DR 测试

与完整的年度 BCP/DR 桌面测试相比,Apigee 执行的操作流程支持平台的 BCP/DR 测试频率更高。Apigee 每个月都会从我们的实时/实时环境中执行负载调整,同时对运行服务的系统进行更新。此过程涉及关闭一个整个数据中心的系统,同时由对等数据中心处理负载。在此过程中,在执行任何更新后,系统将恢复第一个数据中心,并再次实时/实时运行服务,以确认未引入任何问题。然后,对等数据中心在执行相同的更新时关闭,然后重新连接到网络。Apigee 使用工具和技术来排空流量,并将一小部分流量发送到最近更新的服务,以在恢复全负载处理之前检查是否存在任何问题或错误。

这种一致的运营流程使得我们的服务成为一项更加频繁的运营任务,因而超出了业界标准的每半年一次的弹性“测试”。

除了上述运营流程之外,Apigee 还每年至少进行一次桌面 BCP/DR 演练。在这种演练中,工程和运营团队成员会与其他 Apigee 业务部门的人员汇聚一堂,以逻辑方式模拟并浏览问题、响应及在模拟灾难场景中所做决策的影响。除了服务本身之外,这为整个企业的更大 BCP/DR 计划提供了额外的培训和经验。

Apigee 完成的 BCP/DR 测试不使用“故障切换练习”或“次要位置”,因为这些内容都内置于正在运行的系统中。

Apigee 确实维护着策略方案,供所有运营和工程团队使用。这些策略方案至少每年审核和更新一次,并用于我们所有的 BCP/DR 测试和培训练习。

Apigee 不会与具体客户共享 BCP/DR 测试报告,因为这些测试是在平台级别完成的,而不是在客户级别完成。我们会与第三方审核机构分享运营任务的结果和年度桌面演习测试报告,这些结果是审核机构对我们是否遵守 PCI、HIPAA、合同和其他要求的依据。

客户 BCP/DR 测试

我们鼓励客户在自己的 DR 计划中纳入 Apigee Edge 服务。客户可以并且应该考虑 Apigee 如何根据需要重定向流量,以维护最终用户服务,即使在客户数据中心中断或其他灾难事件期间也是如此。但是,这种级别的测试不在 Apigee DR 计划的范围之内。我们鼓励客户对自己的应用执行 BCP/DR 测试,并将 Apigee Edge 纳入测试中。

RTO/RPO

Apigee 没有客户的恢复点和恢复时间目标 (RPO/RTO),也没有在与 BCP/DR 活动相关的合同中列出。我们的 SLA 相当于 RTO/RPO 数据点的云端服务。由于 Apigee 是基于云的冗余服务,管理服务和运行时服务均使用冗余实时服务进行架构设计,因此 RTO 和 RPO 都可以被视为“实时”服务。单区域客户在同一区域的不同数据中心内会收到最少的冗余服务。需要更高冗余级别的客户可以选择多区域服务。

疫情方案

Apigee 将疫情计划纳入了我们整体 BCP/DR 计划和流程。由于 Apigee 是一项云托管服务,因此没有要求由个人管理数据中心。对于支持等业务运营,Apigee 拥有多个办事处和远程位置,运营着一个全天候的全球支持团队。如果全球某个地区的流行病影响了我们的一个支持地点,其他办公室的人员将收到警报并负责通常由受影响办公室处理的轮班。对于其他商业服务(例如销售),员工分布在全球各地。Apigee 的所有团队均已做好远程工作的准备,可以在需要时开展工作。Apigee 中使用的工具基于云,可自然地用于防疫应对计划。

更新

Apigee 至少每年都会审核并更新一次 BCP/DR 计划。通过突发事件、产品变更、行业标准、风险分析活动和 BCP/DB 测试收集的信息将用于更新方案。

业务影响分析和风险评估

Google 每年进行一次业务影响分析和一次风险评估。 BIA 和 RA 的结果将优先处理并记录在问题跟踪系统中。