业务连续性规划和灾难恢复

您正在查看 Apigee Edge 文档。
前往 Apigee X 文档
信息

Apigee 是一个多租户、自助式、基于云的平台,在全球多个区域的多个数据中心以完全冗余(实时/实时)配置运行。Apigee 使用 Google Cloud Platform (GCP) 和 Amazon Web Services (AWS) 作为其基于云的平台。作为我们在 GCP 和 AWS 上构建的服务的一部分,我们在每个区域内使用多个数据中心,并为跨这些多个数据中心的客户提供实时流量服务。我们没有“实时”数据中心和“备用”(或“辅助”或“故障切换”)数据中心。我们拥有两个(或更多)数据中心,持续同时为全球每个地区的客户流量提供服务。

BCP/DR 方案

Apigee 业务连续性规划和灾难恢复 (BCP/DR) 是一个平台范围的计划,不包含针对单个客户的详细任务。相反,该平台被配置为无论中断和中断如何处理客户数据请求。即使整个数据中心离线,数据也会继续流动。如果整个区域都离线,则单个区域的客户可能会遇到 API 处理服务中断。对于需要更多“区域内”冗余服务的客户,Apigee 可在全球冗余级别的冗余数据中心使用,其中可以为多个区域或国家/地区的流量提供服务,这样如果整个区域都离线,数据仍会流动。

由于数据处理和访问可能存在地理限制,单一区域的客户服务不会自动转移到另一个区域。Apigee 会在客户指定的区域托管客户的服务。由于可能存在特定法规或客户对其用户做出的数据地理位置承诺,Apigee 不会自动将服务迁移到其他区域,因为这可能会违背 Apigee 对其客户的承诺或 Apigee 客户对其客户的承诺。

Apigee 不会与任何个人客户共享完整的 BCP/DR 方案,因为它包含 Apigee 内部敏感信息和对我们客户的引用。我们的隐私权政策禁止与可能暴露其他客户名称的个人客户共享平台 BCP/DR 方案。我们为每位客户提供相同级别的隐私保护。

BCP/DR 管理

Apigee 信息安全团队负责监督业务弹性计划,而轮值的事件指挥官负责管理和解决所有事件。 事件指挥官有随时待命的操作和工程人员以及可能需要采取的所有行动的策略方案。

BCP/DR 测试

与我们的年度 BCP/DR 桌面测试相比,Apigee 执行支持平台 BCP/DR 测试的操作流程更频繁。每个月,Apigee 都会在实时/实时环境中执行负载波动,同时对运行服务的系统进行更新。此过程涉及关闭整个数据中心的系统,而负载由对等数据中心处理。在此过程中,执行任何更新后,第一个数据中心将恢复运行,并再次实时/实时运行服务以验证没有引入任何问题。然后对等数据中心关闭以进行相同的更新,然后再次联机。Apigee 使用工具和技术来排出流量并将一小部分流量发送到最近更新的服务,以在返回全负载处理之前检查任何问题或错误。

这种一致的运维流程使服务的运维任务更加频繁,从而超越了行业标准每年两年的弹性恢复能力测试。

除了上述运维流程外,Apigee 还每年至少进行一次桌面 BCP/DR 演练,工程和运营团队成员会与其他 Apigee 业务部门一起,在模拟灾难场景中逻辑地模拟和演练问题、响应以及所做决定的影响。除了服务本身之外,这还为我们的人员提供了针对整个企业的更大 BCP/DR 方案的额外培训和经验。

Apigee 完成的 BCP/DR 测试不使用“故障切换练习”或“辅助位置”,因为所有这些都内置在运行系统中。

Apigee 确实会维护策略方案以供所有运维和工程团队使用。 这些手册每年至少会审核和更新一次,并用于我们的所有 BCP/DR 测试和训练练习中。

Apigee 不会与个别客户分享 BCP/DR 测试报告,因为这些测试是在平台级别(而非客户级别)进行的。我们会与第三方审计师分享我们的运维任务结果和年度桌面演练测试报告,这些构成了审计师审查我们是否符合 PCI、HIPAA、合同和其他要求的基础。

客户 BCP/DR 测试

我们鼓励客户将自己的 DR 计划纳入 Apigee Edge 服务。客户可以并且应该考虑 Apigee 如何根据客户需要重定向流量,以便即使在客户数据中心中断或其他灾难事件期间也能维持最终用户服务。但是,这种级别的测试不在 Apigee DR 计划的范围内。我们鼓励客户在他们自己的应用上执行 BCP/DR 测试,并在测试中包含 Apigee Edge。

RTO/RPO

Apigee 不为客户或在与 BCP/DR 活动相关的合同中提供恢复点和恢复时间目标 (RPO/RTO)。我们的服务等级协议 (SLA) 是 RTO/RPO 数据点的云等效项。由于 Apigee 是一种基于云的冗余服务,管理和运行时服务均采用冗余实时服务进行架构,因此 RTO 和 RPO 都可以被视为“实时”。单一区域客户在同一区域内的不同数据中心获得最少的冗余服务。需要更高级别冗余的客户可以选择多区域服务。

疫情方案

Apigee 将疫情方案作为整体 BCP/DR 方案和流程的一部分。由于 Apigee 是云托管服务,因此个人无需管理数据中心。对于支持等业务运维,Apigee 在多个办事处和远程地点设有全天候的全球支持团队。如果全球某个地区的流行病影响了我们的一个支持地点,其他办公室的人员将收到警报并负责通常由受影响办公室处理的轮班。对于销售等其他业务服务,劳动力分布在全球范围内。如果需要,Apigee 的所有团队都可以远程工作。Apigee 中使用的工具基于云技术,它们本身适合用于应对疫情。

更新

Apigee 每年至少会审核并更新一次我们的 BCP/DR 方案。我们使用从突发事件、产品变更、行业标准、风险分析活动和 BCP/DB 测试中收集的信息来更新方案。

业务影响分析和风险评估

Google 每年都会进行一次业务影响分析和一次风险评估。 BIA 和 RA 的结果在问题跟踪系统中按优先顺序排列并记录在案。