Planejamento de continuidade de negócios e recuperação de desastres

Você está vendo a documentação do Apigee Edge.
Acesse a documentação da Apigee X.
informações

A Apigee é uma plataforma multilocatária, de autoatendimento e baseada em nuvem que é executada em uma configuração totalmente redundante (ativa/ao vivo) em vários data centers em várias regiões do mundo. A Apigee usa o Google Cloud Platform (GCP) e a Amazon Web Services (AWS) para nossa plataforma baseada em nuvem. Como parte dos serviços que criamos no GCP e na AWS, usamos vários data centers em cada região e processamos o tráfego em tempo real para os clientes em vários data centers. Não temos um data center "ativo" e um data center de "espera" (ou "secundário" ou "failover"). Temos dois (ou mais) data centers que atendem constante e simultaneamente ao tráfego de clientes em cada região do mundo.

Plano de BCP/DR

O planejamento de continuidade de negócios e a recuperação de desastres (BCP/DR, na sigla em inglês) da Apigee é um plano para toda a plataforma e não contém tarefas detalhadas para clientes individuais. Em vez disso, a plataforma é configurada para processar solicitações de dados de clientes, independentemente de interrupções ou falhas temporárias. Os dados continuarão fluindo mesmo que um data center inteiro esteja off-line. Se uma região inteira ficasse off-line, um cliente de região única poderia sofrer uma interrupção dos serviços de processamento da API. Para clientes que procuram mais do que serviços redundantes "na região", a Apigee oferece um nível globalmente redundante de data centers redundantes em que o tráfego pode ser atendido em várias regiões ou países. Assim, se uma região inteira ficar off-line, os dados ainda fluem.

Os serviços ao cliente de uma única região não são transferidos automaticamente para outra região devido a possíveis restrições geográficas no processamento e no acesso a dados. A Apigee hospeda serviços para clientes na região identificada pelo cliente. Como pode haver regulamentações específicas ou compromissos do cliente com os usuários em localizações geográficas de dados, a Apigee não moverá os serviços automaticamente para uma região alternativa, porque isso pode comprometer os compromissos da Apigee com os clientes ou os compromissos dos clientes da Apigee com os clientes.

A Apigee não compartilha o plano de BCP/DR completo com nenhum cliente porque contém informações sensíveis internas da Apigee e referências aos nossos clientes. Nossa Política de Privacidade impede o compartilhamento do plano de BCP/DR da plataforma com clientes individuais que poderiam expor outros nomes de clientes. Oferecemos esse mesmo nível de privacidade a todos os clientes.

Gerenciamento de BCP/DR

A equipe de segurança das informações da Apigee é responsável por supervisionar o programa de resiliência comercial, enquanto um comandante de incidentes rotativo é responsável pelo gerenciamento e resolução de todos os incidentes. O comandante de incidentes tem equipes operacionais e de engenharia sempre à disposição, além de manuais para todas as ações que podem ser necessárias.

Teste BCP/DR

A Apigee executa processos operacionais que oferecem suporte a testes de BCP/DR da plataforma em uma cadência mais frequente do que nossos testes anuais completos de BCP/DR. Todos os meses, a Apigee realiza oscilações de carga no ambiente ativo/ativo enquanto realizamos atualizações nos sistemas que executam o serviço. Esse processo envolve a desativação de todos os sistemas de um data center enquanto a carga é tratada pelo data center de peering. Durante esse processo, depois que qualquer atualização é realizada, o primeiro data center é ativado novamente e os serviços são executados em tempo real novamente para verificar se não houve problemas. Em seguida, o data center de peering é desativado para as mesmas atualizações e, em seguida, fica on-line novamente. A Apigee usa ferramentas e técnicas para drenar o tráfego e enviar uma pequena porcentagem dele aos serviços atualizados recentemente para verificar se há problemas ou erros antes de retomar o processamento de carga completo.

Esse processo operacional consistente excede os "testes de resiliência semestrais" padrão do setor do nosso serviço, o que faz dele uma tarefa operacional que ocorre com mais frequência.

Além dos processos operacionais descritos acima, a Apigee também realiza exercícios de BCP/DR de mesa pelo menos uma vez por ano, em que os membros da equipe de engenharia e operações se reúnem com outras unidades de negócios da Apigee para simular e analisar logicamente problemas, respostas e o impacto das decisões tomadas em um cenário de desastre simulado. Isso fornece treinamento e experiência adicionais para nossa equipe em nossos planos maiores de BCP/DR para a empresa como um todo, além do serviço em si.

Os testes de BCP/DR feitos pela Apigee não usam "exercícios de failover" ou "locais secundários" porque tudo isso está integrado ao sistema em execução.

A Apigee mantém Playbooks para serem usados por todas as equipes operacionais e de engenharia. Eles são revisados e atualizados pelo menos uma vez por ano e usados em todos os nossos exercícios de treinamento e teste de BCP/DR.

A Apigee não compartilha relatórios de teste de BCP/DR com clientes individuais porque esses testes são feitos no nível da plataforma, não do cliente. Compartilhamos os resultados de nossas tarefas operacionais e relatórios anuais de testes de exercício de mesa com nossos auditores terceirizados, e eles formam a base para a análise do auditor sobre nossa conformidade com PCI, HIPAA, contrato e outros requisitos.

Testes de BCP/DR do cliente

Os clientes são incentivados a ter seus próprios planos de DR incorporarem serviços da Apigee Edge. O cliente pode e deve considerar como a Apigee pode redirecionar o tráfego conforme necessário para que os clientes mantenham os serviços de usuário final mesmo durante uma interrupção no data center do cliente ou outro evento de desastre. No entanto, esse nível de teste está fora do escopo do plano de DR da Apigee. Incentivamos os clientes a realizar testes de BCP/DR nos próprios aplicativos e incluir o Apigee Edge no teste.

RTO/RPO

A Apigee não tem objetivos de ponto e tempo de recuperação (RPO/RTO) para nossos clientes ou nos contratos relacionados a atividades de BCP/DR. Nossos SLAs são o equivalente na nuvem dos pontos de dados de RTO/RPO. Como a Apigee é um serviço redundante baseado em nuvem com serviços de gerenciamento e ambiente de execução sendo arquitetados com serviços redundantes ativos, o RTO e o RPO podem ser vistos como "em tempo real". Os clientes de região única recebem um mínimo de serviços redundantes em data centers diferentes com a mesma região. Os clientes que desejam níveis de redundância mais altos podem optar por serviços de várias regiões.

Plano de pandemia

A Apigee inclui um plano para a pandemia como parte dos nossos processos e plano gerais de BCP/DR. Como a Apigee é um serviço hospedado em nuvem, não há requisito de que indivíduos gerenciem o data center. Para operações comerciais, como suporte, a Apigee opera uma equipe de suporte global 24 horas por dia, 7 dias por semana, em vários escritórios e locais remotos. Se uma pandemia em uma área do mundo afetar um dos nossos locais de suporte, os funcionários de outros escritórios serão alertados e cobrirão as mudanças normalmente controladas pelo escritório afetado. Para outros serviços comerciais, como vendas, a força de trabalho é distribuída globalmente. Todas as equipes da Apigee estão equipadas para trabalhar remotamente, se necessário. As ferramentas usadas na Apigee são baseadas na nuvem e se adaptam naturalmente a um plano de resposta à pandemia.

Atualizações

A Apigee analisa e atualiza nosso plano de BCP/DR pelo menos uma vez por ano. As informações coletadas de incidentes, mudanças em produtos, padrões do setor, atividades de análise de risco e testes de BCP/DB são usadas para atualizar o plano.

Análise de impacto no negócio e avaliações de risco

O Google realiza uma análise de impacto nos negócios e uma avaliação de risco anualmente. Os resultados da BIA e da RA são priorizados e documentados no sistema de rastreamento de problemas.