Planejamento de continuidade de negócios e recuperação de desastres

Você está visualizando a documentação do Apigee Edge.
Acesse a documentação da Apigee X.
info

A Apigee é uma plataforma multilocatária, de autoatendimento e baseada em nuvem que é executada em uma configuração totalmente redundante (ativa/ao vivo) em vários data centers em várias regiões do mundo. A Apigee usa o Google Cloud Platform (GCP) e a Amazon Web Services (AWS) para nossa plataforma baseada em nuvem. Como parte dos serviços que criamos no GCP e na AWS, usamos vários data centers em cada região e atendemos o tráfego em tempo real para nossos clientes nesses vários data centers. Não temos um data center "ativo" e um data center "em espera" (ou "secundário" ou "failover"). Temos dois (ou mais) data centers que atendem constantemente e simultaneamente ao tráfego de clientes em cada região do mundo.

Plano de BCP/DR

O planejamento de continuidade de negócios e recuperação de desastres (BCP/DR, na sigla em inglês) da Apigee é um plano de toda a plataforma e não contém tarefas detalhadas para clientes individuais. Em vez disso, a plataforma é configurada para processar solicitações de dados de clientes, independentemente de interrupções e interrupções. Os dados vão continuar fluindo mesmo se um data center inteiro estiver off-line. Se uma região inteira ficar off-line, um cliente de região única poderá enfrentar uma interrupção dos serviços de processamento de API. Para clientes que procuram mais do que serviços redundantes "na região", a Apigee oferece um nível globalmente redundante de data centers redundantes em que o tráfego pode ser atendido em várias regiões ou países para que, se uma região inteira ficar off-line, os dados ainda sejam transmitidos.

Os serviços ao cliente de uma única região não são transferidos automaticamente para outra região devido a possíveis restrições geográficas no processamento e no acesso a dados. A Apigee hospeda serviços para clientes na região identificada pelo cliente. Como pode haver regulamentações específicas ou compromissos do cliente com os usuários em locais geográficos de dados, a Apigee não vai mover automaticamente os serviços para uma região alternativa, porque isso pode comprometer os compromissos da Apigee com os clientes ou dos clientes da Apigee com os deles.

A Apigee não compartilha o plano BCP/DR completo com nenhum cliente individual, porque ele contém informações confidenciais internas e referências aos nossos clientes. Nossa política de privacidade impede o compartilhamento do plano de BCP/DR da plataforma com clientes individuais que podem expor outros nomes de clientes. Oferecemos esse mesmo nível de privacidade a todos os clientes.

Gerenciamento de BCP/DR

A equipe de segurança de informações da Apigee é responsável pela supervisão do programa de resiliência de negócios, enquanto um comandante de incidentes rotativo é responsável pelo gerenciamento e resolução de todos os incidentes. O comandante do incidente tem funcionários operacionais e de engenharia sempre à disposição, além de manuais para todas as ações que precisam ser realizadas.

Teste BCP/DR

A Apigee realiza processos operacionais compatíveis com testes de BCP/DR da plataforma em uma cadência mais frequente do que os testes anuais completos de BCP/DR. Todos os meses, a Apigee realiza mudanças de carga no ambiente ativo/ativo enquanto realizamos atualizações nos sistemas que executam o serviço. Esse processo envolve a remoção de um sistema de data centers inteiro enquanto a carga é gerenciada pelo data center de peering. Durante esse processo, após a realização de qualquer atualização, o primeiro data center é recuperado e os serviços são executados ao vivo/novamente para verificar se não houve problemas. Em seguida, o data center de mesmo nível é reduzido para as mesmas atualizações e, em seguida, fica on-line novamente. A Apigee usa ferramentas e técnicas para drenar o tráfego e enviar uma pequena porcentagem dele aos serviços atualizados recentemente para verificar se há problemas ou erros antes de retornar ao processamento completo.

Esse processo operacional consistente excede o "teste" de resiliência semestral padrão do nosso serviço, tornando-o uma tarefa operacional que ocorre com mais frequência.

Além dos processos operacionais descritos acima, a Apigee também realiza exercícios de BCP/DR de mesa pelo menos uma vez por ano, em que os membros das equipes de engenharia e operações se reúnem com outras unidades de negócios da Apigee para simular e analisar de forma lógica os problemas, as respostas e o impacto das decisões tomadas em um cenário de desastre simulado. Isso proporciona treinamento e experiência adicionais para nossa equipe nos nossos planos maiores de BCP/DR para a empresa como um todo, além do próprio serviço.

O teste BCP/DR feito pela Apigee não usa "exercícios de failover" ou "locais secundários", porque tudo isso é incorporado ao sistema em execução.

A Apigee mantém os Playbooks para uso por todas as equipes operacionais e de engenharia. Esses manuais são revisados e atualizados pelo menos uma vez por ano e usados em todos os nossos exercícios de treinamento e teste de BCP/DR.

A Apigee não compartilha relatórios de teste de BCP/DR com clientes individuais, porque esses testes são feitos no nível da plataforma, não do cliente. Compartilhamos os resultados das nossas tarefas operacionais e relatórios anuais de testes de exercício de mesa com nossos auditores terceirizados. Eles são a base para a análise do auditor sobre nossa conformidade com o PCI, a HIPAA, os requisitos contratuais e outros.

Testes de BCP/DR do cliente

Os clientes são incentivados a ter os próprios planos de DR incorporando os serviços do Apigee Edge. O cliente pode e precisa considerar como a Apigee pode redirecionar o tráfego conforme necessário para que os clientes mantenham os serviços do usuário final, mesmo durante uma interrupção do data center do cliente ou outro evento de desastre. No entanto, esse nível de teste está fora do escopo do plano de DR da Apigee. Incentivamos os clientes a realizar testes BCP/DR nos próprios aplicativos e incluir o Apigee Edge no teste.

RTO/RPO

A Apigee não tem objetivos de ponto de recuperação e tempo de recuperação (RPO/RTO, na sigla em inglês) para nossos clientes ou em nossos contratos relacionados a atividades de BCP/DR. Nossos SLAs são o equivalente na nuvem dos pontos de dados de RTO/RPO. Como a Apigee é um serviço redundante baseado em nuvem, os serviços de gerenciamento e de tempo de execução são projetados com serviços ativos redundantes, o RTO e o RPO podem ser vistos como "em tempo real". Clientes de região única recebem no mínimo serviços redundantes em data centers diferentes na mesma região. Os clientes que desejam níveis de redundância mais altos podem optar por serviços de várias regiões.

Plano de pandemia

A Apigee inclui um plano de pandemia como parte do nosso plano e dos processos gerais de BCP/DR. Como a Apigee é um serviço hospedado na nuvem, não é necessário que as pessoas gerenciem o data center. Para operações comerciais, como suporte, a Apigee opera uma equipe de suporte global 24 horas por dia, 7 dias por semana, em vários escritórios e locais remotos. Se uma pandemia em uma área do mundo afetar um dos nossos locais de suporte, os funcionários de outros escritórios serão alertados e cobrirão as mudanças normalmente controladas pelo escritório afetado. Para outros serviços comerciais, como vendas, a força de trabalho é distribuída globalmente. Todas as equipes da Apigee podem trabalhar remotamente se necessário. As ferramentas usadas na Apigee são baseadas na nuvem e se adaptam naturalmente a um plano de resposta à pandemia.

Atualizações

A Apigee revisa e atualiza nosso plano de BCP/DR pelo menos uma vez por ano. Para atualizar o plano, usamos informações coletadas de incidentes, alterações de produtos, padrões do setor, atividades de análise de risco e testes BCP/DB.

Análise de impacto no negócio e avaliações de risco

O Google realiza uma análise de impacto nos negócios e uma avaliação de risco anualmente. Os resultados da BIA e da RA são priorizados e documentados no sistema de rastreamento de problemas.