Planowanie ciągłości działania i odtwarzanie awaryjne

Wyświetlasz dokumentację Apigee Edge.
Otwórz dokumentację Apigee X.
Informacje

Apigee to platforma chmurowa dla wielu najemców, która działa w pełni redundantnej konfiguracji (na żywo/na żywo) w wielu centrach danych w różnych regionach świata. Na potrzeby naszej platformy w chmurze korzystamy z Google Cloud Platform (GCP) i Amazon Web Services (AWS). W ramach usług tworzonych w GCP i AWS używamy wielu centrów danych w każdym regionie i obsługujemy ruch na żywo dla naszych klientów w tych wielu centrach danych. Nie mamy centrum danych „na żywo” i centrum danych „zapasowego” (lub „dodatkowego” albo „awaryjnego”). Mamy 2 (lub więcej) centra danych, które stale i jednocześnie obsługują ruch klientów w każdym regionie na całym świecie.

Plan BCP/DR

Planowanie ciągłości działania firmy i przywracanie po awarii (BCP/DR) w Apigee obejmuje całą platformę i nie zawiera szczegółowych zadań dla poszczególnych klientów. Platforma jest skonfigurowana tak, aby przetwarzać żądania dotyczące danych klientów niezależnie od zakłóceń i awarii. Dane będą przepływać nawet wtedy, gdy całe centrum danych będzie offline. Jeśli cały region przejdzie w tryb offline, klient z jednego regionu może doświadczyć przerwy w działaniu usług przetwarzania interfejsu API. Klientom, którzy szukają czegoś więcej niż usług o nadmiarowo dużej redundancji w danym regionie, Apigee oferuje globalny poziom redundancji centrów danych, w których ruch może być obsługiwany w wielu regionach lub krajach, dzięki czemu nawet jeśli cały region przejdzie w tryb offline, dane nadal będą przepływać.

Usługi obsługi klienta w jednym regionie nie są automatycznie przenoszone do innego regionu z powodu możliwych ograniczeń geograficznych dotyczących przetwarzania danych i dostępu do nich. Apigee hostuje usługi dla klientów w regionie wskazanym przez klienta. Ze względu na obowiązujące przepisy lub zobowiązania klientów wobec ich użytkowników dotyczące geograficznej lokalizacji danych Apigee nie będzie automatycznie przenosić usług do innego regionu, ponieważ mogłoby to naruszyć zobowiązania Apigee wobec klientów lub zobowiązania klientów Apigee wobec ich klientów.

Firma Apigee nie udostępnia pełnego planu BCP/DR żadnemu klientowi, ponieważ zawiera on poufne informacje wewnętrzne firmy Apigee i odniesienia do naszych klientów. Nasze zasady dotyczące prywatności uniemożliwiają udostępnianie planu BCP/DR platformy poszczególnym klientom, ponieważ mogłoby to ujawnić nazwiska innych klientów. Każdemu klientowi zapewniamy ten sam poziom ochrony prywatności.

Zarządzanie planem ciągłości działania i przywracania do sprawności

Zespół ds. bezpieczeństwa informacji w Apigee odpowiada za nadzór nad programem odporności biznesowej, a za zarządzanie i rozwiązywanie wszystkich incydentów odpowiada rotacyjnie dowódca zespołu reagowania na incydenty. Szef zespołu reagowania na incydenty ma zawsze do dyspozycji personel operacyjny i techniczny oraz scenariusze wszystkich działań, które mogą być konieczne.

Testowanie BCP/DR

Apigee wykonuje procesy operacyjne, które wspierają testowanie platformy w ramach planu BCP/DR, z większą częstotliwością niż pełne roczne testowanie BCP/DR. Co miesiąc Apigee przeprowadza testy obciążeniowe w naszym środowisku produkcyjnym, gdy aktualizujemy systemy obsługujące tę usługę. Ten proces polega na wyłączeniu wszystkich systemów w całym centrum danych, podczas gdy obciążenie jest przetwarzane przez inne centrum danych. W trakcie tego procesu, po wprowadzeniu wszelkich aktualizacji, pierwsze centrum danych jest ponownie uruchamiane i usługi są ponownie uruchamiane, aby sprawdzić, czy nie wystąpiły żadne problemy. Następnie dane centrum danych jest wyłączane w celu wprowadzenia tych samych aktualizacji, a następnie ponownie włączane. Apigee używa narzędzi i technik, aby odprowadzać ruch i wysyłać niewielki odsetek ruchu do niedawno zaktualizowanych usług, aby sprawdzić, czy nie ma żadnych problemów lub błędów, zanim przejdzie do przetwarzania pełnego obciążenia.

Ten spójny proces operacyjny wykracza poza standardowe co 2 lata „testowanie” odporności usługi, ponieważ czyni to zadaniem operacyjnym, które występuje częściej.

Oprócz opisanych wyżej procesów operacyjnych Apigee co najmniej raz w roku przeprowadza ćwiczenia BCP/DR, w których uczestniczą członkowie zespołów inżynierów i operacji oraz inne jednostki biznesowe Apigee. Podczas tych ćwiczeń symuluje się i omawia problemy, reakcje i wpływ decyzji podjętych w ramach symulowanego scenariusza katastrofy. Dzięki temu nasi pracownicy będą mogli korzystać z dodatkowych szkoleń i doświadczeń związanych z naszymi kompleksowymi planami BCP/DR dla całej firmy, a nie tylko z samej usługi.

Testy BCP/DR przeprowadzane przez Apigee nie korzystają z „ćwiczeń przełączania” ani „dodatkowych lokalizacji”, ponieważ wszystko to jest wbudowane w działający system.

Apigee utrzymuje scenariusze do wykorzystania przez wszystkie zespoły operacyjne i inżynierskie. Te scenariusze są sprawdzane i aktualizowane co najmniej raz w roku. Są wykorzystywane we wszystkich naszych testach i ćwiczeniach związanych z planami ciągłości i przywracania działania oraz planami reagowania na incydenty.

Firma Apigee nie udostępnia raportów z testów BCP/DR poszczególnym klientom, ponieważ są one przeprowadzane na poziomie platformy, a nie klienta. Udostępniamy wyniki naszych zadań operacyjnych i roczne raporty z testów ćwiczeń na stole zewnętrznym naszym audytorom zewnętrznym. Na ich podstawie audytorzy sprawdzają naszą zgodność z wymaganiami PCI, HIPAA, umownymi i innymi.

testy BCP/DR klienta;

Zachęcamy klientów do tworzenia własnych planów DR, które uwzględniają usługi Apigee Edge. Klient może i powinien rozważyć, jak Apigee może przekierowywać ruch w razie potrzeby, aby umożliwić klientom utrzymanie usług dla użytkowników końcowych nawet podczas awarii centrum danych klienta lub innego zdarzenia losowego. Ten poziom testowania wykracza jednak poza zakres planu DR w usłudze Apigee. Zachęcamy klientów do przeprowadzania testów BCP/DR własnych aplikacji z użyciem Apigee Edge.

RTO/RPO

Firma Apigee nie ma docelowych wartości punktu odzyskiwania danych ani czasu odzyskiwania danych (RPO/RTO) dla swoich klientów ani w swoich umowach związanych z działaniami w ramach planu ciągłości działania i planu przywracania działania. Nasze gwarancje SLA to odpowiednik w chmurze punktów danych RTO/RPO. Apigee to redundantna usługa w chmurze, która obejmuje zarówno usługi zarządzania, jak i usługi w czasie wykonywania, a ich architektura opiera się na redundantnych usługach na żywo. Dzięki temu zarówno RTO, jak i RPO można uznać za „w czasie rzeczywistym”. Klienci w pojedynczym regionie otrzymują minimalną liczbę redundantnych usług w różnych centrach danych w tym samym regionie. Klienci, którzy chcą uzyskać wyższy poziom redundancji, mogą wybrać usługi wieloregionowe.

Plan na wypadek pandemii

Apigee uwzględnia plan dotyczący pandemii jako część naszego ogólnego planu i procesów BCP/DR. Ponieważ Apigee to usługa hostowana w chmurze, nie ma potrzeby zarządzania centrum danych przez pojedyncze osoby. W celu zapewnienia usług biznesowych, takich jak pomoc, firma Apigee prowadzi globalny zespół pomocy dostępny 24 godziny na dobę i 7 dni w tygodniu w wielu biurach i odległych lokalizacjach. Jeśli pandemia w danym regionie świata wpłynie na jedno z naszych centrów pomocy, pracownicy z innych biur zostaną o tym powiadomieni i będą pełnić dyżury, które normalnie obsługiwane są przez to biuro. W przypadku innych usług biznesowych, takich jak sprzedaż, pracownicy są rozmieszczeni na całym świecie. Wszystkie zespoły w Apigee są w stanie pracować zdalnie w razie potrzeby. Narzędzia używane w Apigee działają w chmurze i są naturalnie przystosowane do planu reagowania na pandemię.

Aktualizacje

Apigee sprawdza i aktualizuje plan BCP/DR co najmniej raz w roku. Informacje zebrane z incydentów, zmian w usłudze, standardów branżowych, działań związanych z analizą ryzyka oraz testów BCP/DB są wykorzystywane do aktualizowania planu.

Analiza wpływu na działalność firmy i ocena ryzyka

Google przeprowadza analizę wpływu na działalność firmy i ocenę ryzyka co roku. Wyniki analizy wpływu na biznes i analizy ryzyka są priorytetowo rozpatrywane i dokumentowane w systemie śledzenia problemów.