Планирование непрерывности бизнеса и аварийное восстановление

Вы просматриваете документацию Apigee Edge .
Перейдите к документации Apigee X.
информация

Apigee — это многопользовательская облачная платформа с самообслуживанием, которая работает в полностью резервированной (действующей/действующей) конфигурации в нескольких центрах обработки данных в разных регионах земного шара. Apigee использует Google Cloud Platform (GCP) и Amazon Web Services (AWS) для нашей облачной платформы. В рамках сервисов, которые мы создаем на базе GCP и AWS, мы используем несколько центров обработки данных в каждом регионе и обслуживаем живой трафик для наших клиентов в этих нескольких центрах обработки данных. У нас нет «действующего» дата-центра и «резервного» (или «вторичного» или «отказоустойчивого») дата-центра. У нас есть два (или более) дата-центра, которые постоянно и одновременно обслуживают клиентский трафик в каждом регионе по всему миру.

План BCP/DR

Планирование непрерывности бизнеса и аварийное восстановление Apigee (BCP/DR) представляет собой план для всей платформы и не содержит подробных задач для отдельных клиентов. Скорее, платформа настроена на обработку запросов данных клиентов независимо от сбоев и простоев. Данные будут продолжать передаваться, даже если весь центр обработки данных отключен. Если весь регион отключится от сети, у клиента из одного региона может возникнуть сбой в службах обработки API. Для клиентов, которым нужны не только резервные услуги «внутри региона», Apigee предлагает глобальный уровень резервных центров обработки данных, где трафик может обслуживаться в нескольких регионах или странах, так что даже если весь регион отключится от сети, данные все равно будут передаваться.

Обслуживание клиентов одного региона не переносится автоматически в другой регион из-за возможных географических ограничений на обработку данных и доступ к ним. Apigee предоставляет услуги для клиентов в регионе, указанном клиентом. Поскольку могут существовать особые правила или обязательства клиентов перед пользователями в отношении географического расположения данных, Apigee не будет автоматически перемещать услуги в альтернативный регион, поскольку это потенциально может поставить под угрозу обязательства Apigee перед своими клиентами или обязательства клиентов Apigee перед своими клиентами.

Apigee не передает полный план BCP/DR ни одному отдельному клиенту, поскольку он содержит внутреннюю конфиденциальную информацию Apigee и ссылки на наших клиентов. Наша политика конфиденциальности запрещает делиться планом платформы BCP/DR с отдельными клиентами, которые потенциально могут раскрыть имена других клиентов. Мы предлагаем одинаковый уровень конфиденциальности каждому клиенту.

Управление BCP/DR

Группа информационной безопасности Apigee отвечает за надзор за программой обеспечения устойчивости бизнеса, а сменяющийся руководитель инцидентов отвечает за управление и разрешение всех инцидентов. У командующего инцидентами всегда наготове оперативный и инженерный персонал, а также инструкции по всем действиям, которые могут потребоваться предпринять.

Тестирование BCP/DR

Apigee выполняет операционные процессы, поддерживающие тестирование платформы BCP/DR, с большей частотой, чем наше полное ежегодное настольное тестирование BCP/DR. Каждый месяц Apigee выполняет колебания нагрузки в нашей живой/действующей среде, пока мы выполняем обновления систем, на которых работает служба. Этот процесс включает в себя отключение всех систем одного центра обработки данных, в то время как нагрузка обрабатывается одноранговым центром обработки данных. В ходе этого процесса, после выполнения любых обновлений, первый центр обработки данных восстанавливается, и службы снова запускаются в режиме реального времени, чтобы убедиться в отсутствии проблем. Затем одноранговый центр обработки данных отключается для тех же обновлений, а затем снова подключается к сети. Apigee использует инструменты и методы для отвода трафика и отправки небольшого процента трафика недавно обновленным службам для проверки на наличие каких-либо проблем или ошибок, прежде чем вернуться к обработке полной нагрузки.

Этот последовательный рабочий процесс превосходит стандартное «тестирование» устойчивости нашего сервиса, проводимое раз в два года, поскольку делает его оперативной задачей, которая возникает чаще.

В дополнение к описанным выше операционным процессам Apigee также проводит настольные учения BCP/DR не реже одного раза в год, в ходе которых члены инженерных и эксплуатационных групп собираются вместе с другими бизнес-подразделениями Apigee для логического моделирования и анализа проблем, ответов и последствий решений. сделанный в имитационном сценарии катастрофы. Это обеспечивает дополнительное обучение и опыт для нашего персонала по нашим более крупным планам BCP/DR для предприятия в целом в дополнение к самой услуге.

Тестирование BCP/DR, проводимое Apigee, не использует «отказоустойчивые упражнения» или «вторичные местоположения», поскольку все это встроено в работающую систему.

Apigee поддерживает Playbooks для использования всеми эксплуатационными и инженерными командами. Эти руководства пересматриваются и обновляются не реже одного раза в год и используются во всех наших тестах и ​​учебных упражнениях по BCP/DR.

Apigee не передает отчеты о тестировании BCP/DR отдельным клиентам, поскольку эти тесты проводятся на уровне платформы, а не на уровне клиента. Мы делимся результатами наших оперативных задач и ежегодными отчетами о настольных испытаниях с нашими сторонними аудиторами, и они составляют основу для аудиторской проверки нашего соответствия PCI, HIPAA, договорным и другим требованиям.

Тесты BCP/DR для клиентов

Клиентам рекомендуется иметь собственные планы аварийного восстановления, включающие услуги Apigee Edge. Клиент может и должен подумать о том, как Apigee может перенаправлять трафик по мере необходимости, чтобы клиенты могли поддерживать услуги конечных пользователей даже во время сбоя в центре обработки данных клиента или другого аварийного события. Однако этот уровень тестирования выходит за рамки плана Apigee DR. Мы рекомендуем клиентам проводить тестирование BCP/DR в своих собственных приложениях и включать в тест Apigee Edge.

РТО/РПО

Apigee не имеет целевых точек восстановления и времени восстановления (RPO/RTO) для наших клиентов или в наших контрактах, связанных с деятельностью BCP/DR. Наши соглашения об уровне обслуживания являются облачным эквивалентом точек данных RTO/RPO. Поскольку Apigee — это резервная облачная служба, в которой службы управления и среды выполнения спроектированы с использованием резервных живых служб, RTO и RPO можно рассматривать как «режимы реального времени». Клиенты одного региона получают минимум резервных услуг в разных центрах обработки данных одного региона. Клиенты, которым требуется более высокий уровень резервирования, могут выбрать услуги с поддержкой нескольких регионов.

План при пандемии

Apigee включает план борьбы с пандемией как часть нашего общего плана и процессов BCP/DR. Поскольку Apigee — это облачная служба, отдельные лица не обязаны управлять центром обработки данных. Для бизнес-операций, таких как поддержка, Apigee управляет круглосуточной глобальной командой поддержки в нескольких офисах и удаленных местах. Если пандемия в одном регионе земного шара затронет одно из наших мест поддержки, сотрудники других офисов будут предупреждены и будут выполнять смены, которые обычно выполняются пострадавшим офисом. Для других бизнес-услуг, таких как продажи, рабочая сила распределена по всему миру. Все команды Apigee готовы при необходимости работать удаленно. Инструменты, используемые в Apigee, основаны на облаке и естественным образом подходят для плана реагирования на пандемию.

Обновления

Apigee пересматривает и обновляет наш план BCP/DR не реже одного раза в год. Информация, собранная в результате инцидентов, изменений продуктов, отраслевых стандартов, мероприятий по анализу рисков и тестирования BCP/DB, используется для обновления плана.

Анализ влияния на бизнес и оценка рисков

Google ежегодно проводит анализ влияния на бизнес и оценку рисков. Результаты ОВД и ОР приоритезированы и документируются в системе отслеживания проблем.