Udostępnij przez


Niezawodność w Microsoft Community Training

W tym artykule opisano obsługę niezawodności w usłudze Community Training. Obejmuje ona odporność regionalną ze strefami dostępności oraz odzyskiwaniem po awarii i ciągłością działalności biznesowej. Aby uzyskać bardziej szczegółowe omówienie zasady niezawodności na platformie Azure, zobacz Niezawodność platformy Azure.

Microsoft Community Training to rozwiązanie oparte na platformie Azure w chmurze, które może dostarczać programy szkoleniowe na dużą skalę o wysokiej jakości i wydajności, poprzez wdrożenie redundantne względem stref w regionach sparowanych. Dzięki Szkoleniu Społecznościowemu organizacje wszystkich rozmiarów i typów mogą uruchamiać programy szkoleniowe na dużą skalę dla swoich społeczności wewnętrznych i zewnętrznych z obsługą stref dostępności dla warstw danych i sterowania. Społeczności mogą obejmować pracowników pierwszej linii, rozszerzonych pracowników, ekosystem partnerski, sieć wolontariuszy i beneficjentów programu.

Obsługa strefy dostępności

Strefy dostępności są fizycznie oddzielnymi grupami centrów danych w regionie świadczenia usługi Azure. Gdy jedna strefa ulegnie awarii, usługi mogą przejść w tryb failover do jednej z pozostałych stref.

Szkolenie społeczności korzysta ze stref dostępności platformy Azure w celu zapewnienia wysokiej dostępności i odporności na uszkodzenia w regionie świadczenia usługi Azure. Szkolenia społecznościowe oferują obsługę strefy dostępności zarówno dla płaszczyzny danych, jak i kontroli.

  • Płaszczyzna sterowania jest strefowo redundantna w głównych regionach dostępności.

  • Płaszczyzna danych może być strefowa lub z nadmiarowością strefową, zależnie od wybranych potrzeb. Zdecydowanie zaleca się jednak wybranie wdrożenia strefowo nadmiarowego w celu uniknięcia utraty danych i utrzymania dostępności usługi w przypadku awarii strefy.

Wymagania wstępne

  • Strefy dostępności są obsługiwane dla następujących SKU szkoleniowych społeczności:

    • Standardowa (niższa skala użytkowników)
    • Premium (duża skala użytkowników)
  • Szkolenie społeczności jest obsługiwane tylko w sparowanych regionach. Każdy region pomocniczy jest wdrażany z konfiguracją strefową. W poniższej tabeli przedstawiono wszystkie regiony, które obsługują strefy dostępności na potrzeby szkolenia społeczności, wraz z sparowanym regionem.

Region podstawowy Sparowany region
UKSouth UKWest
AustraliaEast Południowo-Wschodnia Australia
Wschodnie USA Zachodnie USA
EastUS2 Środkowe USA
NorthEurope Europa Zachodnia
WestUS3 Wschodnie USA
SzwecjaCentral Szwecja Południowa

Obsługa trybu failover strefowego

Szkolenie społeczności korzysta z wielu usług zależnych od platformy Azure, takich jak App Service i Azure SQL. Po wybraniu strefowo nadmiarowego wdrożenia Community Training tworzy również strefowo nadmiarowe oferty tych podstawowych zasobów platformy Azure. Jeśli jedna strefa ulegnie awarii, wszystkie zasoby, w tym zasoby zależności, zostaną przeniesione do jednej ze zdrowych stref.

Tworzenie zasobu z włączoną strefą dostępności

Szkolenie społeczności umożliwia konfigurację stref dostępności wyłącznie podczas tworzenia instancji. Jeśli chcesz zmienić konfigurację strefy dostępności po utworzeniu wystąpienia, musisz utworzyć nowe wystąpienie.

Doświadczenie relaksu w strefie

  • Strefowe. Podczas awarii całej strefy szkolenie społeczności może mieć pełne lub częściowe przerwy w działaniu usługi. Zakres, w jakim jest dostępny, zależy od różnych czynników, takich jak to, czy całe centrum danych nie działa, czy konkretna usługa zależna nie jest już dostępna w tej strefie.

  • Strefowy niezawodny. Podczas awarii całej strefy nie powinno być żadnego wpływu na przydzielone zasoby. Należy jednak przygotować się na krótką przerwę w komunikacji z tymi zasobami. W sytuacji awarii strefy klienci zazwyczaj otrzymują kody błędów 409, a także zastosowana jest logika ponawiania prób nawiązywania połączeń w odpowiednich odstępach czasu. Nowe żądania są kierowane do zdrowych węzłów bez wpływu na użytkownika. Podczas awarii obejmujących całą strefę użytkownicy mogą tworzyć nowe zasoby i pomyślnie skalować istniejące.

Ciągłość biznesowa i odzyskiwanie po awarii

Odzyskiwanie po awarii (DR) odnosi się do praktyk używanych przez organizacje do odzyskiwania po wystąpieniu zdarzeń o dużym wpływie, takich jak klęski żywiołowe lub nieudane wdrożenia, które powodują przestoje i utratę danych. Niezależnie od przyczyny najlepszym rozwiązaniem dla awarii jest dobrze zdefiniowany i przetestowany plan odzyskiwania po awarii oraz projekt aplikacji, który aktywnie obsługuje odzyskiwanie po awarii. Przed rozpoczęciem tworzenia planu odzyskiwania po awarii zobacz Zalecenia dotyczące projektowania strategii odzyskiwania po awarii.

W przypadku DR firma Microsoft używa modelu wspólnej odpowiedzialności . W tym modelu firma Microsoft zapewnia dostępność podstawowej infrastruktury i usług platformy. Jednak wiele usług platformy Azure nie replikuje automatycznie danych ani nie wraca z regionu, w którym wystąpił błąd, aby przeprowadzić replikację krzyżową do innego włączonego regionu. W przypadku tych usług ponosisz odpowiedzialność za przygotowanie planu odzyskiwania po awarii, który będzie odpowiadał twojemu obciążeniu. Większość usług oferty platformy Azure jako usługa (PaaS) udostępnia funkcje i wskazówki wspierające DR. Możesz użyć funkcji specyficznych dla usługi, aby wspierać szybkie odzyskiwanie i ułatwić opracowanie planu odzyskiwania po awarii.

Zespół szkoleniowy społeczności firmy Microsoft zarządza całą procedurą odzyskiwania po awarii na potrzeby szkolenia społeczności. Odzyskiwanie po awarii nie jest w trybie aktywny-aktywny ani aktywny-pasywny, lecz opiera się na przywracaniu z najnowszej dostępnej kopii zapasowej usług platformy Azure. Zespół szkoleniowy społeczności ręcznie tworzy wszystkie zasoby w sparowanym regionie, korzystając z kopii zapasowej danych.

Uwaga

Szkolenia społeczności dotyczące odzyskiwania po awarii są obsługiwane tylko w sparowanych regionach.

Odzyskiwanie po awarii w lokalizacji geograficznej obejmującej wiele regionów

  • W przypadku awarii regionalnej płaszczyzna sterowania jest ręcznie przełączana na tryb failover do sparowanego regionu. Przed zakończeniem przełączenia awaryjnego należy spodziewać się obniżenia poziomu usług. Po przejściu w tryb failover obsługiwane są tylko operacje tylko do odczytu, dopóki region awarii nie wróci do trybu online. Usługa jest ręcznie przełączana z powrotem do oryginalnego regionu, gdy powróci do trybu online i wszystkie operacje zostaną wznowione. Cel punktu odzyskiwania (RPO) powinien wynosić 10 minut; Cel czasu odzyskiwania (RTO), 24 godziny.

  • Community Training oferuje zarządzane przez firmę Microsoft odzyskiwanie po awarii dla płaszczyzny danych. Aby korzystać z zarządzanego odzyskiwania po awarii, należy włączyć odzyskiwanie po awarii podczas tworzenia wystąpienia usługi Community Training na platformie Azure. Po włączeniu odzyskiwania po awarii firma Microsoft przechowuje kopię zapasową magazynu i bazy danych w sparowanym regionie. Cel punktu odzyskiwania (RPO) powinien wynosić 12 godzin; Cel czasu odzyskiwania (RTO), 48 godzin.

Uwaga

Czas odzyskiwania zależy od rozmiaru bazy danych, pamięci oraz opóźnień pomiędzy sparowanymi regionami. Pojemność bazy danych lub VM magazynowej (SKU). RPO (cel punktu odzyskiwania) zależy od podstawowych zasobów platformy Azure, takich jak Azure SQL i Azure Storage. Aby uzyskać więcej informacji na temat RTO i RPO, zobacz Co to są ciągłość działalności biznesowej, wysoka dostępność i odzyskiwanie po awarii?.

Wykrywanie, powiadamianie i zarządzanie awariami

Gdy badanie zdrowia usługi Szkolenia Społeczności wykryje awarię dowolnej usługi w dowolnym regionie, firma Microsoft poprosi o zgodę na przełączenie awaryjne do sparowanego regionu. Firma Microsoft informuje, które funkcje są dostępne podczas procedury odzyskiwania po awarii. Po otrzymaniu zgody przez firmę Microsoft zespół szkoleniowy społeczności może następnie uruchomić procedurę odzyskiwania po awarii.

Ważne

Osoby uczące się nie będą mogły korzystać z funkcji audio/wideo, dopóki region podstawowy nie będzie działać. Zaleca się unikanie operacji przesyłania mediów do momentu działania witryny głównej.

Wydajność i proaktywna odporność odzyskiwania po awarii

Firma Microsoft i jej klienci działają w ramach modelu wspólnej odpowiedzialności. Gdy dowolny region nie działa, nie tylko wystąpienie szkolenia społeczności jest migrowane do sparowanego regionu, ale także wszystkie obciążenia produktów i klientów są również migrowane do sparowanego regionu. Ta procedura może spowodować niedobór zasobów w sparowanym regionie lub centrum danych. W związku z tym dostępność odzyskiwania po awarii zależy od dostępnej pojemności bazowych zasobów platformy Azure.

Następne kroki