Udostępnij przez


Niezawodność w usłudze Azure Device Registry

Usługa Azure Device Registry przechowuje informacje o zasobach i urządzeniach w chmurze. Zasoby usługi Device Registry są przedstawiane jako zasoby platformy Azure w chmurze w ramach pojedynczego rejestru. Pojedynczy rejestr jest źródłem prawdy dla metadanych urządzenia i zasobu oraz możliwości zarządzania zasobami. Rejestr urządzeń może być używany w połączeniu z operacjami usługi Azure IoT.

W przypadku korzystania z platformy Azure niezawodność jest wspólną odpowiedzialnością. Firma Microsoft oferuje szereg możliwości wspierania odporności systemów i odzyskiwania. Odpowiadasz za zrozumienie sposobu działania tych możliwości we wszystkich używanych usługach oraz wybór możliwości potrzebnych do osiągnięcia twoich celów biznesowych i celów dostępności.

W tym artykule opisano, jak zapewnić odporność rejestru urządzeń na różne potencjalne awarie i problemy, w tym przejściowe błędy, awarie stref dostępności i awarie regionów.

Note

Operacje usługi Azure IoT obejmują różne inne składniki poza rejestrem urządzeń. Aby uzyskać szczegółowe informacje na temat funkcji wysokiej dostępności i zerowej utraty danych składników operacji usługi Azure IoT, zapoznaj się z często zadawanymi pytaniami dotyczącymi operacji usługi Azure IoT.

Odporność na błędy przejściowe

Błędy przejściowe są krótkie, sporadyczne błędy w składnikach. Występują one często w środowisku rozproszonym, takich jak chmura, i są one normalną częścią operacji. Błędy przejściowe naprawiają się po krótkim czasie. Ważne jest, aby aplikacje mogły obsługiwać błędy przejściowe, zwykle ponawiając próby żądań, których dotyczy problem.

Wszystkie aplikacje hostowane w chmurze powinny postępować zgodnie ze wskazówkami dotyczącymi obsługi błędów przejściowych platformy Azure podczas komunikowania się z dowolnymi interfejsami API hostowanymi w chmurze, bazami danych i innymi składnikami. Aby uzyskać więcej informacji, zobacz Zalecenia dotyczące obsługi błędów przejściowych.

Klienci wchodzą w interakcje z rejestrem urządzeń przy użyciu usługi Azure Resource Manager. Często używasz witryny Azure Portal, interfejsu wiersza polecenia platformy Azure lub zestawów AZURE SDK do interakcji z zasobami rejestru urządzeń, a te narzędzia zapewniają automatyczną obsługę błędów przejściowych. Jeśli bezpośrednio używasz interfejsów API menedżera zasobów, upewnij się, że obsługujesz błędy przejściowe.

Odporność na błędy strefy dostępności

Strefy dostępności są fizycznie oddzielnymi grupami centrów danych w regionie świadczenia usługi Azure. Gdy jedna strefa ulegnie awarii, usługi mogą przejść w tryb failover do jednej z pozostałych stref.

Usługa Azure Device Registry jest domyślnie strefowo nadmiarowa, co oznacza, że automatycznie replikuje dane w wielu strefach dostępności. Ta konfiguracja zwiększa odporność usługi, zapewniając wysoką dostępność. Jeśli wystąpi awaria w jednej strefie, usługa może nadal bezproblemowo działać z innej strefy.

Firma Microsoft zarządza konfiguracją i konfiguracją nadmiarowości stref w usłudze Azure Device Registry. Nie musisz wykonywać więcej konfiguracji, aby włączyć tę nadmiarowość strefy. Firma Microsoft zapewnia, że usługa jest skonfigurowana w celu zapewnienia najwyższego poziomu dostępności i niezawodności.

Obsługa regionów

Poniższa lista regionów obsługuje strefy dostępności w rejestrze urządzeń:

Ameryka Europa
Wschodnie stany USA Niemcy Środkowo-Zachodnie
Wschodnie stany USA 2 Europa Północna
Zachodnie stany USA Europa Zachodnia
Zachodnie stany USA 2
Zachodnie stany USA 3

Cost

Nie ma dodatkowych kosztów użycia redundancji strefowej dla rejestru urządzeń.

Konfigurowanie obsługi strefy dostępności

Nowe zasoby: Podczas tworzenia zasobu rejestru urządzeń w operacjach usługi Azure IoT automatycznie uwzględnia ona domyślnie nadmiarowość strefową. Nie ma potrzeby wykonywania kolejnej konfiguracji.

Zachowanie, gdy wszystkie strefy są w dobrej kondycji

Poniższe informacje opisują, co się stanie, gdy masz rejestr urządzeń strefowo nadmiarowych, a wszystkie strefy dostępności działają:

  • Routing ruchu między strefami: Żądania są automatycznie rozmieszczone w każdej strefie dostępności. Żądanie może trafić do wystąpienia rejestru urządzeń w dowolnej strefie dostępności.

  • Replikacja danych między strefami: Dane urządzenia są replikowane synchronicznie w różnych strefach dostępności.

Zachowanie podczas awarii strefy

Poniższe informacje opisują, co się dzieje, gdy masz strefowo nadmiarowy rejestr urządzeń i strefa dostępności doświadcza awarii.

  • Wykrywanie i reagowanie: Ponieważ rejestr urządzeń wykrywa i reaguje automatycznie na błędy w strefie dostępności, nie musisz wykonywać żadnych czynności w celu zainicjowania trybu failover strefy dostępności.
  • Powiadomienie: firma Microsoft nie powiadamia cię automatycznie, gdy strefa nie działa. Możesz jednak użyć usługi Azure Service Health , aby zrozumieć ogólną kondycję usługi, w tym wszelkie błędy strefy, i skonfigurować alerty usługi Service Health w celu powiadamiania o problemach.
  • Aktywne żądania: Niektóre aktywne żądania mogą zostać porzucone i dlatego może być konieczne ponowne ponowienia próby w taki sam sposób, jak inne błędy przejściowe. Aby upewnić się, że aplikacja jest odporna na błędy przejściowe, zobacz Odporność na błędy przejściowe.

  • Oczekiwana utrata danych: Nie oczekuje się, że awaria strefy spowoduje utratę danych.

  • Oczekiwany przestój: Nie oczekuje się, że awaria strefy spowoduje przestój zasobów.

Odzyskiwanie strefy

Po odzyskaniu strefy dostępności rejestr urządzeń automatycznie przywraca operacje w strefie dostępności.

Testowanie pod kątem niepowodzeń strefy

Platforma rejestru urządzeń zarządza trasowaniem ruchu, przełączaniem awaryjnym i przywracaniem po awarii w różnych strefach dostępności. Nie musisz nic inicjować. Ponieważ ta funkcja jest w pełni zarządzana, nie trzeba weryfikować procesów awarii strefy dostępności.

Odporność na awarie całego regionu

Rejestr urządzeń to usługa działająca w jednym regionie. Jeśli region stanie się niedostępny, zasoby rejestru urządzeń są również niedostępne.

Jednak dane rejestru są replikowane do sparowanego regionu. W przypadku długotrwałej awarii regionu firma Microsoft może zdecydować się na przejście w tryb failover do sparowanego regionu. W takim przypadku rejestr będzie nadal dostępny w sparowanym regionie.

Obsługa regionów

Replikacja domyślna i tryb failover są obsługiwane we wszystkich regionach, w których jest dostępny rejestr urządzeń, ponieważ wszystkie te regiony są sparowane.

Cost

Nie ma dodatkowych kosztów replikacji danych między regionami ani trybu failover.

Konfigurowanie replikacji i przygotowywanie do przełączenia awaryjnego

Domyślnie replikacja danych między regionami jest automatycznie konfigurowana podczas tworzenia zasobów rejestru urządzeń w regionie powiązanym z innym regionem. Ten proces jest opcją domyślną i nie wymaga interwencji użytkownika.

Zachowanie, gdy wszystkie regiony są w dobrej kondycji

W tej sekcji opisano, czego można oczekiwać, gdy rejestr urządzeń jest skonfigurowany na potrzeby replikacji między regionami i trybu failover, a region podstawowy działa.

  • Replikacja danych między regionami: Dane są replikowane automatycznie do sparowanego regionu. Replikacja odbywa się asynchronicznie, co oznacza, że niektóre straty danych są oczekiwane w przypadku przejścia w tryb failover.

  • Routing ruchu między regionami: W normalnych operacjach ruch przepływa tylko do regionu podstawowego.

Zachowanie podczas awarii regionu

W tej sekcji opisano, czego można oczekiwać w przypadku skonfigurowania rejestru urządzeń na potrzeby replikacji między regionami i trybu failover oraz awarii w regionie podstawowym.

  • Wykrywanie i reagowanie: Firma Microsoft może zdecydować się na przejście w tryb failover w przypadku utraty regionu podstawowego. Ten proces może potrwać kilka godzin po utracie regionu podstawowego, a nawet dłużej w niektórych scenariuszach. Failover zasobów rejestru urządzeń może nie nastąpić w tym samym czasie, co failover innych usług platformy Azure.

  • Powiadomienie: Zdarzenia awarii regionów można monitorować za pomocą usługi Azure Service Health. Skonfiguruj alerty, aby otrzymywać powiadomienia o problemach na poziomie regionu.

  • Aktywne żądania: Wszelkie żądania, które są przetwarzane przez region podstawowy w czasie przejścia w tryb failover, prawdopodobnie zostaną utracone. Klienci powinni ponowić próby wniosków po zakończeniu przełączenia awaryjnego.

  • Oczekiwana utrata danych: Dane są replikowane asynchronicznie do sparowanego regionu. W związku z tym niektóre straty danych są oczekiwane po przejściu w tryb failover. Po awarii regionu można spodziewać się utraty danych przez mniej niż 15 minut.

  • Oczekiwany przestój: Spodziewaj się około 24 godzin przestoju od momentu utraty regionu do chwili, gdy zasób będzie dostępny w sparowanym regionie.

  • Przekierowywanie ruchu: Podczas procesu przełączania awaryjnego rejestr urządzeń aktualizuje rekordy DNS w celu wskazania sparowanego regionu. Wszystkie kolejne żądania są wysyłane do sparowanego regionu.

    Po zakończeniu operacji przełączenia awaryjnego dla rejestru wszystkie operacje z urządzenia i aplikacji backendowych powinny kontynuować pracę bez konieczności ręcznej interwencji.

Odzyskiwanie regionów

Po odzyskaniu regionu podstawowego rejestr urządzeń automatycznie przywraca operacje w regionie.

Testowanie pod kątem błędów regionów

Platforma Rejestru urządzeń zarządza routingiem ruchu, trybem failover i powrotem po awarii w sparowanych regionach. Nie musisz nic inicjować. Ponieważ ta funkcja jest w pełni zarządzana, nie trzeba weryfikować procesów awarii sparowanych regionów.