Udostępnij przez


Niezawodność w usłudze Azure Virtual Machines

Usługa Azure Virtual Machines udostępnia skalowalne zasoby obliczeniowe na żądanie. Jako podstawowa usługa infrastruktury została zaprojektowana w celu zapewnienia niezawodności i dostępności klasy korporacyjnej dla obciążeń o znaczeniu krytycznym.

W przypadku korzystania z platformy Azure niezawodność jest wspólną odpowiedzialnością. Firma Microsoft oferuje szereg możliwości wspierania odporności systemów i odzyskiwania. Odpowiadasz za zrozumienie sposobu działania tych funkcji we wszystkich usługach, których używasz, i wybierania funkcji, które są potrzebne do osiągnięcia celów biznesowych oraz wymagań dotyczących dostępności.

W tym artykule opisano, jak zapewnić odporność maszyn wirtualnych na różne potencjalne awarie i problemy, w tym przejściowe błędy, przerwy w działaniu strefy dostępności, awarie regionów i konserwację usługi. Opisano w nim również sposób używania kopii zapasowych do odzyskiwania po innych typach problemów oraz wyróżnia niektóre kluczowe informacje o umowie dotyczącej poziomu usług (SLA) usługi Virtual Machines.

Ważne

Podczas rozważania niezawodności maszyny wirtualnej należy również wziąć pod uwagę niezawodność dysków, infrastruktury sieciowej i aplikacji uruchomionych na maszynach wirtualnych. Poprawa odporności samej maszyny wirtualnej może mieć ograniczony wpływ, jeśli inne składniki nie są równie odporne. W zależności od wymagań dotyczących odporności może być konieczne wprowadzenie zmian konfiguracji w wielu obszarach.

Zalecenia dotyczące wdrażania produkcyjnego

Aby uzyskać więcej informacji na temat wdrażania maszyn wirtualnych w celu obsługi wymagań dotyczących niezawodności rozwiązania i wpływu niezawodności na inne aspekty architektury, zobacz Architecture best practices for Virtual Machines and scale sets in the Azure Well-Architected Framework (Najlepsze rozwiązania dotyczące architektury maszyn wirtualnych i zestawów skalowania w strukturze Azure Well-Architected Framework).

Omówienie architektury niezawodności

Maszyny wirtualne są podstawową jednostką obliczeniową na platformie Azure, niezależnie od tego, czy aprowizujesz je samodzielnie, czy korzystasz z innych usług obliczeniowych platformy Azure, które automatycznie aprowizują maszyny wirtualne i zarządzają nimi.

Pojedyncza maszyna wirtualna jest również nazywana pojedynczą maszyną wirtualną. Działa na określonym hoście, który jest serwerem fizycznym. Większość maszyn wirtualnych współużytkuje swój host z innymi maszynami wirtualnymi.

Podczas tworzenia maszyn wirtualnych możesz wpływać na to, gdzie działają w ramach bazowej infrastruktury. Zazwyczaj podejmujesz decyzje dotyczące umieszczania na podstawie wymagań dotyczących niezawodności, opóźnień i izolacji. Platforma Azure udostępnia kilka opcji konfiguracji, które mają wpływ na sposób umieszczania maszyn wirtualnych.

  • Region: Możesz wybrać region świadczenia usługi Azure , w którym powinna działać maszyna wirtualna. Region to obszar geograficzny, który może zawierać wiele centrów danych, z których każda ma dużą liczbę hostów.

  • Strefa dostępności:Strefy dostępności są fizycznie oddzielnymi grupami centrów danych w każdym regionie świadczenia usługi Azure. W regionach obsługujących strefy dostępności możesz wybrać strefę, w której działa maszyna wirtualna. Aby uzyskać więcej informacji, zobacz Odporność na błędy strefy dostępności.

  • Zestawy dostępności: Zestaw dostępności to logiczne grupowanie maszyn wirtualnych, które umożliwia platformie Azure zrozumienie sposobu tworzenia aplikacji w celu zapewnienia nadmiarowości i dostępności.

    W przypadku korzystania z zestawów dostępności platforma Azure dystrybuuje grupę maszyn wirtualnych w różnych domenach błędów. Ta dystrybucja minimalizuje ryzyko zlokalizowanych awarii sprzętu przez grupowanie maszyn wirtualnych, które współużytkują wspólne źródło zasilania i przełącznik sieciowy.

    Zestawy dostępności mogą również umieszczać różne maszyny wirtualne w różnych domenach aktualizacji, które kontrolują sposób wdrażania aktualizacji platformy Azure. Korzystając z domen aktualizacji, można upewnić się, że tylko podzbiór maszyn wirtualnych jest uruchamiany ponownie dla aktualizacji jednocześnie.

  • Grupy umieszczania w pobliżu: W przypadku obciążeń, które muszą osiągnąć najmniejsze możliwe opóźnienie między maszynami wirtualnymi, możesz użyć grupy umieszczania w pobliżu , aby upewnić się, że platforma Azure umieszcza maszyny wirtualne fizycznie blisko siebie. Jednak umieszczanie w pobliżu oznacza, że awaria centrum danych może mieć wpływ na wszystkie maszyny wirtualne w grupie. Aby osiągnąć wysoką niezawodność, może być niezbędne konfigurowanie wielu grup bliskiego umieszczania w różnych strefach dostępności.

  • Dedykowane hosty: Możesz użyć usługi Azure Dedicated Host do aprowizowania własnego serwera fizycznego, na którym działa co najmniej jedna maszyna wirtualna, na przykład w celu spełnienia rygorystycznych wymagań dotyczących zgodności. Jednak w przypadku aprowizowania dedykowanego hosta awaria w centrum danych może mieć wpływ na wszystkie maszyny wirtualne na tym hoście. Aby osiągnąć wysoką niezawodność, może być konieczne aprowizowania wielu dedykowanych hostów w różnych strefach dostępności.

Jeśli tworzysz zestaw maszyn wirtualnych, które wykonują podobne funkcje, rozważ użycie zestawów skalowania maszyn wirtualnych platformy Azure w celu utworzenia maszyn wirtualnych i zarządzania nimi jako grupy. Zestawy skalowania zapewniają również więcej opcji niezawodności, takich jak rozłożenie maszyn wirtualnych w wielu strefach dostępności.

Aby uzyskać więcej informacji na temat dostępności maszyn wirtualnych, zobacz Opcje dostępności dla maszyn wirtualnych.

Odporność na błędy przejściowe

Błędy przejściowe to krótkotrwałe, sporadyczne awarie w komponentach. Występują one często w środowisku rozproszonym, takich jak chmura, i są one normalną częścią operacji. Błędy przejściowe naprawiają się po krótkim czasie. Ważne jest, aby aplikacje mogły obsługiwać błędy przejściowe, zwykle ponawiając próby żądań, których dotyczy problem.

Wszystkie aplikacje hostowane w chmurze powinny postępować zgodnie ze wskazówkami dotyczącymi obsługi błędów przejściowych platformy Azure podczas komunikowania się z dowolnymi interfejsami API hostowanymi w chmurze, bazami danych i innymi składnikami. Aby uzyskać więcej informacji, zobacz Zalecenia dotyczące obsługi błędów przejściowych.

Aplikacje działające na maszynach wirtualnych powinny implementować odpowiednie strategie obsługi błędów, aby upewnić się, że wszelkie tymczasowe przerwy w działaniu usługi nie wpływają na obciążenie.

Odporność na błędy strefy dostępności

Strefy dostępności są fizycznie oddzielnymi grupami centrów danych w regionie świadczenia usługi Azure. Gdy jedna strefa ulegnie awarii, usługi mogą przejść w tryb failover do jednej z pozostałych stref.

Pojedynczą maszynę wirtualną można wdrożyć w konfiguracji strefowej , co oznacza, że jest przypięta do wybranej pojedynczej strefy dostępności. Sama maszyna wirtualna strefowa nie jest odporna na awarie strefowe. Można jednak utworzyć wiele maszyn wirtualnych i umieścić je w różnych strefach dostępności, a następnie rozmieścić aplikacje i dane między wystąpieniami maszyn wirtualnych. Alternatywnie można użyć zestawów skalowania maszyn wirtualnych do wdrożenia zestawu maszyn wirtualnych w wielu strefach dostępności.

Jeśli nie skonfigurujesz maszyny wirtualnej jako strefowej, będzie ona uznawana za niezonową lub regionalną. Maszyny wirtualne niezonowe mogą być umieszczane w dowolnej strefie dostępności w regionie. Jeśli w regionie wystąpi awaria dowolnej strefy dostępności, maszyny wirtualne niezonowe mogą znajdować się w strefie, której dotyczy problem, i mogą wystąpić przestoje.

Obsługa regionów

Maszyny wirtualne strefowe można wdrożyć w dowolnym regionie obsługującym strefy dostępności.

Jednak niektóre typy i rozmiary maszyn wirtualnych są dostępne tylko w określonych regionach lub określonych strefach w regionie. Aby sprawdzić, które regiony i strefy obsługują potrzebne typy maszyn wirtualnych, użyj następujących zasobów:

Koszt

Nie ma różnicy kosztów między strefową i niezonową maszyną wirtualną.

Konfiguruj obsługę stref dostępności

W tej sekcji wyjaśniono, jak skonfigurować obsługę strefy dostępności dla instancji maszyny wirtualnej.

Uwaga / Notatka

Wybierając, które strefy dostępności chcesz używać, faktycznie wybierasz logiczną strefę dostępności. W przypadku wdrażania innych składników obciążenia w innej subskrypcji platformy Azure mogą one użyć innego logicznego numeru strefy dostępności, aby uzyskać dostęp do tej samej fizycznej strefy dostępności. Aby uzyskać więcej informacji, zobacz Strefy dostępności fizycznej i logicznej.

Zachowanie, gdy wszystkie strefy są w dobrej kondycji

W tej sekcji opisano, czego można oczekiwać, gdy instancje VM są skonfigurowane z obsługą strefy dostępności, a wszystkie strefy dostępności działają.

  • Routing ruchu między strefami: Odpowiadasz za kierowanie ruchu między maszynami wirtualnymi, w tym VM-ami, które znajdują się w różnych strefach dostępności. Typowe podejścia obejmują usługę Azure Load Balancer i usługę Azure Application Gateway. Aby uzyskać więcej informacji, zobacz Opcje równoważenia obciążenia.

  • Replikacja danych między strefami: Odpowiadasz za każdą replikację danych, która musi wystąpić między maszynami wirtualnymi, w tym między maszynami wirtualnymi w różnych strefach dostępności. Bazy danych i inne podobne aplikacje stanowe, które działają na maszynach wirtualnych, często zapewniają możliwości replikacji danych.

Zachowanie podczas awarii strefy

W tej sekcji opisano, czego można oczekiwać po skonfigurowaniu wystąpień maszyn wirtualnych z obsługą stref dostępności i awarii w strefach dostępności.

  • Wykrywanie i reagowanie: Odpowiadasz za wykrywanie i reagowanie na błędy strefy, które mają wpływ na maszyny wirtualne.

  • Powiadomienie: Użycie Azure Resource Health pozwala na wykrywanie awarii strefy i wyzwalanie procesów przełączenia awaryjnego.

  • Aktywne żądania: Wszelkie aktywne żądania lub inne działania wykonywane na maszynie wirtualnej podczas awarii strefy prawdopodobnie zostaną zakończone.

  • Oczekiwana utrata danych: Dyski maszyn wirtualnych strefowych mogą być niedostępne podczas awarii strefy.

    Jeśli używasz dysków ZRS, a awaria wpłynie na twoją maszynę wirtualną, możesz wymusić odłączenie dysków ZRS od uszkodzonej maszyny wirtualnej. Takie podejście umożliwia dołączenie dysków ZRS do innej maszyny wirtualnej.

  • Oczekiwany przestój: Maszyny wirtualne pozostają niedostępne do momentu przywrócenia funkcjonalności strefy dostępności.

  • Przekierowywanie ruchu: Odpowiadasz za przekierowywanie ruchu do innych maszyn wirtualnych w strefach w dobrej kondycji.

    W przypadku skonfigurowania modułu równoważenia obciążenia odpornego na strefy i przeprowadzania kontroli kondycji moduł równoważenia obciążenia zwykle wykrywa nieudane maszyny wirtualne i może kierować ruch do innych wystąpień maszyn wirtualnych w strefach w dobrej kondycji.

Odzyskiwanie strefy

Gdy strefa jest w dobrej kondycji, maszyny wirtualne w strefie są ponownie uruchamiane. Jesteś odpowiedzialny za wszelkie procedury odzyskiwania poszczególnych stref oraz synchronizację danych, jakie wymagają twoje obciążenia.

Testowanie pod kątem niepowodzeń strefy

Usługa Azure Chaos Studio umożliwia symulowanie utraty maszyny wirtualnej w ramach eksperymentu. Program Chaos Studio udostępnia wbudowane błędy dla maszyn wirtualnych, w tym możliwość zamykania maszyny wirtualnej. Możesz użyć tych możliwości do symulowania błędów na poziomie strefy i testowania procesów przełączania awaryjnego.

Niestandardowe rozwiązania wielostrefowe zapewniające odporność

Podczas wdrażania wielu maszyn wirtualnych w różnych strefach odpowiadasz za konfigurowanie replikacji, równoważenia obciążenia, trybu failover i powrotu po awarii oraz zarządzanie nimi.

Niektóre aplikacje zapewniają wbudowane funkcje, które mogą pomóc podczas wdrażania na wielu maszynach wirtualnych. Na przykład program SQL Server na maszynach wirtualnych platformy Azure udostępnia zestaw funkcji upraszczających procesy konfiguracji i zarządzania w różnych strefach dostępności.

Możesz rozważyć użycie odzyskiwania po awarii między strefami (DR) usługi Azure Site Recovery, gdy aplikacja działa w jednej strefie w danym momencie i nie wymaga niemal natychmiastowego przejścia w tryb failover między strefami. Migracja pomiędzy strefami ma pewne ważne ograniczenia, więc dokładnie przeanalizuj swoje wymagania.

Odporność na awarie całego regionu

Maszyny wirtualne to zasoby przeznaczone dla pojedynczego regionu. Jeśli region stanie się niedostępny, maszyna wirtualna jest również niedostępna.

Niestandardowe rozwiązania obejmujące wiele regionów w celu zapewnienia odporności

Można wdrożyć wiele maszyn wirtualnych w różnych regionach, ale konieczne jest zaimplementowanie replikacji, równoważenia obciążenia i trybu failover.

Site Recovery to usługa, która umożliwia odzyskiwanie po awarii przez replikowanie maszyn wirtualnych i ich danych do regionu pomocniczego. Możesz wybrać niemal dowolny region Azure jako region pomocniczy, w tym kombinacje regionów niesparowanych. Aby uzyskać więcej informacji, zobacz Azure to Azure DR architecture (Architektura odzyskiwania po awarii platformy Azure do platformy Azure).

Niektóre aplikacje tworzą klastry lub inne konstrukcje, aby replikować dane i dystrybuować pracę między wieloma maszynami wirtualnymi, w tym w różnych regionach. Te aplikacje mogą uprościć konfigurację rozwiązania z wieloma regionami.

Aby zapoznać się z przykładową architekturą ilustrującą używanie maszyn wirtualnych w wielu regionach, zobacz Równoważenie obciążenia w wielu regionach za pomocą usługi Azure Traffic Manager, usługi Azure Firewall i usługi Application Gateway.

Odporność usługi na prace konserwacyjne

Platforma Azure regularnie przeprowadza okresową konserwację na maszynach wirtualnych, aby zapewnić niezawodność. Istnieje wiele sposobów zapewniania, że obciążenia pozostają operacyjne podczas działań konserwacyjnych:

  • W przypadku korzystania z zestawów dostępności lub zestawów skalowania maszyn wirtualnych można skonfigurować domeny aktualizacji. Domeny aktualizacji ułatwiają dystrybucję działań konserwacyjnych na różnych maszynach wirtualnych w różnym czasie, dzięki czemu maszyny wirtualne nie są jednocześnie uruchamiane ponownie.

  • Możesz dostosować czas stosowania konserwacji do maszyn wirtualnych przy użyciu kontroli konserwacji. Konfiguracje konserwacji umożliwiają zaplanowanie jej w czasie odpowiadającym obciążeniu.

  • Możesz otrzymywać powiadomienia o nadchodzących działaniach konserwacyjnych.

Aby uzyskać więcej informacji, zobacz Aktualizacje gościa i przegląd konserwacji hosta.

Tworzenie kopii zapasowej i przywracanie

Usługa Virtual Machines natywnie obsługuje tworzenie kopii zapasowych za pośrednictwem usługi Azure Backup. Usługa Azure Backup udostępnia natywne rozwiązanie do ochrony maszyn wirtualnych przez tworzenie kopii zapasowych i zarządzanie nimi, z ochroną spójną na poziomie aplikacji dla całej maszyny wirtualnej, w tym wszystkim dołączonymi dyskami. Takie podejście jest idealne, gdy potrzebujesz skoordynowanej kopii zapasowej wielu dysków lub kopii zapasowych obsługujących aplikacje. W przypadku obciążeń baz danych rozważ rozwiązania do tworzenia kopii zapasowych specyficzne dla aplikacji, które zapewniają spójną na poziomie transakcji ochronę i szybsze opcje odzyskiwania.

Możesz dostosować częstotliwość tworzenia kopii zapasowych, czas trwania przechowywania i konfigurację magazynu zgodnie z potrzebami. Aby uzyskać więcej informacji, zobacz Azure Backup for VMs (Usługa Azure Backup dla maszyn wirtualnych).

Kopia zapasowa obsługuje również dyski dołączone do maszyn wirtualnych. Aby uzyskać więcej informacji, zobacz Omówienie usługi Azure Disk Backup.

Umowa dotycząca poziomu usług

Umowa dotycząca poziomu usług (SLA) dla usług platformy Azure opisuje oczekiwaną dostępność każdej usługi oraz warunki, które rozwiązanie musi spełnić, aby osiągnąć te oczekiwania dotyczące dostępności. Aby uzyskać więcej informacji, zobacz Umowy SLA dotyczące usług online.

W przypadku maszyn wirtualnych umowa SLA zapewnia podstawowy poziom dostępności. Procent czasu pracy zdefiniowany w umowie SLA zwiększa się, gdy masz co najmniej dwie maszyny wirtualne i wykonujesz następujące czynności:

  • Skonfiguruj te maszyny wirtualne do wdrożenia w co najmniej dwóch strefach dostępności.
  • Skonfiguruj te maszyny wirtualne tak, aby były wdrażane w zestawie dostępności.

Aby uzyskać więcej informacji, zobacz Umowy SLA dotyczące usług online.

Następne kroki