Udostępnij przez


Najlepsze rozwiązania dotyczące konserwacji chmury prywatnej usługi Azure VMware Solution

Usługa Azure VMware Solution przeprowadza okresową konserwację chmury prywatnej. Ta konserwacja obejmuje poprawki zabezpieczeń, drobne i główne aktualizacje stosu oprogramowania VMware. Na tej stronie opisano monitorowanie, korygowanie i zalecane najlepsze rozwiązania, które ułatwiają przygotowanie chmury prywatnej do konserwacji.

Utrzymanie hosta i zarządzanie cyklem życia

Jedną z zalet chmur prywatnych usługi Azure VMware Solution jest to, że platforma jest obsługiwana przez Ciebie. Firma Microsoft jest odpowiedzialna za zarządzanie cyklem życia oprogramowania VMware (ESXi, vCenter Server i vSAN) oraz urządzeń NSX. Firma Microsoft jest również odpowiedzialna za uruchamianie konfiguracji sieci, na przykład tworzenie bramy warstwy 0 i włączanie routingu północ-południe. Odpowiadasz za konfigurację sieci SDN NSX: segmenty sieci, rozproszone reguły zapory, bramy warstwy 1 i moduły równoważenia obciążenia.

Uwaga / Notatka

Brama T0 jest tworzona i konfigurowana w ramach wdrożenia chmury prywatnej. Wszelkie modyfikacje tego routera logicznego lub maszyn wirtualnych węzłów brzegowych NSX mogą mieć wpływ na łączność z chmurą prywatną i należy unikać.

Firma Microsoft jest odpowiedzialna za stosowanie poprawek, aktualizacji lub uaktualnień do systemów ESXi, vCenter Server, vSAN i NSX w chmurze prywatnej. Wpływ poprawek, aktualizacji i uaktualnień na ESXi, vCenter Server i NSX ma następujące zagadnienia:

  • ESXi — nie ma wpływu na obciążenia działające w chmurze prywatnej. Dostęp do programu vCenter Server i NSX nie jest blokowany w tym czasie. W tym czasie zalecamy, aby nie planować innych działań, takich jak skalowanie w górę chmury prywatnej, planowanie lub inicjowanie aktywnych migracji HCX, wprowadzanie zmian konfiguracji HCX itd. w chmurze prywatnej.

  • vCenter Server — nie ma wpływu na obciążenia działające w chmurze prywatnej. W tym czasie program vCenter Server jest niedostępny i nie można zarządzać maszynami wirtualnymi (zatrzymywanie, uruchamianie, tworzenie lub usuwanie). Zalecamy, aby nie planować innych działań, takich jak skalowanie w górę chmury prywatnej, tworzenie nowych sieci itd. w chmurze prywatnej. W przypadku korzystania z programu VMware Site Recovery Manager lub interfejsów użytkownika replikacji vSphere zaleca się, aby nie wykonywać żadnej z następujących czynności: nie konfigurować replikacji vSphere oraz nie konfigurować ani wykonywać planów odzyskiwania lokacji podczas uaktualniania programu vCenter Server.

  • NSX — ma to wpływ na obciążenie. Po uaktualnieniu określonego hosta maszyny wirtualne na tym hoście mogą utracić łączność z 2 sekundy do 1 minuty z dowolnym z następujących objawów:

    • Błędy ping

    • Utrata pakietów

    • Komunikaty o błędach (na przykład host docelowy jest niemożliwy do osiągnięcia i nie można uzyskać dostępu do sieci)

    W tym oknie uaktualniania cały dostęp do płaszczyzny zarządzania NSX jest zablokowany. Nie można wprowadzać zmian konfiguracji w środowisku NSX przez cały czas trwania. Twoje obciążenia nadal działają normalnie, z uwzględnieniem wcześniej omówionego wpływu aktualizacji.

    W czasie uaktualniania zalecamy, aby nie planować innych działań, takich jak skalowanie w górę chmury prywatnej itd., w chmurze prywatnej. Inne działania mogą uniemożliwić rozpoczęcie uaktualniania lub mieć negatywny wpływ na uaktualnienie i środowisko.

Otrzymasz powiadomienie za pośrednictwem usługi Azure Service Health, która zawiera oś czasu uaktualnienia. To powiadomienie zawiera również szczegółowe informacje na temat uaktualnionego składnika, jego wpływu na obciążenia, dostęp do chmury prywatnej i inne usługi platformy Azure. Możesz zmienić termin uaktualnienia zgodnie z potrzebami.

Aktualizacje oprogramowania obejmują:

  • Poprawki — poprawki zabezpieczeń lub poprawki błędów wydane przez program VMware

  • Aktualizacje — pomocnicza zmiana wersji składnika stosu VMware

  • Uaktualnienia — główna zmiana wersji składnika stosu VMware

Uwaga / Notatka

Firma Microsoft testuje krytyczną poprawkę zabezpieczeń, gdy tylko stanie się dostępna z programu VMware.

Udokumentowane obejścia oprogramowania VMware są implementowane zamiast instalowania odpowiedniej poprawki do momentu wdrożenia kolejnych zaplanowanych aktualizacji.

Monitorowanie i korygowanie hosta

Usługa Azure VMware Solution stale monitoruje kondycję zarówno składników VMware, jak i nakładek. Gdy usługa Azure VMware Solution wykryje błąd, podejmuje działania w celu naprawy składników, które zakończyły się niepowodzeniem. Gdy usługa Azure VMware Solution wykryje spadek wydajności lub awarię w węźle Azure VMware Solution, wyzwala proces naprawczy hosta.

Korygowanie hosta obejmuje zastąpienie uszkodzonego węzła nowym węzłem w dobrej kondycji w klastrze. Następnie, jeśli to możliwe, uszkodzony host zostanie umieszczony w trybie konserwacji VMware vSphere. VMware vSphere vMotion przenosi maszyny wirtualne z uszkodzonego hosta na inne dostępne serwery w klastrze, co potencjalnie umożliwia zerowy przestój przy migracji obciążeń na żywo. Jeśli nie można umieścić wadliwego hosta w trybie konserwacji, host zostanie usunięty z klastra. Przed usunięciem uszkodzonego hosta obciążenia klienta są migrowane do nowo dodanego hosta.

Wskazówka

Komunikacja z klientem: wiadomość e-mail jest wysyłana na adres e-mail klienta przed zainicjowaniem zamiany i ponownie po pomyślnym zastąpieniu.

Aby otrzymywać wiadomości e-mail związane z zamianą hosta, należy dodać do dowolnej z następujących ról kontroli dostępu (RBAC) Role-Based platformy Azure w subskrypcji: "ServiceAdmin", "CoAdmin", "Właściciel", "Współautor".

Usługa Azure VMware Solution monitoruje następujące warunki na hoście:

  • Stan procesora
  • Stan pamięci
  • Połączenie i stan zasilania
  • Stan wentylatora sprzętowego
  • Utrata łączności sieciowej
  • Stan płyty głównej systemu sprzętowego
  • Wystąpiły błędy na co najmniej jednym dysku hosta vSAN
  • Napięcie sprzętowe
  • Stan temperatury sprzętu
  • Stan zasilania sprzętowego
  • Stan usługi Storage
  • Błąd połączenia

Najlepsze rozwiązania dotyczące operacji konserwacji

Następujące akcje są zawsze zalecane w celu zapewnienia pomyślnego przeprowadzenia operacji konserwacji hosta:

  • Wykorzystanie przestrzeni magazynowej vSAN: Aby zachować umowę dotyczącą poziomu usług (SLA), upewnij się, że wykorzystanie przestrzeni magazynowej klastra vSphere pozostaje poniżej 75%. Jeśli użycie przekroczy 75%, uaktualnienia mogą trwać dłużej niż oczekiwano lub całkowicie zakończyć się niepowodzeniem. Jeśli użycie magazynu przekroczy 75%, rozważ dodanie węzła dla rozszerzenia klastra i zapobiegania potencjalnym przestojom podczas aktualizacji.
  • Reguły Rozproszonego Harmonogramu Zasobów (DRS): Reguły anty-afinitety DRS VM-VM muszą być skonfigurowane w taki sposób, aby w klastrze znajdowało się co najmniej (N+1) hostów, gdzie N to liczba maszyn wirtualnych będących częścią reguł DRS.
  • Naruszenia zasad tolerancji błędów (FTT): Aby zapobiec utracie danych, zmień maszyny wirtualne skonfigurowane przy użyciu zasad magazynu vSAN dla tolerancji błędów (FTT) z wartości 0 na zasady magazynu vSAN zgodne z umową SLA firmy Microsoft (FTT=1 dla maksymalnie pięciu hostów w klastrze i FTT=2 dla sześciu lub więcej hostów w klastrze) i upewnij się, że operacje konserwacyjne hosta mogą być wykonywane bez zakłóceń.
  • Usuń montowania maszyn wirtualnych CD-ROM: Maszyny wirtualne zamontowane w "trybie emulacji" CD-ROMs blokują konserwację hosta. Upewnij się, że CD-ROMs są zainstalowane w trybie przepustowym.
  • Port szeregowy/równoległy lub urządzenie zewnętrzne: Jeśli używasz pliku obrazu (ISO, FLP itp.), upewnij się, że jest on dostępny ze wszystkich hostów ESXi w klastrze. Przechowuj pliki w magazynie danych, który jest współużytkowany między wszystkimi serwerami ESXi, które uczestniczą w vMotion maszyny wirtualnej. Aby uzyskać więcej informacji, zobacz artykuł broadcom KB.
  • Oddzielone maszyny wirtualne: W przypadku oddzielonej maszyny wirtualnej maszyna wirtualna musi zostać ponownie zarejestrowana (jeśli to możliwe) (jeśli nie została usunięta) lub usunięta ze spisu. Aby uzyskać więcej informacji, zobacz artykuł broadcom KB.
  • Kontroler udostępniony SCSI: W przypadku korzystania z udostępniania magistrali SCSI użyj typu magistrali jako "Fizyczne" dla maszyn wirtualnych. Maszyny wirtualne podłączone do wirtualnych kontrolerów SCSI zostaną wyłączone. Aby uzyskać więcej informacji, zobacz artykuł broadcom KB.
  • Maszyny wirtualne i aplikacje innych firm: W przypadku maszyn wirtualnych i aplikacji innych firm:
    • Upewnij się, że rozwiązania innych firm wdrożone w rozwiązaniu Azure VMware Solution są zgodne i nie zakłócają operacji konserwacji.
    • Upewnij się, że maszyna wirtualna nie jest skonfigurowana z regułą DRS VM-Host „Musi zostać uruchomiona”. Ponadto sprawdź, czy te aplikacje są zgodne z nadchodzącymi wersjami stosu VMware.
    • W razie potrzeby skontaktuj się z dostawcą rozwiązania i zaktualizuj je z wyprzedzeniem, aby zachować zgodność po uaktualnieniu.

Ważne

Jeśli którakolwiek z tych konfiguracji blokujących konserwację istnieje na hoście usługi Azure VMware Solution, otrzymasz alerty na pulpicie nawigacyjnym usługi Resource Health dla usługi AVS. Aby zapewnić zastąpienie niesprawnych hostów i pomyślne przeprowadzenie uaktualnień, takie blokujące konfiguracje zostaną zneutralizowane przez podjęcie odpowiednich działań naprawczych, w celu zachowania dostępności chmury prywatnej. W niektórych przypadkach te kroki korygowania obejmują wyłączenie maszyny wirtualnej i migrację jej do innego hosta, a następnie włączenie go, co może na krótko zakłócić działanie aplikacji na maszynie wirtualnej

Kody alertów i tabela korygowania

Kod błędu Szczegóły błędu Zalecana akcja
EPC_CDROM_EMULATEMODE Ten błąd występuje, gdy CD-ROM na maszynie wirtualnej używa trybu emulacji, którego obraz ISO nie jest dostępny. Postępuj zgodnie z tym artykułem bazy wiedzy, aby usunąć wszystkie dyski CDROM zamontowane na maszynach wirtualnych obciążeń klienta w trybie emulacji lub odłączyć ISO. Zaleca się użycie opcji "Tryb bezpośredniego dostępu" do montowania dowolnego dysku CD-ROM.
EPC_DRSOVERRIDERULE Ten błąd występuje, gdy istnieje maszyna wirtualna z przesłonięciem DRS ustawionym na "Wyłączony". Maszyna wirtualna nie powinna blokować vMotion podczas przechodzenia hosta w tryb konserwacji. Ustaw częściowo zautomatyzowane reguły DRS dla maszyny wirtualnej. Zapoznaj się z tym dokumentem , aby dowiedzieć się więcej na temat zasad umieszczania maszyn wirtualnych.
EPC_SCSIDEVICE_SHARINGMODE Ten błąd występuje, gdy maszyna wirtualna jest skonfigurowana do używania kontrolera SCSI z udostępnianiem magistrali w trybie "wirtualnym". Postępuj zgodnie z tym artykułem bazy wiedzy, aby usunąć dowolny kontroler SCSI zaangażowany w udostępnianie magistrali, który w trybie wirtualnym jest dołączony do maszyn wirtualnych.
EPC_DATASTORE_INACCESSIBLE Ten błąd występuje, gdy dowolny zewnętrzny magazyn danych dołączony do chmury prywatnej AVS staje się niedostępny. Postępuj zgodnie z tym artykułem , aby usunąć wszystkie nieaktualne magazyny danych dołączone do klastra
EPC_NWADAPTER_STALE Ten błąd występuje, gdy połączony interfejs sieciowy na maszynie wirtualnej używa karty sieciowej, która staje się niedostępna. Postępuj zgodnie z tym artykułem z bazy wiedzy, aby usunąć wszystkie nieaktualne karty sieciowe dołączone do maszyn wirtualnych.
Port szeregowy EPC Ten błąd występuje, gdy port szeregowy maszyny wirtualnej jest połączony z urządzeniem, do którego nie można uzyskać dostępu na hoście docelowym. Jeśli używasz pliku obrazu (ISO, FLP itd.), upewnij się, że jest on dostępny ze wszystkich serwerów ESXi w klastrze. Przechowuj pliki w magazynie danych, który jest współużytkowany między wszystkimi serwerami ESXi, które uczestniczą w vMotion maszyny wirtualnej. Aby uzyskać więcej informacji, skorzystaj z tego artykułu bazy wiedzy od Broadcom.
EPC_URZĄDZENIE_SPRZĘTOWE Ten błąd występuje, gdy równoległy port/urządzenie USB maszyny wirtualnej jest połączony z urządzeniem, do którego nie można uzyskać dostępu na hoście docelowym. Jeśli używasz pliku obrazu (ISO, FLP itd.), upewnij się, że jest on dostępny ze wszystkich serwerów ESXi klastra. Przechowuj pliki w magazynie danych, który jest współużytkowany między wszystkimi serwerami ESXi, które uczestniczą w vMotion maszyny wirtualnej. Aby uzyskać więcej informacji, skorzystaj z tego artykułu bazy wiedzy od Broadcom.
EPC_INVALIDVM/EPC_ORPHANVM Ten błąd występuje, gdy w spisie znajduje się osierocona albo nieważna maszyna wirtualna. Upewnij się, że wszystkie maszyny wirtualne są dostępne dla programu vCenter. Aby uzyskać więcej informacji, zapoznaj się z tym artykułem bazy wiedzy .
EPC_VMHOSTDRSRULE Ten błąd występuje, gdy istnieje maszyna wirtualna z regułą DRS powiązania/antypowiązania hosta. Maszyna wirtualna nie powinna blokować programu VMware vMotion podczas umieszczania hosta w trybie konserwacji. Ustaw "reguły powinności" dla powiązania VM-Host. Aby uzyskać więcej informacji, zapoznaj się z tym dokumentem .
EPC_FTT_ZERO Ten błąd występuje, gdy maszyna wirtualna ma "Tolerancja błędów" równa się 0 lub "Brak nadmiarowości danych". Postępuj zgodnie z tym artykułem bazy wiedzy , aby skonfigurować protokół FTT jako 1 lub 2 dla maszyny wirtualnej.
EPC_FTTVIOLATION Ten błąd występuje, gdy klaster nie ma minimalnej liczby hostów, których wymaga polityka pamięci masowej. Dodaj hosty zgodnie z potrzebami zasad magazynu lub zmień zasady FTT maszyny wirtualnej, aby umożliwić umieszczenie hosta w trybie konserwacji. Zapoznaj się z tym artykułem bazy wiedzy , aby dowiedzieć się więcej na temat zasad FTT.
ERECOMMENDATION_CLUSTER_SIZE To zalecenie wskazuje, że klaster w chmurze prywatnej ma co najmniej 14 hostów. Usługa AVS obsługuje maksymalnie 16 hostów w klastrze. Utwórz nowy klaster dla nowych hostów, które mogą być wymagane.
ERECOMMENDATION_PRIVATECLOUD_SIZE To zalecenie wskazuje, że chmura prywatna ma co najmniej 90 hostów. Usługa AVS obsługuje maksymalnie 96 hostów w chmurze prywatnej. Rozważ utworzenie nowej chmury prywatnej dla wszystkich nowych hostów i dystrybuowanie hostów w chmurach prywatnych w razie potrzeby.

Uwaga / Notatka

Administratorzy dzierżawy usługi Azure VMware Solution nie mogą edytować ani usuwać wcześniej zdefiniowanych alarmów programu VMware vCenter Server, ponieważ są zarządzane przez płaszczyznę sterowania usługi Azure VMware Solution na serwerze vCenter Server. Te alarmy są używane przez system monitorowania usługi Azure VMware Solution w celu uruchomienia procesu naprawy hosta usługi Azure VMware Solution.

Dalsze kroki

Po zapoznaniu się z najlepszymi rozwiązaniami dotyczącymi konserwacji chmury prywatnej usługi Azure VMware Solution warto dowiedzieć się więcej o: