Rozwiązywanie problemów z serwerem Azure Operator Nexus Bare Metal Machine

W tym artykule opisano sposób rozwiązywania problemów z serwerem przy użyciu akcji Ponowne uruchamianie, Ponowne obrazowanie i Zastąpienie na maszynach Bare Metal Operatora Nexus platformy Azure. Może być konieczne wykonanie tych działań na serwerze ze względu na konserwację, co może spowodować krótkie zakłócenia w działaniu określonych modułów BMM.

Czas wymagany do ukończenia każdej z tych akcji jest podobny. Ponowne uruchamianie jest najszybsze, podczas gdy wymiana trwa nieco dłużej. Wszystkie trzy akcje są prostymi i wydajnymi metodami rozwiązywania problemów.

Ostrzeżenie

Nie wykonuj żadnych działań na serwerach zarządzania bez uprzedniej konsultacji z personelem pomocy technicznej firmy Microsoft. Może to mieć wpływ na integralność klastra Operator Nexus.

Wymagania wstępne

Zapoznaj się z możliwościami, do których odwołuje się ten artykuł, przeglądając akcje programu BMM.
Zbierz następujące informacje (niezbędne dla wszystkich akcji):
- Nazwa zarządzanej grupy zasobów dla programu BMM
- Nazwa programu BMM, który wymaga operacji zarządzania cyklem życia
- Identyfikator subskrypcji
Stan szczegółowy klastra musi mieć wartość Running
Łączność między klastrem a menedżerem klastra musi być Connected

Ważne

Polecenia zakłócające do węzła Płaszczyzny Sterowania Kubernetes (KCP) są odrzucane, jeśli w dowolnym węźle KCP trwa już inna akcja zakłócająca lub jeśli cały KCP jest niedostępny.

Ponowne uruchamianie, ponowne odtworzenie obrazu i zastępowanie są uznawane za działania zakłócające.

Ta kontrola jest wykonywana w celu zachowania integralności wystąpienia Nexus i zapewnienia, że wiele węzłów KCP nie działa jednocześnie z powodu równoczesnych akcji zakłócających działanie. Jeśli wiele węzłów przestanie działać, to zaburza próg integralności kworum płaszczyzny kontrolnej Kubernetes.

Wskazówka

W wersji 2509.1 lub nowszej można monitorować ostatnie lub w toku akcje programu BMM w witrynie Azure Portal. Aby uzyskać więcej informacji, zobacz Monitorowanie stanu we właściwościach JSON komputera bez systemu operacyjnego.

Identyfikowanie akcji naprawczej

Podczas rozwiązywania problemów z programem BMM pod kątem błędów i określania najbardziej odpowiednich działań naprawczych niezbędne jest zrozumienie dostępnych opcji. Ten artykuł zawiera systematyczne podejście do rozwiązywania problemów z serwerem Nexus operatora platformy Azure przy użyciu następujących trzech metod:

Ponowne uruchomienie — najmniej inwazyjna metoda, najlepsza dla tymczasowych usterek lub nieodpowiadające maszyny wirtualne
Reimage — rozwiązanie pośrednie przywraca system operacyjny do znanego dobrego stanu bez wpływu na dane
Zastąp — najbardziej znacząca akcja, wymagana w przypadku awarii składników sprzętowych, takich jak pamięć RAM, dysk twardy itp. Zastąp akcję należy użyć po zastąpieniu składników programu BMM.

Drzewo decyzyjne do rozwiązywania problemów

Postępuj zgodnie z tą ścieżką eskalacji podczas rozwiązywania problemów z programem BMM:

Problem	Pierwsza akcja	Jeśli problem będzie się powtarzać	Jeśli nadal nierozwiązane
Brak odpowiedzi maszyn wirtualnych lub usług	uruchom ponownie	Reimage	Zastąp
Uszkodzenie oprogramowania/systemu operacyjnego	Reimage	Zastąp	Skontaktuj się z obsługą
Znana awaria sprzętu	Zastąp	N/A	Skontaktuj się z obsługą
Naruszenie zabezpieczeń	Reimage	Zastąp	Skontaktuj się z obsługą

Zalecanym podejściem jest rozpoczęcie od najmniej inwazyjnego rozwiązania (ponownego uruchomienia) i eskalacji do bardziej złożonych środków tylko w razie potrzeby. Zawsze sprawdzaj, czy problem został rozwiązany po każdej akcji naprawczej.

Rozwiązywanie problemów z akcją ponownego uruchamiania

Ponowne uruchomienie programu BMM to proces ponownego uruchamiania serwera za pomocą prostego wywołania interfejsu API. Ta akcja może być przydatna w przypadku rozwiązywania problemów, gdy maszyny wirtualne najemcy na hoście nie reagują lub są w jakikolwiek sposób zablokowane.

Ponowne uruchomienie zazwyczaj jest punktem wyjścia do rozwiązania problemu.

Uruchom ponownie przepływ pracy

Ocena wpływu — określ, czy ponowne uruchomienie programu BMM ma wpływ na krytyczne obciążenia.
Wyłącz — w razie potrzeby wyłącz program BMM (opcjonalnie).
Uruchom lub uruchom ponownie — uruchom wyłączony program BMM lub uruchom ponownie uruchomiony program BMM.
Sprawdź stan — sprawdź , czy program BMM wraca do trybu online i działa prawidłowo.

Uwaga / Notatka

Operacja ponownego uruchamiania jest najszybszą metodą odzyskiwania, ale może nie rozwiązywać problemów związanych z uszkodzeniem systemu operacyjnego lub awariami sprzętu.

power-off

az networkcloud baremetalmachine power-off \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

start

az networkcloud baremetalmachine start \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

restart

az networkcloud baremetalmachine restart \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Aby sprawdzić stan programu BMM po ponownym uruchomieniu:

az networkcloud baremetalmachine show \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID> \
  --query "provisioningState"

Wynik Succeeded wskaże, że polecenie zostało ukończone.

Rozwiązywanie problemów z akcją z obrazem

Ponowne wyobrażanie sobie programu BMM to proces używany do ponownego wdrażania obrazu na dysku systemu operacyjnego bez wpływu na dane dzierżawy. Ta akcja wykonuje kroki ponownego dołączania klastra z tymi samymi identyfikatorami.

Akcja z obrazu może być przydatna do rozwiązywania problemów przez przywrócenie systemu operacyjnego do znanego dobrego stanu pracy. Typowe przyczyny, które można rozwiązać za pomocą utworzenia nowego obrazu, obejmują odzyskiwanie z powodu wątpliwości co do integralności hosta, podejrzenie lub potwierdzenie naruszenia zabezpieczeń lub "break glass" operację zapisu.

Akcja reimage jest najlepszym rozwiązaniem dla najniższego ryzyka operacyjnego, aby zapewnić integralność programu BMM.

Przepływ pracy dotyczący odtworzenia obrazu dysku

Sprawdź uruchomione obciążenia — przed ponownym obrazowaniem sprawdź, jakie obciążenia są uruchomione na maszynie BMM.
Cordon i ewakuuj zadania — przekierowanie zadań z BMM.
Wykonaj reimage — wykonaj operację reimage.
Uncordon: Umożliwienie ponownego planowania BMM po zakończeniu reimage.

Ostrzeżenie

Uruchamianie więcej niż jednego polecenia baremetalmachine replace lub reimage w tym samym czasie albo uruchamianie replace jednocześnie z reimage sprawia, że serwery pozostają w stanie niepracującym. Przed rozpoczęciem innego upewnij się, że jedna operacja została w pełni ukończona.

Aby określić, czy jakiekolwiek obciążenia są obecnie uruchomione w programie BMM, uruchom następujące polecenie:

W przypadku maszyn wirtualnych:

az networkcloud baremetalmachine show -n <nodeName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

W przypadku węzłów klastra Nexus Kubernetes: (wymaga zalogowania się do klastra Nexus Kubernetes)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

Następujące polecenie interfejsu wiersza polecenia platformy Azure spowoduje cordon , że określony parametr bareMetalMachineName.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Następujące polecenie interfejsu wiersza polecenia platformy Azure spowoduje reimage , że określony parametr bareMetalMachineName.

az networkcloud baremetalmachine reimage \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Następujące polecenie interfejsu wiersza polecenia platformy Azure spowoduje uncordon , że określony parametr bareMetalMachineName.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Aby sprawdzić stan BMM po reimage:

az networkcloud baremetalmachine show \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID> \
  --query "provisioningState"

Wynik pokaże Succeeded , że program BMM został aprowizowany i ponownie dołączył do klastra.

Rozwiązywanie problemów z akcją zamieniania

Serwery zawierają wiele składników fizycznych, które mogą zakończyć się niepowodzeniem w czasie. Ważne jest, aby zrozumieć, które naprawy fizyczne wymagają wymiany modułu BMM i kiedy zaleca się jego wymianę. Dane dzierżawy nie są modyfikowane podczas zastępowania, pod warunkiem że używana jest flaga storage-policy="Preserve".

Wywoływany jest proces weryfikacji sprzętu w celu zapewnienia integralności hosta fizycznego przed wdrożeniem obrazu systemu operacyjnego.

Ten artykuł zawiera omówienie procesu weryfikacji sprzętu — omówienie weryfikacji sprzętu

Ten artykuł zawiera instrukcje dotyczące sprawdzania i rozwiązywania problemów z wynikami sprawdzania poprawności sprzętu

Ważne

Po uruchomieniu z opcjami domyślnymi kontroler RAID jest resetowany podczas zamiany BMM, wyczyszcząc wszystkie dane z dysków wirtualnych serwera. Alerty dysku wirtualnego kontrolera zarządzania płytą główną (BMC) wyzwalane podczas zamiany BMM mogą być ignorowane, chyba że istnieją inne alerty dotyczące dysków fizycznych i/lub kontrolerów RAID. 2025-07-01-preview Począwszy od wersji interfejsu API usługi NetworkCloud i ogólnie dostępnej w wersji ogólnodostępnej2025-09-01, użyj polecenia replace , storage-policy="Preserve" aby zachować dane dysku wirtualnego.

Zamień przepływ pracy

Cordon i ewakuacja — usuń obciążenia robocze z systemu BMM przed naprawą fizyczną.
Wykonaj naprawy fizyczne — w razie potrzeby zastąp składniki sprzętowe.
Wykonaj polecenie replace — uruchom polecenie replace z wymaganymi parametrami.
Uncordon — uczynić BMM ponownie planyzowalnym po zakończeniu wymiany.
Sprawdź stan — sprawdź, czy program BMM działa prawidłowo.

Następujące polecenie interfejsu wiersza polecenia platformy Azure spowoduje cordon , że określony parametr bareMetalMachineName.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Przewodnik wymiany składników sprzętowych

Podczas przeprowadzania fizycznej naprawy zasilacza z możliwością wymiany na gorąco akcja wymiany nie jest wymagana, ponieważ host BMM będzie nadal działać normalnie po naprawie.

Podczas wykonywania następujących napraw fizycznych zalecamy wykonanie akcji zamiany, chociaż nie jest konieczne przywrócenie programu BMM z powrotem do usługi:

CPU
Moduł pamięci DIMM (Dual In-Line Memory Module)
Wentylator
Karta rozszerzeń z podnośnikiem
Nadajnik-odbiornik
Wymiana kabla ethernetowego lub światłowodowego

Podczas wykonywania następujących napraw fizycznych wymagana jest akcja zamiany, aby przywrócić program BMM do usługi:

Płyta główna
Tablica systemowa
dysk SSD
Adapter PERC/RAID
Karta interfejsu sieciowego Mellanox (NIC)
Osadzona karta sieciowa Broadcom

Po zakończeniu napraw fizycznych sprawdź, czy wszystkie wersje oprogramowania układowego są zgodne z wersjami obsługiwanymi dla odpowiedniego środowiska uruchomieniowego. Zastosuj te same testy najlepszych rozwiązań używane podczas wdrażania, aby upewnić się, że składniki spełniają minimalne wymagania dotyczące oprogramowania układowego.

Po zakończeniu sprawdzania oprogramowania układowego przystąp do wymiany.

Następujące polecenie interfejsu wiersza polecenia platformy Azure spowoduje replace , że określony parametr bareMetalMachineName.

az networkcloud baremetalmachine replace \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUM> \
  --subscription <subscriptionID> \
  --storage-policy <STORAGE_POLICY>

Następujące polecenie interfejsu wiersza polecenia platformy Azure spowoduje anulowaniekordonu określonego bareMetalMachineName.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Aby sprawdzić stan BMM po replace:

az networkcloud baremetalmachine show \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID> \
  --query "provisioningState"

Wynik pokaże Succeeded , że program BMM został aprowizowany i ponownie dołączył do klastra.

Podsumowanie

Ponowne uruchamianie, ponowne przywracanie obrazu i zastępowanie to skuteczne metody rozwiązywania problemów z serwerem Azure Operator Nexus. Oto krótki przewodnik informacyjny:

Akcja	Kiedy należy używać	Wpływ	Requirements
uruchom ponownie	Tymczasowe usterki, nieodpowiadające maszyny wirtualne	Krótki przestój	Brak, najszybsza opcja
Reimage	Uszkodzenie systemu operacyjnego, obawy dotyczące zabezpieczeń	Dłuższy przestój, zachowuje dane	Zalecana ewakuacja obciążenia
Zastąp	Awarie składników sprzętowych	Najdłuższy przestój, dane na dyskach wirtualnych nie są zachowywane, a maszyna wirtualna może nie być w stanie uruchomić	Wymiana składników sprzętowych, wymagane są określone parametry

Najlepsze rozwiązania

Zawsze postępuj zgodnie ze ścieżką eskalacji: Zacznij od ponownego uruchomienia, potem obrazuj, a następnie wymień, chyba że problem wyraźnie wskazuje inaczej.
Sprawdź obciążenia przed akcją: użyj podanych poleceń, aby zidentyfikować uruchomione obciążenia przed wszelkimi działaniami zakłócaczymi.
Cordon z ewakuacją: podczas wykonywania reimage lub zastępowania akcji zawsze używaj polecenia cordon , evacuate="True" aby bezpiecznie przenosić obciążenia.
Nigdy nie uruchamiaj wielu operacji jednocześnie: upewnij się, że jedna operacja została ukończona przed uruchomieniem innego, aby zapobiec problemom z serwerem.
Sprawdź rozwiązanie: po wykonaniu dowolnej akcji sprawdź stan programu BMM i czy oryginalny problem został rozwiązany.

Więcej szczegółów na temat akcji programu BMM można znaleźć w artykule Dotyczącym akcji programu BMM.

Jeśli nadal masz pytania, skontaktuj się z pomocą techniczną. Aby uzyskać więcej informacji na temat planów pomocy technicznej, zobacz Plany pomocy technicznej platformy Azure.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-12-15