Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W miarę korzystania z usługi Azure Chaos Studio czasami mogą wystąpić pewne problemy. W tym artykule opisano typowe problemy i kroki rozwiązywania problemów.
Ogólne wskazówki dotyczące rozwiązywania problemów
Podczas rozwiązywania problemów z programem Chaos Studio przydatne są następujące źródła:
- Dziennik aktywności: dziennik aktywności platformy Azure zawiera rekord wszystkich operacji tworzenia, aktualizowania i usuwania w subskrypcji. Te rekordy obejmują operacje programu Chaos Studio, takie jak włączanie elementu docelowego lub możliwości, instalowanie agenta i tworzenie lub uruchamianie eksperymentu. Błędy w dzienniku aktywności wskazują, że wykonanie akcji użytkownika niezbędnej do korzystania z programu Chaos Studio mogło zakończyć się niepowodzeniem. Większość błędów w usługach bezpośrednich również wprowadza błędy poprzez wykonywanie operacji w Azure Resource Manager, więc dziennik aktywności zawiera rekord błędów, które zostały wprowadzone podczas eksperymentu dla pewnych błędów w usługach bezpośrednich.
- Szczegóły eksperymentu: szczegóły wykonania eksperymentu pokazują stan i błędy pojedynczego przebiegu eksperymentu. Otwarcie określonego błędu w szczegółach eksperymentu pokazuje zasoby, które uległy awarii, oraz komunikaty o błędach dotyczących awarii. Dowiedz się więcej na temat uzyskiwania dostępu do szczegółów eksperymentu.
-
Dzienniki agentów: jeśli używasz symulowanego stanu awarii opartego na agencie, może być konieczne połączenie RDP lub SSH do maszyny wirtualnej, aby dowiedzieć się, dlaczego agent nie mógł uruchomić symulowanego stanu awarii. Instrukcje dotyczące uzyskiwania dostępu do dzienników agenta zależą od systemu operacyjnego:
-
Agent Chaos Windows: Dzienniki agenta znajdują się w Dzienniku Zdarzeń systemu Windows w kategorii Aplikacja ze źródłem
AzureChaosAgent. Agent dodaje działania błędów i regularne sprawdzanie kondycji (możliwość uwierzytelniania i komunikowania się z usługą agenta Chaos Studio) do tego dziennika. -
Agent Chaos Linux: Agent systemu Linux używa systemd do zarządzania procesem agenta jako usługą w systemie Linux. Aby wyświetlić dziennik systemowy agenta (zdarzenia zarejestrowane przez usługę agenta), uruchom polecenie
journalctl -u azure-chaos-agent.
-
Agent Chaos Windows: Dzienniki agenta znajdują się w Dzienniku Zdarzeń systemu Windows w kategorii Aplikacja ze źródłem
-
Stan rozszerzenia maszyny wirtualnej: Jeśli używasz usterki opartej na agencie, sprawdź, czy rozszerzenie maszyny wirtualnej jest zainstalowane i w dobrej kondycji. W portalu Azure przejdź do maszyny wirtualnej i przejdź do Rozszerzenia lub Rozszerzenia + aplikacje.
ChaosAgentWybierz rozszerzenie i poszukaj następujących pól:- Stan powinien pokazywać Aprowizacja powiodła się. Każdy inny stan wskazuje, że nie można zainstalować agenta. Sprawdź, czy spełniasz wszystkie wymagania systemowe. Spróbuj ponownie zainstalować agenta.
- Stan obsługi powinien mieć wartość Gotowe. Każdy inny stan wskazuje, że agent jest zainstalowany, ale nie może nawiązać połączenia z programem Chaos Studio. Sprawdź, czy zostały spełnione wszystkie wymagania sieciowe i czy tożsamość zarządzana przypisana przez użytkownika została dodana do maszyny wirtualnej. Spróbuj ponownie uruchomić.
Problemy podczas dodawania zasobu
Podczas dodawania zasobu mogą wystąpić następujące problemy.
Zasoby nie są wyświetlane na liście obiektów docelowych w witrynie Azure Portal
Jeśli nie widzisz zasobów, które chcesz włączyć na liście obiektów docelowych usługi Chaos Studio, może to być spowodowane jednym z następujących problemów:
- Zasoby nie są w obsługiwanym regionie usługi Chaos Studio.
- Zasoby nie są typu zasobu obsługiwanego w usłudze Chaos Studio.
- Zasoby znajdują się w subskrypcji lub grupie zasobów, które są odfiltrowane w filtrach listy docelowej. Zmień filtry subskrypcji i grupy zasobów, aby zobaczyć swoje zasoby.
Włączanie elementu docelowego lub możliwości kończy się niepowodzeniem lub nie jest wyświetlane poprawnie na liście docelowej
Jeśli widzisz błąd podczas włączania celów lub możliwości, spróbuj wykonać następujące kroki:
- Sprawdź, czy masz odpowiednie uprawnienia do dodawanych zasobów. Włączenie celu lub funkcji wymaga uprawnień Microsoft.Chaos/* na poziomie zasobu. Wbudowane role, takie jak Współautor, mają uprawnienia do odczytu i zapisu z symbolami wieloznacznymi, które obejmują uprawnienia do wszystkich operacji Microsoft.Chaos.
- Zaczekaj kilka minut na zaktualizowanie celów i możliwości. Witryna Azure Portal używa usługi Azure Resource Graph do zbierania informacji na temat dodawania celów i możliwości. Rozpowszechnienie zmian może zająć do pięciu minut.
- Jeśli zasób nadal ma wartość Nie włączono, spróbuj wykonać następujące czynności:
- Spróbuj ponownie włączyć zasób.
- Jeśli włączenie zasobów nadal kończy się niepowodzeniem, przejdź do dziennika aktywności i znajdź nieudaną operację utworzenia celu, aby wyświetlić szczegółowe informacje o błędzie.
- Jeśli zasób zawiera wartość Włączone , ale dodawanie możliwości nie powiodło się, spróbuj wykonać następujące czynności:
- Wybierz pozycję Zarządzaj akcjami na liście obiektów docelowych. Sprawdź wszystkie możliwości, które nie zostały zaznaczone, i wybierz pozycję Zapisz.
- Jeśli włączenie możliwości nadal kończy się niepowodzeniem, przejdź do dziennika aktywności i znajdź nieudaną operację tworzenia obiektu docelowego, aby wyświetlić szczegółowe informacje o błędzie.
Problemy z wymaganiami wstępnymi
Niektóre problemy są spowodowane brakującymi wymaganiami wstępnymi.
Błędy oparte na agencie kończą się niepowodzeniem na maszynie wirtualnej
Problemy związane z działaniem agentów mogą wystąpić z różnych przyczyn związanych z brakującymi wymaganiami wstępnymi.
- Na maszynach wirtualnych z systemem Linux obciążenie CPU, obciążenie pamięci fizycznej, obciążenie we/wy dysku i dowolne testy Stress-ng wymagają zainstalowania narzędzia stress-ng na maszynie wirtualnej. Aby uzyskać więcej informacji na temat sposobu instalowania narzędzia stress-ng, zobacz sekcje wymagań wstępnych dotyczących błędów.
- Na maszynach wirtualnych z systemem Linux lub Windows tożsamość zarządzana przypisana przez użytkownika podczas włączania docelowego opartego na agencie musi być również dodana do maszyny wirtualnej.
- Na maszynach wirtualnych z systemem Linux lub Windows, tożsamość zarządzana, przypisana przez system dla eksperymentu, musi posiadać rolę Reader na tej maszynie. (Pozornie podniesione role, takie jak Współautor maszyny wirtualnej, nie zawierają operacji */Odczytu, która jest niezbędna dla agenta Programu Chaos Studio w celu odczytania docelowego zasobu serwera proxy microsoft-agent na maszynie wirtualnej).
Agent Chaos nie zostanie zainstalowany w zestawach skalowania maszyn wirtualnych
Zainstalowanie agenta Chaosu w zestawach skalowania maszyn wirtualnych może zakończyć się niepowodzeniem bez wyświetlania błędu, jeśli zasady uaktualniania zestawu skalowania maszyn wirtualnych są ustawione na Ręczne. Aby sprawdzić zasady uaktualniania zestawu skalowania maszyn wirtualnych:
- Zaloguj się w witrynie Azure Portal.
- Wybierz Zestaw skalowania maszyny wirtualnej.
- W okienku po lewej stronie wybierz pozycję Zasady uaktualniania.
- Sprawdź tryb uaktualniania, aby sprawdzić, czy jest ustawiona wartość Ręczna — istniejące wystąpienia muszą zostać uaktualnione ręcznie.
Jeśli zasady uaktualniania są ustawione na Ręczne, należy uaktualnić wystąpienia usługi Azure Virtual Machine Scale Sets, aby można było zakończyć instalację agenta Chaos.
Aktualizowanie wystąpień z portalu Azure
Możesz uaktualnić instancje zestawów skalujących maszyn wirtualnych z poziomu portalu Azure.
- Zaloguj się w witrynie Azure Portal.
- Wybierz Zestaw skalowania maszyny wirtualnej.
- W okienku po lewej stronie wybierz pozycję Wystąpienia.
- Zaznacz wszystkie wystąpienia i wybierz pozycję Uaktualnij.
Uaktualnianie wystąpień za pomocą interfejsu wiersza polecenia platformy Azure
Wystąpienia usługi Virtual Machine Scale Sets można uaktualnić za pomocą interfejsu wiersza polecenia platformy Azure:
Z poziomu interfejsu wiersza polecenia platformy Azure użyj polecenia
az vmss update-instances, aby ręcznie uaktualnić wystąpienia:az vmss update-instances --resource-group myResourceGroup --name myScaleSet --instance-ids {instanceIds}
Aby uzyskać więcej informacji, zobacz Bring VMs up to date with the latest scale set model (Przenoszenie maszyn wirtualnych do najnowszego modelu zestawu skalowania).
Błędy usługi AKS Chaos Mesh kończą się niepowodzeniem
Błędy usługi Azure Kubernetes Service (AKS) Chaos Mesh mogą zakończyć się niepowodzeniem z różnych powodów związanych z brakującymi wymaganiami wstępnymi:
- Chaos Mesh musi być najpierw zainstalowany na klastrze AKS, zanim użyjesz błędów Chaos Mesh dla AKS. Aby uzyskać instrukcje, zobacz samouczek dotyczący błędów usługi Chaos Mesh w usłudze AKS.
- Chaos Mesh musi być w wersji 2.0.4 lub nowszej. Wersję usługi Chaos Mesh można uzyskać, łącząc się z klastrem usługi AKS i uruchamiając polecenie
helm version chaos-mesh. - Usługa Chaos Mesh musi być zainstalowana z przestrzenią nazw
chaos-testing. Inne nazwy przestrzeni nazw dla usługi Chaos Mesh nie są obsługiwane. - Rola AKS Cluster Admin musi być przypisana do zarządzanej tożsamości nadanej przez system na potrzeby eksperymentu chaosu.
Problemy podczas tworzenia lub projektowania eksperymentu
Podczas tworzenia lub projektowania eksperymentu mogą wystąpić problemy.
Po dodaniu błędu mojego zasobu nie widać na liście docelowych zasobów
Jeśli podczas dodawania błędu nie widzisz zasobu, który chcesz objąć błędem, na liście docelowych zasobów, przyczyną może być dowolny z następujących problemów:
- Filtr Subskrypcji jest ustawiony tak, aby wykluczyć subskrypcję, w której wdrożono Twój cel. Wybierz filtr subskrypcji i zmodyfikuj wybrane subskrypcje.
- Zasób nie został jeszcze dodany. Przejdź do widoku Wartości docelowe i włącz element docelowy. Następnie zamknij okienko Dodaj awarię i otwórz je ponownie, aby wyświetlić zaktualizowaną listę wartości docelowych.
- Zasób nie został jeszcze włączony dla typu docelowego tej usterki. Zobacz Bibliotekę usterek, aby zobaczyć, który typ docelowy jest używany dla tej usterki. Następnie przejdź do widoku Cele i włącz ten typ docelowy. Typ jest oparty na agencie dla usterek microsoft-agent lub na usłudze bezpośredniej dla wszystkich innych typów docelowych. Następnie zamknij okienko Dodaj awarię i otwórz je ponownie, aby wyświetlić zaktualizowaną listę wartości docelowych.
- Zasób nie ma jeszcze możliwości włączenia tej funkcji. Zobacz bibliotekę błędów, aby wyświetlić nazwę możliwości błędu. Następnie przejdź do widoku Wartości docelowe i wybierz pozycję Zarządzaj akcjami w zasobie docelowym. Zaznacz pole wyboru dla funkcji odpowiadającej usterce, którą próbujesz zdiagnozować, i wybierz Zapisz. Następnie zamknij okienko Dodaj awarię i otwórz je ponownie, aby wyświetlić zaktualizowaną listę wartości docelowych.
- Zasób został niedawno dodany i nie został jeszcze wyświetlony w widoku Resource Graph. Lista Zasobów docelowych jest odpytywana z usługi Resource Graph. Po włączeniu nowego celu może upłynąć do pięciu minut, zanim aktualizacja zostanie przekazana do zasobu Resource Graph. Poczekaj kilka minut, a następnie otwórz ponownie okienko Dodaj błąd .
Podczas tworzenia eksperymentu występuje błąd "Dostawca microsoft:agent wymaga tożsamości zarządzanej"
Ten błąd występuje, gdy agent nie został wdrożony na maszynie wirtualnej. Aby uzyskać instrukcje dotyczące instalacji, zapoznaj się z Tworzenie i uruchamianie eksperymentu z błędami opartymi na agentach.
Podczas tworzenia eksperymentu występuje błąd "Typ nośnika zawartości "null" nie jest obsługiwany. Obsługiwane są tylko pliki "application/json"
Ten błąd może wystąpić, jeśli tworzysz eksperyment przy użyciu szablonu usługi Azure Resource Manager lub interfejsu API REST programu Chaos Studio. Błąd wskazuje, że w definicji eksperymentu występuje źle sformułowany kod JSON. Sprawdź, czy występują błędy składniowe, na przykład źle dopasowane nawiasy klamrowe lub nawiasy kwadratowe ({} i []). Aby to sprawdzić, użyj lintera JSON, takiego jak Visual Studio Code.
Problemy podczas uruchamiania eksperymentu
Podczas uruchamiania eksperymentu mogą wystąpić problemy.
Stan wykonania mojego eksperymentu po uruchomieniu to "Niepowodzenie"
Z listy Eksperymenty w witrynie Azure Portal wybierz nazwę eksperymentu, aby wyświetlić przegląd eksperymentu. W sekcji Historia wybierz pozycję Szczegóły obok przebiegu eksperymentu, który zakończył się niepowodzeniem, aby wyświetlić szczegółowe informacje o błędzie.
Alternatywnie użyj interfejsu API REST, aby uzyskać szczegóły wykonania eksperymentu. Dowiedz się więcej w przykładowym artykule dotyczącym interfejsu API REST.
az rest --method post --url "https://management.azure.com/{experimentId}/executions/{executionDetailsId}/getExecutionDetails?api-version={apiVersion}"
Moja usterka związana z agentem zakończyła się niepowodzeniem z powodu błędu "Sprawdź, czy cel został poprawnie dodany i czy odpowiednie uprawnienia do odczytu są udostępnione dla tożsamości usługi zarządzanej eksperymentu"
Ten błąd może wystąpić, jeśli dodałeś agenta, używając portalu Azure, który ma znane problemy. Włączenie elementu docelowego opartego na agencie nie powoduje przypisania tożsamości zarządzanej przypisanej przez użytkownika do maszyny wirtualnej lub zestawu skalowania maszyn wirtualnych.
Aby rozwiązać ten problem, przejdź do maszyny wirtualnej lub zestawu skalowania maszyn wirtualnych w Azure Portal i przejdź do Tożsamość. Otwórz kartę Użytkownik przypisany i dodaj tożsamość przypisaną użytkownikowi do maszyny wirtualnej. Po zakończeniu może być konieczne ponowne uruchomienie maszyny wirtualnej, aby agent mógł się połączyć.
Awaria mojego systemu opartego na agencie nie powiodła się z powodu komunikatu "Agent wykonuje już inne zadanie"
Ten błąd wystąpi, jeśli spróbujesz uruchomić wiele błędów agenta w tym samym czasie. Obecnie agent obsługuje uruchamianie pojedynczego błędu agenta jednocześnie i zakończy się niepowodzeniem, jeśli zdefiniujesz eksperyment, który uruchamia wiele błędów agenta w tym samym czasie.
Eksperyment nie został uruchomiony lub nie powiodł się natychmiast
Po rozpoczęciu eksperymentu może zostać wyświetlony komunikat o błędzie, taki jak: The long-running operation has failed. InternalServerError. The target resource(s) could not be resolved. Error Code: OperationFailedException. Zwykle oznacza to, że tożsamość eksperymentu nie ma niezbędnych uprawnień.
Aby rozwiązać ten błąd, upewnij się, że tożsamość zarządzana przypisana przez system lub przypisana przez użytkownika eksperymentu ma uprawnienia do wszystkich zasobów w eksperymencie. Dowiedz się więcej o uprawnieniach tutaj: Uprawnienia i zabezpieczenia w usłudze Azure Chaos Studio. Jeśli na przykład eksperyment jest przeznaczony dla maszyny wirtualnej, przejdź do strony tożsamości maszyny wirtualnej i przypisz rolę "Współautor maszyny wirtualnej" do tożsamości zarządzanej eksperymentu.
Eksperyment usługi AKS Chaos Mesh zakończył się niepowodzeniem
Istnieje kilka typowych błędów, które mogą wystąpić podczas korzystania z AKS Chaos Mesh.
| Komunikat o błędzie | Sugerowana akcja |
|---|---|
| Pobieranie poświadczeń statycznych jest niedozwolone, ponieważ ten klaster jest ustawiony na wyłączenie kont lokalnych. | Usterki w AKS Chaos Mesh mogą używać albo lokalnych kont Kubernetes, albo uwierzytelniania Microsoft Entra, począwszy od wersji 2.2. Dowiedz się, jak migrować swoje eksperymenty tutaj: Uwierzytelnianie Microsoft Entra w przypadku błędów w Chaos Studio AKS. |
| Nie można uruchomić eksperymentu usługi Chaos Mesh, ponieważ podana konfiguracja była nieprawidłowa | Upewnij się, że pole jsonSpec zawiera wszystkie wymagane pola. |
| Wersja usługi Chaos Mesh "x.x.x" nie jest obecnie obsługiwana przez program Chaos Studio | Sprawdź zainstalowaną wersję na stronie zgodności wersji programu Azure Chaos Studio i prześlij żądanie funkcji, jeśli wymagana wersja nie jest wymieniona. |
Po uruchomieniu eksperymentu z wstrzyknięciem sieci wirtualnej (VNet) występuje błąd "InvalidResourceReference"
Podczas wykonywania eksperymentu może to zakończyć się niepowodzeniem z komunikatem "Resource /subscriptions/.../providers/Microsoft.Network/virtualNetworks/... referenced by resource /subscriptions/.../providers/Microsoft.Network/privateEndpoints/... was not found. Please make sure that the referenced resource exists, and that both resources are in the same region" w sekcji Szczegóły wykonania eksperymentu.
Ten błąd występuje, gdy korzystasz z iniekcji VNet i tworzysz eksperyment w innej subskrypcji niż ta, która zawiera sieć wirtualną. Podczas wykonywania eksperymentu program Chaos Studio próbuje utworzyć prywatny punkt końcowy, ale nie może odnaleźć przywołynej sieci wirtualnej, ponieważ znajduje się w innej subskrypcji.
Aby rozwiązać ten problem, upewnij się, że eksperyment został utworzony w tej samej subskrypcji co sieć wirtualna. Należy ponownie utworzyć eksperyment w odpowiedniej subskrypcji. Aby uzyskać więcej informacji na temat tego ograniczenia, zobacz Integracja iniekcji sieci wirtualnej z programem Chaos Studio.
Dlaczego widzę użytkownika "masterclient" w dziennikach inspekcji usługi AKS?
Przyczyna: Po uruchomieniu awarii Chaos Mesh w klastrze AKS, nawet jeśli korzystasz z uwierzytelniania tożsamości Microsoft Entra, użytkownik masterclient może pojawić się w dziennikach kontrolnych serwera API. To konto użytkownika jest wbudowanym lokalnym kontem administratora dla klastra. To zachowanie jest oczekiwane w klastrach AKS, które nie mają jawnie wyłączonych kont lokalnych.
Rozwiązanie: Jeśli zasady zabezpieczeń organizacji wymagają, aby wszystkie akcje były powiązane z określoną tożsamością identyfikatora Entra w dziennikach, należy wyłączyć konta lokalne w klastrze usługi AKS. Wymusza to, aby całe uwierzytelnianie odbywało się przez dostawcę Microsoft Entra ID. Instrukcje można znaleźć w dokumentacji usługi AKS: Wyłączanie kont lokalnych przy użyciu integracji usługi Microsoft Entra zarządzanej przez usługę AKS.
Problemy podczas konfigurowania tożsamości zarządzanej
Gdy próbuję dodać tożsamość zarządzaną przypisaną przez system/przypisaną przez użytkownika do istniejącego eksperymentu, zapisywanie nie powiedzie się.
Jeśli próbujesz dodać tożsamość zarządzaną przypisaną przez użytkownika lub przypisaną przez system do eksperymentu, który ma już przypisaną tożsamość zarządzaną, eksperyment nie zostanie wdrożony. Musisz najpierw usunąć tożsamość zarządzaną przypisaną przez użytkownika lub tożsamość zarządzaną przypisaną przez system w żądanym eksperymencie przed dodaniem żądanej tożsamości zarządzanej.
Po uruchomieniu eksperymentu skonfigurowanego do automatycznego tworzenia i przypisywania roli niestandardowej występuje błąd "Nie można rozpoznać zasobów docelowych. Kod błędu: Dostęp zabroniony. Zasoby docelowe:"
Po wybraniu pola wyboru "Uprawnienia roli niestandardowej" dla eksperymentu program Chaos Studio tworzy i przypisuje rolę niestandardową z niezbędnymi uprawnieniami do tożsamości eksperymentu. Jednak podlega to następującym limitom przypisywania ról i definicji roli:
- Każda subskrypcja platformy Azure ma limit 4000 przypisań ról.
- Każda dzierżawa Microsoft Entra ma limit 5000 definicji ról (lub 2000 definicji ról dla Azure w regionie Chin).
Po osiągnięciu jednego z tych limitów wystąpi ten błąd. Aby obejść ten proces, należy ręcznie przyznać uprawnienia tożsamości eksperymentu.