Udostępnij przez


Azure CycleCloud w wersji 8.8.0

W tej wersji wprowadzono bardzo wymagane nowe funkcje, rozwiązuje kilka kluczowych problemów i poprawia ogólną wydajność.

Nowe funkcje

  • Usługa Azure CycleCloud oferuje znacznie ulepszone monitorowanie kondycji węzła i raportowanie za pośrednictwem nowego agenta HealthAgent (zobacz projekt Azure CycleCloud HealthAgent).

  • Możesz wyłączyć usługę Azure CycleCloud HealthAgent, ustawiając właściwość cyclecloud.healthagent.disable=truekonfiguracji węzła .

  • Usługa Azure CycleCloud oferuje teraz metryki dla węzłów, procesorów GPU oraz harmonogramu Slurm na potrzeby monitorowania i ostrzeżeń. Monitorowanie jest udostępniane za pośrednictwem obszaru roboczego usługi Azure Monitor i zarządzanego narzędzia Grafana. Aby uzyskać szczegółowe informacje, zobacz Projekt monitorowania usługi Azure CycleCloud .

  • Zmiany klastra Azure CycleCloud Slurm:

    • Klastry Azure CycleCloud Slurm obsługują platformę Slurm w wersji 25.05.2.
    • Klastry Azure CycleCloud Slurm obsługują obrazy Ubuntu 22/24, Alma 8/9 oraz RedHat 8/9.
    • Klastry Azure CycleCloud Slurm obsługują obrazy i typy maszyn ARM64.
    • Klastry Azure CycleCloud Slurm oferują wbudowane, ciągłe sprawdzanie kondycji, raportowanie i odzyskiwanie węzłów klastra, automatycznie konfigurując skrypty Slurm HealthCheckProgram, Prolog i Epilog w celu używania modułu Azure CycleCloud HealthAgent.
    • Klastry Azure CycleCloud Slurm oferują wbudowaną kolekcję metryk i monitorowanie w obszarze roboczym usługi Azure Monitor.
    • Interfejs użytkownika tworzenia klastra Azure CycleCloud Slurm udostępnia nową Monitoring sekcję umożliwiającą włączanie i konfigurowanie nowych funkcji zbierania i monitorowania metryk (domyślnie wyłączone).
    • Azure CycleCloud Slurm konfiguruje i uruchamia usługę slurmrestd automatycznie, aby wspierać monitorowanie.
    • Klastry Azure CycleCloud Slurm oferują wbudowaną, zautomatyzowaną konfigurację wtyczki topologii dla wtyczek drzewa i topologii bloków za pośrednictwem interfejsu azslurm topology wiersza polecenia. Automatyczna konfiguracja topologii jest obsługiwana w przypadku klastrów z topologią Virtual Machine Scale Sets, aplikacją SHARP lub domeną NVLink na potrzeby planowania opartego na topologii Slurm.
    • Klastry Azure CycleCloud Slurm obejmują nową usługę systemową azslurmd, która synchronizuje zarówno stan Slurm, jak i Azure CycleCloud. Na przykład azslurmd synchronizuje ustawienie utrzymywania aktywności węzła usługi Azure CycleCloud z natywną funkcją keep-alive firmy Slurm.
    • Klastry Cyclecloud Slurm zawierają teraz skrypty prologu i epilogu w celu automatycznej konfiguracji usługi "Nvidia IMEX" dla poszczególnych zadań w klastrach GPU firmy Nvidia.
    • Klastry Azure CycleCloud Slurm korzystające z cyclecloud-slurm projektu w wersji 4.x lub nowszej nie wymagają już konfiguracji programu Chef dla węzła.
  • Zmiany interfejsu wiersza polecenia pakietu Jetpack

    • Interfejs wiersza polecenia Jetpack zawiera nowe jetpack props polecenie do obsługi odczytywania i zapisywania danych (właściwości) węzłów z węzłów klastra na potrzeby użycia w skryptach typu cluster-init. Właściwości są ponownie przechowywane w Azure CycleCloud jako typ NodeProperties w magazynie danych Azure CycleCloud.
    • Interfejs wiersza polecenia Jetpack zawiera nowe jetpack condition polecenie używane do raportowania stanu zdrowia węzła do platformy Azure CycleCloud.
  • Zmiany interfejsu użytkownika usługi Azure CycleCloud

    • Przycisk na poziomie Issues klastra jest teraz otwierany jako pełna strona i agreguje problemy z alokacją i kondycją w celu łatwiejszego wyświetlania.
    • Karta Activity Log na poziomie klastra w interfejsie użytkownika klastra została przesunięta obok okienka Event Log.
    • Karta okna dialogowego Show Details na poziomie Overview węzła została przeprojektowana i zaktualizowana, dodając bezpośrednie linki do portalu Azure oraz przyciski kopiowania dla wszystkich pól.
    • Okno dialogowe na poziomie Show Details zawiera nowy pasek akcji, który udostępnia operacje specyficzne dla węzła, w tym Restart i Reimage do korygowania kondycji węzła.
    • Okno dialogowe na poziomie Show Details węzła zawiera teraz tylko pierwszy stan kondycji węzła i udostępnia link do nowej Issues karty, aby wyświetlić wszystkie bieżące warunki węzła.
  • Obsługa urządzeń NVMe

    • Usługa Azure CycleCloud automatycznie montuje i formatuje dyski NVMe na węzłach systemu Linux na typach maszyn z dyskami efemerycznymi NVMe.
    • Węzły Linux zamontują tymczasowe dyski NVMe w lokalizacji /nvme.
    • Typy maszyn z dyskami rozruchowymi NVMe, takimi jak typy maszyn v6, HBv5 i HBv6, są teraz obsługiwane.
  • Obsługa usługi ARM64

    • Usługa Azure CycleCloud i Jetpack obsługują węzły ARM64 i obrazy ARM64, jeśli typ klastra zapewnia obsługę ARM64. Obecnie tylko typ klastra Slurm zapewnia wbudowaną obsługę arm64.
    • Pakiety ARM64 dla pakietu Jetpack są dostępne do instalacji w obrazach niestandardowych.
  • Teraz Azure CycleCloud udostępnia akcje Reimage i Restart na węzłach zestawu skalowania maszyn wirtualnych na potrzeby odzyskiwania i naprawy węzłów.

  • Nowe akcje Restart i Reimage są dostępne za pośrednictwem nowych interfejsów API REST usługi Azure CycleCloud: /clusters/{cluster}/nodes/restart i /clusters/{cluster}/nodes/reimage.

  • Macierze węzłów usługi Azure CycleCloud teraz obsługują dołączanie wstępnie utworzonych zestawów skalowania maszyn wirtualnych (znanych również jako bring-your-own Virtual Machine Scale Sets) poprzez ustawienie nowego atrybutu węzła PredefinedScaleSetId.

  • Węzły systemu Linux można skonfigurować tak, aby działały bez starszej platformy Chef dla węzłów, które nie wymagają programu Chef.

  • Program Chef jest domyślnie wyłączony dla nowych klastrów Slurm, chyba że jest to wymagane przez określone konfiguracje węzłów.

  • Wszystkie montowania systemu plików na węzłach klastra są teraz utrwalane do /etc/fstab. Ta zmiana gwarantuje, że systemy plików są prawidłowo ponownie instalowane po ponownym uruchomieniu.

  • Węzły systemu Linux wiążą teraz katalog tymczasowy (/tmp) z katalogiem utworzonym na dysku efemerycznym (jeśli typ maszyny udostępnia efemeryczny dysk), aby zmniejszyć użycie dysku systemu operacyjnego.

  • Azure CycleCloud obsługuje Blobfuse2 jako typ montowania w szablonach klastrów.

  • Zmieniając ustawienia konfiguracji węzłów w aktualnie działających klastrach, można zastosować zmiany do uruchomionych węzłów, wydając polecenie ponownej konfiguracji na węzłach.

  • Usługa Azure CycleCloud używa teraz interfejsu API usługi Azure Compute RP w wersji 2024-11-01.

Rozwiązano problemy

  • Formatowanie interfejsu użytkownika usługi Azure CycleCloud sprawiało, że błędy zbieżne są trudne do zinterpretowania.
  • Adres /c/{cluster_name} URL prowadzący bezpośrednio do klastrów w interfejsie użytkownika przekierowywał niezalogowanych użytkowników na pustą stronę.
  • Błędy pakietu Cloud-init zostały prawidłowo zgłoszone.
  • Błędy pakietu Cloud-init nie odróżniały błędów skryptu użytkownika od błędów na poziomie obrazu.
  • Polecenie azslurm nodes interfejsu wiersza polecenia czasami nie powiodło się i wyświetliło komunikat: "brak parametrów "buckets".
  • W przypadku użycia przez użytkowników nierootowych, rotacja dziennika dla CLI azslurm nie powiodła się z powodu uprawnień użytkownika i własności pliku dziennika.
  • Klastry Slurm w Azure CycleCloud przechowywały prywatne adresy IP w danych węzłów Slurm. Ten problem doprowadził do odrzucenia węzłów przez slurm w pewnych warunkach.
  • Interfejs użytkownika usługi Azure CycleCloud stracił aktywny wybór klastra Issues po odświeżeniu panelu.
  • Przełącznik Keep Alive w raporcie o stanie węzła nie zadziałał.
  • Naciśnięcie Enter na stronie logowania nie wysłało formularza uwierzytelniania.
  • Domyślny wybór powłoki w systemie Linux był niespójny dla różnych obrazów systemu operacyjnego.
  • Polecenie interfejsu wiersza poleceń jetpack users nie wygenerowało wyników dla niektórych typów klastrów.
  • Instalacja interfejsu wiersza polecenia usługi Azure CycleCloud nie powiodła się w systemie macOS.
  • Polecenie CLI jetpack report_issue nie udało się przekazać wygenerowanego pakietu dziennika.
  • Użycie interfejsu wiersza polecenia az vm run-command platformy Azure w węźle Azure CycleCloud spowodowało, że Azure CycleCloud oznaczyło węzeł jako uszkodzony z komunikatem: "Wystąpił nieokreślony błąd".
  • Aktualizowanie klastra może zakończyć się niepowodzeniem i zgłosić "Błąd niedopasowania atrybutów" dla atrybutów tablicy węzłów TerminateNotificationTimeout i MaxPrice, nawet jeśli wartość jest niezmieniona.
  • Platforma Azure zgłosiła nieprawidłową liczbę procesorów GPU i rozmiar pamięci dla GB200, a nieprawidłowe dane zostały odzwierciedlone w danych maszyny Azure CycleCloud na potrzeby planowania.
  • Usługa Azure CycleCloud spowodowała wyjątek podczas tworzenia węzła, jeśli atrybut StartTime nie został ustawiony w rekordzie węzła.
  • Węzły klastra czasami nie mogły się zrekonwergować po Reimage operacji, ponieważ pliki znaczników inicjacji klastra przechowywane na dysku efemerycznym węzła nie zostały usunięte przez operację.

Zmiany przełomowe

  • Pakiet Jetpack jest teraz instalowany domyślnie dla obrazów niestandardowych.
    • Aby przywrócić stare zachowanie, ustaw wartość InstallJetpack=false w węźle w szablonie klastra.
  • Klaster Azure CycleCloud Slurm teraz domyślnie ma wartość ReturnProxy=false.
    • Aby przywrócić oryginalne zachowanie, ustaw ReturnProxy parametr na true wartość podczas tworzenia klastra.
  • Aby uzyskać lepsze domyślne zabezpieczenia, klastry Slurm usługi Azure CycleCloud domyślnie wyłączają publiczne adresy IP.
    • Aby przywrócić oryginalne zachowanie, ustaw UsePublicNetwork parametr na true wartość podczas tworzenia klastra.

Znane problemy

  • Nowe akcje Restart i Reimage są dostępne tylko dla węzłów w grupach węzłów (wystąpień zestawu skalowania maszyn wirtualnych). Pojedyncze węzły (pojedyncze maszyny wirtualne) nie obsługują Restart jeszcze ani Reimage. W przypadku pojedynczych węzłów użyj Azure Portal lub Azure CLI, aby ponownie uruchomić lub przywrócić obraz maszyny wirtualnej.
  • Typ klastra Azure CycleCloud HPC Pack nie zbiega się.