Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tej wersji wprowadzono bardzo wymagane nowe funkcje, rozwiązuje kilka kluczowych problemów i poprawia ogólną wydajność.
Nowe funkcje
Usługa Azure CycleCloud oferuje znacznie ulepszone monitorowanie kondycji węzła i raportowanie za pośrednictwem nowego agenta HealthAgent (zobacz projekt Azure CycleCloud HealthAgent).
Możesz wyłączyć usługę Azure CycleCloud HealthAgent, ustawiając właściwość
cyclecloud.healthagent.disable=truekonfiguracji węzła .Usługa Azure CycleCloud oferuje teraz metryki dla węzłów, procesorów GPU oraz harmonogramu Slurm na potrzeby monitorowania i ostrzeżeń. Monitorowanie jest udostępniane za pośrednictwem obszaru roboczego usługi Azure Monitor i zarządzanego narzędzia Grafana. Aby uzyskać szczegółowe informacje, zobacz Projekt monitorowania usługi Azure CycleCloud .
Zmiany klastra Azure CycleCloud Slurm:
- Klastry Azure CycleCloud Slurm obsługują platformę Slurm w wersji 25.05.2.
- Klastry Azure CycleCloud Slurm obsługują obrazy Ubuntu 22/24, Alma 8/9 oraz RedHat 8/9.
- Klastry Azure CycleCloud Slurm obsługują obrazy i typy maszyn ARM64.
- Klastry Azure CycleCloud Slurm oferują wbudowane, ciągłe sprawdzanie kondycji, raportowanie i odzyskiwanie węzłów klastra, automatycznie konfigurując skrypty Slurm HealthCheckProgram, Prolog i Epilog w celu używania modułu Azure CycleCloud HealthAgent.
- Klastry Azure CycleCloud Slurm oferują wbudowaną kolekcję metryk i monitorowanie w obszarze roboczym usługi Azure Monitor.
- Interfejs użytkownika tworzenia klastra Azure CycleCloud Slurm udostępnia nową
Monitoringsekcję umożliwiającą włączanie i konfigurowanie nowych funkcji zbierania i monitorowania metryk (domyślnie wyłączone). - Azure CycleCloud Slurm konfiguruje i uruchamia usługę slurmrestd automatycznie, aby wspierać monitorowanie.
- Klastry Azure CycleCloud Slurm oferują wbudowaną, zautomatyzowaną konfigurację wtyczki topologii dla wtyczek drzewa i topologii bloków za pośrednictwem interfejsu
azslurm topologywiersza polecenia. Automatyczna konfiguracja topologii jest obsługiwana w przypadku klastrów z topologią Virtual Machine Scale Sets, aplikacją SHARP lub domeną NVLink na potrzeby planowania opartego na topologii Slurm. - Klastry Azure CycleCloud Slurm obejmują nową usługę systemową
azslurmd, która synchronizuje zarówno stan Slurm, jak i Azure CycleCloud. Na przykładazslurmdsynchronizuje ustawienie utrzymywania aktywności węzła usługi Azure CycleCloud z natywną funkcją keep-alive firmy Slurm. - Klastry Cyclecloud Slurm zawierają teraz skrypty prologu i epilogu w celu automatycznej konfiguracji usługi "Nvidia IMEX" dla poszczególnych zadań w klastrach GPU firmy Nvidia.
- Klastry Azure CycleCloud Slurm korzystające z
cyclecloud-slurmprojektu w wersji 4.x lub nowszej nie wymagają już konfiguracji programu Chef dla węzła.
Zmiany interfejsu wiersza polecenia pakietu Jetpack
- Interfejs wiersza polecenia Jetpack zawiera nowe
jetpack propspolecenie do obsługi odczytywania i zapisywania danych (właściwości) węzłów z węzłów klastra na potrzeby użycia w skryptach typu cluster-init. Właściwości są ponownie przechowywane w Azure CycleCloud jako typNodePropertiesw magazynie danych Azure CycleCloud. - Interfejs wiersza polecenia Jetpack zawiera nowe
jetpack conditionpolecenie używane do raportowania stanu zdrowia węzła do platformy Azure CycleCloud.
- Interfejs wiersza polecenia Jetpack zawiera nowe
Zmiany interfejsu użytkownika usługi Azure CycleCloud
- Przycisk na poziomie
Issuesklastra jest teraz otwierany jako pełna strona i agreguje problemy z alokacją i kondycją w celu łatwiejszego wyświetlania. - Karta
Activity Logna poziomie klastra w interfejsie użytkownika klastra została przesunięta obok okienkaEvent Log. - Karta okna dialogowego
Show Detailsna poziomieOverviewwęzła została przeprojektowana i zaktualizowana, dodając bezpośrednie linki do portalu Azure oraz przyciski kopiowania dla wszystkich pól. - Okno dialogowe na poziomie
Show Detailszawiera nowy pasek akcji, który udostępnia operacje specyficzne dla węzła, w tymRestartiReimagedo korygowania kondycji węzła. - Okno dialogowe na poziomie
Show Detailswęzła zawiera teraz tylko pierwszy stan kondycji węzła i udostępnia link do nowejIssueskarty, aby wyświetlić wszystkie bieżące warunki węzła.
- Przycisk na poziomie
Obsługa urządzeń NVMe
- Usługa Azure CycleCloud automatycznie montuje i formatuje dyski NVMe na węzłach systemu Linux na typach maszyn z dyskami efemerycznymi NVMe.
- Węzły Linux zamontują tymczasowe dyski NVMe w lokalizacji
/nvme. - Typy maszyn z dyskami rozruchowymi NVMe, takimi jak typy maszyn v6, HBv5 i HBv6, są teraz obsługiwane.
Obsługa usługi ARM64
- Usługa Azure CycleCloud i Jetpack obsługują węzły ARM64 i obrazy ARM64, jeśli typ klastra zapewnia obsługę ARM64. Obecnie tylko typ klastra Slurm zapewnia wbudowaną obsługę arm64.
- Pakiety ARM64 dla pakietu Jetpack są dostępne do instalacji w obrazach niestandardowych.
Teraz Azure CycleCloud udostępnia akcje
ReimageiRestartna węzłach zestawu skalowania maszyn wirtualnych na potrzeby odzyskiwania i naprawy węzłów.Nowe akcje
RestartiReimagesą dostępne za pośrednictwem nowych interfejsów API REST usługi Azure CycleCloud:/clusters/{cluster}/nodes/restarti/clusters/{cluster}/nodes/reimage.Macierze węzłów usługi Azure CycleCloud teraz obsługują dołączanie wstępnie utworzonych zestawów skalowania maszyn wirtualnych (znanych również jako bring-your-own Virtual Machine Scale Sets) poprzez ustawienie nowego atrybutu węzła
PredefinedScaleSetId.Węzły systemu Linux można skonfigurować tak, aby działały bez starszej platformy Chef dla węzłów, które nie wymagają programu Chef.
Program Chef jest domyślnie wyłączony dla nowych klastrów Slurm, chyba że jest to wymagane przez określone konfiguracje węzłów.
Wszystkie montowania systemu plików na węzłach klastra są teraz utrwalane do
/etc/fstab. Ta zmiana gwarantuje, że systemy plików są prawidłowo ponownie instalowane po ponownym uruchomieniu.Węzły systemu Linux wiążą teraz katalog tymczasowy (
/tmp) z katalogiem utworzonym na dysku efemerycznym (jeśli typ maszyny udostępnia efemeryczny dysk), aby zmniejszyć użycie dysku systemu operacyjnego.Azure CycleCloud obsługuje Blobfuse2 jako typ montowania w szablonach klastrów.
Zmieniając ustawienia konfiguracji węzłów w aktualnie działających klastrach, można zastosować zmiany do uruchomionych węzłów, wydając polecenie ponownej konfiguracji na węzłach.
Usługa Azure CycleCloud używa teraz interfejsu API usługi Azure Compute RP w wersji 2024-11-01.
Rozwiązano problemy
- Formatowanie interfejsu użytkownika usługi Azure CycleCloud sprawiało, że błędy zbieżne są trudne do zinterpretowania.
- Adres
/c/{cluster_name}URL prowadzący bezpośrednio do klastrów w interfejsie użytkownika przekierowywał niezalogowanych użytkowników na pustą stronę. - Błędy pakietu Cloud-init zostały prawidłowo zgłoszone.
- Błędy pakietu Cloud-init nie odróżniały błędów skryptu użytkownika od błędów na poziomie obrazu.
- Polecenie
azslurm nodesinterfejsu wiersza polecenia czasami nie powiodło się i wyświetliło komunikat: "brak parametrów "buckets". - W przypadku użycia przez użytkowników nierootowych, rotacja dziennika dla CLI
azslurmnie powiodła się z powodu uprawnień użytkownika i własności pliku dziennika. - Klastry Slurm w Azure CycleCloud przechowywały prywatne adresy IP w danych węzłów Slurm. Ten problem doprowadził do odrzucenia węzłów przez slurm w pewnych warunkach.
- Interfejs użytkownika usługi Azure CycleCloud stracił aktywny wybór klastra
Issuespo odświeżeniu panelu. - Przełącznik
Keep Alivew raporcie o stanie węzła nie zadziałał. - Naciśnięcie
Enterna stronie logowania nie wysłało formularza uwierzytelniania. - Domyślny wybór powłoki w systemie Linux był niespójny dla różnych obrazów systemu operacyjnego.
- Polecenie interfejsu wiersza poleceń
jetpack usersnie wygenerowało wyników dla niektórych typów klastrów. - Instalacja interfejsu wiersza polecenia usługi Azure CycleCloud nie powiodła się w systemie macOS.
- Polecenie CLI
jetpack report_issuenie udało się przekazać wygenerowanego pakietu dziennika. - Użycie interfejsu wiersza polecenia
az vm run-commandplatformy Azure w węźle Azure CycleCloud spowodowało, że Azure CycleCloud oznaczyło węzeł jako uszkodzony z komunikatem: "Wystąpił nieokreślony błąd". - Aktualizowanie klastra może zakończyć się niepowodzeniem i zgłosić "Błąd niedopasowania atrybutów" dla atrybutów tablicy węzłów
TerminateNotificationTimeoutiMaxPrice, nawet jeśli wartość jest niezmieniona. - Platforma Azure zgłosiła nieprawidłową liczbę procesorów GPU i rozmiar pamięci dla GB200, a nieprawidłowe dane zostały odzwierciedlone w danych maszyny Azure CycleCloud na potrzeby planowania.
- Usługa Azure CycleCloud spowodowała wyjątek podczas tworzenia węzła, jeśli atrybut
StartTimenie został ustawiony w rekordzie węzła. - Węzły klastra czasami nie mogły się zrekonwergować po
Reimageoperacji, ponieważ pliki znaczników inicjacji klastra przechowywane na dysku efemerycznym węzła nie zostały usunięte przez operację.
Zmiany przełomowe
- Pakiet Jetpack jest teraz instalowany domyślnie dla obrazów niestandardowych.
- Aby przywrócić stare zachowanie, ustaw wartość
InstallJetpack=falsew węźle w szablonie klastra.
- Aby przywrócić stare zachowanie, ustaw wartość
- Klaster Azure CycleCloud Slurm teraz domyślnie ma wartość
ReturnProxy=false.- Aby przywrócić oryginalne zachowanie, ustaw
ReturnProxyparametr natruewartość podczas tworzenia klastra.
- Aby przywrócić oryginalne zachowanie, ustaw
- Aby uzyskać lepsze domyślne zabezpieczenia, klastry Slurm usługi Azure CycleCloud domyślnie wyłączają publiczne adresy IP.
- Aby przywrócić oryginalne zachowanie, ustaw
UsePublicNetworkparametr natruewartość podczas tworzenia klastra.
- Aby przywrócić oryginalne zachowanie, ustaw
Znane problemy
- Nowe akcje
RestartiReimagesą dostępne tylko dla węzłów w grupach węzłów (wystąpień zestawu skalowania maszyn wirtualnych). Pojedyncze węzły (pojedyncze maszyny wirtualne) nie obsługująRestartjeszcze aniReimage. W przypadku pojedynczych węzłów użyj Azure Portal lub Azure CLI, aby ponownie uruchomić lub przywrócić obraz maszyny wirtualnej. - Typ klastra Azure CycleCloud HPC Pack nie zbiega się.