Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette version introduit de nouvelles fonctionnalités hautement demandées, résout plusieurs problèmes clés et améliore les performances globales.
Nouvelles fonctionnalités
Azure CycleCloud offre une surveillance et des rapports d’intégrité des nœuds considérablement améliorés via le nouveau HealthAgent (consultez le projet Azure CycleCloud HealthAgent).
Vous pouvez désactiver Azure CycleCloud HealthAgent en définissant la propriété
cyclecloud.healthagent.disable=truede configuration du nœud.Azure CycleCloud propose désormais des métriques de planificateur de nœud, GPU et Slurm pour la surveillance et les alertes. La supervision est fournie via l’espace de travail Azure Monitor et Managed Grafana. Pour plus d’informations, consultez le projet de supervision Azure CycleCloud .
Modifications apportées au cluster Slurm Azure CycleCloud :
- Les clusters Slurm Azure CycleCloud prennent en charge Slurm version 25.05.2.
- Les clusters Slurm Azure CycleCloud prennent en charge les images Ubuntu 22/24, Alma 8/9 et RedHat 8/9.
- Les clusters Slurm Azure CycleCloud prennent en charge les images et les types de machines ARM64.
- Les clusters Slurm Azure CycleCloud offrent des contrôles de santé continus intégrés, des rapports et une récupération pour les nœuds de cluster en configurant automatiquement les scripts Slurm HealthCheckProgram, Prolog et Epilog pour utiliser Azure CycleCloud HealthAgent.
- Les clusters Slurm Azure CycleCloud offrent une collecte et une surveillance de métriques intégrées dans l’espace de travail Azure Monitor.
- L’interface utilisateur de création de cluster Slurm Azure CycleCloud fournit une nouvelle
Monitoringsection pour prendre en charge l’activation et la configuration des nouvelles fonctionnalités de collecte et de surveillance des métriques (désactivées par défaut). - Azure CycleCloud Slurm configure et démarre automatiquement le service slurmrestd pour prendre en charge la surveillance.
- Les clusters Slurm Azure CycleCloud offrent une configuration intégrée de plug-in de topologie automatisée pour les plug-ins de topologie d’arborescence et de bloc au moyen de la CLI
azslurm topology. La configuration de topologie automatique est prise en charge pour les clusters avec la topologie Virtual Machine Scale Sets, SHARP ou le domaine NVLink pour une planification prenant en charge la topologie Slurm. - Les clusters Slurm d'Azure CycleCloud incluent un nouveau service système
azslurmdqui synchronise l’état partagé entre Slurm et Azure CycleCloud. Par exemple,azslurmdsynchronise le paramètre de maintien en vie des nœuds d’Azure CycleCloud avec la fonctionnalité native keep-alive de Slurm. - Les clusters Slurm Cyclecloud incluent désormais des scripts prolog et epilog pour configurer automatiquement le service « Nvidia IMEX » par travail pour les clusters GPU Nvidia.
- Les clusters Slurm Azure CycleCloud utilisant le projet
cyclecloud-slurm, version 4.x et ultérieure, ne nécessitent plus Chef pour la configuration des nœuds.
Modifications de l’interface CLI Jetpack
- L’interface CLI Jetpack inclut une nouvelle
jetpack propscommande pour prendre en charge la lecture et l’écriture de données de nœud (propriétés) à partir de nœuds de cluster à utiliser dans des scripts d’init de cluster. Les propriétés sont stockées dans Azure CycleCloud en tant que typeNodePropertiesdans le magasin de données Azure CycleCloud. - L’interface CLI Jetpack inclut une nouvelle
jetpack conditioncommande utilisée pour signaler les conditions d’intégrité des nœuds à Azure CycleCloud.
- L’interface CLI Jetpack inclut une nouvelle
Modifications apportées à l’interface utilisateur Azure CycleCloud
- Le bouton
Issuesau niveau du cluster s’ouvre désormais en pleine page et agrège les problèmes d’allocation et d’intégrité pour faciliter l’affichage. - L'onglet
Activity Logau niveau du cluster dans l'interface utilisateur du cluster a été repositionné à côté du voletEvent Log. - L’onglet boîte de dialogue
Show Detailsau niveauOverviewdu nœud a été repensé et mis à jour avec des liens directs vers le portail Azure et des boutons de copie pour tous les champs. - La boîte de dialogue
Show Detailsau niveau du nœud inclut une nouvelle barre d’actions qui fournit des opérations spécifiques aux nœuds, notammentRestartetReimagepour la correction de l’intégrité des nœuds. - La boîte de dialogue du niveau de nœud
Show Detailsaffiche désormais uniquement la première condition d’intégrité du nœud et fournit un lien vers un nouvel ongletIssuespour afficher toutes les conditions de nœud actuelles.
- Le bouton
Prise en charge des appareils NVMe
- Azure CycleCloud monte et met automatiquement en forme des périphériques de stockage NVMe sur des nœuds Linux sur des types d’ordinateurs avec des disques éphémères NVMe.
- Les nœuds Linux montent des disques éphémères NVMe sur
/nvme. - Les types de machines avec des disques de démarrage NVMe, tels que les types de machines v6, HBv5 et HBv6, sont désormais pris en charge.
Prise en charge d’ARM64
- Azure CycleCloud et Jetpack prennent en charge les nœuds ARM64 et les images ARM64 si le type de cluster fournit la prise en charge d’ARM64. Actuellement, seul le type de cluster Slurm fournit la prise en charge intégrée d’ARM64.
- Les packages ARM64 pour Jetpack sont disponibles pour l’installation dans des images personnalisées.
Azure CycleCloud fournit désormais des actions
ReimageetRestartsur les nœuds de groupe de machines virtuelles identiques pour la récupération et la réparation des nœuds.Les actions
RestartetReimagesont disponibles via les nouvelles API REST Azure CycleCloud :/clusters/{cluster}/nodes/restartet/clusters/{cluster}/nodes/reimage.Les tableaux de nœuds Azure CycleCloud prennent désormais en charge l’attachement de groupes de machines virtuelles identiques précréés (également appelé l’apport de vos propres groupes de machines virtuelles identiques) en définissant le nouvel attribut de nœud
PredefinedScaleSetId.Vous pouvez configurer des nœuds Linux à exécuter sans l’infrastructure Chef héritée pour les nœuds qui ne nécessitent pas Chef.
Chef est désactivé par défaut pour les nouveaux clusters Slurm, sauf si nécessaire par des configurations de nœud spécifiques.
Tous les montages de système de fichiers pour les nœuds de cluster sont désormais conservés dans
/etc/fstab. Cette modification garantit que les systèmes de fichiers sont correctement remontés lors du redémarrage.Les nœuds Linux lient désormais le répertoire temporaire (
/tmp) à un répertoire créé sur le disque éphémère (si le type de machine fournit un disque éphémère) pour réduire l’utilisation du disque du système d’exploitation.Azure CycleCloud prend en charge Blobfuse2 comme type de montage dans les modèles de cluster.
Lorsque vous modifiez les paramètres de configuration des nœuds sur les clusters en cours d’exécution, vous pouvez appliquer des modifications aux nœuds en émettant une commande reconverge sur les nœuds.
Azure CycleCloud utilise désormais l’API Azure Compute RP version 2024-11-01.
Problèmes résolus
- La mise en forme de l’interface utilisateur Azure CycleCloud a rendu les erreurs convergentes difficiles à interpréter.
- URL
/c/{cluster_name}de liaison directe aux clusters dans l’interface utilisateur redirigée vers une page vierge pour les utilisateurs non authentifiés. - Les erreurs cloud-init ont été signalées correctement.
- Les échecs cloud-init ne différencient pas les erreurs de script utilisateur des erreurs au niveau de l'image.
- La commande
azslurm nodesCLI a parfois échoué et affiché le message : « paramètre 'buckets' manquant ». - Lorsqu’elle est effectuée par des utilisateurs non racines, la rotation des journaux pour la CLI
azslurméchoue en raison de la propriété du fichier journal et des autorisations utilisateur. - Les clusters Slurm Azure CycleCloud stockent des adresses IP privées dans les données du nœud Slurm. Ce problème a entraîné le rejet par Slurm des nœuds dans certaines conditions.
- L’interface utilisateur Azure CycleCloud a perdu la sélection du cluster actif lorsqu’elle a actualisé le
Issuespanneau. - L’interrupteur
Keep Alivedans le rapport d’état du nœud n’était pas opérationnel. - Si vous appuyez
Entersur la page de connexion, vous n’avez pas envoyé le formulaire d’authentification. - La sélection d’interpréteur de commandes par défaut dans Linux était incohérente pour différentes images de système d’exploitation.
- La
jetpack userscommande CLI n’a fourni aucune sortie pour certains types de cluster. - L’installation d’Azure CycleCloud CLI a échoué sur macOS.
- La commande CLI
jetpack report_issuen’a pas pu charger le bundle de journaux généré. - L’utilisation d’Azure CLI
az vm run-commandsur un nœud Azure CycleCloud a provoqué l’échec d’Azure CycleCloud avec le message « Une erreur non spécifiée s’est produite ». - La mise à jour d'un cluster peut échouer et signaler une « erreur d'incompatibilité d'attribut » concernant les attributs du tableau de nœuds
TerminateNotificationTimeoutetMaxPrice, même lorsque la valeur n'est pas modifiée. - Azure a signalé un nombre et une taille de mémoire GPU incorrects pour GB200 et les données incorrectes ont été reflétées dans les données de machine Azure CycleCloud pour la planification.
- Azure CycleCloud a généré une exception lors de la création d'un nœud si l'attribut
StartTimen'a pas été défini sur l'enregistrement du nœud. - Parfois, les nœuds de cluster n’ont pas pu être reconvergés après une
Reimageopération, car les fichiers de marqueur de cluster stockés sur le disque éphémère du nœud n’ont pas été supprimés par l’opération.
Changements cassants
- Le package Jetpack est maintenant installé par défaut pour les images personnalisées.
- Pour revenir à l’ancien comportement, définissez
InstallJetpack=falsesur le nœud dans le modèle de cluster.
- Pour revenir à l’ancien comportement, définissez
- Le cluster Slurm Azure CycleCloud est désormais défini par défaut sur
ReturnProxy=false.- Pour revenir au comportement d’origine, définissez le paramètre
ReturnProxysurtruelors de la création du cluster.
- Pour revenir au comportement d’origine, définissez le paramètre
- Pour une meilleure sécurité par défaut, les clusters Slurm Azure CycleCloud désactivent désormais les adresses IP publiques par défaut.
- Pour revenir au comportement d’origine, définissez le paramètre
UsePublicNetworksurtruelors de la création du cluster.
- Pour revenir au comportement d’origine, définissez le paramètre
Problèmes connus
- Les nouvelles actions
RestartetReimagesont disponibles uniquement pour les nœuds dans les tableaux de nœuds (ensembles d'instances de machine virtuelle). Les nœuds uniques (machines virtuelles individuelles) ne prennent pas encore en chargeRestartniReimage. Pour les nœuds uniques, utilisez le portail Azure ou Azure CLI pour redémarrer ou réimager la machine virtuelle. - Le type de cluster HPC Pack Azure CycleCloud ne parvient pas à converger.