Partager via


Azure CycleCloud version 8.8.0

Cette version introduit de nouvelles fonctionnalités hautement demandées, résout plusieurs problèmes clés et améliore les performances globales.

Nouvelles fonctionnalités

  • Azure CycleCloud offre une surveillance et des rapports d’intégrité des nœuds considérablement améliorés via le nouveau HealthAgent (consultez le projet Azure CycleCloud HealthAgent).

  • Vous pouvez désactiver Azure CycleCloud HealthAgent en définissant la propriété cyclecloud.healthagent.disable=truede configuration du nœud.

  • Azure CycleCloud propose désormais des métriques de planificateur de nœud, GPU et Slurm pour la surveillance et les alertes. La supervision est fournie via l’espace de travail Azure Monitor et Managed Grafana. Pour plus d’informations, consultez le projet de supervision Azure CycleCloud .

  • Modifications apportées au cluster Slurm Azure CycleCloud :

    • Les clusters Slurm Azure CycleCloud prennent en charge Slurm version 25.05.2.
    • Les clusters Slurm Azure CycleCloud prennent en charge les images Ubuntu 22/24, Alma 8/9 et RedHat 8/9.
    • Les clusters Slurm Azure CycleCloud prennent en charge les images et les types de machines ARM64.
    • Les clusters Slurm Azure CycleCloud offrent des contrôles de santé continus intégrés, des rapports et une récupération pour les nœuds de cluster en configurant automatiquement les scripts Slurm HealthCheckProgram, Prolog et Epilog pour utiliser Azure CycleCloud HealthAgent.
    • Les clusters Slurm Azure CycleCloud offrent une collecte et une surveillance de métriques intégrées dans l’espace de travail Azure Monitor.
    • L’interface utilisateur de création de cluster Slurm Azure CycleCloud fournit une nouvelle Monitoring section pour prendre en charge l’activation et la configuration des nouvelles fonctionnalités de collecte et de surveillance des métriques (désactivées par défaut).
    • Azure CycleCloud Slurm configure et démarre automatiquement le service slurmrestd pour prendre en charge la surveillance.
    • Les clusters Slurm Azure CycleCloud offrent une configuration intégrée de plug-in de topologie automatisée pour les plug-ins de topologie d’arborescence et de bloc au moyen de la CLI azslurm topology. La configuration de topologie automatique est prise en charge pour les clusters avec la topologie Virtual Machine Scale Sets, SHARP ou le domaine NVLink pour une planification prenant en charge la topologie Slurm.
    • Les clusters Slurm d'Azure CycleCloud incluent un nouveau service système azslurmd qui synchronise l’état partagé entre Slurm et Azure CycleCloud. Par exemple, azslurmd synchronise le paramètre de maintien en vie des nœuds d’Azure CycleCloud avec la fonctionnalité native keep-alive de Slurm.
    • Les clusters Slurm Cyclecloud incluent désormais des scripts prolog et epilog pour configurer automatiquement le service « Nvidia IMEX » par travail pour les clusters GPU Nvidia.
    • Les clusters Slurm Azure CycleCloud utilisant le projet cyclecloud-slurm, version 4.x et ultérieure, ne nécessitent plus Chef pour la configuration des nœuds.
  • Modifications de l’interface CLI Jetpack

    • L’interface CLI Jetpack inclut une nouvelle jetpack props commande pour prendre en charge la lecture et l’écriture de données de nœud (propriétés) à partir de nœuds de cluster à utiliser dans des scripts d’init de cluster. Les propriétés sont stockées dans Azure CycleCloud en tant que type NodeProperties dans le magasin de données Azure CycleCloud.
    • L’interface CLI Jetpack inclut une nouvelle jetpack condition commande utilisée pour signaler les conditions d’intégrité des nœuds à Azure CycleCloud.
  • Modifications apportées à l’interface utilisateur Azure CycleCloud

    • Le bouton Issues au niveau du cluster s’ouvre désormais en pleine page et agrège les problèmes d’allocation et d’intégrité pour faciliter l’affichage.
    • L'onglet Activity Log au niveau du cluster dans l'interface utilisateur du cluster a été repositionné à côté du volet Event Log.
    • L’onglet boîte de dialogue Show Details au niveau Overview du nœud a été repensé et mis à jour avec des liens directs vers le portail Azure et des boutons de copie pour tous les champs.
    • La boîte de dialogue Show Details au niveau du nœud inclut une nouvelle barre d’actions qui fournit des opérations spécifiques aux nœuds, notamment Restart et Reimage pour la correction de l’intégrité des nœuds.
    • La boîte de dialogue du niveau de nœud Show Details affiche désormais uniquement la première condition d’intégrité du nœud et fournit un lien vers un nouvel onglet Issues pour afficher toutes les conditions de nœud actuelles.
  • Prise en charge des appareils NVMe

    • Azure CycleCloud monte et met automatiquement en forme des périphériques de stockage NVMe sur des nœuds Linux sur des types d’ordinateurs avec des disques éphémères NVMe.
    • Les nœuds Linux montent des disques éphémères NVMe sur /nvme.
    • Les types de machines avec des disques de démarrage NVMe, tels que les types de machines v6, HBv5 et HBv6, sont désormais pris en charge.
  • Prise en charge d’ARM64

    • Azure CycleCloud et Jetpack prennent en charge les nœuds ARM64 et les images ARM64 si le type de cluster fournit la prise en charge d’ARM64. Actuellement, seul le type de cluster Slurm fournit la prise en charge intégrée d’ARM64.
    • Les packages ARM64 pour Jetpack sont disponibles pour l’installation dans des images personnalisées.
  • Azure CycleCloud fournit désormais des actions Reimage et Restart sur les nœuds de groupe de machines virtuelles identiques pour la récupération et la réparation des nœuds.

  • Les actions Restart et Reimage sont disponibles via les nouvelles API REST Azure CycleCloud : /clusters/{cluster}/nodes/restart et /clusters/{cluster}/nodes/reimage.

  • Les tableaux de nœuds Azure CycleCloud prennent désormais en charge l’attachement de groupes de machines virtuelles identiques précréés (également appelé l’apport de vos propres groupes de machines virtuelles identiques) en définissant le nouvel attribut de nœud PredefinedScaleSetId.

  • Vous pouvez configurer des nœuds Linux à exécuter sans l’infrastructure Chef héritée pour les nœuds qui ne nécessitent pas Chef.

  • Chef est désactivé par défaut pour les nouveaux clusters Slurm, sauf si nécessaire par des configurations de nœud spécifiques.

  • Tous les montages de système de fichiers pour les nœuds de cluster sont désormais conservés dans /etc/fstab. Cette modification garantit que les systèmes de fichiers sont correctement remontés lors du redémarrage.

  • Les nœuds Linux lient désormais le répertoire temporaire (/tmp) à un répertoire créé sur le disque éphémère (si le type de machine fournit un disque éphémère) pour réduire l’utilisation du disque du système d’exploitation.

  • Azure CycleCloud prend en charge Blobfuse2 comme type de montage dans les modèles de cluster.

  • Lorsque vous modifiez les paramètres de configuration des nœuds sur les clusters en cours d’exécution, vous pouvez appliquer des modifications aux nœuds en émettant une commande reconverge sur les nœuds.

  • Azure CycleCloud utilise désormais l’API Azure Compute RP version 2024-11-01.

Problèmes résolus

  • La mise en forme de l’interface utilisateur Azure CycleCloud a rendu les erreurs convergentes difficiles à interpréter.
  • URL /c/{cluster_name} de liaison directe aux clusters dans l’interface utilisateur redirigée vers une page vierge pour les utilisateurs non authentifiés.
  • Les erreurs cloud-init ont été signalées correctement.
  • Les échecs cloud-init ne différencient pas les erreurs de script utilisateur des erreurs au niveau de l'image.
  • La commande azslurm nodes CLI a parfois échoué et affiché le message : « paramètre 'buckets' manquant ».
  • Lorsqu’elle est effectuée par des utilisateurs non racines, la rotation des journaux pour la CLI azslurm échoue en raison de la propriété du fichier journal et des autorisations utilisateur.
  • Les clusters Slurm Azure CycleCloud stockent des adresses IP privées dans les données du nœud Slurm. Ce problème a entraîné le rejet par Slurm des nœuds dans certaines conditions.
  • L’interface utilisateur Azure CycleCloud a perdu la sélection du cluster actif lorsqu’elle a actualisé le Issues panneau.
  • L’interrupteur Keep Alive dans le rapport d’état du nœud n’était pas opérationnel.
  • Si vous appuyez Enter sur la page de connexion, vous n’avez pas envoyé le formulaire d’authentification.
  • La sélection d’interpréteur de commandes par défaut dans Linux était incohérente pour différentes images de système d’exploitation.
  • La jetpack users commande CLI n’a fourni aucune sortie pour certains types de cluster.
  • L’installation d’Azure CycleCloud CLI a échoué sur macOS.
  • La commande CLI jetpack report_issue n’a pas pu charger le bundle de journaux généré.
  • L’utilisation d’Azure CLI az vm run-command sur un nœud Azure CycleCloud a provoqué l’échec d’Azure CycleCloud avec le message « Une erreur non spécifiée s’est produite ».
  • La mise à jour d'un cluster peut échouer et signaler une « erreur d'incompatibilité d'attribut » concernant les attributs du tableau de nœuds TerminateNotificationTimeout et MaxPrice, même lorsque la valeur n'est pas modifiée.
  • Azure a signalé un nombre et une taille de mémoire GPU incorrects pour GB200 et les données incorrectes ont été reflétées dans les données de machine Azure CycleCloud pour la planification.
  • Azure CycleCloud a généré une exception lors de la création d'un nœud si l'attribut StartTime n'a pas été défini sur l'enregistrement du nœud.
  • Parfois, les nœuds de cluster n’ont pas pu être reconvergés après une Reimage opération, car les fichiers de marqueur de cluster stockés sur le disque éphémère du nœud n’ont pas été supprimés par l’opération.

Changements cassants

  • Le package Jetpack est maintenant installé par défaut pour les images personnalisées.
    • Pour revenir à l’ancien comportement, définissez InstallJetpack=false sur le nœud dans le modèle de cluster.
  • Le cluster Slurm Azure CycleCloud est désormais défini par défaut sur ReturnProxy=false.
    • Pour revenir au comportement d’origine, définissez le paramètre ReturnProxy sur true lors de la création du cluster.
  • Pour une meilleure sécurité par défaut, les clusters Slurm Azure CycleCloud désactivent désormais les adresses IP publiques par défaut.
    • Pour revenir au comportement d’origine, définissez le paramètre UsePublicNetwork sur true lors de la création du cluster.

Problèmes connus

  • Les nouvelles actions Restart et Reimage sont disponibles uniquement pour les nœuds dans les tableaux de nœuds (ensembles d'instances de machine virtuelle). Les nœuds uniques (machines virtuelles individuelles) ne prennent pas encore en charge Restart ni Reimage. Pour les nœuds uniques, utilisez le portail Azure ou Azure CLI pour redémarrer ou réimager la machine virtuelle.
  • Le type de cluster HPC Pack Azure CycleCloud ne parvient pas à converger.