Compartir a través de


Azure CycleCloud versión 8.8.0

Esta versión presenta nuevas características muy solicitadas, aborda varios problemas clave y mejora el rendimiento general.

Características nuevas

  • Azure CycleCloud ofrece una supervisión y generación de informes de estado de nodo mejoradas a través del nuevo HealthAgent (consulte el proyecto HealthAgent de Azure CycleCloud).

  • Puede deshabilitar Azure CycleCloud HealthAgent estableciendo la propiedad cyclecloud.healthagent.disable=truede configuración del nodo .

  • Azure CycleCloud ahora ofrece métricas del programador de nodos, GPU y Slurm para la supervisión y las alertas. La supervisión se proporciona a través del entorno de trabajo de Azure Monitor y Managed Grafana. Consulte el proyecto de supervisión de Azure CycleCloud para más información.

  • Cambios en el clúster de Azure CycleCloud Slurm:

    • Los clústeres de Azure CycleCloud Slurm admiten la versión 25.05.2 de Slurm.
    • Los clústeres de Slurm de Azure CycleCloud admiten imágenes Ubuntu 22/24, Alma 8/9 y RedHat 8/9.
    • Los clústeres de Azure CycleCloud Slurm admiten imágenes y tipos de máquina ARM64.
    • Los clústeres de Azure CycleCloud Slurm ofrecen scripts integrados, continuos de comprobación de estado, informes y recuperación para los nodos de clúster mediante la configuración automática de los scripts Slurm HealthCheckProgram, Prolog y Epilog para usar Azure CycleCloud HealthAgent.
    • Los clústeres de Slurm de Azure CycleCloud ofrecen recopilación y supervisión de métricas integradas en el área de trabajo de Azure Monitor.
    • La interfaz de usuario de creación de clústeres de Azure CycleCloud Slurm proporciona una nueva Monitoring sección para admitir la habilitación y configuración de las nuevas funcionalidades de recopilación y supervisión de métricas (deshabilitadas de forma predeterminada).
    • Azure CycleCloud Slurm configura e inicia el servicio slurmrestd automáticamente para admitir la supervisión.
    • Los clústeres de Slurm de Azure CycleCloud ofrecen una configuración automatizada integrada de los complementos de topología, tanto para los de árbol como para los de bloque, a través de la azslurm topology CLI. La configuración automática de la topología es compatible con clústeres con topología de Virtual Machine Scale Sets, SHARP o el dominio NVLink para la programación consciente de la topología Slurm.
    • Los clústeres de Azure CycleCloud Slurm incluyen un nuevo azslurmd servicio del sistema que sincroniza el estado compartido de Slurm y Azure CycleCloud. Por ejemplo, azslurmd sincroniza la configuración de mantenimiento activo del nodo de Azure CycleCloud con la característica keep-alive nativa de Slurm.
    • Los clústeres de Cyclecloud Slurm ahora incluyen scripts de prólogo y epílogo para configurar automáticamente el servicio "Nvidia IMEX" en base a cada trabajo para los clústeres de GPU de Nvidia.
    • Los clústeres de Azure CycleCloud Slurm que usan el cyclecloud-slurm proyecto, versión 4.x y posteriores, ya no requieren Chef para la configuración del nodo.
  • Cambios en la CLI de Jetpack

    • La CLI de Jetpack incluye un nuevo jetpack props comando para admitir la lectura y escritura de datos de nodo (propiedades) desde nodos de clúster para usarlos en scripts cluster-init. Las propiedades se almacenan de nuevo en Azure CycleCloud como tipo NodeProperties en el almacén de datos de Azure CycleCloud.
    • La CLI de Jetpack incluye un nuevo jetpack condition comando que se usa para notificar las condiciones de mantenimiento del nodo a Azure CycleCloud.
  • Cambios en la interfaz de usuario de Azure CycleCloud

    • El botón Issues a nivel de clúster ahora se abre en una página completa y agrega problemas de asignación y estado para facilitar la visualización.
    • La pestaña Activity Log a nivel de clúster en la interfaz de usuario del clúster se ha reposicionado junto al panel Event Log.
    • La pestaña de diálogo Show Details de nivel Overview de nodo se ha rediseñado y actualizado con vínculos directos a Azure Portal y botones de copia para todos los campos.
    • El cuadro de diálogo de nivel Show Details de nodo incluye una nueva barra de acciones que proporciona operaciones específicas del nodo, incluidas Restart y Reimage para la corrección del estado del nodo.
    • El cuadro de diálogo de nivel Show Details de nodo ahora muestra solo la primera condición de salud del nodo e incluye un enlace a una nueva pestaña Issues para mostrar todas las condiciones actuales del nodo.
  • Compatibilidad con dispositivos NVMe

    • Azure CycleCloud monta y da formato automáticamente a dispositivos de almacenamiento NVMe en nodos Linux en tipos de máquina con discos efímeros NVMe.
    • Los nodos de Linux montan discos efímeros NVMe en /nvme.
    • Ahora se admiten los tipos de máquina con discos de arranque NVMe, como los tipos de máquina v6, HBv5 y HBv6.
  • Compatibilidad con ARM64

    • Azure CycleCloud y Jetpack admiten nodos ARM64 y imágenes arm64 si el tipo de clúster proporciona compatibilidad con ARM64. Actualmente, solo el tipo de clúster Slurm proporciona compatibilidad integrada con ARM64.
    • Los paquetes ARM64 para Jetpack están disponibles para su instalación en imágenes personalizadas.
  • Azure CycleCloud ahora proporciona acciones Reimage y Restart en los nodos del Virtual Machine Scale Set para la recuperación y reparación de nodos.

  • Las nuevas acciones Restart y Reimage están disponibles a través de las API REST de Azure CycleCloud: /clusters/{cluster}/nodes/restart y /clusters/{cluster}/nodes/reimage.

  • Las matrices de nodos de Azure CycleCloud ahora admiten la asociación de conjuntos de escalado de máquinas virtuales creados previamente (también conocidos como bring-your-own Virtual Machine Scale Sets) estableciendo el nuevo PredefinedScaleSetId atributo de nodo.

  • Puede configurar los nodos de Linux para que se ejecuten sin el marco de Chef heredado para los nodos que no requieren Chef.

  • Chef está deshabilitado de forma predeterminada para los nuevos clústeres de Slurm, a menos que sea necesario para configuraciones de nodo específicas.

  • Todos los montajes del sistema de archivos para los nodos del clúster ahora se conservan en /etc/fstab. Este cambio garantiza que los sistemas de archivos se vuelvan a montar correctamente al reiniciarse.

  • Los nodos de Linux ahora enlazan el directorio temporal (/tmp) a un directorio creado en el disco efímero (si el tipo de equipo proporciona un disco efímero) para reducir el uso del disco del sistema operativo.

  • Azure CycleCloud admite Blobfuse2 como tipo de montaje en plantillas de clúster.

  • Al modificar las opciones de configuración del nodo en clústeres en ejecución, puede aplicar cambios a los nodos en ejecución mediante la emisión de un comando de reconverge en los nodos.

  • Azure CycleCloud ahora usa la VERSIÓN 2024-11-01 de la API de RP de Azure Compute.

Problemas resueltos

  • El formato de la interfaz de usuario de Azure CycleCloud hacía que fuera difícil interpretar los errores de convergencia.
  • URL /c/{cluster_name} para vinculación directa a clústeres en la interfaz de usuario redirigía a una página en blanco para usuarios no autenticados.
  • Los errores de Cloud-init se notificaron correctamente.
  • Los errores de Cloud-init no diferenciaban los errores de script de usuario de los errores de nivel de imagen.
  • El comando CLI azslurm nodes a veces fallaba y mostraba el mensaje: "missing 'buckets' param".
  • Cuando lo utilizaban usuarios que no eran root, la rotación de registros para la CLI azslurm fallaba debido a la propiedad del archivo de registro y los permisos de usuario.
  • Los clústeres de Azure CycleCloud Slurm almacenan direcciones IP privadas en los datos del nodo Slurm. Este problema llevó a Slurm a rechazar nodos en determinadas condiciones.
  • La interfaz de usuario de Azure CycleCloud perdió la selección del clúster activo cuando actualizó el Issues panel.
  • El Keep Alive interruptor en el reporte de estado del nodo no funcionó.
  • Al pulsar Enter en la página de inicio de sesión, no se enviaba el formulario de autenticación.
  • La selección predeterminada del shell en Linux era incoherente para diferentes imágenes del sistema operativo.
  • El jetpack users comando de la CLI no proporcionó ninguna salida para algunos tipos de clúster.
  • Error en la instalación de la CLI de Azure CycleCloud en macOS.
  • El jetpack report_issue comando de la CLI no pudo cargar la agrupación de registros generada.
  • El uso de la CLI az vm run-command de Azure en un nodo de Azure CycleCloud provocó que Azure CycleCloud marcara el nodo como fallido con el mensaje: "Error no especificado".
  • La actualización de un clúster podría fallar y reportar un "error de discrepancia de atributos" en los atributos de matriz de nodos TerminateNotificationTimeout y MaxPrice, incluso cuando el valor no se modifica.
  • Azure informaba de un recuento de GPU y un tamaño de memoria incorrectos para GB200, y los datos incorrectos se reflejaban en los datos de la máquina de Azure CycleCloud para la programación.
  • Azure CycleCloud produjo una excepción durante la creación del nodo si el StartTime atributo no se estableció en el registro del nodo.
  • A veces, los nodos de clúster fallaron al intentar reconverger después de una Reimage operación porque la operación no quitó los archivos de marcador cluster-init almacenados en el disco efímero del nodo.

Cambios críticos

  • El paquete Jetpack ahora está instalado de forma predeterminada para imágenes personalizadas.
    • Para revertir al comportamiento anterior, establezca InstallJetpack=false en el nodo de la plantilla de clúster.
  • El clúster de Slurm de Azure CycleCloud ahora tiene ReturnProxy=falsecomo valor predeterminado .
    • Para revertir al comportamiento original, establezca el parámetro ReturnProxy a true durante la creación del clúster.
  • Para mejorar la seguridad predeterminada, los clústeres de Slurm de Azure CycleCloud ahora deshabilitan las direcciones IP públicas de forma predeterminada.
    • Para revertir al comportamiento original, establezca el parámetro UsePublicNetwork a true durante la creación del clúster.

Problemas conocidos

  • Las nuevas acciones Restart y Reimage están disponibles solo para los nodos de los conjuntos de nodos (instancias del conjunto de escalado de máquinas virtuales). Los nodos únicos (máquinas virtuales individuales) aún no admiten Restart ni Reimage. En el caso de los nodos únicos, use Azure Portal o la CLI de Azure para reiniciar o volver a crear la imagen de la máquina virtual.
  • El tipo de clúster HPC Pack de Azure CycleCloud no puede converger.