Compartir a través de


¿Qué es el área de trabajo de Azure CycleCloud para Slurm?

Slurm es uno de los administradores de cargas de trabajo de código abierto más populares y ampliamente usados para inteligencia artificial, HPC y informática en la nube. Con Slurm, puede ejecutar aplicaciones en paralelo y distribuidas a gran escala en un conjunto de nodos de proceso. Proporciona características como la programación de trabajos, la administración de recursos, la tolerancia a errores y la administración de energía. Muchos de los superequipos más importantes del mundo, institutos de investigación, universidades y empresas usan Slurm.

Sin embargo, la configuración y administración de clústeres de Slurm en la nube puede ser difícil y lenta, especialmente si no está familiarizado con el entorno de nube o la configuración de Slurm. Debe controlar tareas como el aprovisionamiento y el escalado de nodos de proceso, la instalación y actualización de software Slurm, la configuración de la red y el almacenamiento, la supervisión del estado y el rendimiento del clúster y la solución de problemas. Estas tareas pueden distraerle de sus principales objetivos empresariales o de investigación y reducir la productividad y la eficacia de las cargas de trabajo de IA y HPC.

El área de trabajo de Azure CycleCloud para Slurm es una plantilla de solución de Azure Marketplace que puede usar para crear, configurar e implementar clústeres de Slurm predefinidos con CycleCloud en Azure. No necesita ningún conocimiento previo de Azure o Slurm. La solución preconfigura los clústeres de Slurm con PMix v4, Pyxis y enroot para admitir trabajos de Slurm de IA/HPC en contenedores. Puede acceder al nodo de inicio de sesión aprovisionado mediante SSH o Visual Studio Code para realizar tareas comunes como enviar y administrar trabajos de Slurm.

Aunque Azure CycleCloud ya le permite realizar algunas de estas tareas, no implementa la infraestructura de IA/HPC automáticamente. Debe tratar con tareas como instalar y configurar CycleCloud, configurar la red y el almacenamiento, y crear y configurar el clúster de Slurm. El área de trabajo de Azure CycleCloud para Slurm ejecuta estas tareas en una plantilla de solución de Marketplace que puede implementar directamente desde Azure Portal o a través de la CLI de Azure. Estás listo en minutos, no en días ni semanas.

Ventajas del área de trabajo de Azure CycleCloud para Slurm

Azure CycleCloud es una excelente solución cuando desea crear un entorno de INTELIGENCIA artificial o HPC en Azure, ya sea para elevar y cambiar parte de la carga de trabajo de INTELIGENCIA artificial o HPC local o para crear uno nuevo. Sin embargo, la creación de un entorno completo de IA/HPC no es una tarea fácil. Tiene que decidir cómo diseñar la red, qué componente de almacenamiento se usará como sistema de archivos compartido, qué tipo de máquina virtual se usará para ejecutar la carga de trabajo y muchas cosas pequeñas que pueden hacer que el proyecto sea complejo de entregar.

El área de trabajo de Azure CycleCloud para Slurm ofrece varias ventajas para los usuarios que desean ejecutar cargas de trabajo de Slurm en Azure, como:

  • Creación sencilla y rápida de clústeres: puede crear clústeres de Slurm en Azure en cuestión de minutos siguiendo unos sencillos pasos en la GUI. Este proceso es más rápido que días o semanas de trabajo en el pasado sin el área de trabajo de Azure CycleCloud para Slurm. Puede elegir entre varios tamaños y tipos de máquina virtual (VM) de Azure. Puede personalizar la configuración del clúster, como el número de nodos, la configuración de red, las opciones de almacenamiento de Azure NetApp Files a Azure Managed Lustre Filesystem y los parámetros Slurm.

  • Administración de clústeres flexible y dinámica: Azure CycleCloud escala o reduce verticalmente los clústeres de Slurm. Puede supervisar el estado, el rendimiento y el uso del clúster. Puede ver los registros y métricas del clúster en la GUI. También puede eliminar los clústeres de Slurm cuando ya no sean necesarios y solo pagar por los recursos que use.

¿Cómo se crea un área de trabajo de Azure CycleCloud para Slurm?

Puede implementar un área de trabajo de Azure CycleCloud para Slurm desde Azure Marketplace o mediante la CLI de Azure. Para realizar la implementación desde Marketplace, busque Slurm y seleccione Crear. Para realizar la implementación mediante la CLI de Azure, primero debe crear un archivo de parámetros de entrada y, después, implementar mediante el az deployment sub create comando . Para obtener instrucciones detalladas, consulte Implementación de un entorno de área de trabajo de CycleCloud Slurm mediante la CLI.

¿Qué NO es el área de trabajo de Azure CycleCloud para Slurm?

El área de trabajo de Azure CycleCloud para Slurm no es un servicio PaaS. Toda la infraestructura se implementa en el inquilino, lo que le permite implementar todo (implementación de greenfield) o especificar los recursos existentes para reutilizar (implementación de brownfield), como el grupo de recursos de destino, la red virtual, Azure NetApp Files, etc.

Aspecto de un área de trabajo de Azure CycleCloud para el entorno implementado de Slurm

Arquitectura de información general

Esta es la arquitectura típica de lo que implementa el área de trabajo de Azure CycleCloud para Slurm. La arquitectura incluye recursos obligatorios como una máquina virtual para ejecutar CycleCloud, un sistema de archivos compartido para directorios de inicio de usuario y una cuenta de almacenamiento para el almacenamiento de proyectos de CycleCloud.

El área de trabajo de Azure CycleCloud para Slurm puede implementar la red virtual o puede usar una red virtual existente para la creación de recursos. Opcionalmente, puede crear un sistema de archivos de Azure Managed Lustre en su propia subred.

Si las reglas de seguridad de la empresa no permiten direcciones IP públicas (y muchas no lo hacen), puede crear un emparejamiento de red virtual a una red virtual existente en un patrón de concentrador y radio. El centro contiene todos los servicios de conectividad, como una puerta de enlace de red virtual o una instancia de Azure Bastion.

Por último, en un entorno sin dirección IP pública y sin VPN, necesita un bastión. Bastion proporciona acceso seguro al portal web cycleCloud y le permite usar SSH para conectarse a los nodos de autenticación.

Pasos siguientes