Compartir a través de


Inicio rápido: Implementación del área de trabajo de Azure CycleCloud para Slurm mediante Azure Marketplace

El área de trabajo de Azure CycleCloud para Slurm es una aplicación gratuita de Marketplace que proporciona una manera sencilla, segura y escalable de administrar los recursos de proceso y almacenamiento para cargas de trabajo de HPC e IA. En este inicio rápido, instalará CycleCloud Workspace for Slurm mediante la aplicación de Azure Marketplace.

Los pasos principales para implementar y configurar CycleCloud Workspace para Slurm, incluidos Open OnDemand, son:

  1. Revise estas instrucciones antes de comenzar: Planee el área de trabajo de CycleCloud para la implementación de Slurm.
  2. Implementación de un área de trabajo de CycleCloud para el entorno de Slurm mediante Azure Marketplace (este inicio rápido).
  3. Registrar una aplicación de Microsoft Entra ID para la autenticación de Open OnDemand: Registrar una aplicación de Microsoft Entra ID para Open OnDemand.
  4. Configurar Open OnDemand para usar la aplicación Microsoft Entra ID: Configurar Open OnDemand con CycleCloud
  5. Agregar usuarios en CycleCloud: Agregar usuarios para Open OnDemand

Prerrequisitos

Para esta guía de inicio rápido, necesitará lo siguiente:

  1. Una cuenta de Azure con una suscripción activa
  2. Los roles Colaborador y Administrador de acceso de usuario en el nivel de suscripción
  3. Conexión directa a la red virtual que usa el clúster (es decir, no mediante Azure Bastion), si necesita implementar Open OnDemand
  4. Permiso para registrar una aplicación de Microsoft Entra ID si necesita implementar Open OnDemand

Cómo se implementa

  1. Inicie sesión en Azure Portal.
  2. Seleccione + Crear un recurso.
  3. En el cuadro Buscar servicios y marketplace, introduzca Slurm y luego seleccione Área de trabajo de Azure CycleCloud para Slurm.
  4. En la página Área de trabajo de Azure CycleCloud para Slurm , seleccione Crear.

Captura de pantalla del área de trabajo de Azure CycleCloud para la pantalla del mercado de Slurm.

Aspectos básicos

  • En la página New Azure CycleCloud Workspace for Slurm account (Nueva área de trabajo de Azure CycleCloud para la cuenta de Slurm ), escriba o seleccione los detalles siguientes.
    • Suscripción: seleccione la suscripción que se va a usar si aún no está seleccionada.
    • Región: seleccione la región de Azure en la que desea implementar el área de trabajo de CycleCloud para el entorno de Slurm.
    • Grupo de recursos: seleccione el grupo de recursos para la cuenta de Azure CycleCloud Workspace for Slurm o cree uno nuevo.
    • CycleCloud VM Size (Tamaño de máquina virtual de CycleCloud): elija un nuevo tamaño de máquina virtual o mantenga el valor predeterminado.
    • Usuario administrador: escriba un nombre y una contraseña para la cuenta de administrador de CycleCloud.
    • Clave pública SSH de administrador: seleccione la clave SSH pública de la cuenta de administrador directamente o si se almacena en un recurso de clave SSH en Azure.

Captura de pantalla de la pantalla Opciones básicas.

Sistema de archivos

Directorio principal de usuarios: crear nuevo

Especifique dónde colocar el directorio principal de los usuarios.

  • Builtin NFS : usa la máquina virtual del programador como servidor NFS con un disco de datos conectado. Recorte de pantalla del montaje del sistema de archivos para /shared y /home en la pantalla de creación de nuevas opciones de NFS integrado.

  • Azure NetApp Files : crea una cuenta, un grupo y un volumen de ANF con la capacidad y el nivel de servicio especificados. Recorte de pantalla del montaje del sistema de archivos para /shared y /home en la pantalla de opciones de creación de nuevos archivos de Azure NetApp

Directorio principal de los usuarios: Usar existente

Si tiene un punto de montaje NFS existente, seleccione la opción Usar existente y especifique la configuración para montarla. Recorte de pantalla del montaje del sistema de archivos para /shared y /home en la pantalla de opciones NFS externas

Montaje complementario del sistema de archivos: Crear nuevo

Si necesita montar otro sistema de archivos para los datos del proyecto, puede crear uno o especificar uno existente. Puede crear un nuevo volumen de Azure NetApp Files o un sistema de archivos de Azure Managed Lustre.

Recorte de pantalla del montaje adicional del sistema de archivos para crear una nueva instancia de Azure NetApp Files

Recorte de pantalla del montaje adicional del sistema de archivos para crear una nueva instancia de Azure Managed Lustre

Montar sistema de archivos complementario - usar el existente

Si tiene un punto de montaje NFS externo existente o un sistema de archivos de Azure Managed Lustre, puede especificar las opciones de montaje.

Recorte de pantalla del montaje adicional del sistema de archivos para un NFS externo existente.

Redes

Especifique si desea crear una nueva red virtual y subredes o usar una existente.

Cree una nueva red virtual.

Captura de pantalla de las opciones de redes para crear una nueva.

  • Seleccione el CIDR que corresponde al número de nodos de proceso que tiene como destino y especifique una dirección IP base.
  • Cree un bastión si el departamento de TI corporativo no proporciona conectividad directa.
  • Cree una puerta de enlace NAT para proporcionar conectividad saliente a Internet.
  • Emparejar con una red virtual existente si ya tiene un centro que puede ofrecer servicios como Bastion y una puerta de enlace de VPN. Asegúrese de seleccionar una dirección IP base compatible con la red virtual emparejada. Si la red virtual emparejada tiene una puerta de enlace, active la opción Permitir tránsito de la puerta de enlace.

Uso de una red virtual existente

Antes de usar una red virtual existente, compruebe los requisitos previos en Planear el área de trabajo de CycleCloud para la implementación de Slurm.

Captura de pantalla de las opciones de redes para usar una existente.

Especifique cómo administrar el registro del punto de conexión privado usado para la cuenta de almacenamiento para almacenar proyectos de CycleCloud con una zona DNS privada. Puede optar por crear una nueva zona DNS privada, usar una existente o no registrarla.

Captura de pantalla de las opciones de redes para la zona DNS privada.

Configuración de Slurm

Especifique el tamaño y la imagen de la máquina virtual para el programador y los nodos de autenticación. Las imágenes son imágenes de HPC en Azure Marketplace con los siguientes URI:

Nombre de la imagen URI
Alma Linux 8.10 almalinux:almalinux-hpc:8_10-hpc-gen2:latest
Ubuntu 20.04 microsoft-dsvm:ubuntu-hpc:2004:latest
Ubuntu 22.04 microsoft-dsvm:ubuntu-hpc:2204:latest
Imagen personalizada Debe especificar un URN de imagen o un identificador de imagen.

Si elige un Custom Image, especifique un URN de imagen para una imagen de marketplace existente o un id. de imagen para una imagen en una instancia de Azure Compute Gallery.

Para usar la misma imagen para el programador, los nodos de autenticación y los nodos de proceso, seleccione Usar imagen en todos los nodos.

Especifique el número de nodos de autenticación que desea aprovisionar inicialmente y el número máximo permitido. Al habilitar comprobaciones de estado, la solución ejecuta automáticamente comprobaciones de estado del nodo para las particiones de HPC y GPU y quita los nodos incorrectos. Puede retrasar el inicio del clúster si necesita configurar más opciones a través del portal de CycleCloud.

Captura de pantalla de la configuración de Slurm.

Para habilitar la contabilidad de trabajos de Slurm, active la casilla para mostrar las opciones de conectividad. Asegúrese de que tiene un recurso de servidor flexible de Azure Database for MySQL que implementó anteriormente.

Puede conectarse mediante un FQDN o una dirección IP privada si proporciona su propia red virtual. También puede usar el emparejamiento de red virtual al crear una nueva red virtual como parte de la implementación. Si decide crear una nueva red virtual, también puede conectarse a través de un punto de conexión privado.

Recorte de pantalla de las opciones de configuración de Slurm para la base de datos de contabilidad de trabajos, con FQDN directo.

Captura de pantalla de las opciones de configuración de Slurm para la base de datos de contabilidad de trabajos con punto de conexión privado.

Configuración de la partición

El área de trabajo de Azure CycleCloud para Slurm incluye tres particiones Slurm definidas:

  • HTC: para trabajos que no son MPI embarazosamente paralelos.
  • HPC: para trabajos de MPI estrechamente acoplados que usan principalmente tipos de máquina virtual con o sin compatibilidad con InfiniBand.
  • GPU: para trabajos de GPU MPI y no MPI que usan tipos de máquina virtual con o sin compatibilidad con InfiniBand.

Puede establecer la imagen y el número máximo de nodos para cada partición que crea CycleCloud dinámicamente. Solo la partición HTC le permite usar instancias de acceso puntual, ya que las instancias de acceso puntual no funcionan bien para los trabajos de HPC y GPU.

Captura de pantalla de las opciones de configuración de partición.

Abrir OnDemand

Para usar Open OnDemand, active la casilla y escriba la siguiente información:

  • el nombre de la imagen,
  • el nombre de dominio (contoso.com) que usa el sistema para obtener el nombre de usuario (user@contoso.com) y hacer coincidirlo con la cuenta local de Linux (user) que CycleCloud administra para la autenticación,
  • el nombre de dominio completo (FQDN) del servidor web Open OnDemand (deje en blanco si desea usar la dirección IP privada),
  • si planea usar una aplicación de ID de Microsoft Entra existente o registrar una manualmente más adelante. Automatically register Entra ID application es una opción adicional que solo aparece cuando se usa la implementación de la CLI.

Nota:

La autenticación de usuario requiere una aplicación de Microsoft Entra ID. Si nuestros scripts no crean una aplicación, cree una manualmente. Para obtener más información, consulte Cómo registrar una aplicación de ID de Entra de Microsoft para Open OnDemand.

Captura de pantalla de las opciones de Open OnDemand.

Avanzado

Puede habilitar zonas de disponibilidad para los nodos de proceso del clúster y los nuevos recursos del sistema de archivos. Colocar nodos de proceso y almacenamiento en la misma zona de disponibilidad garantiza una latencia mínima entre ellos.

Captura de pantalla de las opciones avanzadas.

Etiquetas

Asigne las etiquetas adecuadas a los recursos necesarios. CycleCloud aprovisiona dinámicamente máquinas virtuales y aplica etiquetas de Array de Nodos a ellas.

Captura de pantalla de las opciones Etiquetas.

Revisar y crear

Revise las opciones. Este paso también incluye algunas validaciones.

Recorte de pantalla de la revisión.

Cuando se completen las validaciones, seleccione Crear para inicializar la implementación.

Captura de pantalla de la implementación en curso.

Siga los pasos y el estado de implementación.

Comprobación de la implementación

Conéctese a ccw-cyclecloud-vm usando Bastion con el nombre de usuario y las claves SSH que especifique durante la implementación.

Captura de pantalla del menú Conectar con Bastion.

Captura de pantalla de las opciones de conexión de Conectar con Bastion.

Después de conectarse, compruebe los registros de cloud-init para comprobar que todo es correcto.

$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group: 
Cluster nodes:
    scheduler: Off -- --  
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0].  Up 754.29 seconds

A continuación, configure la conectividad entre la máquina cliente y la máquina virtual CycleCloud. Es posible que el departamento de TI corporativo tenga que ayudarle a configurar la conectividad a través de una VPN, un túnel bastión o una dirección IP pública adjunta si su empresa lo permite. Para acceder a la interfaz web, vaya a https://<cyclecloud_ip>. Inicie sesión con el nombre de usuario y la contraseña que proporcione durante la implementación. Compruebe que el programador y el nodo de inicio de sesión se están ejecutando.

Recursos