Partilhar via


Guia de início rápido - Implantar o Azure CycleCloud Workspace for Slurm usando o Azure Marketplace

O Azure CycleCloud Workspace for Slurm é um aplicativo gratuito do Marketplace que fornece uma maneira simples, segura e escalável de gerenciar recursos de computação e armazenamento para cargas de trabalho de HPC e IA. Neste início rápido, você instala o CycleCloud Workspace for Slurm usando o aplicativo Azure Marketplace.

As principais etapas para implantar e configurar o CycleCloud Workspace for Slurm, incluindo o Open OnDemand, são:

  1. Revise estas instruções antes de começar: Planeje seu CycleCloud Workspace para implantação do Slurm.
  2. Implante um CycleCloud Workspace para o ambiente Slurm usando o Azure Marketplace (este guia de início rápido).
  3. Registrar um aplicativo Microsoft Entra ID para autenticação Open OnDemand: Registre um aplicativo Microsoft Entra ID para Open OnDemand.
  4. Configurar o Open OnDemand para usar o aplicativo Microsoft Entra ID: Configurar o Open OnDemand com o CycleCloud
  5. Adicionar usuários no CycleCloud: Adicionar usuários para o Open OnDemand

Pré-requisitos

Para este início rápido, você precisa:

  1. Uma conta do Azure com uma subscrição ativa
  2. As funções de Colaborador e Administrador de Acesso de Usuário no nível de assinatura
  3. Conexão direta com a rede virtual usada pelo cluster (ou seja, não usando o Azure Bastion), se você precisar implantar o Open OnDemand
  4. Permissão para registrar um aplicativo Microsoft Entra ID se você precisar implantar o Open OnDemand

Como implementar

  1. Inicie sessão no portal Azure.
  2. Selecione + Criar um Recurso.
  3. Na caixa Serviços de pesquisa e marketplace , digite Slurm e selecione Azure CycleCloud Workspace for Slurm.
  4. Na página Azure CycleCloud Workspace for Slurm , selecione Criar.

Captura de ecrã do Azure CycleCloud Workspace for Slurm marketplace.

Noções Básicas

  • Na página Nova conta do Azure CycleCloud Workspace for Slurm , insira ou selecione os seguintes detalhes.
    • Subscrição: selecione a subscrição a utilizar se ainda não estiver selecionada.
    • Região: selecione a região do Azure onde você deseja implantar seu ambiente CycleCloud Workspace for Slurm.
    • Grupo de recursos: selecione o grupo de recursos para a conta do Azure CycleCloud Workspace for Slurm ou crie uma nova.
    • Tamanho da VM do CycleCloud: escolha um novo tamanho de VM ou mantenha o padrão.
    • Usuário administrador: insira um nome e uma senha para a conta de administrador do CycleCloud.
    • Chave Pública SSH Admin: Selecione a chave SSH pública da conta de administrador diretamente ou se armazenada em um recurso de chave SSH no Azure.

Captura de ecrã das opções de Noções básicas.

Sistema de ficheiros

Diretório inicial dos usuários - Criar novo

Especifique onde colocar o diretório inicial dos usuários.

  • NFS interno - Usa a VM do agendador como um servidor NFS com um disco de dados anexado. Captura de tela da tela de montagem do sistema de arquivos para /shared e /home Builtin NFS criar novas opções.

  • Arquivos NetApp do Azure - Cria uma conta ANF, pool e volume com a capacidade e o nível de serviço especificados. Captura de tela da tela de montagem do sistema de arquivos para arquivos NetApp do Azure /shared e /home criam novas opções.

Diretório inicial dos usuários - Usar existente

Se você tiver um ponto de montagem NFS existente, selecione a opção Usar existente e especifique as configurações para montá-lo. Captura de tela da montagem do sistema de ficheiros para as opções NFS externas usadas em /shared e /home.

Montagem adicional do sistema de arquivos - Criar novo

Se você precisar montar outro sistema de arquivos para os dados do projeto, poderá criar um novo ou especificar um existente. Você pode criar um novo volume de Arquivos NetApp do Azure ou um Sistema de Arquivos Azure Managed Lustre.

Captura de ecrã da montagem adicional do sistema de ficheiros para criar novos ficheiros NetApp do Azure.

Captura de ecrã da montagem adicional do sistema de ficheiros para criar o novo Azure Managed Lustre.

Montagem suplementar do sistema de arquivos - Usar existente

Se você tiver um ponto de montagem NFS externo existente ou um sistema de arquivos Azure Managed Lustre, poderá especificar as opções de montagem.

Captura de ecrã da montagem adicional do sistema de ficheiros para um NFS externo existente.

Rede

Especifique se deseja criar uma nova rede virtual e sub-redes ou usar uma existente.

Criar uma nova rede virtual

Captura de ecrã das opções de Rede para criar uma nova.

  • Selecione o CIDR que corresponde ao número de nós de computação que você está segmentando e especifique um endereço IP base.
  • Crie um bastião se a TI da sua empresa não fornecer conectividade direta.
  • Crie um gateway NAT para fornecer conectividade de saída à Internet.
  • Associar-se a uma rede virtual existente se já tiver um HUB que possa fornecer serviços como Bastion e um gateway VPN. Certifique-se de selecionar um endereço IP base compatível com sua rede virtual emparelhada. Se a rede virtual emparelhada tiver um gateway, marque a opção Permitir trânsito de gateway.

Utilizar a rede virtual existente

Antes de usar uma rede virtual existente, verifique os pré-requisitos em Planejar seu CycleCloud Workspace para implantação do Slurm.

Captura de tela das opções de rede para usar uma existente.

Especificar como gerir o registo do ponto de extremidade privado utilizado na conta de armazenamento para a armazenar projetos do CycleCloud numa zona DNS privada. Você pode optar por criar uma nova zona DNS privada, usar uma existente ou não registrá-la.

Captura de ecrã das opções de rede para a zona DNS privado.

Configurações de Slurm

Especifique o tamanho e a imagem da máquina virtual para o agendador e os nós de autenticação. As imagens são imagens HPC no Azure Marketplace com os seguintes URIs:

Nome da Imagem URI
Alma Linux 8,10 almalinux:almalinux-hpc:8_10-hpc-gen2:mais recente
Ubuntu 20,04 microsoft-dsvm:ubuntu-hpc:2004:mais recente
Ubuntu 22,04 microsoft-dsvm:ubuntu-hpc:2204:mais recente
Imagem Personalizada Você deve especificar uma URN de imagem ou ID de imagem

Se tu escolheres um Custom Image, especifica uma URN de imagem para uma imagem de mercado existente ou um identificador de imagem para uma imagem numa Galeria de Computação do Azure.

Para usar a mesma imagem para o agendador, nós de autenticação e nós de computação, selecione Usar imagem em todos os nós.

Especifique o número de nós de autenticação que você deseja provisionar inicialmente e o número máximo permitido. Quando ativa as verificações de integridade, a solução executa automaticamente verificações de integridade dos nós para as partições HPC e GPU e remove todos os nós comprometidos. Você pode atrasar o início do cluster se precisar definir mais configurações por meio do portal CycleCloud.

Captura de ecrã das definições do Slurm.

Para habilitar o Slurm Job Accounting, marque a caixa para exibir as opções de conectividade. Certifique-se de ter um recurso de servidor flexível do Banco de Dados do Azure para MySQL implantado anteriormente.

Você pode se conectar usando um FQDN ou IP privado se fornecer sua própria rede virtual. Você também pode usar o emparelhamento de rede virtual ao criar uma nova rede virtual como parte da sua implementação. Se você optar por criar uma nova rede virtual, também poderá se conectar por meio de um ponto de extremidade privado.

Captura de tela das opções de Configuração de Slurm para o banco de dados de contabilidade de tarefas, FQDN direto.

Captura de tela das opções de configuração do Slurm para base de dados de gestão de tarefas com ponto de extremidade privado.

Configurações de partição

O Azure CycleCloud Workspace for Slurm inclui três partições Slurm definidas:

  • HTC: Para trabalhos altamente paralelos que não utilizam MPI.
  • HPC: Para trabalhos MPI fortemente acoplados que usam principalmente tipos de VM com ou sem suporte a InfiniBand.
  • GPU: Para trabalhos de GPU MPI e não MPI que usam tipos de VM com ou sem suporte a InfiniBand.

Você pode definir a imagem e o número máximo de nós para cada partição que o CycleCloud cria dinamicamente. Apenas a partição HTC permite-lhe utilizar instâncias spot, porque as instâncias spot não funcionam bem para trabalhos HPC e GPU.

Captura de ecrã das opções de Definições de Partição.

Aberto OnDemand

Para usar o Open OnDemand, marque a caixa de seleção e insira as seguintes informações:

  • o nome da imagem,
  • o nome de domínio (contoso.com) que o sistema usa para obter o nome de usuário (user@contoso.com) e combiná-lo com a conta Linux local (user) que o CycleCloud gerencia para autenticação,
  • o nome de domínio totalmente qualificado (FQDN) do servidor Web Open OnDemand (deixe em branco se quiser usar o IP privado),
  • se você planeja usar um aplicativo existente do Microsoft Entra ID ou registrar um manualmente mais tarde. Automatically register Entra ID application é uma opção extra que aparece somente quando você usa a implantação da CLI.

Observação

A autenticação do usuário requer um aplicativo Microsoft Entra ID. Se nossos scripts não criarem um aplicativo, crie um manualmente. Para obter mais informações, consulte Como registrar um aplicativo Microsoft Entra ID para Open OnDemand.

Captura de ecrã das opções do Open OnDemand.

Avançado

Você pode habilitar zonas de disponibilidade para nós de computação de cluster e novos recursos do sistema de arquivos. Colocar nós de computação e armazenamento na mesma zona de disponibilidade garante latência mínima entre eles.

Captura de ecrã das opções Avançadas.

Etiquetas

Atribua as etiquetas apropriadas aos recursos necessários. O CycleCloud provisiona dinamicamente máquinas virtuais e aplica tags Node Array a elas.

Captura de ecrã das opções de Etiquetas.

Revisar e criar

Reveja as suas opções. Esta etapa também inclui algumas validações.

Captura de ecrã da revisão.

Quando as validações estiverem concluídas, selecione Criar para inicializar a implantação.

Captura de tela da implantação em andamento.

Siga o status e as etapas de implantação.

Verifique a sua implementação

Conecte-se ao ccw-cyclecloud-vm Bastion usando o nome de utilizador e as chaves SSH que especificar durante a implantação.

Captura de ecrã do menu Ligar com Bastion.

Captura de ecrã das opções de ligação Conectar com Bastion.

Depois de se conectar, verifique os logs de inicialização na nuvem para verificar se tudo está correto.

$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group: 
Cluster nodes:
    scheduler: Off -- --  
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0].  Up 754.29 seconds

Em seguida, configure a conectividade entre sua máquina cliente e a VM do CycleCloud. Seu departamento de TI corporativo pode precisar ajudá-lo a configurar a conectividade por meio de uma VPN, túnel Bastion ou um IP público conectado, se sua empresa permitir. Acesse a interface web navegando até https://<cyclecloud_ip>. Entre com o nome de usuário e a senha fornecidos durante a implantação. Verifique se o agendador e o nó de autenticação estão em execução.

Recursos