Compartilhar via


Início Rápido – Implantar o Workspace do Azure CycleCloud para Slurm usando o Azure Marketplace

O Workspace do Azure CycleCloud para Slurm é um aplicativo gratuito do Marketplace que fornece uma maneira simples, segura e escalonável de gerenciar recursos de computação e armazenamento para cargas de trabalho de HPC e IA. Neste início rápido, você irá instalar o Workspace do CycleCloud para SLURM usando o aplicativo do Azure Marketplace.

As principais etapas para implantar e configurar o Workspace do CycleCloud para Slurm, incluindo Open OnDemand são:

  1. Examine estas instruções antes de começar: Planeje o workspace do CycleCloud para implantação do Slurm.
  2. Implante um workspace do CycleCloud para ambiente SLURM usando o Azure Marketplace (este início rápido).
  3. Registrar um aplicativo do Microsoft Entra ID para autenticação Open OnDemand: registre um aplicativo de ID do Microsoft Entra para Open OnDemand.
  4. Configurar o Open OnDemand para usar o aplicativo Microsoft Entra ID: Configurar o Open OnDemand com o CycleCloud
  5. Adicionar usuários ao CycleCloud: adicionar usuários para o Open OnDemand

Pré-requisitos

Para este início rápido você precisa:

  1. Uma conta do Azure com uma assinatura ativa
  2. As funções Colaborador e Administrador de Acesso do Usuário no nível da assinatura
  3. Conexão direta com a rede virtual usada pelo cluster (ou seja, não usando o Azure Bastion), se você precisar implantar o Open OnDemand
  4. Permissão para registrar um aplicativo de ID do Microsoft Entra se você precisar implantar o Open OnDemand

Como implantar

  1. Entre no portal do Azure.
  2. Selecione + Criar um Recurso.
  3. Na caixa Pesquisar serviços e o marketplace, insira Slurm e selecione Workspace do Azure CycleCloud para Slurm.
  4. Na página Área de Trabalho do Azure CycleCloud para Slurm, selecione Criar.

Captura de tela da página do Azure Marketplace para o Workspace do CycleCloud para Slurm.

Noções básicas

  • Na página Nova conta do Workspace do Azure CycleCloud para SLURM, insira ou selecione os detalhes a seguir.
    • Assinatura: selecione a assinatura a ser usada se ela ainda não estiver selecionada.
    • Região: selecione a região do Azure em que você deseja implantar o workspace do CycleCloud para o ambiente do Slurm.
    • Grupo de recursos: selecione o grupo de recursos para a conta do Workspace do Azure CycleCloud para Slurm ou crie um novo.
    • Tamanho da VM do CycleCloud: escolha um novo tamanho de VM ou mantenha o padrão.
    • Usuário administrador: insira um nome e uma senha para a conta de administrador do CycleCloud.
    • Chave Pública SSH do Administrador: selecione a chave SSH pública da conta de administrador diretamente ou se estiver armazenada em um recurso de chave SSH no Azure.

Captura de tela da tela Opções básicas.

Sistema de arquivos

Diretório base dos usuários – Criar novo

Especifique onde colocar o diretório base dos usuários.

  • NFS interno – Usa a VM do agendador como um servidor NFS com um datadisk anexado. Captura de tela da montagem do sistema de arquivos para arquivos /shared e /home do NFS integrado criar nova tela de opções.

  • Azure NetApp Files – Cria uma conta ANF, um pool e um volume com a capacidade e o nível de serviço especificados. Captura de tela da montagem do sistema de arquivos para arquivos /shared e /home do Azure NetApp criar nova tela de opções.

Diretório base dos usuários – Usar Existente

Se você tiver um ponto de montagem NFS existente, selecione a opção Usar Existente e especifique as configurações para montá-la. Captura de tela da montagem do sistema de arquivos para arquivos /shared e /home usar a tela de opções NFS externas.

Montagem suplementar do sistema de arquivos – Criar

Se você precisar montar outro sistema de arquivos para os dados do projeto, poderá criar um novo ou especificar um existente. Você pode criar um novo volume do Azure NetApp Files ou um sistema de arquivos Lustre Gerenciado do Azure.

Captura de tela da montagem adicional do sistema de arquivos para criar o Azure NetApp Files.

Captura de tela da montagem adicional do sistema de arquivos para criar um novo Lustre Gerenciado do Azure.

Montagem suplementar do sistema de arquivos – Usar atual

Se você tiver um ponto de montagem NFS externo existente ou um Sistema de Arquivos lustre gerenciado do Azure, poderá especificar as opções de montagem.

Captura de tela da montagem adicional do sistema de arquivos para um NFS externo existente.

Rede

Especifique se deseja criar uma nova rede virtual e sub-redes ou usar uma existente.

Criar uma nova rede virtual

Captura de tela das opções de rede para criar uma nova.

  • Selecione a CIDR que corresponde ao número de nós de computação desejados e especifique um endereço IP base.
  • Crie um Bastion se sua TI corporativa não fornecer conectividade direta.
  • Crie um Gateway de NAT para fornecer conectividade de saída à Internet.
  • Faça o emparelhamento a uma rede virtual atual se você já tiver um HUB que possa fornecer serviços como o Bastion e um Gateway de VPN. Certifique-se de selecionar um endereço IP base compatível com sua rede virtual emparelhada. Se a rede virtual emparelhada tiver um gateway, verifique a opção Permitir trânsito de gateway.

Usar rede virtual existente

Antes de usar uma rede virtual existente, verifique os pré-requisitos em Planejar seu Workspace do CycleCloud para Implantação de Slurm.

Captura de tela das opções de rede para usar uma existente.

Especifique como gerenciar o registro do ponto de extremidade privado que é usado para a conta de armazenamento armazenar projetos do CycleCloud com uma zona DNS privada. Você pode optar por criar uma nova zona DNS privada, usar uma existente ou não registrá-la.

Captura de tela das opções de rede para a zona DNS privada.

Configurações de Slurm

Especifique o tamanho e a imagem da máquina virtual para o agendador e os nós de autenticação. As imagens são imagens HPC no Azure Marketplace com as seguintes URIs:

Nome da imagem URI
Alma Linux 8.10 almalinux:almalinux-hpc:8_10-hpc-gen2:latest
Ubuntu 20.04 microsoft-dsvm:ubuntu-hpc:2004:latest
Ubuntu 22.04 microsoft-dsvm:ubuntu-hpc:2204:latest
Imagem personalizada Você deve especificar uma URN de imagem ou ID de imagem

Se você escolher um Custom Image, especifique um URN de imagem para uma imagem existente no marketplace ou uma ID de imagem para uma imagem em uma Galeria de Computação do Azure.

Para usar a mesma imagem para o agendador, nós de autenticação e nós de computação, selecione Usar imagem em todos os nós.

Especifique o número de nós de autenticação que você deseja provisionar inicialmente e o número máximo permitido. Quando você habilita verificações de integridade, a solução executa automaticamente verificações de integridade do nó para as partições de HPC e GPU e remove quaisquer nós não íntegros. Você pode atrasar o início do cluster se precisar definir mais configurações por meio do portal do CycleCloud.

Captura de tela das configurações do Slurm.

Para habilitar a contabilização de trabalho do Slurm, marque a caixa para exibir as opções de conectividade. Verifique se você tem um recurso de servidor flexível do Banco de Dados do Azure para MySQL implantado anteriormente.

Você pode se conectar usando um FQDN ou IP privado se fornecer sua própria rede virtual. Também é possível usar o emparelhamento de rede virtual ao criar uma rede virtual como parte da implantação. Se você optar por criar uma nova rede virtual, também poderá se conectar por meio de um ponto de extremidade privado.

Captura de tela das opções de Configuração do SLURM para o banco de dados de contabilização de trabalho, FQDN direto.

Captura de tela das opções de Configuração do SLURM para o banco de dados de contabilização de trabalho com ponto de extremidade privado.

Configurações de partição

O Workspace do Azure CycleCloud para Slurm inclui três partições de Slurm definidas:

  • HTC: para trabalhos sem MPI perfeitamente paralelos.
  • HPC: para trabalhos de MPI com acoplamento rígido que usam principalmente tipos de VM com ou sem suporte ao InfiniBand.
  • GPU: para trabalhos de GPU MPI e não MPI que usam tipos de máquinas virtuais (VM) com ou sem suporte a InfiniBand.

Você pode definir a imagem e o número máximo de nós para cada partição criada dinamicamente pelo CycleCloud. Somente a partição HTC permite que você use instâncias spot, pois as instâncias spot não funcionam bem para trabalhos de HPC e GPU.

Captura de tela das opções de Configurações de Partição.

Abrir o OnDemand

Para usar o Open OnDemand, marque a caixa de seleção e insira as seguintes informações:

  • o nome da imagem,
  • o nome de domínio (contoso.com) que o sistema usa para obter o nome de usuário (user@contoso.com) e combiná-lo com a conta local do Linux (user) que o CycleCloud gerencia para autenticação,
  • o FQDN (nome de domínio totalmente qualificado) do servidor Web Open OnDemand (deixe em branco se você quiser usar o IP privado),
  • se você planeja usar um aplicativo existente do Microsoft Entra ID ou registrar um manualmente mais tarde. Automatically register Entra ID application é uma opção extra que aparece somente quando você usa a implantação da CLI.

Observação

A autenticação do usuário requer um aplicativo de ID do Microsoft Entra. Se nossos scripts não criarem um aplicativo, crie um manualmente. Para obter mais informações, consulte Como registrar um aplicativo de ID do Microsoft Entra para Open OnDemand.

Captura de tela das opções do Open OnDemand.

Avançado

Você pode habilitar zonas de disponibilidade para nós de computação de cluster e novos recursos do sistema de arquivos. Colocar nós de computação e armazenamento na mesma zona de disponibilidade garante latência mínima entre eles.

Captura de tela das opções Avançadas.

Etiquetas

Atribua as etiquetas apropriadas aos recursos necessários. O CycleCloud provisiona dinamicamente máquinas virtuais e aplica marcas do Node Array a elas.

Captura de tela das opções de tags.

Revisar e criar

Examine suas opções. Essa etapa também inclui algumas validações.

Captura de tela da Revisão.

Quando as validações forem concluídas, selecione Criar para inicializar a implantação.

Captura de tela do processo de implantação em andamento.

Siga o status e as etapas da implantação.

Verificar sua implantação

Conecte-se ao ccw-cyclecloud-vm usando o Bastion com o nome de usuário e as chaves SSH especificadas durante a implantação.

Captura de tela do menu Conectar com Bastion.

Captura de tela das opções de conexão ao Bastion.

Depois de se conectar, verifique os logs de cloud-init para verificar se tudo está correto.

$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group: 
Cluster nodes:
    scheduler: Off -- --  
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0].  Up 754.29 seconds

Em seguida, configure a conectividade entre o computador cliente e a VM do CycleCloud. O departamento de TI da sua empresa pode ajudar a configurar a conectividade por meio de uma VPN, um túnel Bastion ou um IP público anexado, caso seja permitido. Acesse a interface da Web navegando até https://<cyclecloud_ip>. Entre com o nome de usuário e a senha que você fornece durante a implantação. Verifique se o agendador e o nó de entrada estão em execução.

Recursos