Partilhar via


O que é o Azure CycleCloud Workspace for Slurm?

O Slurm é um dos gerenciadores de carga de trabalho de código aberto mais populares e amplamente utilizados para IA, HPC e computação em nuvem. Com o Slurm, você pode executar aplicativos paralelos e distribuídos em grande escala em um conjunto de nós de computação. Ele fornece recursos como agendamento de tarefas, gerenciamento de recursos, tolerância a falhas e gerenciamento de energia. Muitos dos melhores supercomputadores, institutos de pesquisa, universidades e empresas do mundo usam o Slurm.

No entanto, configurar e gerenciar clusters Slurm na nuvem pode ser desafiador e demorado, especialmente se você não estiver familiarizado com o ambiente de nuvem ou a configuração do Slurm. Você precisa lidar com tarefas como provisionamento e dimensionamento de nós de computação, instalação e atualização do software Slurm, configuração de rede e armazenamento, monitoramento da integridade e do desempenho do cluster e solução de problemas. Essas tarefas podem distraí-lo de seus principais objetivos de pesquisa ou de negócios e reduzir a produtividade e a eficiência de suas cargas de trabalho de IA e HPC.

O Azure CycleCloud Workspace for Slurm é um modelo de solução do Azure Marketplace que você pode usar para criar, configurar e implantar clusters Slurm predefinidos com o CycleCloud no Azure. Você não precisa de nenhum conhecimento prévio do Azure ou do Slurm. A solução pré-configura clusters Slurm com PMix v4, Pyxis, e enroot para suportar trabalhos Slurm de IA/HPC em contêineres. Você pode acessar o nó de entrada provisionado usando SSH ou Visual Studio Code para executar tarefas comuns, como enviar e gerenciar trabalhos Slurm.

Embora o Azure CycleCloud já permita que você execute algumas dessas tarefas, ele não implanta a infraestrutura de IA/HPC para você. Você deve lidar com tarefas como instalar e configurar o CycleCloud, configurar rede e armazenamento e criar e configurar o cluster Slurm. O Azure CycleCloud Workspace for Slurm executa essas tarefas para você em um modelo de solução do Marketplace que você pode implantar diretamente do portal do Azure ou por meio da CLI do Azure. Você está pronto em minutos e não em dias ou semanas.

Benefícios do Azure CycleCloud Workspace for Slurm

O Azure CycleCloud é uma ótima solução quando você deseja criar um ambiente de IA/HPC no Azure, seja para elevar e deslocar parte de sua carga de trabalho de IA/HPC local ou para criar uma nova. No entanto, criar um ambiente completo de IA/HPC de ponta a ponta não é uma tarefa fácil. Você precisa decidir como projetar sua rede, qual componente de armazenamento usar como um sistema de arquivos compartilhado, qual tipo de VM usar para executar sua carga de trabalho e muitas pequenas coisas que podem tornar seu projeto complexo de entregar.

O Azure CycleCloud Workspace for Slurm oferece vários benefícios para usuários que desejam executar cargas de trabalho do Slurm no Azure, como:

  • Criação de cluster fácil e rápida: você pode criar clusters Slurm no Azure em minutos seguindo algumas etapas simples na GUI. Esse processo é mais rápido do que dias ou semanas de trabalho no passado sem o Azure CycleCloud Workspace for Slurm. Você pode escolher entre vários tamanhos e tipos de máquina virtual (VM) do Azure. Você pode personalizar as configurações de cluster, como o número de nós, a configuração de rede, as opções de armazenamento dos Arquivos NetApp do Azure para o Sistema de Arquivos Azure Managed Lustre e os parâmetros Slurm.

  • Gerenciamento de cluster flexível e dinâmico: o Azure CycleCloud aumenta ou reduz os clusters Slurm. Você pode monitorar o status, o desempenho e a utilização do cluster. Você pode exibir os logs e métricas do cluster na GUI. Você também pode excluir seus clusters do Slurm quando eles não forem mais necessários e pagar apenas pelos recursos usados.

Como posso criar um Azure CycleCloud Workspace for Slurm?

Você pode implantar um Azure CycleCloud Workspace for Slurm do Azure Marketplace ou usando a CLI do Azure. Para implantar a partir do Marketplace, procure Slurm e selecione Criar. Para implantar usando a CLI do Azure, você precisa criar um arquivo de parâmetro de entrada primeiro e, em seguida, implantar usando o az deployment sub create comando. Para obter instruções detalhadas, consulte Como implantar um ambiente de espaço de trabalho CycleCloud Slurm usando a CLI.

O que o Azure CycleCloud Workspace for Slurm não é?

O Azure CycleCloud Workspace for Slurm não é um serviço PaaS. Toda a infraestrutura é implementada no seu cliente, o que permite implementar tudo (implementação do tipo greenfield) ou especificar recursos existentes para reutilização (implementação do tipo brownfield), como o grupo de recursos de destino, a rede virtual, os Azure NetApp Files e muito mais.

Como é o ambiente implantado do Azure CycleCloud para Slurm

Visão geral Arquitetura

Aqui está a arquitetura típica do que o Azure CycleCloud Workspace for Slurm implanta. A arquitetura inclui recursos obrigatórios como uma máquina virtual para executar o CycleCloud, um sistema de arquivos compartilhado para diretórios domésticos do usuário e uma conta de armazenamento para armazenamento de projetos do CycleCloud.

O Azure CycleCloud Workspace for Slurm pode implantar a rede virtual ou você pode usar uma rede virtual existente para a criação de recursos. Opcionalmente, você pode criar um sistema de arquivos Azure Managed Lustre em sua própria sub-rede.

Se as regras de segurança da sua empresa não permitirem endereços IP públicos (e muitos não permitem), você poderá criar um emparelhamento de rede virtual para uma rede virtual existente em um padrão hub and spoke. O hub contém todos os serviços de conectividade, como um gateway de rede virtual ou um Bastião do Azure.

Finalmente, em um ambiente sem IP público e sem VPN, você precisa de um Bastion. O Bastion oferece acesso seguro ao portal da Web CycleCloud e permite que você use SSH para se conectar aos nós de autenticação.

Próximos passos