Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Esta versão apresenta novos recursos altamente solicitados, aborda vários problemas importantes e melhora o desempenho geral.
Novos recursos
O Azure CycleCloud oferece monitoramento e relatórios de integridade do nó muito aprimorados por meio do novo HealthAgent (consulte o Projeto HealthAgent do Azure CycleCloud).
Você pode desabilitar o Azure CycleCloud HealthAgent definindo a propriedade de configuração do nó
cyclecloud.healthagent.disable=true.O Azure CycleCloud agora oferece métricas de nó, GPU e agendador do Slurm para monitoramento e alertas. O monitoramento é fornecido por meio do Azure Monitor Workspace e do Managed Grafana. Consulte o Projeto de Monitoramento do Azure CycleCloud para obter detalhes.
Alterações no cluster slurm do Azure CycleCloud:
- Os clusters slurm do Azure CycleCloud dão suporte ao Slurm versão 25.05.2.
- Os clusters Slurm do Azure CycleCloud dão suporte a imagens Ubuntu 22/24, Alma 8/9 e RedHat 8/9.
- Os clusters Slurm do Azure CycleCloud dão suporte a imagens ARM64 e tipos de máquina.
- Os clusters Slurm do Azure CycleCloud oferecem verificações internas e contínuas de integridade, relatórios e recuperação para os nós do cluster, configurando automaticamente os scripts Slurm HealthCheckProgram, Prolog e Epilog para usar o Azure CycleCloud HealthAgent.
- Os clusters Slurm do Azure CycleCloud oferecem coleta de métricas integrada e monitoramento no Workspace do Azure Monitor.
- A interface do usuário de criação do cluster Slurm do Azure CycleCloud fornece uma nova
Monitoringseção para dar suporte à habilitação e configuração dos novos recursos de coleta e monitoramento de métricas (desabilitados por padrão). - O Slurm do Azure CycleCloud configura e inicia o serviço slurmrestd automaticamente para dar suporte ao monitoramento.
- Os clusters do Slurm do Azure CycleCloud oferecem configuração interna e automatizada de plug-in de topologia para plugins de topologia de árvore e bloco por meio da CLI
azslurm topology. A configuração de topologia automática tem suporte para clusters com topologia de Conjuntos de Dimensionamento de Máquinas Virtuais, SHARP ou o Domínio NVLink para agendamento com reconhecimento de topologia do Slurm. - Os Clusters Slurm do Azure CycleCloud incluem um novo
azslurmdserviço de sistema que sincroniza o estado compartilhado do Slurm e do Azure CycleCloud. Por exemplo,azslurmdsincroniza a configuração de keep-alive do nó do Azure CycleCloud com o recurso de keep-alive nativo do Slurm. - Os clusters do Slurm do CycleCloud agora incluem scripts de prólogo e epílogo para configurar automaticamente o serviço "Nvidia IMEX" por tarefa para clusters de GPU Nvidia.
- Os clusters do Slurm do Azure CycleCloud usando o projeto
cyclecloud-slurm, versão 4.x e posterior, não exigem mais o Chef para a configuração do nó.
Alterações na CLI do Jetpack
- A CLI do Jetpack inclui um novo comando
jetpack propspara dar suporte à leitura e gravação de dados do nó (propriedades) de nós de cluster para uso em scripts cluster-init. As propriedades são armazenadas novamente no Azure CycleCloud como o tipoNodePropertiesno armazenamento de dados do Azure CycleCloud. - A ferramenta de linha de comando (CLI) do Jetpack inclui um novo
jetpack conditioncomando usado para relatar o estado de saúde dos nós para o Azure CycleCloud.
- A CLI do Jetpack inclui um novo comando
Alterações na interface do usuário do Azure CycleCloud
- O botão
Issuesno nível do cluster agora abre como uma página inteira e agrega problemas de alocação e integridade para facilitar a visualização. - A guia
Activity Logno nível do cluster na interface do usuário do Cluster foi reposicionada ao lado do painelEvent Log. - A guia
Overviewda caixa de diálogoShow Detailsno nível do nó foi reprojetada e atualizada com links diretos para o portal do Azure e botões de cópia para todos os campos. - A caixa de diálogo
Show Detailsno nível do nó inclui uma nova barra de ações que fornece operações específicas do nó, incluindoRestarteReimagepara correção da integridade do nó. - A caixa de diálogo
Show Detailsno nível do nó agora mostra apenas a primeira condição de integridade do nó e fornece um link para uma nova guiaIssues, que exibe todas as condições atuais do nó.
- O botão
Suporte ao dispositivo NVMe
- O Azure CycleCloud monta e formata automaticamente dispositivos de armazenamento NVMe em nós do Linux em tipos de computador com discos efêmeros NVMe.
- Nodes Linux montam discos NVMe efêmeros em
/nvme. - Os tipos de computador com discos de inicialização NVMe, como os tipos de computador v6, HBv5 e HBv6, agora têm suporte.
Suporte a ARM64
- Azure CycleCloud e Jetpack oferecem suporte a nós ARM64 e a imagens ARM64, desde que o tipo de cluster forneça suporte para ARM64. Atualmente, somente o tipo de cluster Slurm fornece suporte interno ao ARM64.
- Os pacotes ARM64 para Jetpack estão disponíveis para instalação em imagens personalizadas.
O Azure CycleCloud agora fornece as ações
ReimageeRestartnos nós do Conjunto de Dimensionamento de Máquinas Virtuais para recuperação e reparo de nós.As novas ações
RestarteReimageestão disponíveis por meio das novas APIs REST do Azure CycleCloud:/clusters/{cluster}/nodes/restarte/clusters/{cluster}/nodes/reimage.As matrizes de nós do Azure CycleCloud agora têm suporte para anexar Conjuntos de Dimensionamento de Máquinas Virtuais pré-criados (também conhecidos como traga seus próprios Conjuntos de Dimensionamento de Máquinas Virtuais) ao definir o novo atributo de nó
PredefinedScaleSetId.Você pode configurar nós do Linux para serem executados sem a estrutura herdada do Chef para nós que não exigem o Chef.
O Chef está desabilitado por padrão para novos clusters do Slurm, a menos que seja requerido por configurações de nó específicas.
Agora, todas as montagens de sistema de arquivos para nós do cluster são mantidas em
/etc/fstab. Essa alteração assegura que os sistemas de arquivos sejam remontados corretamente após a reinicialização.Os nós do Linux agora associam o diretório temporário (
/tmp) a um diretório criado no disco efêmero (se o tipo de computador fornecer um disco efêmero) para reduzir o uso do disco do sistema operacional.O Azure CycleCloud dá suporte ao Blobfuse2 como um tipo de montagem em modelos de cluster.
Ao modificar as definições de configuração de nó nos clusters em execução, você pode aplicar alterações aos nós em execução emitindo um comando reconverge nos nós.
O Azure CycleCloud agora usa a API do Azure Compute RP versão 2024-11-01.
Problemas resolvidos
- A formatação da interface do usuário do Azure CycleCloud dificultou a interpretação de erros convergentes.
- A
/c/{cluster_name}URL para link direto aos clusters na interface do usuário redirecionava para uma página em branco para usuários não autenticados. - Erros de cloud-init foram relatados corretamente.
- Falhas do cloud-init não distinguiam entre erros de script de usuário e erros no nível da imagem.
- Às vezes, o comando da
azslurm nodesCLI falhava e mostrava a mensagem: "parâmetro 'buckets' ausente". - Quando usada por usuários não raiz, a rotação de log para a CLI do
azslurmfalhou devido à propriedade do arquivo de log e às permissões do usuário. - Os clusters do Slurm do Azure CycleCloud armazenaram endereços IP privados nos dados do nó do Slurm. Esse problema levou o Slurm a recusar nodos em determinadas condições.
- A interface do usuário do Azure CycleCloud perdeu a seleção de cluster ativo quando atualizou o painel
Issues. - O botão de alternância
Keep Aliveno relatório de status do nó não funcionou. - Pressionar
Enterna página de login não enviou o formulário de autenticação. - A seleção de shell padrão no Linux era inconsistente para diferentes imagens do sistema operacional.
- O
jetpack userscomando da CLI não forneceu saída para alguns tipos de cluster. - Falha na instalação da CLI do Azure CycleCloud no macOS.
- O
jetpack report_issuecomando da CLI falhou ao carregar o pacote de log gerado. - O uso da CLI
az vm run-commanddo Azure em um nó do Azure CycleCloud fez com que o Azure CycleCloud sinalizasse o nó como falha com a mensagem: "Ocorreu um erro não especificado". - A atualização de um cluster pode falhar e relatar um "Erro de incompatibilidade de atributo" para os atributos de matriz de nó
TerminateNotificationTimeouteMaxPrice, mesmo quando o valor não está alterado. - O Azure relatou uma contagem de GPU incorreta e um tamanho de memória incorreto para o GB200, e os dados incorretos foram refletidos nos dados das máquinas do Azure CycleCloud para agendamento.
- O Azure CycleCloud lançou uma exceção durante a criação do nó se o atributo
StartTimenão foi definido no registro do nó. - Às vezes, os nós de cluster falhavam ao convergir novamente após uma operação
Reimageporque os arquivos de marcador cluster-init armazenados no disco temporário do nó não foram removidos pela operação.
Alterações de quebra
- O pacote Jetpack agora está instalado por padrão para imagens personalizadas.
- Para reverter para o comportamento antigo, configure
InstallJetpack=falseno nó do modelo de cluster.
- Para reverter para o comportamento antigo, configure
- O cluster Slurm no Azure CycleCloud agora usa
ReturnProxy=falsecomo padrão.- Para reverter ao comportamento original, defina o parâmetro
ReturnProxyparatruedurante a criação do cluster.
- Para reverter ao comportamento original, defina o parâmetro
- Para uma melhor segurança padrão, os clusters slurm do Azure CycleCloud agora desabilitam os IPs públicos por padrão.
- Para reverter para o comportamento original, defina o parâmetro
UsePublicNetworkcomotruedurante a criação do cluster.
- Para reverter para o comportamento original, defina o parâmetro
Problemas conhecidos
- As novas ações
RestarteReimageestão disponíveis *somente para nós em matrizes de nós (instâncias do Conjunto de Dimensionamento de Máquinas Virtuais). Nodos únicos (VMs individuais) ainda não suportamRestartouReimage. Para nós únicos, use o portal do Azure ou a CLI do Azure para reiniciar ou refazer a imagem da VM. - O tipo de cluster HPC Pack do Azure CycleCloud falha em convergir.