Compartilhar via


Azure CycleCloud versão 8.8.0

Esta versão apresenta novos recursos altamente solicitados, aborda vários problemas importantes e melhora o desempenho geral.

Novos recursos

  • O Azure CycleCloud oferece monitoramento e relatórios de integridade do nó muito aprimorados por meio do novo HealthAgent (consulte o Projeto HealthAgent do Azure CycleCloud).

  • Você pode desabilitar o Azure CycleCloud HealthAgent definindo a propriedade de configuração do nó cyclecloud.healthagent.disable=true.

  • O Azure CycleCloud agora oferece métricas de nó, GPU e agendador do Slurm para monitoramento e alertas. O monitoramento é fornecido por meio do Azure Monitor Workspace e do Managed Grafana. Consulte o Projeto de Monitoramento do Azure CycleCloud para obter detalhes.

  • Alterações no cluster slurm do Azure CycleCloud:

    • Os clusters slurm do Azure CycleCloud dão suporte ao Slurm versão 25.05.2.
    • Os clusters Slurm do Azure CycleCloud dão suporte a imagens Ubuntu 22/24, Alma 8/9 e RedHat 8/9.
    • Os clusters Slurm do Azure CycleCloud dão suporte a imagens ARM64 e tipos de máquina.
    • Os clusters Slurm do Azure CycleCloud oferecem verificações internas e contínuas de integridade, relatórios e recuperação para os nós do cluster, configurando automaticamente os scripts Slurm HealthCheckProgram, Prolog e Epilog para usar o Azure CycleCloud HealthAgent.
    • Os clusters Slurm do Azure CycleCloud oferecem coleta de métricas integrada e monitoramento no Workspace do Azure Monitor.
    • A interface do usuário de criação do cluster Slurm do Azure CycleCloud fornece uma nova Monitoring seção para dar suporte à habilitação e configuração dos novos recursos de coleta e monitoramento de métricas (desabilitados por padrão).
    • O Slurm do Azure CycleCloud configura e inicia o serviço slurmrestd automaticamente para dar suporte ao monitoramento.
    • Os clusters do Slurm do Azure CycleCloud oferecem configuração interna e automatizada de plug-in de topologia para plugins de topologia de árvore e bloco por meio da CLI azslurm topology. A configuração de topologia automática tem suporte para clusters com topologia de Conjuntos de Dimensionamento de Máquinas Virtuais, SHARP ou o Domínio NVLink para agendamento com reconhecimento de topologia do Slurm.
    • Os Clusters Slurm do Azure CycleCloud incluem um novo azslurmd serviço de sistema que sincroniza o estado compartilhado do Slurm e do Azure CycleCloud. Por exemplo, azslurmd sincroniza a configuração de keep-alive do nó do Azure CycleCloud com o recurso de keep-alive nativo do Slurm.
    • Os clusters do Slurm do CycleCloud agora incluem scripts de prólogo e epílogo para configurar automaticamente o serviço "Nvidia IMEX" por tarefa para clusters de GPU Nvidia.
    • Os clusters do Slurm do Azure CycleCloud usando o projeto cyclecloud-slurm, versão 4.x e posterior, não exigem mais o Chef para a configuração do nó.
  • Alterações na CLI do Jetpack

    • A CLI do Jetpack inclui um novo comando jetpack props para dar suporte à leitura e gravação de dados do nó (propriedades) de nós de cluster para uso em scripts cluster-init. As propriedades são armazenadas novamente no Azure CycleCloud como o tipo NodeProperties no armazenamento de dados do Azure CycleCloud.
    • A ferramenta de linha de comando (CLI) do Jetpack inclui um novo jetpack condition comando usado para relatar o estado de saúde dos nós para o Azure CycleCloud.
  • Alterações na interface do usuário do Azure CycleCloud

    • O botão Issues no nível do cluster agora abre como uma página inteira e agrega problemas de alocação e integridade para facilitar a visualização.
    • A guia Activity Log no nível do cluster na interface do usuário do Cluster foi reposicionada ao lado do painel Event Log.
    • A guia Overview da caixa de diálogo Show Details no nível do nó foi reprojetada e atualizada com links diretos para o portal do Azure e botões de cópia para todos os campos.
    • A caixa de diálogo Show Details no nível do nó inclui uma nova barra de ações que fornece operações específicas do nó, incluindo Restart e Reimage para correção da integridade do nó.
    • A caixa de diálogo Show Details no nível do nó agora mostra apenas a primeira condição de integridade do nó e fornece um link para uma nova guia Issues, que exibe todas as condições atuais do nó.
  • Suporte ao dispositivo NVMe

    • O Azure CycleCloud monta e formata automaticamente dispositivos de armazenamento NVMe em nós do Linux em tipos de computador com discos efêmeros NVMe.
    • Nodes Linux montam discos NVMe efêmeros em /nvme.
    • Os tipos de computador com discos de inicialização NVMe, como os tipos de computador v6, HBv5 e HBv6, agora têm suporte.
  • Suporte a ARM64

    • Azure CycleCloud e Jetpack oferecem suporte a nós ARM64 e a imagens ARM64, desde que o tipo de cluster forneça suporte para ARM64. Atualmente, somente o tipo de cluster Slurm fornece suporte interno ao ARM64.
    • Os pacotes ARM64 para Jetpack estão disponíveis para instalação em imagens personalizadas.
  • O Azure CycleCloud agora fornece as ações Reimage e Restart nos nós do Conjunto de Dimensionamento de Máquinas Virtuais para recuperação e reparo de nós.

  • As novas ações Restart e Reimage estão disponíveis por meio das novas APIs REST do Azure CycleCloud: /clusters/{cluster}/nodes/restart e /clusters/{cluster}/nodes/reimage.

  • As matrizes de nós do Azure CycleCloud agora têm suporte para anexar Conjuntos de Dimensionamento de Máquinas Virtuais pré-criados (também conhecidos como traga seus próprios Conjuntos de Dimensionamento de Máquinas Virtuais) ao definir o novo atributo de nó PredefinedScaleSetId.

  • Você pode configurar nós do Linux para serem executados sem a estrutura herdada do Chef para nós que não exigem o Chef.

  • O Chef está desabilitado por padrão para novos clusters do Slurm, a menos que seja requerido por configurações de nó específicas.

  • Agora, todas as montagens de sistema de arquivos para nós do cluster são mantidas em /etc/fstab. Essa alteração assegura que os sistemas de arquivos sejam remontados corretamente após a reinicialização.

  • Os nós do Linux agora associam o diretório temporário (/tmp) a um diretório criado no disco efêmero (se o tipo de computador fornecer um disco efêmero) para reduzir o uso do disco do sistema operacional.

  • O Azure CycleCloud dá suporte ao Blobfuse2 como um tipo de montagem em modelos de cluster.

  • Ao modificar as definições de configuração de nó nos clusters em execução, você pode aplicar alterações aos nós em execução emitindo um comando reconverge nos nós.

  • O Azure CycleCloud agora usa a API do Azure Compute RP versão 2024-11-01.

Problemas resolvidos

  • A formatação da interface do usuário do Azure CycleCloud dificultou a interpretação de erros convergentes.
  • A /c/{cluster_name} URL para link direto aos clusters na interface do usuário redirecionava para uma página em branco para usuários não autenticados.
  • Erros de cloud-init foram relatados corretamente.
  • Falhas do cloud-init não distinguiam entre erros de script de usuário e erros no nível da imagem.
  • Às vezes, o comando da azslurm nodes CLI falhava e mostrava a mensagem: "parâmetro 'buckets' ausente".
  • Quando usada por usuários não raiz, a rotação de log para a CLI do azslurm falhou devido à propriedade do arquivo de log e às permissões do usuário.
  • Os clusters do Slurm do Azure CycleCloud armazenaram endereços IP privados nos dados do nó do Slurm. Esse problema levou o Slurm a recusar nodos em determinadas condições.
  • A interface do usuário do Azure CycleCloud perdeu a seleção de cluster ativo quando atualizou o painel Issues.
  • O botão de alternância Keep Alive no relatório de status do nó não funcionou.
  • Pressionar Enter na página de login não enviou o formulário de autenticação.
  • A seleção de shell padrão no Linux era inconsistente para diferentes imagens do sistema operacional.
  • O jetpack users comando da CLI não forneceu saída para alguns tipos de cluster.
  • Falha na instalação da CLI do Azure CycleCloud no macOS.
  • O jetpack report_issue comando da CLI falhou ao carregar o pacote de log gerado.
  • O uso da CLI az vm run-command do Azure em um nó do Azure CycleCloud fez com que o Azure CycleCloud sinalizasse o nó como falha com a mensagem: "Ocorreu um erro não especificado".
  • A atualização de um cluster pode falhar e relatar um "Erro de incompatibilidade de atributo" para os atributos de matriz de nó TerminateNotificationTimeout e MaxPrice, mesmo quando o valor não está alterado.
  • O Azure relatou uma contagem de GPU incorreta e um tamanho de memória incorreto para o GB200, e os dados incorretos foram refletidos nos dados das máquinas do Azure CycleCloud para agendamento.
  • O Azure CycleCloud lançou uma exceção durante a criação do nó se o atributo StartTime não foi definido no registro do nó.
  • Às vezes, os nós de cluster falhavam ao convergir novamente após uma operação Reimage porque os arquivos de marcador cluster-init armazenados no disco temporário do nó não foram removidos pela operação.

Alterações de quebra

  • O pacote Jetpack agora está instalado por padrão para imagens personalizadas.
    • Para reverter para o comportamento antigo, configure InstallJetpack=false no nó do modelo de cluster.
  • O cluster Slurm no Azure CycleCloud agora usa ReturnProxy=false como padrão.
    • Para reverter ao comportamento original, defina o parâmetro ReturnProxy para true durante a criação do cluster.
  • Para uma melhor segurança padrão, os clusters slurm do Azure CycleCloud agora desabilitam os IPs públicos por padrão.
    • Para reverter para o comportamento original, defina o parâmetro UsePublicNetwork como true durante a criação do cluster.

Problemas conhecidos

  • As novas ações Restart e Reimage estão disponíveis *somente para nós em matrizes de nós (instâncias do Conjunto de Dimensionamento de Máquinas Virtuais). Nodos únicos (VMs individuais) ainda não suportam Restart ou Reimage. Para nós únicos, use o portal do Azure ou a CLI do Azure para reiniciar ou refazer a imagem da VM.
  • O tipo de cluster HPC Pack do Azure CycleCloud falha em convergir.