Partilhar via


Azure CycleCloud version 8.8.0

Esta versão apresenta novos recursos altamente solicitados, aborda vários problemas importantes e melhora o desempenho geral.

Novas funcionalidades

  • O Azure CycleCloud oferece monitorização e relatórios de saúde dos nós muito melhorados através do novo HealthAgent (ver o Projeto Azure CycleCloud HealthAgent).

  • Pode desativar o Azure CycleCloud HealthAgent definindo a propriedade cyclecloud.healthagent.disable=true de configuração do nó.

  • O Azure CycleCloud oferece agora métricas de nós, GPU e agendador Slurm para monitorização e alerta. A monitorização é feita através do Azure Monitor Workspace e do Managed Grafana. Consulte o Projeto de Monitorização Azure CycleCloud para mais detalhes.

  • Alterações no cluster do Azure CycleCloud Slurm:

    • Azure CycleCloud Slurm clusters suportam Slurm versão 25.05.2.
    • Os clusters Azure CycleCloud Slurm suportam imagens Ubuntu 22/24, Alma 8/9 e RedHat 8/9.
    • Os clusters Slurm do Azure CycleCloud suportam imagens ARM64 e tipos de máquina.
    • Os clusters Azure CycleCloud Slurm oferecem verificação contínua de saúde, relatórios e recuperação integrados para nós de cluster, configurando automaticamente os scripts Slurm HealthCheckProgram, Prolog e Epilog para usar o Azure CycleCloud HealthAgent.
    • Os clusters Azure CycleCloud Slurm oferecem recolha e monitorização de métricas integradas no Azure Monitor Workspace.
    • A interface de criação de clusters Azure CycleCloud Slurm fornece uma nova Monitoring secção para suportar a ativação e configuração das novas capacidades de recolha e monitorização de métricas (desativadas por defeito).
    • O Azure CycleCloud Slurm configura e inicia automaticamente o serviço slurmrestd para suportar monitorização.
    • Os clusters Azure CycleCloud Slurm oferecem configuração integrada e automatizada de plugins de topologia tanto para os plugins de árvore como para os plugs de topologia de blocos através da azslurm topology CLI. A configuração automática de topologia é suportada para clusters com topologia Virtual Machine Scale Sets, SHARP ou domínio NVLink para agendamento com reconhecimento de topologia Slurm.
    • Os clusters Azure CycleCloud Slurm incluem um novo azslurmd serviço de sistema que sincroniza o estado partilhado do Slurm e do Azure CycleCloud. Por exemplo, azslurmd sincroniza a configuração de keep-alive de nós do Azure CycleCloud com a funcionalidade nativa de keep-alive do Slurm.
    • Os clusters Cyclecloud Slurm incluem agora scripts prolog e epilog para configurar automaticamente o serviço "Nvidia IMEX" por tarefa para clusters de GPU Nvidia.
    • Clusters Azure CycleCloud Slurm que usam o cyclecloud-slurm projeto, versão 4.x e posteriores, já não requerem o Chef para configuração de nós.
  • Alterações na CLI do jetpack

    • A CLI do Jetpack inclui um novo jetpack props comando para suportar a leitura e escrita de dados (propriedades) dos nós do cluster para uso em scripts cluster-init. As propriedades são armazenadas novamente no Azure CycleCloud como o tipo NodeProperties no armazenamento de dados do Azure CycleCloud.
    • A CLI do Jetpack inclui um novo jetpack condition comando usado para reportar as condições de saúde dos nós ao Azure CycleCloud.
  • Alterações na UI do Azure CycleCloud

    • O botão ao nível Issues do cluster abre agora como uma página inteira e agrega questões de alocação e saúde para facilitar a visualização.
    • O separador ao nível Activity Log do cluster na interface do Cluster foi reposicionado junto ao Event Log painel.
    • O separador de diálogo Show Details ao nível Overview do nó foi redesenhado e atualizado com ligações diretas ao portal Azure e botões de cópia para todos os campos.
    • O diálogo no nível do nó Show Details inclui uma nova barra de ações que oferece operações específicas para cada nó, incluindo Restart e Reimage para a intervenção na saúde dos nós.
    • O diálogo a nível de nó Show Details mostra agora apenas a condição de saúde do primeiro nó e fornece um link para um novo separador Issues para mostrar todas as condições atuais dos nós.
  • Suporte a dispositivos NVMe

    • O Azure CycleCloud monta e formata automaticamente dispositivos de armazenamento NVMe em nós Linux em tipos de máquinas com discos efémeros NVMe.
    • Os nodos Linux montam os discos NVMe efémeros em /nvme.
    • Os tipos de máquinas com discos de arranque NVMe, como os tipos de máquinas v6, HBv5 e HBv6, são agora suportados.
  • Suporte ao ARM64

    • O Azure CycleCloud e o Jetpack suportam nós ARM64 e imagens ARM64 se o tipo de cluster fornecer suporte ARM64. Atualmente, apenas o tipo de cluster Slurm oferece suporte integrado para ARM64.
    • Pacotes ARM64 para Jetpack estão disponíveis para instalação em imagens personalizadas.
  • Azure CycleCloud agora fornece ações Reimage e Restart em nós do Virtual Machine Scale Set para recuperação e reparação de nós.

  • As novas Restart ações e Reimage estão disponíveis através das novas APIs REST do Azure CycleCloud: /clusters/{cluster}/nodes/restart e /clusters/{cluster}/nodes/reimage.

  • Os arrays de nós do Azure CycleCloud agora suportam a anexação de Conjuntos de Escala de Máquina Virtual pré-criados (também conhecidos como Conjuntos de Escala de Máquina Virtual traz-você-próprios) ao definir o novo PredefinedScaleSetId atributo do nó.

  • Pode configurar nós Linux para funcionarem sem o framework legado do Chef, para nós que não necessitam do Chef.

  • O Chef está desativado por defeito para novos clusters Slurm, a menos que seja exigido por configurações específicas de nós.

  • Todas as montagens do sistema de ficheiros para nós de cluster são agora preservadas para /etc/fstab. Esta alteração assegura que os sistemas de ficheiros são remontados corretamente após o reinício.

  • Os nós Linux agora associam o diretório temporário (/tmp) a um diretório criado no disco efémero (se o tipo de máquina fornecer um disco efémero) para reduzir o uso do disco do sistema operativo.

  • O Azure CycleCloud suporta o Blobfuse2 como tipo de montagem em templates de cluster.

  • Quando modifica as definições de configuração dos nós em clusters em funcionamento, pode aplicar alterações aos nós em execução emitindo um comando de reconvergência nos nós.

  • O Azure CycleCloud agora utiliza a API Azure Compute RP versão 2024-11-01.

Problemas resolvidos

  • A formatação da interface do Azure CycleCloud tornava os erros de convergência difíceis de interpretar.
  • A /c/{cluster_name} URL para ligação direta a clusters na interface era redirecionada para uma página em branco para utilizadores não autenticados.
  • Os erros do cloud-init foram reportados corretamente.
  • As falhas do cloud-init não diferenciavam os erros de scripts de utilizador dos erros ao nível da imagem.
  • O comando azslurm nodes CLI por vezes falhava e mostrava a mensagem: "parâmetro 'buckets' em falta."
  • Quando usado por utilizadores não root, a rotação de logs para a azslurm CLI falhou devido à propriedade do ficheiro log e às permissões dos utilizadores.
  • Os clusters Slurm do Azure CycleCloud armazenaram endereços IP privados nos dados do nó Slurm. Este problema levou o Slurm a rejeitar nós sob determinadas condições.
  • A interface do Azure CycleCloud perdeu a seleção ativa do cluster quando atualizou o painel Issues.
  • A Keep Alive opção de alternar no relatório de estado do nó não funcionou.
  • Premir Enter na página de início de sessão não enviou o formulário de autenticação.
  • A seleção padrão de shell no Linux era inconsistente para diferentes imagens do sistema operativo.
  • O jetpack users comando CLI não fornecia saída para alguns tipos de cluster.
  • Instalação do Azure CycleCloud CLI falhou no macOS.
  • O jetpack report_issue comando CLI falhou ao carregar o pacote de logs gerado.
  • Utilizar a Azure CLI az vm run-command num nó do Azure CycleCloud fez com que o Azure CycleCloud marcasse o nó como falhado com a mensagem: "Ocorreu um erro não especificado."
  • Atualizar um cluster pode falhar e indicar um "Erro de incompatibilidade de atributo" para os atributos do array de nós TerminateNotificationTimeout e MaxPrice, mesmo quando o valor permanece inalterado.
  • O Azure reportou um número incorreto de GPUs e o tamanho da memória para o GB200 e os dados incorretos foram refletidos nos dados das máquinas do Azure CycleCloud no agendamento.
  • O Azure CycleCloud gerava uma exceção durante a criação do nó caso o atributo StartTime não estivesse definido no registo do nó.
  • Por vezes, os nós do cluster falhavam em reconvergir após uma Reimage operação porque os ficheiros de marcadores cluster-init armazenados no disco efémero do nó não eram removidos durante a operação.

Alterações de grande impacto

  • O pacote Jetpack está agora instalado por defeito para imagens personalizadas.
    • Para reverter ao comportamento antigo, configure InstallJetpack=false no nó do modelo de cluster.
  • O cluster Azure CycleCloud Slurm agora, por padrão, ReturnProxy=false.
    • Para reverter ao comportamento original, defina o ReturnProxy parâmetro para true durante a criação do cluster.
  • Para uma melhor segurança predefinida, os clusters Azure CycleCloud Slurm agora desativam IPs públicos por defeito.
    • Para reverter ao comportamento original, defina o UsePublicNetwork parâmetro para true durante a criação do cluster.

Problemas conhecidos

  • O novo Restart e Reimage ações estão disponíveis apenas para nós em arrays de nós (instâncias do Conjunto de Escala de Máquinas Virtuais). Nodos individuais (VMs individuais) ainda não suportam Restart ou Reimage. Para nós únicos, use o portal do Azure ou a Azure CLI para reiniciar ou recriar a VM.
  • O tipo de cluster Azure CycleCloud HPC Pack falha em convergir.