Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Esta versão apresenta novos recursos altamente solicitados, aborda vários problemas importantes e melhora o desempenho geral.
Novas funcionalidades
O Azure CycleCloud oferece monitorização e relatórios de saúde dos nós muito melhorados através do novo HealthAgent (ver o Projeto Azure CycleCloud HealthAgent).
Pode desativar o Azure CycleCloud HealthAgent definindo a propriedade
cyclecloud.healthagent.disable=truede configuração do nó.O Azure CycleCloud oferece agora métricas de nós, GPU e agendador Slurm para monitorização e alerta. A monitorização é feita através do Azure Monitor Workspace e do Managed Grafana. Consulte o Projeto de Monitorização Azure CycleCloud para mais detalhes.
Alterações no cluster do Azure CycleCloud Slurm:
- Azure CycleCloud Slurm clusters suportam Slurm versão 25.05.2.
- Os clusters Azure CycleCloud Slurm suportam imagens Ubuntu 22/24, Alma 8/9 e RedHat 8/9.
- Os clusters Slurm do Azure CycleCloud suportam imagens ARM64 e tipos de máquina.
- Os clusters Azure CycleCloud Slurm oferecem verificação contínua de saúde, relatórios e recuperação integrados para nós de cluster, configurando automaticamente os scripts Slurm HealthCheckProgram, Prolog e Epilog para usar o Azure CycleCloud HealthAgent.
- Os clusters Azure CycleCloud Slurm oferecem recolha e monitorização de métricas integradas no Azure Monitor Workspace.
- A interface de criação de clusters Azure CycleCloud Slurm fornece uma nova
Monitoringsecção para suportar a ativação e configuração das novas capacidades de recolha e monitorização de métricas (desativadas por defeito). - O Azure CycleCloud Slurm configura e inicia automaticamente o serviço slurmrestd para suportar monitorização.
- Os clusters Azure CycleCloud Slurm oferecem configuração integrada e automatizada de plugins de topologia tanto para os plugins de árvore como para os plugs de topologia de blocos através da
azslurm topologyCLI. A configuração automática de topologia é suportada para clusters com topologia Virtual Machine Scale Sets, SHARP ou domínio NVLink para agendamento com reconhecimento de topologia Slurm. - Os clusters Azure CycleCloud Slurm incluem um novo
azslurmdserviço de sistema que sincroniza o estado partilhado do Slurm e do Azure CycleCloud. Por exemplo,azslurmdsincroniza a configuração de keep-alive de nós do Azure CycleCloud com a funcionalidade nativa de keep-alive do Slurm. - Os clusters Cyclecloud Slurm incluem agora scripts prolog e epilog para configurar automaticamente o serviço "Nvidia IMEX" por tarefa para clusters de GPU Nvidia.
- Clusters Azure CycleCloud Slurm que usam o
cyclecloud-slurmprojeto, versão 4.x e posteriores, já não requerem o Chef para configuração de nós.
Alterações na CLI do jetpack
- A CLI do Jetpack inclui um novo
jetpack propscomando para suportar a leitura e escrita de dados (propriedades) dos nós do cluster para uso em scripts cluster-init. As propriedades são armazenadas novamente no Azure CycleCloud como o tipoNodePropertiesno armazenamento de dados do Azure CycleCloud. - A CLI do Jetpack inclui um novo
jetpack conditioncomando usado para reportar as condições de saúde dos nós ao Azure CycleCloud.
- A CLI do Jetpack inclui um novo
Alterações na UI do Azure CycleCloud
- O botão ao nível
Issuesdo cluster abre agora como uma página inteira e agrega questões de alocação e saúde para facilitar a visualização. - O separador ao nível
Activity Logdo cluster na interface do Cluster foi reposicionado junto aoEvent Logpainel. - O separador de diálogo
Show Detailsao nívelOverviewdo nó foi redesenhado e atualizado com ligações diretas ao portal Azure e botões de cópia para todos os campos. - O diálogo no nível do nó
Show Detailsinclui uma nova barra de ações que oferece operações específicas para cada nó, incluindoRestarteReimagepara a intervenção na saúde dos nós. - O diálogo a nível de nó
Show Detailsmostra agora apenas a condição de saúde do primeiro nó e fornece um link para um novo separadorIssuespara mostrar todas as condições atuais dos nós.
- O botão ao nível
Suporte a dispositivos NVMe
- O Azure CycleCloud monta e formata automaticamente dispositivos de armazenamento NVMe em nós Linux em tipos de máquinas com discos efémeros NVMe.
- Os nodos Linux montam os discos NVMe efémeros em
/nvme. - Os tipos de máquinas com discos de arranque NVMe, como os tipos de máquinas v6, HBv5 e HBv6, são agora suportados.
Suporte ao ARM64
- O Azure CycleCloud e o Jetpack suportam nós ARM64 e imagens ARM64 se o tipo de cluster fornecer suporte ARM64. Atualmente, apenas o tipo de cluster Slurm oferece suporte integrado para ARM64.
- Pacotes ARM64 para Jetpack estão disponíveis para instalação em imagens personalizadas.
Azure CycleCloud agora fornece ações
ReimageeRestartem nós do Virtual Machine Scale Set para recuperação e reparação de nós.As novas
Restartações eReimageestão disponíveis através das novas APIs REST do Azure CycleCloud:/clusters/{cluster}/nodes/restarte/clusters/{cluster}/nodes/reimage.Os arrays de nós do Azure CycleCloud agora suportam a anexação de Conjuntos de Escala de Máquina Virtual pré-criados (também conhecidos como Conjuntos de Escala de Máquina Virtual traz-você-próprios) ao definir o novo
PredefinedScaleSetIdatributo do nó.Pode configurar nós Linux para funcionarem sem o framework legado do Chef, para nós que não necessitam do Chef.
O Chef está desativado por defeito para novos clusters Slurm, a menos que seja exigido por configurações específicas de nós.
Todas as montagens do sistema de ficheiros para nós de cluster são agora preservadas para
/etc/fstab. Esta alteração assegura que os sistemas de ficheiros são remontados corretamente após o reinício.Os nós Linux agora associam o diretório temporário (
/tmp) a um diretório criado no disco efémero (se o tipo de máquina fornecer um disco efémero) para reduzir o uso do disco do sistema operativo.O Azure CycleCloud suporta o Blobfuse2 como tipo de montagem em templates de cluster.
Quando modifica as definições de configuração dos nós em clusters em funcionamento, pode aplicar alterações aos nós em execução emitindo um comando de reconvergência nos nós.
O Azure CycleCloud agora utiliza a API Azure Compute RP versão 2024-11-01.
Problemas resolvidos
- A formatação da interface do Azure CycleCloud tornava os erros de convergência difíceis de interpretar.
- A
/c/{cluster_name}URL para ligação direta a clusters na interface era redirecionada para uma página em branco para utilizadores não autenticados. - Os erros do cloud-init foram reportados corretamente.
- As falhas do cloud-init não diferenciavam os erros de scripts de utilizador dos erros ao nível da imagem.
- O comando
azslurm nodesCLI por vezes falhava e mostrava a mensagem: "parâmetro 'buckets' em falta." - Quando usado por utilizadores não root, a rotação de logs para a
azslurmCLI falhou devido à propriedade do ficheiro log e às permissões dos utilizadores. - Os clusters Slurm do Azure CycleCloud armazenaram endereços IP privados nos dados do nó Slurm. Este problema levou o Slurm a rejeitar nós sob determinadas condições.
- A interface do Azure CycleCloud perdeu a seleção ativa do cluster quando atualizou o painel
Issues. - A
Keep Aliveopção de alternar no relatório de estado do nó não funcionou. - Premir
Enterna página de início de sessão não enviou o formulário de autenticação. - A seleção padrão de shell no Linux era inconsistente para diferentes imagens do sistema operativo.
- O
jetpack userscomando CLI não fornecia saída para alguns tipos de cluster. - Instalação do Azure CycleCloud CLI falhou no macOS.
- O
jetpack report_issuecomando CLI falhou ao carregar o pacote de logs gerado. - Utilizar a Azure CLI
az vm run-commandnum nó do Azure CycleCloud fez com que o Azure CycleCloud marcasse o nó como falhado com a mensagem: "Ocorreu um erro não especificado." - Atualizar um cluster pode falhar e indicar um "Erro de incompatibilidade de atributo" para os atributos do array de nós
TerminateNotificationTimeouteMaxPrice, mesmo quando o valor permanece inalterado. - O Azure reportou um número incorreto de GPUs e o tamanho da memória para o GB200 e os dados incorretos foram refletidos nos dados das máquinas do Azure CycleCloud no agendamento.
- O Azure CycleCloud gerava uma exceção durante a criação do nó caso o atributo
StartTimenão estivesse definido no registo do nó. - Por vezes, os nós do cluster falhavam em reconvergir após uma
Reimageoperação porque os ficheiros de marcadores cluster-init armazenados no disco efémero do nó não eram removidos durante a operação.
Alterações de grande impacto
- O pacote Jetpack está agora instalado por defeito para imagens personalizadas.
- Para reverter ao comportamento antigo, configure
InstallJetpack=falseno nó do modelo de cluster.
- Para reverter ao comportamento antigo, configure
- O cluster Azure CycleCloud Slurm agora, por padrão,
ReturnProxy=false.- Para reverter ao comportamento original, defina o
ReturnProxyparâmetro paratruedurante a criação do cluster.
- Para reverter ao comportamento original, defina o
- Para uma melhor segurança predefinida, os clusters Azure CycleCloud Slurm agora desativam IPs públicos por defeito.
- Para reverter ao comportamento original, defina o
UsePublicNetworkparâmetro paratruedurante a criação do cluster.
- Para reverter ao comportamento original, defina o
Problemas conhecidos
- O novo
RestarteReimageações estão disponíveis apenas para nós em arrays de nós (instâncias do Conjunto de Escala de Máquinas Virtuais). Nodos individuais (VMs individuais) ainda não suportamRestartouReimage. Para nós únicos, use o portal do Azure ou a Azure CLI para reiniciar ou recriar a VM. - O tipo de cluster Azure CycleCloud HPC Pack falha em convergir.