Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
A Solução VMware do Azure realiza a manutenção periódica da nuvem privada. Essa manutenção inclui patches de segurança, atualizações menores e importantes para a pilha de software VMware. Esta página descreve o monitoramento do host, a correção e as práticas recomendadas que ajudam a manter a nuvem privada pronta para manutenção.
Manutenção do host e gerenciamento do ciclo de vida
Um benefício das nuvens privadas da Solução VMware do Azure é que a plataforma é mantida para você. A Microsoft é responsável pelo gerenciamento do ciclo de vida dos dispositivos VMware (ESXi, vCenter Server e vSAN) e NSX. A Microsoft também é responsável por inicializar a configuração de rede, como criar o gateway Tier-0 e habilitar o roteamento Norte-Sul. Você é responsável pela configuração do NSX SDN: segmentos de rede, regras de firewall distribuídas, gateways de nível 1 e balanceadores de carga.
Observação
Um gateway T0 é criado e configurado como parte de uma implantação de nuvem privada. Qualquer modificação nesse roteador lógico ou nas VMs do nó de borda NSX pode afetar a conectividade com sua nuvem privada e deve ser evitada.
A Microsoft é responsável por aplicar quaisquer patches, atualizações ou upgrades ao ESXi, vCenter Server, vSAN e NSX em sua nuvem privada. O impacto de patches, atualizações e upgrades no ESXi, vCenter Server e NSX tem as seguintes considerações:
ESXi - Não há impacto nas cargas de trabalho em execução na sua nuvem privada. O acesso ao vCenter Server e ao NSX não é bloqueado durante esse período. Durante esse período, recomendamos que você não planeje outras atividades como: expandir a nuvem privada, agendar ou iniciar migrações HCX ativas, fazer alterações na configuração da HCX e assim por diante em sua nuvem privada.
vCenter Server - Não há impacto nas cargas de trabalho em execução na sua nuvem privada. Durante esse período, o vCenter Server não está disponível e você não pode gerenciar VMs (parar, iniciar, criar ou excluir). Recomendamos que você não planeje outras atividades, como expandir a nuvem privada, criar novas redes e assim por diante em sua nuvem privada. Ao usar as interfaces de usuário do VMware Site Recovery Manager ou do vSphere Replication, recomendamos que você não execute nenhuma das ações: configurar o vSphere Replication e configurar ou executar planos de recuperação de site durante o upgrade do vCenter Server.
NSX - A carga de trabalho é afetada. Quando um host específico está sendo atualizado, as VMs nesse host podem perder a conectividade de 2 segundos a 1 minuto com qualquer um dos seguintes sintomas:
Erros de ping
Perda de pacotes
Mensagens de erro (por exemplo, Host de destino inacessível e Net inacessível)
Durante essa janela de atualização, todo o acesso ao plano de gerenciamento do NSX é bloqueado. Não é possível fazer alterações de configuração no ambiente NSX durante a duração. Suas cargas de trabalho continuam a ser executadas normalmente, sujeitas ao impacto da atualização detalhado anteriormente.
Durante o tempo de atualização, recomendamos que você não planeje outras atividades, como expandir a nuvem privada, e assim por diante, em sua nuvem privada. Outras atividades podem impedir o início da atualização ou podem ter impactos adversos na atualização e no ambiente.
Você é notificado através do Azure Service Health, que inclui a linha do tempo da atualização. Esta notificação também fornece detalhes sobre o componente atualizado, seu efeito nas cargas de trabalho, acesso à nuvem privada e outros serviços do Azure. Você pode reagendar uma atualização conforme necessário.
As atualizações de software incluem:
Patches - Patches de segurança ou correções de bugs lançados pela VMware
Atualizações - Alteração de uma versão menor de um componente do stack VMware
Upgrades - Actualização de versão principal de um componente de stack VMware
Observação
A Microsoft testa um patch de segurança crítico assim que ele é disponibilizado pela VMware.
As soluções alternativas documentadas do VMware são implementadas em vez da instalação de um patch correspondente até que as próximas atualizações agendadas sejam implantadas.
Monitorização e remediação de hosts
A Solução VMware do Azure monitoriza continuamente o estado de funcionamento dos componentes VMware e da camada subjacente. Quando o Azure VMware Solution deteta uma falha, ele toma medidas para reparar os componentes com falha. Quando a Solução VMware do Azure deteta uma degradação ou falha em um nó da Solução VMware do Azure, ela aciona o processo de correção do host.
A correção do host envolve a substituição do nó defeituoso por um novo nó íntegro no cluster. Em seguida, quando possível, o host defeituoso é colocado no modo de manutenção VMware vSphere. O VMware vSphere vMotion move as máquinas virtuais (VMs) do host defeituoso para outros servidores disponíveis no cluster, permitindo potencialmente tempo de inatividade zero para migração em tempo real de cargas de trabalho. Se o host defeituoso não puder ser colocado no modo de manutenção, o host será removido do cluster. Antes que o host defeituoso seja removido, as cargas de trabalho do cliente são migradas para um host recém-adicionado.
Sugestão
Comunicação com o cliente: Um e-mail é enviado para o endereço de e-mail do cliente antes que a substituição seja iniciada e novamente depois que a substituição for bem-sucedida.
Para receber emails relacionados à substituição de host, você precisa ser adicionado a qualquer uma das seguintes funções do Controle de Acesso Role-Based (RBAC) do Azure na assinatura: 'ServiceAdmin', 'CoAdmin', 'Owner', 'Contributor'.
A Solução VMware do Azure monitoriza as seguintes condições no host:
- Status do processador
- Estado da memória
- Ligação e estado de alimentação
- Estado do ventilador de hardware
- Perda de conectividade de rede
- Status da placa do sistema de hardware
- Ocorreram erros em um ou mais discos de um host vSAN
- Tensão do hardware
- Estado da temperatura do hardware
- Estado de alimentação do hardware
- Estado do armazenamento
- Falha de ligação
Práticas recomendadas de operações de manutenção
As seguintes ações são sempre recomendadas para garantir que as operações de manutenção do host sejam realizadas com êxito:
- Utilização do armazenamento vSAN: Para manter o Acordo de Nível de Serviço (SLA), certifique-se de que a utilização do espaço de armazenamento do cluster vSphere permaneça abaixo de 75%. Se a utilização exceder 75%, as atualizações podem levar mais tempo do que o esperado ou falhar totalmente. Se a utilização do armazenamento exceder 75%, considere adicionar um nó para expandir o cluster e evitar possíveis períodos de inatividade durante as atualizações.
- Regras do Distributed Resource Scheduler (DRS): As regras de VM-VM antiafinidade do DRS devem ser configuradas de forma a ter pelo menos (N+1) hosts no cluster, onde N é o número de VMs que fazem parte da regra DRS.
- Violação de Falhas a Tolerar (FTT): Para evitar a perda de dados, altere as VMs configuradas com uma política de armazenamento vSAN configurada para Falhas a Tolerar (FTT) de 0 para uma política de armazenamento vSAN compatível com o SLA da Microsoft (FTT=1 para até cinco hosts num cluster e FTT=2 para seis ou mais hosts num cluster) e garanta que as operações de manutenção do host possam ser realizadas sem interrupções.
- Remova as montagens de VM CD-ROM: VMs montadas com "Modo de emulação" CD-ROMs bloqueiam a manutenção do host. Certifique-se de que CD-ROMs estão montados no "Modo de passagem".
- Porta de série/paralela ou dispositivo externo: Se você estiver usando um arquivo de imagem (ISO, FLP, etc.), verifique se ele está acessível a partir de todos os hosts ESXi no cluster. Armazene os arquivos em um armazenamento de dados que são compartilhados entre todos os servidores ESXi que participam do vMotion da máquina virtual. Para obter mais informações, consulte o artigo Broadcom KB.
- VMs órfãs: No caso de uma máquina virtual órfã, a máquina virtual (VM) precisa ser registrada novamente, se possível (se não tiver sido excluída) ou removida do inventário. Para obter mais informações, consulte o artigo Broadcom KB.
- Controlador partilhado SCSI: Ao usar partilha de barramento SCSI, utilize o tipo de barramento "Físico" para as VMs. As VMs ligadas a controladores Virtual SCSI serão desligadas. Para obter mais informações, consulte o artigo Broadcom KB.
-
VMs de terceiros & aplicativos: Para VMs e aplicativos de terceiros:
- Certifique-se de que as soluções de terceiros implantadas na Solução VMware do Azure estejam em conformidade e não interfiram nas operações de manutenção.
- Verifique se a VM não está instalada com uma regra DRS VM-Host "Deve executar". Além disso, verifique se esses aplicativos são compatíveis com versões futuras da pilha VMware.
- Consulte o fornecedor da solução e atualize com antecedência, se necessário, para manter a compatibilidade após a atualização.
Importante
Se alguma destas configurações de bloqueio de manutenção existir num host Azure VMware Solution, receberá alertas no seu painel Resource Health for AVS. Para garantir que os hosts pouco saudáveis são substituídos e as atualizações têm sucesso, essas configurações de bloqueio serão mitigadas através das medidas adequadas de remediação para manter a disponibilidade da sua nuvem privada. Em alguns casos, estes passos de remediação incluem desligar uma VM, migrá-la para outro host e depois ligá-la, o que pode interromper brevemente a aplicação a correr na VM
Códigos de alerta e tabela de correção
| Código de Erro | Detalhes do erro | Ação Recomendada |
|---|---|---|
| EPC_CDROM_EMULATEMODE | Este erro surge quando CD-ROM na Máquina Virtual utiliza o modo emulação, cuja imagem ISO não é acessível. | Siga este artigo da Base de Dados de Conhecimento para remover qualquer CDROM montado em Máquinas Virtuais no modo de emulação na carga de trabalho do cliente ou para desanexar um ISO. Recomenda-se a utilização do "Modo Passthrough" para montar qualquer CD-ROM. |
| EPC_DRSOVERRIDERULE | Este erro é encontrado quando há uma máquina virtual com DRS Override definido para o modo "Desativado". | A VM não deve bloquear o vMotion ao colocar o host em manutenção. Defina regras de DRS parcialmente automatizadas para a VM. Consulte este documento para saber mais sobre as políticas de posicionamento de VM. |
| EPC_SCSIDEVICE_MODOCOMPARTILHAMENTO | Este erro ocorre quando uma Máquina Virtual está configurada para usar controlador SCSI com partilha de barramento em modo "virtual". | Siga este artigo da KB para a remoção de qualquer controlador SCSI envolvido em partilha de barramento em modo virtual que esteja ligado a VMs. |
| EPC_ARMAZENAMENTO_DE_DADOS_INACESSÍVEL | Este erro ocorre quando qualquer armazenamento de dados externo ligado ao AVS Private Cloud se torna inacessível. | Siga este artigo para a remoção de qualquer Datastore obsoleto anexado ao cluster |
| EPC_NWADAPTER_STALE | Este erro ocorre quando a interface de rede ligada na Máquina Virtual usa um adaptador de rede, que se torna inacessível. | Siga este artigo da Base de Dados de Conhecimento para a remoção de quaisquer adaptadores N/W obsoletos conectados a máquinas virtuais. |
| Porta serial EPC | Este erro é encontrado quando a porta serial de uma máquina virtual está conectada a um dispositivo que não pode ser acessado no host de destino. | Se você estiver usando um arquivo de imagem (ISO, FLP e assim por diante), verifique se ele está acessível a partir de todos os servidores ESXi no cluster. Armazene os arquivos em um armazenamento de dados compartilhado entre todos os servidores ESXi que participam do vMotion da máquina virtual. Consulte este artigo da Base de Dados de Conhecimento da Broadcom para obter mais informações. |
| DISPOSITIVO_HARDWARE_EPC | Este erro é encontrado quando a porta paralela/dispositivo USB de uma máquina virtual está conectado a um dispositivo que não pode ser acessado no host de destino. | Se você estiver usando um arquivo de imagem (ISO, FLP e assim por diante), verifique se ele está acessível a partir de todos os servidores ESXi do cluster. Armazene os arquivos em um armazenamento de dados compartilhado entre todos os servidores ESXi que participam do vMotion da máquina virtual. Consulte este artigo da Base de Dados de Conhecimento da Broadcom para obter mais informações. |
| EPC_INVALIDVM / EPC_ORPHANVM | Este erro surge quando há uma VM órfã ou inválida presente no inventário. | Certifique-se de que todas as suas máquinas virtuais estejam acessíveis ao vCenter. Consulte este artigo da Base de Dados de Conhecimento para obter mais informações. |
| EPC_VMHOSTDRSRULE | Este erro ocorre quando há uma máquina virtual com uma regra DRS de afinidade/antiafinidade de host. | A VM não deve bloquear o VMware vMotion ao colocar um host no modo de manutenção. Defina "regras obrigatórias" para afinidade VM-Host. Consulte este documento para obter mais informações. |
| EPC_FTT_ZERO | Este erro ocorre quando uma máquina virtual tem "Falhas a Tolerar" como 0 ou "Sem redundância de dados". | Siga este artigo da Base de Dados de Conhecimento para configurar o FTT como 1 ou 2 para a máquina virtual. |
| EPC_FTTVIOLATION | Esse erro é encontrado quando um cluster não tem o número mínimo de hosts de que a política de armazenamento precisa. | Adicione hosts conforme necessário pela política de armazenamento ou altere a política de FTT da VM para dar suporte à colocação do host no modo de manutenção. Consulte este artigo da KB para saber mais sobre a política de FTT. |
| ERECOMMENDATION_CLUSTER_SIZE | Esta recomendação indica que um cluster na cloud privada tem 14 ou mais hosts. O AVS suporta um máximo de 16 hosts num cluster. | Crie um novo cluster para novos hosts que possam ser necessários. |
| ERECOMMENDATION_PRIVATECLOUD_SIZE | Esta recomendação indica que uma nuvem privada tem 90 ou mais hosts. O AVS suporta um máximo de 96 hosts numa nuvem privada. | Considere criar uma nova nuvem privada para quaisquer novos hosts e distribuir os hosts entre as clouds privadas conforme necessário. |
Observação
Os administradores de locatários da Solução VMware do Azure não devem editar ou excluir os alarmes do VMware vCenter Server definidos anteriormente porque eles são gerenciados pelo plano de controle da Solução VMware do Azure no vCenter Server. Esses alarmes são usados pela monitorização do Azure VMware Solution para acionar o processo de remediação do host.
Próximos passos
Agora que você já abordou as práticas recomendadas de manutenção de nuvem privada do Azure VMware Solution, convém saber mais sobre: