Partilhar via


A implantação de um cluster Ray no Serviço de Kubernetes do Azure (AKS): visão geral

Neste artigo, você aprenderá a implantar um cluster Ray no Serviço Kubernetes do Azure (AKS) usando o operador KubeRay. Você também aprende a usar o cluster Ray para treinar um modelo simples de aprendizado de máquina e exibir os resultados no Ray Dashboard.

Importante

O software de código aberto é mencionado em toda a documentação e amostras do AKS. O software que você implanta é excluído dos contratos de nível de serviço do AKS, da garantia limitada e do suporte do Azure. Ao usar a tecnologia de código aberto ao lado do AKS, consulte as opções de suporte disponíveis nas respetivas comunidades e mantenedores do projeto para desenvolver um plano.

A Microsoft assume a responsabilidade pela criação dos pacotes de código aberto que implantamos no AKS. Essa responsabilidade inclui ter a propriedade completa do processo de compilação, digitalização, assinatura, validação e hotfix, juntamente com o controle sobre os binários em imagens de contêiner. Para obter mais informações, consulte Gestão de vulnerabilidades para AKS e cobertura de suporte AKS.

Qual é Ray?

Ray é um projeto de código aberto desenvolvido no RISE Lab da UC Berkeley que fornece uma estrutura unificada para escalar aplicações de IA e Python. Ele consiste em um tempo de execução distribuído central e um conjunto de bibliotecas de IA projetadas para acelerar cargas de trabalho de aprendizado de máquina.

O Ray simplifica o processo de execução de tarefas Python de computação intensiva em escala, permitindo que você dimensione perfeitamente seus aplicativos. A estrutura suporta várias tarefas de aprendizado de máquina, incluindo treinamento distribuído, ajuste de hiperparâmetros, aprendizado de reforço e serviço de modelo de produção.

Para obter mais informações, consulte o repositório Ray GitHub.

Qual é KubeRay?

KubeRay é um operador Kubernetes de código aberto para implantar e gerenciar clusters Ray no Kubernetes. O KubeRay automatiza a implantação, o dimensionamento e o monitoramento de clusters Ray. Ele fornece uma maneira declarativa de definir clusters Ray usando recursos personalizados do Kubernetes, facilitando o gerenciamento de clusters Ray juntamente com outros recursos do Kubernetes.

Para obter mais informações, consulte o repositório KubeRay GitHub.

Processo de implantação do Ray

O processo de implantação consiste nas seguintes etapas:

  1. Use o Terraform para criar um arquivo de plano local para definir o estado desejado para a infraestrutura AKS necessária que consiste em um grupo de recursos do Azure, um pool de nós de sistema dedicado e um pool de nós de carga de trabalho para Ray com três nós.
  2. Implante um plano Terraform local no Azure.
  3. Recupere resultados da implementação do Terraform e obtenha credenciais do Kubernetes para o cluster AKS recentemente implantado.
  4. Instale o repositório Helm Ray e implante o KubeRay no cluster AKS usando o Helm.
  5. Baixe e execute um manifesto YAML do Ray Job do repositório de amostras do Ray GitHub para executar uma classificação de imagem com um conjunto de dados MNIST usando Redes Neurais Convolucionais (CNNs).
  6. Extraia os logs do Ray job para obter informações sobre o processo de aprendizado de máquina executado com o Ray.

Próximo passo

Contribuidores

A Microsoft mantém este artigo. Os seguintes colaboradores escreveram-no originalmente:

  • Russell de Pina - Brasil | Principal TPM
  • Ken Kilty - Brasil | Principal TPM
  • Erin Schaffer | Desenvolvedora de Conteúdo 2
  • Adrian Joian | Principal Engenheiro de Clientes
  • Ryan Graham | Especialista Técnico Principal