Usando GPUs sem servidor em Aplicativos de Contêiner do Azure

Os Aplicativos de Contêiner do Azure fornecem acesso a GPUs sob demanda sem que você precise gerenciar a infraestrutura subjacente. Como um recurso sem servidor, você paga apenas por GPUs em uso. Quando habilitado, o número de GPUs usadas para seu aplicativo aumenta e diminui para atender às demandas de carga do seu aplicativo. As GPUs sem servidor permitem que você execute perfeitamente suas cargas de trabalho com dimensionamento automático, inicialização a frio otimizado, cobrança por segundo com redução vertical para zero quando não estiver em uso e sobrecarga operacional reduzida.

GPUs sem servidor têm suporte apenas para perfis de carga de trabalho de Consumo. Não há suporte para o recurso para ambientes somente consumo.

Observação

Você deve solicitar cotas de GPU para acessar GPUs. Envie sua solicitação de cota de GPU por meio de um caso de suporte ao cliente.

Benefícios

GPUs sem servidor aceleram o desenvolvimento de IA, permitindo que você se concentre no código principal de IA e menos no gerenciamento de infraestrutura ao usar GPUs. Esse recurso fornece uma opção de camada intermediária entre as APIs sem servidor do catálogo de modelos de IA do Azure e modelos de hospedagem na computação gerenciada.

O suporte à GPU sem servidor dos Aplicativos de Contêiner fornece governança de dados completa, pois seus dados nunca saem dos limites do contêiner enquanto ainda fornecem uma plataforma gerenciada e sem servidor da qual compilar seus aplicativos.

Quando você usa GPUs sem servidor em Aplicativos de Contêiner, seus aplicativos obtêm:

GPUs de dimensionamento para zero: suporte para escala automática sem servidor de GPUs NVIDIA A100 e NVIDIA T4.
Cobrança por segundo: pague apenas pela computação de GPU usada.
Governança de dados integrada: seus dados nunca saem do limite do contêiner.
Opções de computação flexíveis: você pode escolher entre os tipos de GPU NVIDIA A100 ou T4.
Camada intermediária para desenvolvimento de IA: traga seu próprio modelo em uma plataforma de computação gerenciada e sem servidor.

Cenários comuns

Os cenários a seguir descrevem casos de uso comuns para GPUs sem servidor.

Inferência em tempo real e em lote: use modelos de software livre personalizados com tempos de inicialização rápidos, dimensionamento automático e um modelo de cobrança por segundo. GPUs sem servidor são ideais para aplicativos dinâmicos. Você paga apenas pela computação que usa e seus aplicativos são expandidos e reduzidos horizontalmente automaticamente para atender à demanda.
Cenários de aprendizado de máquina: acelere significativamente os aplicativos que implementam modelos de IA generativa personalizados ajustados, aprendizado profundo, redes neurais ou análise de dados em grande escala.
Computação de Alto Desempenho (HPC): use GPUs como recursos para altas demandas computacionais em aplicações que exigem cálculos e simulações complexas, como computação científica, modelagem financeira ou previsão do tempo.
Renderização e visualização: use GPUs para acelerar o processo de renderização e habilitar a visualização em tempo real em aplicativos que envolvem renderização 3D, processamento de imagem ou transcodificação de vídeo.
Análise de Big Data: as GPUs podem acelerar o processamento e a análise de dados entre conjuntos de dados maciços.

Considerações

Tenha os seguintes itens em mente ao usar GPUs sem servidor:

Versão cuda: GPUs sem servidor dão suporte à versão mais recente do CUDA.
Limitações de suporte:
- Somente um contêiner em um aplicativo pode usar a GPU por vez. Caso tenha vários contêineres em um aplicativo, o primeiro contêiner obterá acesso à GPU.
- Vários aplicativos podem compartilhar o mesmo perfil de carga de trabalho de GPU, mas cada um requer sua própria réplica.
- Não há suporte para réplicas de GPU multi e fracionárias.
- O primeiro contêiner em seu aplicativo obtém acesso à GPU.
Endereços IP: as GPUs de consumo usam um endereço IP por réplica quando você configura a integração com sua própria rede virtual.

Regiões com suporte

GPUs sem servidor estão disponíveis nas seguintes regiões:

Região	A100	T4
Leste da Austrália	Sim	Sim
Sul do Brasil	Sim	Sim
Índia Central	Não	Sim
Leste dos EUA	Sim	Sim
França Central	Não	Sim
Norte da Itália	Sim	Sim
Leste do Japão	Não	Sim
Centro-Norte dos EUA	Não	Sim
Centro-Sul dos EUA	Não	Sim
Sudeste Asiático	Não	Sim
Sul da Índia	Não	Sim
Suécia Central	Sim	Sim
Europa Ocidental¹	Não	Sim
Oeste dos EUA	Sim	Sim
Oeste dos EUA 2	Não	Sim
Oeste dos EUA 3	Sim	Sim

¹ Para adicionar um perfil de carga de trabalho de GPU sem servidor T4 na Europa Ocidental, você deve criar um novo ambiente de perfil de carga de trabalho na região.

Usar GPUs sem servidor

Ao criar um aplicativo de contêiner por meio do portal do Azure, você pode configurar seu contêiner para usar recursos de GPU.

Na guia Contêiner do processo de criação, defina as seguintes configurações:

Na seção Alocação de recursos de contêiner , selecione a caixa de seleção gpu .
Para o Tipo de GPU, selecione a opção NVIDIA A100 ou NVIDIA T4.

Gerenciar o perfil de carga de trabalho de GPU sem servidor

GPUs sem servidor são executadas em perfis de carga de trabalho de GPU de consumo. Você gerencia um perfil de carga de trabalho de GPU de consumo da mesma maneira que qualquer outro perfil de carga de trabalho. Você pode gerenciar seu perfil de carga de trabalho usando a CLI ou o portal do Azure.

Solicitar cota de GPU sem servidor

Observação

Os clientes com contratos empresariais e clientes de pagamento conforme o uso têm a cota A100 e T4 habilitadas por padrão.

Você precisa de uma cota de GPU sem servidor para acessar esse recurso. Envie sua solicitação de cota de GPU por meio de um caso de suporte ao cliente. Ao abrir um caso de suporte para uma solicitação de cota de GPU, selecione as seguintes opções:

Abra o novo formulário de solicitação de suporte no portal do Azure.
Insira os seguintes valores no formulário:

Propriedade Value

Tipo de problema Selecionar limites de serviço e assinatura (cotas)

Subscription Selecione sua assinatura.

Tipo de cota Selecione Aplicativos de Contêiner.
Selecione Próximo.
Na janela Detalhes adicionais , selecione Inserir detalhes para abrir a janela de detalhes da solicitação.
Em Tipo de cota, selecione GPUs NCA100 de Consumo de Ambiente Gerenciado ou GPUs T4 de Consumo de Ambiente Gerenciado. Insira seus outros valores.
Selecione Salvar e continuar.
Preencha o restante dos detalhes relevantes na janela Detalhes adicionais .
Selecione Próximo.
Selecione Criar.

Propriedade	Value
Tipo de problema	Selecionar limites de serviço e assinatura (cotas)
Subscription	Selecione sua assinatura.
Tipo de cota	Selecione Aplicativos de Contêiner.

Melhorar a inicialização a frio da GPU

Você pode melhorar significativamente os tempos de inicialização a frio habilitando o streaming de artefatos e localizando arquivos grandes, como grandes modelos de linguagem, em uma montagem de armazenamento.

Streaming de artefatos: o Registro de Contêiner do Azure oferece streaming de imagens, o que pode acelerar significativamente os tempos de inicialização da imagem. Para usar o streaming de artefatos, você deve hospedar suas imagens de contêiner em um Registro de Contêiner do Azure premium.
Montagens de armazenamento: reduza os efeitos da latência de rede armazenando arquivos grandes em uma conta de armazenamento do Azure associada ao seu aplicativo de contêiner.

Implantar modelos do Foundry em GPUs sem servidor (versão prévia)

As GPUs sem servidor dos Aplicativos de Contêiner do Azure agora dão suporte a modelos do Azure AI Foundry em versão prévia pública. Os Modelos do Azure AI Foundry têm duas opções de implantação.

APIs sem servidor que fornecem cobrança paga conforme o uso para alguns dos modelos mais populares.
Computação gerenciada que permite implantar a seleção completa de modelos do Foundry com preços de pagamento por GPU.

A GPU sem servidor dos Aplicativos de Contêiner do Azure oferece uma opção de implantação equilibrada entre APIs sem servidor e computação gerenciada para implantar modelos do Foundry. Essa opção é sob demanda com escala sem servidor que é escalada para zero quando não está em uso e atende às suas necessidades de residência de dados. Com as GPUs sem servidor, o uso de modelos da Fábrica oferece flexibilidade para executar qualquer modelo com suporte com escala automática, preços de pagamento por segundo, governança de dados completa, suporte de segurança e rede corporativa pronta para uso.

Há suporte para modelos de linguagem do tipo MLFLOW . Para ver uma lista de modelos MLFLOW, acesse a lista de modelos disponíveis no registro do azureml. Para localizar os modelos, adicione um filtro para MLFLOW modelos usando as seguintes etapas:

Selecione Filtrar.
Selecione Adicionar Filtro.
Para a regra de filtro, insira Type = MLFLOW.

Para modelos listados aqui no repositório de Aplicativos de Contêiner do Azure, você pode implantá-los diretamente em GPUs sem servidor sem precisar criar sua própria imagem usando o seguinte comando da CLI:

az containerapp up \
  --name <CONTAINER_APP_NAME> \
  --location <LOCATION> \
  --resource-group <RESOURCE_GROUP_NAME> \
  --model-registry <MODEL_REGISTRY_NAME> \
  --model-name <MODEL_NAME> \
  --model-version <MODEL_VERSION>

Para qualquer modelo que não esteja nesta lista, você precisa:

Baixe o modelo do GitHub para a imagem de modelo do repositório de Aplicativos de Contêiner do Azure.
Modifique o arquivo score.py para corresponder ao tipo de modelo. O script de pontuação (nomeado score.py) define como você interage com o modelo. O exemplo a seguir mostra como usar um arquivo de score.py personalizado.
Crie a imagem e implante-a em um registro de contêiner.
Use o comando anterior da CLI para implantar o modelo em GPUs sem servidor, mas especifique o --image. Quando você usa os parâmetros --model-registry, --model-name e --model-version, as principais variáveis de ambiente são configuradas para que você consiga otimizar o cold start do seu aplicativo.

Enviar comentários

Envie problemas para o repositório GitHub dos Aplicativos de Contêiner do Azure.

Próximas etapas

Gerar imagens usando GPUs sem servidor

Comentários

Esta página foi útil?

Last updated on 2025-11-19