Partilhar via


Treinamento distribuído com várias GPUs e vários nós

Importante

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página tem exemplos de blocos de anotações para treinamento distribuído com vários nós e várias GPUs usando computação de GPU sem servidor. Estes exemplos demonstram como dimensionar o treinamento em várias GPUs e nós para melhorar o desempenho.

Escolha a sua técnica de paralelismo

Ao escalar o treino do seu modelo para múltiplas GPUs, escolher a técnica de paralelismo certa depende do tamanho do modelo, da memória disponível da GPU e dos requisitos de desempenho.

Técnica Quando utilizar
DDP (Dados Distribuídos Paralelos) O modelo completo cabe na memória de uma única GPU, necessitando escalar a largura de banda de dados.
FSDP (Dados Totalmente Fragmentados em Paralelo) Modelos muito grandes que não cabem numa única memória GPU
DeepSpeed ZeRO Modelos grandes com necessidades avançadas de otimização de memória

Para informações detalhadas sobre cada técnica, veja DDP, FSDP e DeepSpeed.

Exemplos de cadernos por técnica e estrutura

A tabela seguinte organiza cadernos de exemplo pelo framework/biblioteca que está a usar e pela técnica de paralelismo aplicada. Podem aparecer vários cadernos numa única célula.

Framework/Biblioteca Exemplos DDP Exemplos de FSDP Exemplos de DeepSpeed
PyTorch (nativo) Rede neural MLP simples
Deteção de imagem RetinaNet
Transformador de parâmetros de 10M
Huggingface TRL Ajuste fino do Gpt OSS 20B Ajuste fino Gpt OSS 120B Ajuste fino do Llama 3.2 1B
Preguiça Ajuste fino do Llama 3.2 3B
Axolote Ajustar finamente Olmo3 7B
Mosaic LLM Foundry Afinação fina do Llama 3.2 8B
Ray Train ResNet18 no FashionMNIST (visão por computador)
Relâmpago Sistema de recomendação de duas torres

Introdução

O bloco de anotações a seguir tem um exemplo básico de como usar a API Python da GPU sem servidor para iniciar várias GPUs A10 para treinamento distribuído.

API serverless de GPU: A10 inicial

Obter caderno