Treinamento distribuído com várias GPUs e vários nós

Importante

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página tem exemplos de blocos de anotações para treinamento distribuído com vários nós e várias GPUs usando computação de GPU sem servidor. Estes exemplos demonstram como dimensionar o treinamento em várias GPUs e nós para melhorar o desempenho.

Escolha a sua técnica de paralelismo

Ao escalar o treino do seu modelo para múltiplas GPUs, escolher a técnica de paralelismo certa depende do tamanho do modelo, da memória disponível da GPU e dos requisitos de desempenho.

Técnica	Quando utilizar
DDP (Dados Distribuídos Paralelos)	O modelo completo cabe na memória de uma única GPU, necessitando escalar a largura de banda de dados.
FSDP (Dados Totalmente Fragmentados em Paralelo)	Modelos muito grandes que não cabem numa única memória GPU
DeepSpeed ZeRO	Modelos grandes com necessidades avançadas de otimização de memória

Para informações detalhadas sobre cada técnica, veja DDP, FSDP e DeepSpeed.

Exemplos de cadernos por técnica e estrutura

A tabela seguinte organiza cadernos de exemplo pelo framework/biblioteca que está a usar e pela técnica de paralelismo aplicada. Podem aparecer vários cadernos numa única célula.

Framework/Biblioteca	Exemplos DDP	Exemplos de FSDP	Exemplos de DeepSpeed
PyTorch (nativo)	Rede neural MLP simples Deteção de imagem RetinaNet	Transformador de parâmetros de 10M	—
Huggingface TRL	Ajuste fino do Gpt OSS 20B	Ajuste fino Gpt OSS 120B	Ajuste fino do Llama 3.2 1B
Preguiça	Ajuste fino do Llama 3.2 3B	—	—
Axolote	Ajustar finamente Olmo3 7B	—	—
Mosaic LLM Foundry	Afinação fina do Llama 3.2 8B	—	—
Ray Train	ResNet18 no FashionMNIST (visão por computador)	—	—
Relâmpago	Sistema de recomendação de duas torres	—	—

Introdução

O bloco de anotações a seguir tem um exemplo básico de como usar a API Python da GPU sem servidor para iniciar várias GPUs A10 para treinamento distribuído.

API serverless de GPU: A10 inicial

Obter caderno

Feedback

Esta página foi útil?

Last updated on 2025-12-20