Treinamento do DDP (Distributed Data Parallel)

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página apresenta exemplos de notebooks para usar o treinamento em Distributed Data Parallel (DDP) na computação de GPU sem servidor. O DDP é a técnica de paralelismo mais comum para treinamento distribuído, em que o modelo completo é replicado em cada GPU e os lotes de dados são divididos entre GPUs.

Quando usar o DDP

Use DDP quando:

Seu modelo se encaixa completamente na memória de uma única GPU
Você deseja dimensionar o treinamento aumentando a taxa de transferência de dados
Você precisa da abordagem de treinamento distribuído mais simples com suporte automático na maioria das estruturas

Para modelos maiores que não se encaixam em memória de GPU única, considere FSDP ou DeepSpeed .

Treinar uma rede neural simples de perceptron de várias camadas (MLP) usando o PyTorch DDP

O notebook a seguir demonstra o treinamento distribuído de uma rede neural MLP (perceptron de várias camadas) simples usando o módulo DDP do PyTorch no Azure Databricks com recursos de GPU sem servidor.

PyTorch DDP

Obter laptop

Treinamento do modelo OpenAI GPT-OSS 20B em 8xH100 usando TRL e DDP

Este bloco de anotações demonstra como usar a API python de GPU sem servidor para executar o ajuste fino supervisionado (SFT) no modelo GPT-OSS 20B do Hugging Face usando a biblioteca TRL (Transformer Reinforcement Learning ). Este exemplo aproveita o DDP em todas as 8 GPUs H100 no nó para dimensionar o tamanho global do lote.

TRL DDP

Obter laptop

Ajuste fino distribuído do Llama 3.2 3B usando Unsloth

Este notebook demonstra como usar a API Python de GPU Serverless para ajustar um modelo Llama 3.2 3B com a biblioteca Unsloth em 8 GPUs A10. O Unsloth fornece otimizações de treinamento eficientes em memória e utiliza DDP nos bastidores através do Hugging Face Accelerate.

Agilizar DDP

Obter laptop

Ajuste fino distribuído Olmo3 7B usando Axolotl

Este notebook demonstra como usar a API Python de GPU sem servidor para ajustar um modelo Olmo3 7B com biblioteca Axolotl em 16 GPUs H100. O Axolotl foi projetado para simplificar o pós-treinamento e o ajuste fino para as LLMs mais recentes.

Axolotl DDP

Obter laptop

Ajuste fino distribuído do Llama 3.2 8B usando o Mosaic LLM Foundry

Este notebook demonstra como usar a API Python de GPU sem servidor para ajustar finamente um modelo Llama 3.2 8B com a biblioteca Mosaic LLM Foundry utilizando 16 GPUs A10. A Mosaic LLM Foundry fornece APIs fáceis de usar, eficientes e flexíveis para treinar modelos de linguagem grandes.

Notebook

Obter laptop

Treinamento distribuído usando o Ray Train (pesquisa visual computacional)

Este notebook demonstra o treinamento distribuído de um modelo ResNet do PyTorch no conjunto de dados FashionMNIST usando Ray Train e Ray Data em clusters de GPU sem servidor do Databricks. O Ray Train oferece uma orquestração de treinamento distribuído de nível avançado e utiliza o DDP como estratégia de paralelismo subjacente. Este exemplo aborda a configuração do armazenamento do Unity Catalog, a configuração do Ray para treinamento de GPU multinodal, registro de logs e de modelos com o MLflow e avaliação do desempenho do modelo.

Ray DDP

Obter laptop

Treinar um sistema de recomendação de duas torres usando o PyTorch Lightning

Este notebook demonstra como treinar um modelo de recomendação de duas torres usando o PyTorch Lightning na computação de GPU sem servidor. O PyTorch Lightning fornece uma interface de alto nível que lida automaticamente com a configuração de DDP para treinamento com várias GPUs. O exemplo inclui a preparação de dados usando o formato MDS (Mosaic Streaming) e o treinamento distribuído entre GPUs A10 ou H100.

Consulte a página de exemplos de recomendação de aprendizado profundo para os blocos de anotações completos, incluindo:

Preparação de dados e conversão de formato MDS
Treinamento de recomendação de duas torres com PyTorch Lightning

Comentários

Esta página foi útil?

Last updated on 2025-12-20

Compartilhar via

Treinamento do DDP (Distributed Data Parallel)

Quando usar o DDP

Treinar uma rede neural simples de perceptron de várias camadas (MLP) usando o PyTorch DDP

PyTorch DDP

Treinamento do modelo OpenAI GPT-OSS 20B em 8xH100 usando TRL e DDP

TRL DDP

Ajuste fino distribuído do Llama 3.2 3B usando Unsloth

Agilizar DDP

Ajuste fino distribuído Olmo3 7B usando Axolotl

Axolotl DDP

Ajuste fino distribuído do Llama 3.2 8B usando o Mosaic LLM Foundry

Notebook

Treinamento distribuído usando o Ray Train (pesquisa visual computacional)

Ray DDP

Treinar um sistema de recomendação de duas torres usando o PyTorch Lightning

Comentários

Recursos adicionais