Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Esta página apresenta exemplos de notebooks para usar o treinamento em Distributed Data Parallel (DDP) na computação de GPU sem servidor. O DDP é a técnica de paralelismo mais comum para treinamento distribuído, em que o modelo completo é replicado em cada GPU e os lotes de dados são divididos entre GPUs.
Quando usar o DDP
Use DDP quando:
- Seu modelo se encaixa completamente na memória de uma única GPU
- Você deseja dimensionar o treinamento aumentando a taxa de transferência de dados
- Você precisa da abordagem de treinamento distribuído mais simples com suporte automático na maioria das estruturas
Para modelos maiores que não se encaixam em memória de GPU única, considere FSDP ou DeepSpeed .
Treinar uma rede neural simples de perceptron de várias camadas (MLP) usando o PyTorch DDP
O notebook a seguir demonstra o treinamento distribuído de uma rede neural MLP (perceptron de várias camadas) simples usando o módulo DDP do PyTorch no Azure Databricks com recursos de GPU sem servidor.
PyTorch DDP
Treinamento do modelo OpenAI GPT-OSS 20B em 8xH100 usando TRL e DDP
Este bloco de anotações demonstra como usar a API python de GPU sem servidor para executar o ajuste fino supervisionado (SFT) no modelo GPT-OSS 20B do Hugging Face usando a biblioteca TRL (Transformer Reinforcement Learning ). Este exemplo aproveita o DDP em todas as 8 GPUs H100 no nó para dimensionar o tamanho global do lote.
TRL DDP
Ajuste fino distribuído do Llama 3.2 3B usando Unsloth
Este notebook demonstra como usar a API Python de GPU Serverless para ajustar um modelo Llama 3.2 3B com a biblioteca Unsloth em 8 GPUs A10. O Unsloth fornece otimizações de treinamento eficientes em memória e utiliza DDP nos bastidores através do Hugging Face Accelerate.
Agilizar DDP
Ajuste fino distribuído Olmo3 7B usando Axolotl
Este notebook demonstra como usar a API Python de GPU sem servidor para ajustar um modelo Olmo3 7B com biblioteca Axolotl em 16 GPUs H100. O Axolotl foi projetado para simplificar o pós-treinamento e o ajuste fino para as LLMs mais recentes.
Axolotl DDP
Ajuste fino distribuído do Llama 3.2 8B usando o Mosaic LLM Foundry
Este notebook demonstra como usar a API Python de GPU sem servidor para ajustar finamente um modelo Llama 3.2 8B com a biblioteca Mosaic LLM Foundry utilizando 16 GPUs A10. A Mosaic LLM Foundry fornece APIs fáceis de usar, eficientes e flexíveis para treinar modelos de linguagem grandes.
Notebook
Treinamento distribuído usando o Ray Train (pesquisa visual computacional)
Este notebook demonstra o treinamento distribuído de um modelo ResNet do PyTorch no conjunto de dados FashionMNIST usando Ray Train e Ray Data em clusters de GPU sem servidor do Databricks. O Ray Train oferece uma orquestração de treinamento distribuído de nível avançado e utiliza o DDP como estratégia de paralelismo subjacente. Este exemplo aborda a configuração do armazenamento do Unity Catalog, a configuração do Ray para treinamento de GPU multinodal, registro de logs e de modelos com o MLflow e avaliação do desempenho do modelo.
Ray DDP
Treinar um sistema de recomendação de duas torres usando o PyTorch Lightning
Este notebook demonstra como treinar um modelo de recomendação de duas torres usando o PyTorch Lightning na computação de GPU sem servidor. O PyTorch Lightning fornece uma interface de alto nível que lida automaticamente com a configuração de DDP para treinamento com várias GPUs. O exemplo inclui a preparação de dados usando o formato MDS (Mosaic Streaming) e o treinamento distribuído entre GPUs A10 ou H100.
Consulte a página de exemplos de recomendação de aprendizado profundo para os blocos de anotações completos, incluindo:
- Preparação de dados e conversão de formato MDS
- Treinamento de recomendação de duas torres com PyTorch Lightning