Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Cette fonctionnalité est en version bêta. Les administrateurs d’espace de travail peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus . Consultez Gérer les préversions d’Azure Databricks.
Cette page contient des exemples de notebooks pour l'entraînement distribué multi-nœuds et multi-GPU en utilisant le calcul GPU sans serveur. Ces exemples montrent comment mettre à l’échelle l’entraînement sur plusieurs GPU et nœuds pour améliorer les performances.
Choisir votre technique de parallélisme
Lors de la mise à l’échelle de votre entraînement de modèle sur plusieurs GPU, le choix de la bonne technique de parallélisme dépend de la taille de votre modèle, de la mémoire GPU disponible et des exigences de performances.
| Technique | Quand utiliser |
|---|---|
| DDP (Distributed Data Parallel) | Le modèle complet s’adapte à une seule mémoire GPU ; besoin de mettre à l’échelle le débit des données |
| FSDP (Parallelisation de données entièrement fragmentées) | Très grands modèles qui ne peuvent pas tenir dans la mémoire d'un seul GPU |
| DeepSpeed ZeRO | Modèles volumineux avec des besoins avancés d’optimisation de la mémoire |
Pour plus d’informations sur chaque technique, consultez DDP, FSDP et DeepSpeed.
Exemples de notebooks par technique et infrastructure
Le tableau suivant organise les exemples de notebooks par l’infrastructure/bibliothèque que vous utilisez et la technique de parallélisme appliquée. Plusieurs blocs-notes peuvent apparaître dans une seule cellule.
| Framework/Bibliothèque | Exemples DDP | Exemples FSDP | Exemples DeepSpeed |
|---|---|---|---|
| PyTorch (natif) |
Réseau neuronal MLP simple Détection d’image RetinaNet |
Transformateur de paramètre 10M | — |
| Liste de révocation de certificats de huggingface | Ajuster le gpt OSS 20B | Ajuster le gpt OSS 120B | Ajuster Llama 3.2 1B |
| Déloyez | Ajuster Llama 3.2 3B | — | — |
| Axolotl | Optimiser le réglage d'Olmo3 7B | — | — |
| Mosaïque LLM Fonderie | Ajuster Llama 3.2 8B | — | — |
| Ray Train |
ResNet18 sur FashionMNIST (vision par ordinateur) Réglage des hyperparamètres XGBoost |
— | — |
| Éclair | Système de recommandation à deux tours | — | — |
Get started
Le notebook suivant présente un exemple de base de l’utilisation de l’API Python GPU serverless pour lancer plusieurs GPU A10 pour l’entraînement distribué.