Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette page décrit le Runtime Databricks pour Machine Learning et fournit des conseils sur la création d’une ressource de calcul classique qui l’utilise.
Qu’est-ce que Databricks Runtime pour Machine Learning ?
Databricks Runtime pour Machine Learning (Databricks Runtime ML) automatise la création d'une ressource de calcul avec les infrastructures de machine learning et de deep learning prédéfinies, incluant les bibliothèques ML et DL les plus courantes.
Bibliothèques incluses dans Databricks Runtime ML
Databricks Runtime ML comprend une variété de bibliothèques ML populaires. Les bibliothèques sont mises à jour avec chaque version pour inclure de nouvelles fonctionnalités et des correctifs.
Databricks a désigné un sous-ensemble des bibliothèques prises en charge en tant que bibliothèques de niveau supérieur. Pour ces bibliothèques, Databricks offre une cadence de mise à jour plus rapide, en mettant à jour les versions les plus récentes des packages avec chaque version du runtime (conflits de dépendances). Databricks fournit également une prise en charge avancée, des tests et des optimisations incorporées pour les bibliothèques de niveau supérieur. Les bibliothèques de niveau supérieur sont ajoutées ou supprimées uniquement avec les versions majeures.
- Pour obtenir la liste complète des bibliothèques de niveau supérieur et des autres bibliothèques fournies, consultez les notes de publication de Databricks Runtime ML.
- Pour plus d’informations sur la fréquence à laquelle les bibliothèques sont mises à jour et quand les bibliothèques sont déconseillées, consultez la stratégie de maintenance Databricks Runtime ML.
Vous pouvez installer des bibliothèques supplémentaires pour créer un environnement personnalisé pour votre bloc-notes ou votre ressource de calcul.
- Pour rendre une bibliothèque disponible pour tous les notebooks s’exécutant sur une ressource de calcul, créez une bibliothèque spécifique au calcul. Vous pouvez également utiliser un script init pour installer des bibliothèques lors de la création du calcul.
- Pour installer une bibliothèque disponible uniquement pour une session de notebook spécifique, utilisez des bibliothèques Python avec étendue de notebook.
Créer une ressource de calcul avec Databricks Runtime pour ML
Pour créer une ressource de calcul qui utilise Databricks Runtime pour ML, cochez la case Machine Learning dans l’interface utilisateur de création de calcul. Cela définit automatiquement le mode d’accès dédié avec votre compte en tant qu’utilisateur dédié. Vous pouvez affecter manuellement la ressource de calcul à un autre utilisateur ou groupe dans la section Avancé de l’interface utilisateur de création de calcul.
Pour le calcul basé sur GPU, sélectionnez un type d’instance compatible GPU dans le menu déroulant Type Worker . Pour obtenir la liste complète des types de GPU pris en charge, consultez Types d’instances pris en charge.
Photon et Databricks Runtime ML
Lorsque vous créez une ressource de calcul qui exécute Databricks Runtime 15.2 ML ou version ultérieure, vous pouvez choisir d’activer Photon. Photon améliore les performances des applications à l’aide de Spark SQL, de Spark DataFrames, d’ingénierie de caractéristiques, de GraphFrames et de xgboost4j. Il n’est pas prévu pour améliorer les performances sur les applications utilisant des RDD Spark, des fonctions définies par l’utilisateur Pandas et des langages non JVM tels que Python. Ainsi, les packages Python tels que XGBoost, PyTorch et TensorFlow ne voient pas d’amélioration avec Photon.
Les API Spark RDD et Spark MLlib ont une compatibilité limitée avec Photon. Lors du traitement de grands jeux de données en utilisant Spark RDD ou Spark MLlib, vous pouvez rencontrer des problèmes de mémoire Spark. Consultez Problèmes de mémoire Spark.
Mode d’accès au calcul pour Databricks Runtime ML
Pour accéder aux données du catalogue Unity sur une ressource de calcul exécutant Databricks Runtime ML, vous devez définir le mode d’accès sur Dedicated. Le mode d’accès est automatiquement défini dans l’interface utilisateur de création de calcul lorsque vous cochez la case Machine Learning .
Lorsqu’une ressource de calcul dispose d’un mode d’accès dédié , la ressource peut être affectée à un seul utilisateur ou à un groupe. Lorsqu’il est affecté à un groupe, les permissions de l’utilisateur sont automatiquement réduites aux permissions du groupe, ce qui permet à l’utilisateur de partager en toute sécurité la ressource avec d’autres membres du groupe.
Lorsque vous utilisez le mode d’accès dédié, les fonctionnalités suivantes sont disponibles uniquement sur Databricks Runtime 15.4 LTS ML et versions ultérieures :