Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Diese Seite beschreibt die Databricks-Runtime für Maschinelles Lernen und enthält Anleitungen zum Erstellen einer klassischen Computeressource, die sie verwendet.
Was ist Databricks Runtime für maschinelles Lernen?
Databricks Runtime for Machine Learning (Databricks Runtime ML) automatisiert die Erstellung einer Computeressource mit vordefinierter Machine Learning- und Deep Learning-Infrastruktur, einschließlich der am häufigsten verwendeten ML- und DL-Bibliotheken.
In Databricks Runtime ML enthaltene Bibliotheken
Databricks Runtime ML enthält eine Vielzahl von gängigen ML-Bibliotheken. Bei jedem Release werden die Bibliotheken mit neuen Features und Fixes aktualisiert.
Eine Teilmenge der unterstützten Bibliotheken wurde von Databricks als Bibliotheken der obersten Ebene festgelegt. Für diese Bibliotheken bietet Databricks einen schnelleren Aktualisierungsrhythmus, bei dem mit jeder Runtime-Version auf die aktuellen Paketversionen aktualisiert wird (sofern es keine Abhängigkeitskonflikte gibt). Databricks bietet außerdem erweiterte Unterstützung, Tests und eingebettete Optimierungen für Bibliotheken der obersten Ebene. Bibliotheken der obersten Ebene werden nur mit Hauptversionen hinzugefügt oder entfernt.
- Eine vollständige Liste der Bibliotheken der obersten Ebene und anderer bereitgestellter Bibliotheken finden Sie in den Versionshinweisen für Databricks Runtime ML.
- Informationen dazu, wie oft Bibliotheken aktualisiert werden und wann Bibliotheken veraltet sind, finden Sie unter Databricks Runtime ML-Wartungsrichtlinie.
Sie können zusätzliche Bibliotheken installieren, um eine benutzerdefinierte Umgebung für Ihr Notizbuch oder Ihre Computeressource zu erstellen.
- Um eine Bibliothek für alle Notizbücher verfügbar zu machen, die auf einer Rechenressource ausgeführt werden, erstellen Sie eine computebezogene Bibliothek. Sie können auch ein Init-Skript verwenden, um Bibliotheken während der Berechnungserstellung zu installieren.
- Verwenden Sie notebookspezifische Python-Bibliotheken, um eine Bibliothek zu installieren, die nur für eine bestimmte Notebooksitzung verfügbar ist.
Erstellen einer Computing-Ressource mit Databricks Runtime für maschinelles Lernen
Um eine Computeressource zu erstellen, die Databricks Runtime für ML verwendet, aktivieren Sie das Kontrollkästchen "Maschinelles Lernen " in der Berechnungs-UI. Dadurch wird der Zugriffsmodus automatisch auf "Dediziert " mit Ihrem Konto als dedizierter Benutzer festgelegt. Sie können die Rechenressource einem anderen Benutzer oder einer anderen Gruppe im Abschnitt „Erweitert“ der Benutzeroberfläche zur Erstellung von Rechenressourcen manuell zuweisen.
Wählen Sie für GPU-basierte Compute im Dropdownmenü " Worker type " einen GPU-fähigen Instanztyp aus. Die vollständige Liste der unterstützten GPU-Typen finden Sie unter "Unterstützte Instanztypen".
Photon und Databricks Runtime ML
Wenn Sie eine Rechenressource erstellen, die Databricks Runtime 15.2 ML oder höher ausführt, können Sie Photon aktivieren. Photon verbessert die Leistung von Anwendungen mit Spark SQL, Spark DataFrames, Feature Engineering, GraphFrames und xgboost4j. Es ist nicht zu erwarten, dass die Leistung von Anwendungen mit Spark-RDDs, pandas-UDFs und nicht-JVM-Sprachen wie Python verbessert wird. Daher profitieren Python-Pakete wie XGBoost, PyTorch und TensorFlow nicht von den Verbesserung durch Photon.
Spark RDD-APIs und Spark MLlib haben eingeschränkte Kompatibilität mit Photon. Bei der Verarbeitung großer Datasets mit Spark RDD oder Spark MLlib können Spark-Speicherprobleme auftreten. Siehe Spark-Speicherprobleme.
Berechnungszugriffsmodus für Databricks Runtime ML
Um auf Daten im Unity-Katalog auf einer Computeressource zuzugreifen, die Databricks Runtime ML ausführt, müssen Sie den Zugriffsmodus auf "Dedicated" festlegen. Der Zugriffsmodus wird automatisch in der Berechnungs-UI festgelegt, wenn Sie das Kontrollkästchen "Maschinelles Lernen " aktivieren.
Wenn eine Computeressource über den Modus "Dedizierter Zugriff" verfügt, kann die Ressource einem einzelnen Benutzer oder einer Gruppe zugewiesen werden. Wenn sie einer Gruppe zugewiesen ist, werden die Berechtigungen des Benutzers automatisch auf die Berechtigungen der Gruppe herabgesetzt, sodass der Benutzer die Ressource sicher für andere Mitglieder der Gruppe freigeben kann.
Bei Verwendung des dedizierten Zugriffsmodus sind die folgenden Features nur auf Databricks Runtime 15.4 LTS ML und höher verfügbar: