Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Lakeflow Spark Declarative Pipelines unterstützt externe Abhängigkeiten in Ihren Pipelines. Databricks empfiehlt die Verwendung eines von zwei Mustern zum Installieren von Python-Paketen:
- Verwenden Sie die Umgebungseinstellungen , um der Pipelineumgebung Pakete für alle Quelldateien in einer Pipeline hinzuzufügen.
- Importieren Sie Module oder Bibliotheken aus Quellcode, der in Dateien des Arbeitsbereichs gespeichert ist. Siehe "Importieren von Python-Modulen aus Git-Ordnern oder Arbeitsbereichsdateien".
Pipelines unterstützen auch die Verwendung von globalen und clusterbezogenen Init-Skripts. Diese externen Abhängigkeiten, insbesondere init-Skripts, erhöhen jedoch das Risiko von Problemen mit Runtimeupgrades. Um diese Risiken zu mindern, minimieren Sie die Verwendung von init-Skripts in Ihren Pipelines. Wenn Ihre Verarbeitung init-Skripts erfordert, automatisieren Sie das Testen Ihrer Pipeline, um Probleme frühzeitig zu erkennen. Wenn Sie init-Skripts verwenden, empfiehlt Databricks, ihre Testhäufigkeit zu erhöhen.
Von Bedeutung
Da JVM-Bibliotheken in Pipelines nicht unterstützt werden , verwenden Sie kein init-Skript zum Installieren von JVM-Bibliotheken. Sie können jedoch andere Bibliothekstypen wie Python-Bibliotheken mit einem init-Skript installieren.
Python-Bibliotheken
Um externe Python-Bibliotheken anzugeben, bearbeiten Sie die Umgebung für Ihre Pipeline.
- Klicken Sie im Pipeline-Editor auf "Einstellungen".
- Wählen Sie unter Pipelineumgebung
Bearbeiten sie die Umgebung.
- Klicken Sie auf
Abhängigkeit hinzufügen.
- Geben Sie den Namen der Abhängigkeit ein. Databricks empfiehlt, die Version der Library festzusetzen. Geben Sie z. B. ein, um eine Abhängigkeit von
simplejsonVersion 3.19,simplejson==3.19.*hinzuzufügen.
Sie können auch ein Python-Wheel-Paket aus einem Unity Catalog-Volume installieren, indem Sie dessen Pfad angeben, z. B. /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.
Kann ich Scala- oder Java-Bibliotheken in Pipelines verwenden?
Nein, Pipelines unterstützen nur SQL und Python. Sie können JVM-Bibliotheken nicht in einer Pipeline verwenden. Die Installation von JVM-Libraries führt zu unvorhersehbarem Verhalten und kann in zukünftigen Lakeflow Spark Declarative Pipelines-Versionen zu Komplikationen führen. Wenn Ihre Pipeline ein Init-Skript verwendet, müssen Sie auch sicherstellen, dass JVM-Bibliotheken nicht vom Skript installiert werden.