Erstellen einer quellgesteuerten Pipeline

Von Bedeutung

Der Lakeflow Pipelines Editor befindet sich in der öffentlichen Vorschau.

In Azure Databricks können Sie eine Pipeline und den gesamten dazugehörigen Code versionskontrollieren. Durch die Quellcodeverwaltung aller Dateien, die Ihrer Pipeline zugeordnet sind, werden Änderungen an Ihrem Transformationscode, dem Explorationscode und der Pipelinekonfiguration alle in Git versioniert und können in der Entwicklung getestet und sicher in der Produktion bereitgestellt werden.

Eine quellgesteuerte Pipeline bietet die folgenden Vorteile:

Rückverfolgbarkeit: Erfassen Sie jede Änderung im Git-Verlauf.
Tests: Überprüfen sie Pipelineänderungen in einem Entwicklungsarbeitsbereich, bevor Sie zu einem freigegebenen Produktionsarbeitsbereich wechseln. Jeder Entwickler verfügt über eine eigene Entwicklungspipeline auf einer eigenen Code-Verzweigung in einem Git-Ordner und in einem eigenen Schema.
Zusammenarbeit: Wenn die individuelle Entwicklung und tests abgeschlossen sind, werden Codeänderungen an die Hauptproduktionspipeline weitergeleitet.
Governance: Richten Sie sich an unternehmenseigene CI/CD- und Bereitstellungsstandards aus.

Azure Databricks ermöglicht es, Pipelines und deren Quelldateien mit Hilfe von Databricks Asset Bundles gemeinsam versionsverwaltet zu werden. Bei Paketen wird die Pipelinekonfiguration in Form von YAML-Konfigurationsdateien zusammen mit den Python- oder SQL-Quelldateien einer Pipeline versionskontrolliert. Ein Bündel kann eine oder mehrere Pipelines sowie andere Ressourcentypen aufweisen, z. B. Aufträge.

Diese Seite zeigt, wie Sie eine quellgesteuerte Pipeline mithilfe von Databricks Asset Bundles einrichten. Weitere Informationen zu Bundles finden Sie unter Was sind Databricks Asset Bundles?.

Anforderungen

Um eine quellgesteuerte Pipeline zu erstellen, müssen Sie bereits Folgendes haben:

Ein Git-Ordner, der in Ihrem Arbeitsbereich erstellt und konfiguriert wurde. Mit einem Git-Ordner können einzelne Benutzer Änderungen erstellen und testen, bevor sie zu einem Git-Repository verpflichtet werden. Siehe Azure Databricks Git-Ordner.
Der Lakeflow Pipelines-Editor ist aktiviert. Die in diesem Lernprogramm beschriebene Benutzeroberfläche ist nur in dieser Editorumgebung verfügbar. Siehe Entwickeln und Debuggen von ETL-Pipelines mit dem Lakeflow Pipelines-Editor.

Erstellen Sie eine neue Pipeline in einem Bundle

Hinweis

Databricks empfiehlt, eine Pipeline zu erstellen, die von Beginn an mit Quellcodeverwaltung arbeitet. Alternativ können Sie eine vorhandene Pipeline zu einem Bundle hinzufügen, das bereits quellgesteuert ist. Siehe Migrieren vorhandener Ressourcen zu einem Bündel.

So erstellen Sie eine neue quellekontrollierte Pipeline:

Wechseln Sie im Arbeitsbereich zu Neu>ETL-Pipeline.
Wählen Sie Als quellcodegesteuertes Projekt einrichten:
Klicken Sie auf "Neues Projekt erstellen", und wählen Sie dann einen Git-Ordner aus, in dem Sie Ihren Code und Ihre Konfiguration ablegen möchten:
Klicke auf Weiter.
Geben Sie Folgendes im Dialogfeld " Asset Bundle erstellen " ein:
- Paketname: Der Name des Bündels.
- Anfänglicher Katalog: Der Name des Katalogs, der das zu verwendende Schema enthält.
- Verwenden Sie ein persönliches Schema: Lassen Sie dieses Kontrollkästchen aktiviert, wenn Sie Bearbeitungen in ein persönliches Schema isolieren möchten. Wenn Benutzer in Ihrer Organisation an demselben Projekt zusammenarbeiten, überschreiben Sie die Änderungen in Dev nicht gegenseitig.
- Initial language: Die anfängliche Sprache für die Beispieldateien der Projektpipeline, entweder Python oder SQL.
Klicken Sie auf "Erstellen" und "Bereitstellen". Ein Bündel mit einer Pipeline wird im Git-Ordner erstellt.

Erkunden Sie das Pipelinepaket

Erkunden Sie als Nächstes das Pipeline-Bundle, das erstellt wurde.

Das Bundle, das sich im Git-Ordner befindet, enthält Bündelsystemdateien und die databricks.yml Datei, die Variablen, Zielarbeitsbereich-URLs und Berechtigungen sowie andere Einstellungen für das Bundle definiert. Der resources Ordner eines Bündels ist der Ort, an dem Definitionen für Ressourcen wie Pipelines enthalten sind.

Bündeln in einem Git-Ordner

Öffnen Sie den resources Ordner, und klicken Sie dann auf die Schaltfläche des Pipeline-Editors, um die quellcodegesteuerte Pipeline anzuzeigen:

Pipeline-Editor öffnen

Bündel mit Pipeline-Baum

Das Beispielpipelinebundle enthält die folgenden Dateien:

Ein Beispiel für ein Erkundungsnotizbuch
Zwei Beispielcodedateien, die Transformationen in Tabellen ausführen
Beispielcodedatei, die eine Hilfsfunktion enthält
Eine YAML-Auftragskonfigurationsdatei, die den Auftrag im Bundle definiert, in dem die Pipeline ausgeführt wird.
Eine YaML-Pipelinekonfigurationsdatei, die die Pipeline definiert

Von Bedeutung

Sie müssen diese Datei bearbeiten, um alle Konfigurationsänderungen an der Pipeline dauerhaft beizubehalten, einschließlich änderungen, die über die Benutzeroberfläche vorgenommen wurden, andernfalls werden UI-Änderungen überschrieben, wenn das Bündel erneut bereitgestellt wird. Wenn Sie beispielsweise einen anderen Standardkatalog für die Pipeline festlegen möchten, bearbeiten Sie das catalog Feld in dieser Konfigurationsdatei.
Eine README-Datei mit zusätzlichen Details zum Beispielpipelinebundle und Anweisungen zum Ausführen der Pipeline

Informationen zu Pipelinedateien finden Sie im Browser für Pipeline-Ressourcen.

Weitere Informationen zum Erstellen und Bereitstellen von Änderungen am Pipelinebundle finden Sie unter Autorbundle im Arbeitsbereich und Bereitstellen von Bündeln und Ausführen von Workflows aus dem Arbeitsbereich.

Führen Sie die Pipeline aus.

Sie können entweder einzelne Transformationen oder die gesamte quellgesteuerte Pipeline ausführen:

Um eine einzelne Transformation in der Pipeline auszuführen und in der Vorschau anzusehen, wählen Sie die Transformationsdatei im Arbeitsbereich-Browser-Baum aus, um sie im Datei-Editor zu öffnen. Klicken Sie oben im Editor auf die Schaltfläche "Datei ausführen".
Um alle Transformationen in der Pipeline auszuführen, klicken Sie oben rechts im Databricks-Arbeitsbereich auf die Schaltfläche "Pipeline ausführen ".

Weitere Informationen zum Ausführen von Pipelines finden Sie unter Pipelinecode ausführen.

Aktualisieren der Pipeline

Sie können Artefakte in Ihrer Pipeline aktualisieren oder zusätzliche Explorationen und Transformationen hinzufügen, aber dann möchten Sie diese Änderungen an GitHub übertragen. Klicken Sie auf das Verzweigungssymbol. Git-Symbol, das mit dem Pipeline-Bundle verbunden ist, oder klicken Sie auf das Kebab-Menü für den Ordner und dann auf Git..., um auszuwählen, welche Änderungen gepusht werden sollen. Siehe Commit und Pushänderungen an das Git-Remote-Repository.

Änderungen zu Git pushen

Wenn Sie Pipeline-Konfigurationsdateien aktualisieren oder Dateien zum Bundle hinzufügen oder daraus entfernen, werden diese Änderungen nicht im Ziel-Workspace wirksam, bis Sie das Bundle explizit deployen. Siehe Bereitstellen von Bündeln und Ausführen von Workflows aus dem Arbeitsbereich.

Hinweis

Databricks empfiehlt, das Standardsetup für quellgesteuerte Pipelines beizubehalten. Das Standardsetup ist so konfiguriert, dass Sie die YaML-Konfiguration des Pipelinepakets nicht bearbeiten müssen, wenn zusätzliche Dateien über die Benutzeroberfläche hinzugefügt werden.

Pipeline aktualisieren

Hinzufügen einer vorhandenen Pipeline zu einem Bündel

Um einem Bündel eine vorhandene Pipeline hinzuzufügen, erstellen Sie zuerst ein Bündel im Arbeitsbereich, und fügen Sie dann die YaML-Pipelinedefinition dem Bundle hinzu, wie auf den folgenden Seiten beschrieben:

Informationen zum Migrieren von Ressourcen zu einem Bündel mithilfe der Databricks CLI finden Sie unter Migrieren vorhandener Ressourcen zu einem Bundle.

Weitere Ressourcen

Weitere Lernprogramme und Referenzmaterial für Pipelines finden Sie unter Lakeflow Spark Declarative Pipelines.

Feedback

War diese Seite hilfreich?

Last updated on 2025-11-10