Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Databricks Asset Bundles können direkt im Arbeitsbereich erstellt und geändert werden.
Anforderungen für die Verwendung von Bündeln im Arbeitsbereich finden Sie unter Databricks Asset Bundles in den Arbeitsbereichsanforderungen.
Weitere Informationen zu Bundles finden Sie unter Was sind Databricks Asset Bundles?.
Bundle erstellen
So erstellen Sie ein Bündel im Databricks-Arbeitsbereich:
Navigieren Sie zu dem Git-Ordner, in dem Sie Ihr Bündel erstellen möchten.
Klicken Sie auf die Schaltfläche " Erstellen ", und klicken Sie dann auf " Bestandspaket". Alternativ klicken Sie mit der rechten Maustaste auf den Git-Ordner oder den zugehörigen Kebab in der Arbeitsbereichsstruktur, und klicken Sie auf "Objektbundle>":
Geben Sie im Dialogfeld "Asset Bundle erstellen " dem Bestandspaket einen Namen, z. B. total-awesome-bundle. Der Bündelname darf nur Buchstaben, Zahlen, Gedankenstriche und Unterstriche enthalten.
Wählen Sie für Vorlage aus, ob Sie ein leeres Bündel, ein Bundle erstellen möchten, das ein Python-Beispielnotizbuch ausführt, oder ein Bundle, das SQL ausführt. Wenn der Lakeflow-Pipelines-Editor aktiviert ist, wird auch eine Option zum Erstellen eines ETL-Pipelineprojekts angezeigt.
Für einige Vorlagen ist eine zusätzliche Konfiguration erforderlich. Klicken Sie auf "Weiter" , um die Konfiguration des Projekts abzuschließen.
Template Konfigurationsoptionen Lakeflow Spark Declarative Pipelines - Standardkatalog, der für die Pipelinedaten verwendet werden soll
- Verwenden Sie für jeden Benutzer, der an diesem Bündel zusammenarbeitet, ein persönliches Schema (empfohlen).
- Erste Sprache für die Codedateien in der Pipeline
Standard-Python - Einschließen eines Beispielnotizbuchs
- Einschließen einer Beispielpipeline
- Einschließen eines Python-Beispielpakets
- Serverlose Berechnung verwenden
Sql-Standard - SQL Warehouse-Pfad
- Anfänglicher Katalog
- Persönliches Schema verwenden
- Anfängliches Schema während der Entwicklung
Klicken Sie auf "Erstellen" und "Bereitstellen".
Dadurch wird ein anfängliches Bundle im Git-Ordner erstellt, das die Dateien für die von Ihnen ausgewählte Projektvorlage, eine .gitignore Git-Konfigurationsdatei und die erforderliche Datei "Databricks Asset Bundles" databricks.yml enthält. Die databricks.yml Datei enthält die Hauptkonfiguration für das Bundle. Weitere Informationen finden Sie unter Databricks Asset Bundle-Konfiguration.
Alle Änderungen, die an den Dateien innerhalb des Bundles vorgenommen wurden, können mit dem Remote-Repository synchronisiert werden, das dem Git-Ordner zugeordnet ist. Ein Git-Ordner kann viele Bundles enthalten.
Hinzufügen neuer Dateien zu einem Bundle
Ein Bündel enthält die databricks.yml Datei, die Bereitstellungs- und Arbeitsbereichskonfigurationen, Quelldateien wie Notizbücher, Python-Dateien und Testdateien sowie Definitionen und Einstellungen für Databricks-Ressourcen definiert, z. B. Lakeflow-Aufträge und Lakeflow Spark Declarative Pipelines. Ähnlich wie bei jedem Arbeitsbereichsordner können Sie ihrem Bundle neue Dateien hinzufügen.
Tipp
Um eine neue Registerkarte in der Bundleansicht zu öffnen, mit der Sie Bündeldateien ändern können, navigieren Sie zum Bündelordner im Arbeitsbereich, und klicken Sie dann rechts neben dem Bundlenamen auf "Im Editor öffnen ".
Hinzufügen von Quellcodedateien
Um einem Bündel in der Arbeitsbereichsbenutzeroberfläche neue Notizbücher oder andere Dateien hinzuzufügen, navigieren Sie zum Bündelordner und folgen Sie dann diesen Schritten:
- Klicken Sie oben rechts auf "Erstellen ", und wählen Sie einen der folgenden Dateitypen aus, die Sie Ihrem Bündel hinzufügen möchten: Notizbuch, Datei, Abfrage, Dashboard.
- Alternativ können Sie auf den Kebab links neben " Freigeben " klicken und eine Datei importieren.
Hinweis
Damit die Datei Teil der Bundle-Bereitstellung wird, müssen Sie sie nach dem Hinzufügen zum Bündelordner der databricks.yml Bündelkonfiguration hinzufügen oder eine Definitionsdatei für Aufträge oder Pipelines erstellen, die sie enthält. Siehe Hinzufügen einer vorhandenen Ressource zu einem Bündel.
Hinzufügen einer Auftragsdefinition
Bundles enthalten Definitionen für Ressourcen wie Aufträge und Pipelines, die in eine Bereitstellung einbezogen werden sollen. Diese Definitionen werden in YAML oder Python angegeben, und Sie können diese Konfigurationen direkt auf der Benutzeroberfläche erstellen und bearbeiten.
So erstellen Sie eine Bündelkonfigurationsdatei, die einen Auftrag definiert:
Wechseln Sie zu dem Paketordner im Arbeitsbereich, in dem Sie einen neuen Auftrag definieren möchten.
Tipp
Wenn Sie das Bundle zuvor im Editor im Arbeitsbereich geöffnet haben, können Sie die Kontextliste für die Dokumenterstellung des Arbeitsbereichsbrowsers verwenden, um zum Bundleordner zu navigieren. Siehe Dokumenterstellungskontexte.
Klicken Sie rechts neben dem Bündelnamen auf "Im Editor öffnen ", um zur Bündel-Editor-Ansicht zu navigieren.
Klicken Sie auf das Bereitstellungssymbol für das Bundle, um zum Bereich "Bereitstellungen " zu wechseln.
Klicken Sie im Abschnitt "Bündelressourcen" auf "Hinzufügen" und dann auf "Neue Auftragsdefinition".
Geben Sie einen Namen für den Auftrag in das Feld " Auftragsname " des Dialogfelds "Auftragsdefinition erstellen " ein. Klicken Sie auf "Erstellen".
Fügen Sie YAML der erstellten Auftragsdefinitionsdatei hinzu. Im folgenden Beispiel-YAML wird ein Auftrag definiert, der ein Notizbuch ausführt:
resources: jobs: run_notebook: name: run-notebook queue: enabled: true tasks: - task_key: my-notebook-task notebook_task: notebook_path: ../helloworld.ipynb
Ausführliche Informationen zum Definieren eines Auftrags in YAML finden Sie unter "Auftrag". Informationen zur YAML-Syntax für andere unterstützte Auftragsaufgabentypen finden Sie unter Hinzufügen von Aufgaben zu Aufträgen in Databricks Asset Bundles.
Hinzufügen einer Pipeline
So fügen Sie Ihrem Bundle eine Pipeline hinzu:
Navigieren Sie zum Bundle-Ordner im Arbeitsbereich, in dem Sie eine neue Pipeline definieren möchten.
Tipp
Wenn Sie das Bündel zuvor im Editor im Arbeitsbereich geöffnet haben, können Sie das Kontextmenü der Arbeitsbereichsbrowsererstellung verwenden, um zum Bündelordner zu navigieren. Siehe Dokumenterstellungskontexte.
Klicken Sie rechts neben dem Bündelnamen auf "Im Editor öffnen ", um zur Bündel-Editor-Ansicht zu navigieren.
Klicken Sie auf das Bereitstellungssymbol für das Bundle, um zum Bereich "Bereitstellungen " zu wechseln.
Klicken Sie im Abschnitt "Bündelressourcen" auf "Hinzufügen", dann auf "Neue Pipelinedefinition" oder "Neue ETL-Pipeline", wenn Sie den Lakeflow-Pipelines-Editor in Ihrem Arbeitsbereich aktiviert haben. Die Pipelineerstellungsoberfläche unterscheidet sich für diese beiden Optionen.
Erstellen einer Pipelinedefinition
Wenn Sie im Menü "Paketressourcenerstellung" die Definition "Neue Pipeline" ausgewählt haben:
- Geben Sie einen Namen für die Pipeline in das Feld " Pipelinename " des Dialogfelds "Pipeline zum vorhandenen Bundle hinzufügen " ein.
- Klicken Sie auf "Hinzufügen" und "Bereitstellen".
Für eine Pipeline mit dem Namen, der ein Notizbuch ausführt, wird das folowing YAML in einer Datei erstellt:For a pipeline with the name test_pipeline that runs a notebook, the folowing YAML is created in a file test_pipeline.pipeline.yml:
resources:
pipelines:
test_pipeline:
name: test_pipeline
libraries:
- notebook:
path: ../test_pipeline.ipynb
serverless: true
catalog: main
target: test_pipeline_${bundle.environment}
Sie können die Konfiguration ändern, um ein vorhandenes Notizbuch auszuführen. Ausführliche Informationen zum Definieren einer Pipeline in YAML finden Sie in der Pipeline.
ETL-Pipeline erstellen
Wenn Sie die neue ETL-Pipeline aus dem Menü für die Bündelressourcenerstellung ausgewählt haben:
Geben Sie einen Namen für die Pipeline in das Feld Name des Dialogs 'Pipeline zu bestehendem Bundle hinzufügen' ein. Der Name muss innerhalb des Arbeitsbereichs eindeutig sein.
Wählen Sie für das Feld "Persönliches Schema verwenden " "Ja " für Entwicklungsszenarien und "Nein " für Produktionsszenarien aus.
Wählen Sie einen Standardkatalog und ein Standardschema für die Pipeline aus.
Wählen Sie eine Sprache für den Pipelinequellcode aus.
Klicken Sie auf "Hinzufügen" und "Bereitstellen".
Überprüfen Sie die Details im Dialogfeld "Bereitstellen in die Entwicklungsumgebung", und klicken Sie dann auf "Bereitstellen".
Eine ETL-Pipeline wird mit Beispiel-Explorations- und Transformationstabellen erstellt.
Für eine Pipeline mit dem Namen rad_pipelinewird das folgende YAML in einer Datei rad_pipeline.pipeline.ymlerstellt. Diese Pipeline ist für die Ausführung auf serverlosem Compute konfiguriert.
resources:
pipelines:
rad_pipeline:
name: rad_pipeline
libraries:
- glob:
include: transformations/**
serverless: true
catalog: main
schema: ${workspace.current_user.short_name}
root_path: .
Hinzufügen einer vorhandenen Ressource zu einem Bündel
Sie können vorhandene Ressourcen wie Pipelines und auch Objekte wie Notizbücher und andere Quelldateien zu Ihrem Bundle hinzufügen. Sie müssen sie jedoch in der Bundlekonfiguration definieren, um sie in ihre Bundlebereitstellung einzuschließen. Im folgenden Beispiel wird einem Bündel eine vorhandene Pipeline hinzugefügt.
Angenommen, Sie haben eine Pipeline mit dem Namen taxifilter , die das taxifilter.ipynb Notizbuch in Ihrem freigegebenen Arbeitsbereich ausführt:
Klicken Sie in der Randleiste Ihres Azure Databricks-Arbeitsbereichs auf Aufträge und Pipelines.
Wählen Sie optional die Filter "Pipelines " und "Owned by me" aus .
Wählen Sie die vorhandene
taxifilterPipeline aus.Klicken Sie auf der Pipelineseite links neben der Schaltfläche "Entwicklungsbereitstellungsmodus" auf den Kebab. Klicken Sie dann auf YAML-Einstellungen anzeigen.
Klicken Sie auf das Symbol "Kopieren", um die Bundlekonfiguration für die Pipeline zu kopieren.
Navigieren Sie zu Ihrem Bündel im Arbeitsbereich.
Klicken Sie auf das Bereitstellungssymbol für das Bundle, um zum Bereich "Bereitstellungen " zu wechseln.
Klicken Sie im Abschnitt "Bündelressourcen" auf "Hinzufügen" und dann auf "Neue Pipelinedefinition".
Hinweis
Wenn stattdessen ein Neues ETL-Pipelinemenüelement angezeigt wird, ist der Lakeflow-Pipeline-Editor aktiviert. Informationen zum Hinzufügen einer ETL-Pipeline zu einem Bündel finden Sie unter Erstellen einer quellgesteuerten Pipeline.
Geben Sie
taxifilterim Feld "Pipelinename " des Dialogfelds " Pipeline zu vorhandenem Bündel hinzufügen " ein. Klicken Sie auf "Erstellen".Fügen Sie die Konfiguration für die vorhandene Pipeline in die Datei ein. Diese Beispielpipeline ist zum Ausführen des Notizbuchs
taxifilterdefiniert:resources: pipelines: taxifilter: name: taxifilter catalog: main libraries: - notebook: path: /Workspace/Shared/taxifilter.ipynb target: taxifilter_${bundle.environment}
Sie können nun das Bundle bereitstellen und dann die Pipelineressource über die Benutzeroberfläche ausführen.