Freigeben über


Databricks Asset Bundles-Ressourcen

Mit Databricks Asset Bundles können Sie Informationen über die Azure Databricks-Ressourcen spezifizieren, die vom Bundle in der resources-Zuordnung der Bundle-Konfiguration verwendet werden. Weitere Informationen finden Sie unter Ressourcenzuordnung und Ressourcenschlüsselreferenz.

Diese Seite enthält Konfigurationsreferenz für alle unterstützten Ressourcentypen für Bundles und enthält Details und ein Beispiel für jeden unterstützten Typ. Weitere Beispiele finden Sie in Bundle-Konfigurationsbeispielen.

Das JSON-Schema für Bündel, die zum Überprüfen der YAML-Konfiguration verwendet werden, befindet sich im GitHub-Repository "Databricks CLI".

Tip

Verwenden Sie den Befehl databricks bundle generate, um YAML für jede vorhandene Ressource zu generieren. Siehe "databricks bundle generate".

Unterstützte Ressourcen

In der folgenden Tabelle sind unterstützte Ressourcentypen für Bundles (YAML und Python, sofern zutreffend) aufgeführt. Einige Ressourcen können erstellt werden, indem sie in einem Bundle definiert und das Bundle bereitgestellt werden. Einige Ressourcen können nur erstellt werden, indem auf eine vorhandene Ressource verwiesen wird, die in das Bundle aufgenommen werden soll.

Die Ressourcenkonfiguration definiert ein Databricks-Objekt, das einem Databricks-REST-API-Objekt entspricht. Unterstützte Erstellungsanforderungsfelder des REST-API-Objekts, die in YAML ausgedrückt sind, entsprechen den unterstützten Schlüsseln der Ressource. Links zur Dokumentation für das entsprechende Objekt der einzelnen Ressourcen finden Sie in der folgenden Tabelle.

Tip

Der Befehl databricks bundle validate gibt Warnungen zurück, wenn unbekannte Ressourceneigenschaften in Paketkonfigurationsdateien gefunden werden.

Resource Python-Unterstützung Entsprechendes REST-API-Objekt
Warnung Alert-Objekt
app App-Objekt
cluster Clusterobjekt-
dashboard Dashboard-Objekt
database_catalog Datenbankkatalogobjekt
database_instance Datenbankinstanzobjekt
experiment Experiment-Objekt
job Arbeitsplätze Auftragsobjekt
Modell (Altes Modell) Modellobjekt (Legacy)
model_serving_endpoint Objekt für Modellbereitstellungsendpunkt
pipeline Pipelines Pipeline-Objekt
quality_monitor Objekt zur Qualitätsüberwachung
registriertes_Modell (Unity Catalog) Registriertes Modellobjekt
schema (Unity Katalog) Schemas Schemaobjekt
secret_scope Secret scope object
sql_warehouse SQL Warehouse-Objekt
abgeglichen_datenbanktabelle Synchronisiertes Datenbanktabellenobjekt
volume (Unity Katalog) Volumina Volumeobjekt

Alarm

Type: Map

Die Warnungsressource definiert eine SQL-Warnung (v2).

alerts:
  <alert-name>:
    <alert-field-name>: <alert-field-value>
Key Type Description
custom_description String Wahlfrei. Benutzerdefinierte Beschreibung für die Warnung. Unterstützt die Mustache-Vorlage.
custom_summary String Wahlfrei. Benutzerdefinierte Zusammenfassung für die Warnung. Unterstützt die Mustache-Vorlage.
display_name String Erforderlich. Der Anzeigename der Warnung, z. B. Example alert.
evaluation Map Erforderlich. Die Auswertungskonfiguration für die Warnung. Siehe alert.evaluation.
parent_path String Wahlfrei. Der Arbeitsbereichspfad des Ordners, der die Warnung enthält. Kann nur beim Erstellen festgelegt werden und kann nicht aktualisiert werden. Beispiel: /Users/someone@example.com.
permissions Sequence Die Alarmgenehmigungen. Weitere Informationen finden Sie unter Berechtigungen.
query_text String Erforderlich. Der Text der auszuführenden Abfrage, zum Beispiel SELECT 1.
run_as Map Wahlfrei. Gibt die Identität an, die zum Ausführen der Warnung verwendet wird. Mit diesem Feld können Sie Warnungen so konfigurieren, dass sie als bestimmter Benutzer oder Serviceprinzipal ausgeführt werden. Siehe run_as.
  • Für die Benutzeridentität: Legen Sie user_name auf die E-Mail eines aktiven Benutzers des Arbeitsbereichs fest. Benutzer können dies nur auf ihre eigene E-Mail festlegen.
  • Für den Dienstprinzipal: service_principal_name auf die Anwendungs-ID setzen. Erfordert die Rolle "servicePrincipal/user". Wenn nicht angegeben, wird der Alarm als der Anforderungsbenutzer ausgeführt.
schedule Map Erforderlich. Die Zeitplankonfiguration für die Warnung. Siehe alert.schedule.
warehouse_id String Erforderlich. Die ID des SQL-Warehouses, das mit der Warnung verknüpft ist, z. B. a7066a8ef796be84.

alert.evaluation

Type: Map

Die Auswertungskonfiguration für die Warnung.

Key Type Description
comparison_operator String Der Operator, der für den Vergleich in der Warnungsauswertung verwendet wird.
empty_result_state String Der Warnungszustand, wenn das Ergebnis leer ist. Vermeiden Sie, dieses Feld auf UNKNOWN zu setzen, da der UNKNOWN-Zustand geplant ist, abgeschafft zu werden.
notification Map Der Benutzer oder ein anderes Ziel, das benachrichtigt werden soll, wenn die Warnung ausgelöst wird. Siehe alert.evaluation.notification.
source Map Die Quellspalte aus dem Ergebnis, die zum Auswerten der Warnung verwendet werden soll. Siehe alert.evaluation.source.
threshold Map Der Schwellenwert, der für die Warnungsauswertung verwendet werden soll. Dies kann eine Spalte oder ein Wert sein. Siehe alert.evaluation.threshold.

alarmbewertung.benachrichtigung

Type: Map

Der Benutzer oder ein anderes Ziel, das benachrichtigt werden soll, wenn die Warnung ausgelöst wird.

Key Type Description
notify_on_ok Boolean Wahlfrei. Gibt an, ob Benachrichtigungsabonnenten benachrichtigt werden sollen, wenn die Warnung wieder in den Normalzustand zurückkehrt.
retrigger_seconds Integer Wahlfrei. Die Anzahl der Sekunden, die eine Warnung nach dem Auslösen wartet, bevor eine andere Benachrichtigung gesendet werden darf. Wenn die Einstellung auf 0 gesetzt oder weggelassen wird, sendet die Warnung nach dem ersten Auslösen keine weiteren Benachrichtigungen. Festlegung dieses Werts 1 ermöglicht, dass die Warnung bei jedem Bewertungsvorgang, bei dem die Bedingung erfüllt ist, eine Benachrichtigung sendet, wodurch sie für Benachrichtigungszwecke immer erneut ausgelöst wird.
subscriptions Sequence Wahlfrei. Nicht angeordnete Liste der Benachrichtigungsabonnements. Siehe alert.evaluation.notification.subscriptions.
warnung.bewertung.benachrichtigung.abonnements

Type: Sequence

Eine ungeordnete Liste der Benachrichtigungsabonnements.

Jedes Element in der Liste ist ein AlertSubscription:

Key Type Description
destination_id String Die ID des Benachrichtigungsziels.
user_email String Die E-Mail-Adresse des Zu benachrichtigenden Benutzers.

alert.evaluation.source

Type: Map

Quellspalte aus dem Ergebnis, die zum Auswerten der Warnung verwendet werden soll.

Key Type Description
aggregation String Die Aggregationsmethode, die auf die Quellspalte angewendet werden soll. Gültige Werte sind SUM: , COUNT, COUNT_DISTINCT, AVG, MEDIAN, , MINMAXSTDDEV
display String Der Anzeigename für die Quellspalte.
name String Der Name der Quellspalte aus dem Abfrageergebnis.

alert.evaluation.threshold

Type: Map

Der für die Warnungsauswertung zu verwendende Schwellenwert kann entweder eine Spalte oder ein Wert sein.

Key Type Description
column Map Spaltenverweis, der als Schwellenwert verwendet werden soll. Siehe alert.evaluation.source.
value Map Literalwert, der als Schwellenwert verwendet werden soll. Siehe alert.evaluation.threshold.value.
alert.evaluation.threshold.value

Type: Map

Literalwert, der als Schwellenwert verwendet werden soll. Geben Sie einen der folgenden Werttypen an.

Key Type Description
bool_value Boolean Wahlfrei. Boolescher Wert für den Schwellenwert, truez. B. .
double_value Double Wahlfrei. Numerischer Wert für den Schwellenwert, 1.25z. B. .
string_value String Wahlfrei. Zeichenfolgenwert für den Schwellenwert, z. B. test.

alert.schedule

Type: Map

Die Zeitplankonfiguration für die Warnung.

Key Type Description
pause_status String Wahlfrei. Gibt an, ob dieser Zeitplan angehalten wird oder nicht. Gültige Werte: UNPAUSED, PAUSED. Standardwert: UNPAUSED.
quartz_cron_schedule String Erforderlich. Ein Cron-Ausdruck mit Quarzsyntax, der den Zeitplan für diese Pipeline angibt. Das Quarzformat wird im Quarzplanerformat beschrieben.
timezone_id String Erforderlich. Eine Java-Zeitzonen-ID. Der Zeitplan wird mithilfe dieser Zeitzone aufgelöst. Dies wird mit dem quartz_cron_schedule kombiniert, um den Zeitplan festzulegen. Weitere Informationen finden Sie unter SET TIME ZONE.

Examples

Die folgende Beispielkonfiguration definiert eine Warnung mit einer einfachen Auswertung:

resources:
  alerts:
    my_alert:
      display_name: my_alert
      evaluation:
        comparison_operator: EQUAL
        source:
          name: '1'
        threshold:
          value:
            double_value: 2
      query_text: select 2
      schedule:
        quartz_cron_schedule: '44 19 */1 * * ?'
        timezone_id: Europe/Amsterdam
      warehouse_id: 799f096837fzzzz4

Die folgende Beispielkonfiguration definiert eine Warnung mit Berechtigungen, die mithilfe von Aggregation ausgewertet werden und Benachrichtigungen sendet:

resources:
  alerts:
    my_alert:
      permissions:
        - level: CAN_MANAGE
          user_name: someone@example.com
      custom_summary: 'My alert'
      display_name: 'My alert'
      evaluation:
        comparison_operator: 'EQUAL'
        notification:
          notify_on_ok: false
          retrigger_seconds: 1
        source:
          aggregation: 'MAX'
          display: '1'
          name: '1'
        threshold:
          value:
            double_value: 2
      query_text: 'select 2'
      schedule:
        pause_status: 'UNPAUSED'
        quartz_cron_schedule: '44 19 */1 * * ?'
        timezone_id: 'Europe/Amsterdam'
      warehouse_id: 799f096837fzzzz4

App

Type: Map

Die App-Ressource definiert eine Databricks-App. Informationen zu Databricks-Apps finden Sie unter Databricks Apps.

Um eine App hinzuzufügen, geben Sie die Einstellungen zum Definieren der App an, einschließlich der erforderlichen source_code_path.

Tip

Sie können ein Bündel mit einer Streamlit Databricks-App mit dem folgenden Befehl initialisieren:

databricks bundle init https://github.com/databricks/bundle-examples --template-dir contrib/templates/streamlit-app
apps:
  <app-name>:
    <app-field-name>: <app-field-value>
Key Type Description
budget_policy_id String Die Budgetrichtlinien-ID für die App.
compute_size String Die Berechnungskapazität für die App. Gültige Werte sind MEDIUM oder LARGE hängen von der Arbeitsbereichskonfiguration ab.
config Map Deprecated. Definieren Sie stattdessen Die App-Konfigurationsbefehle und Umgebungsvariablen in der app.yaml Datei. Siehe Konfigurieren einer Databricks-App.
description String Beschreibung der App.
lifecycle Map Das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus.
name String Der Name der App. Der Name darf nur alphanumerische Zeichen und Bindestriche in Kleinbuchstaben enthalten. Er muss innerhalb des Arbeitsbereichs eindeutig sein.
permissions Sequence Die Berechtigungen der App. Weitere Informationen finden Sie unter Berechtigungen.
resources Sequence Die App berechnet Ressourcen. Siehe "app.resources".
source_code_path String Der ./app lokale Pfad des Quellcodes der Databricks-App.
user_api_scopes Sequence Die API-Bereiche des Benutzers.

Appressourcen

Type: Sequence

Eine Liste der Computeressourcen für die App.

Jedes Element in der Liste ist ein AppResource:

Key Type Description
description String Die Beschreibung der App-Ressource.
database Map Die Einstellungen, die die zu verwendende Lakebase-Datenbank identifizieren. Siehe "app.resources.database".
genie_space Map Die Einstellungen, die den zu verwendenden Genie-Raum identifizieren. Siehe app.resources.genie_space.
job Map Die Einstellungen, die die zu verwendende Auftragsressource identifizieren. Siehe "app.resources.job".
name String Der Name der App-Ressource.
secret Map Die Einstellungen, die die zu verwendende geheime Azure Databricks-Ressource identifizieren. Siehe "app.resources.secret".
serving_endpoint Map Die Einstellungen, die die zu verwendende Endpunktressource des Modells identifizieren. Siehe app.resources.serving_endpoint.
sql_warehouse Map Die Einstellungen, die die zu verwendende SQL Warehouse-Ressource identifizieren. Siehe app.resources.sql_warehouse.
uc_securable Map Die Einstellungen, die das zu verwendende Unity-Katalogvolume identifizieren. Siehe app.resources.uc_securable.

app.resources.database

Type: Map

Die Einstellungen, die die zu verwendende Lakebase-Datenbank identifizieren.

Key Type Description
database_name String Der Name der Datenbank.
instance_name String Der Name der Datenbankinstanz.
permission String Die Berechtigungsstufe für die Datenbank. Gültige Werte sind CAN_CONNECT_AND_CREATE.

app.resources.genie_space

Type: Map

Die Einstellungen, die den zu verwendenden Genie-Raum identifizieren.

Key Type Description
name String Der Name des Genie-Raums.
permission String Die Berechtigungsstufe für den Raum. Gültige Werte sind : CAN_VIEW, CAN_EDIT, CAN_MANAGE. CAN_RUN
space_id String Die ID des Genie-Raums, z. B. 550e8400-e29b-41d4-a716-999955440000.

app.resources.job

Type: Map

Die Einstellungen, die die zu verwendende Auftragsressource identifizieren.

Key Type Description
id String Die ID des Jobs.
permission String Die Berechtigungsstufe für den Auftrag. Gültige Werte sind : CAN_VIEW, CAN_MANAGE_RUN, CAN_MANAGE. IS_OWNER

app.resources. geheim

Type: Map

Die Einstellungen, die die zu verwendende geheime Azure Databricks-Ressource identifizieren.

Key Type Description
key String Der Schlüssel zum Geheimnis, um die Berechtigung zu erteilen.
permission String Die Berechtigungsstufe für den geheimen Schlüssel. Gültige Werte sind : READ, WRITE. MANAGE
scope String Der Name des geheimen Bereichs.

app.resources.Bereitstellungspunkt

Type: Map

Die Einstellungen, die die zu verwendende Endpunktressource des Modells identifizieren.

Key Type Description
name String Der Name des Bereitstellungsendpunkts
permission String Die Zugriffsstufe für den bereitstellenden Endpunkt. Gültige Werte sind : CAN_QUERY, CAN_MANAGE. CAN_VIEW

app.resources.sql_warehouse

Type: Map

Die Einstellungen, die das zu verwendende SQL Warehouse identifizieren.

Key Type Description
id String Die ID des SQL Data Warehouses.
permission String Die Berechtigungsstufe für das SQL Warehouse. Gültige Werte sind : CAN_USE, CAN_MANAGE. IS_OWNER

app.resources.uc_securable

Type: Map

Die Einstellungen, die das zu verwendende Unity-Katalogvolume identifizieren.

Key Type Description
permission String Die Berechtigungsstufe für den Unity-Katalog sicherungsfähig. Gültige Werte sind READ_VOLUME und WRITE_VOLUME.
securable_full_name String Der vollständige Name des Unity-Katalogs, der im Format catalog.schema.volumesicherungsfähig ist.
securable_type String Der Typ des Unity-Katalogs, der sicherungsfähig ist. Gültige Werte sind VOLUME.

Example

Im folgenden Beispiel wird eine App namens my_app erstellt, die einen vom Bundle erstellten Auftrag verwaltet:

resources:
  jobs:
    # Define a job in the bundle
    hello_world:
      name: hello_world
      tasks:
        - task_key: task
          spark_python_task:
            python_file: ../src/main.py
          environment_key: default

      environments:
        - environment_key: default
          spec:
            environment_version: '2'

  # Define an app that manages the job in the bundle
  apps:
    job_manager:
      name: 'job_manager_app'
      description: 'An app which manages a job created by this bundle'

      # The location of the source code for the app
      source_code_path: ../src/app

      # The resources in the bundle which this app has access to. This binds the resource in the app with the bundle resource.
      resources:
        - name: 'app-job'
          job:
            id: ${resources.jobs.hello_world.id}
            permission: 'CAN_MANAGE_RUN'

Die entsprechende app.yaml Definition definiert die Konfiguration für die Ausführung der App:

command:
  - flask
  - --app
  - app
  - run
  - --debug
env:
  - name: JOB_ID
    valueFrom: 'app-job'

Das vollständige Databricks-App-Beispielbundle finden Sie im GitHub-Repository „bundle-examples“.

Cluster

Type: Map

Die Clusterressource definiert einen Cluster.

clusters:
  <cluster-name>:
    <cluster-field-name>: <cluster-field-value>
Key Type Description
apply_policy_default_values Boolean Wenn dieser Wert auf "true" festgelegt ist, werden feste und Standardwerte aus der Richtlinie für felder verwendet, die weggelassen werden. Wenn dieser Wert auf "false" festgelegt ist, werden nur feste Werte aus der Richtlinie angewendet.
autoscale Map Parameter, die benötigt werden, um Cluster basierend auf der Last automatisch nach oben und unten zu skalieren. Siehe Autoskala.
autotermination_minutes Integer Dadurch wird der Cluster automatisch beendet, wenn er für diese Zeit in Minuten inaktiv ist. Wenn nicht festgelegt, wird dieser Cluster nicht automatisch beendet. Wenn angegeben, muss der Schwellenwert zwischen 10 und 10000 Minuten liegen. Benutzer können diesen Wert auch auf 0 festlegen, um die automatische Beendigung explizit zu deaktivieren.
aws_attributes Map Attribute im Zusammenhang mit Clustern, die auf Amazon Web Services ausgeführt werden. Wenn bei der Clustererstellung nicht angegeben, wird eine Reihe von Standardwerten verwendet. Siehe aws_attributes.
azure_attributes Map Attribute im Zusammenhang mit Clustern, die in Microsoft Azure ausgeführt werden. Wenn bei der Clustererstellung nicht angegeben, wird eine Reihe von Standardwerten verwendet. Siehe azure_attributes.
cluster_log_conf Map Die Konfiguration für die Bereitstellung von Spark logs an ein langfristiges Speicherziel. Siehe cluster_log_conf.
cluster_name String Der vom Benutzer angeforderte Clustername. Das muss nicht einzigartig sein. Wenn beim Erstellen nicht angegeben, ist der Clustername eine leere Zeichenfolge.
custom_tags Map Zusätzliche Tags für Cluster-Ressourcen. Databricks wird alle Clusterressourcen (z. B. AWS-Instanzen und EBS-Volumes) mit diesen Tags zusätzlich zu default_tags kennzeichnen.
data_security_mode String Das Data Governance-Modell, das beim Zugriff auf Daten aus einem Cluster verwendet werden soll. Gültige Werte sind : NONE, SINGLE_USER, USER_ISOLATION, LEGACY_SINGLE_USER, , LEGACY_TABLE_ACL. LEGACY_PASSTHROUGH
docker_image Map Das benutzerdefinierte Docker-Image. Siehe docker_image.
driver_instance_pool_id String Die optionale ID des Instanzpools für den Treiber, zu dem der Cluster gehört. Der Poolcluster verwendet den Instanzpool mit id (instance_pool_id), wenn der Treiberpool nicht zugewiesen ist.
driver_node_type_id String Der Knotentyp des Spark-Treibers. Beachten Sie, dass dieses Feld optional ist; wenn nicht festgelegt, wird der Treiberknotentyp wie oben definiert als derselbe Wert node_type_id festgelegt. Dieses Feld zusammen mit node_type_id sollte nicht festgelegt werden, wenn virtual_cluster_size festgelegt ist. Wenn sowohl driver_node_type_id, node_type_id als auch virtual_cluster_size angegeben werden, haben driver_node_type_id und node_type_id Vorrang.
enable_elastic_disk Boolean Autoskalierung des lokalen Speichers: Wenn diese Option aktiviert ist, erwirbt der Cluster dynamisch zusätzlichen Datenträgerspeicher, wenn der Speicherplatz seiner Spark-Worker zur Neige geht. Für dieses Feature sind bestimmte AWS-Berechtigungen erforderlich, um ordnungsgemäß zu funktionieren . Weitere Details finden Sie im Benutzerhandbuch.
enable_local_disk_encryption Boolean Gibt an, ob LUKS auf den lokalen Datenträgern von Cluster-VMs aktiviert werden soll.
gcp_attributes Map Attribute im Zusammenhang mit Clustern, die auf der Google Cloud Platform ausgeführt werden. Wenn bei der Clustererstellung nicht angegeben, wird eine Reihe von Standardwerten verwendet. Siehe gcp_attributes.
init_scripts Sequence Die Konfiguration zum Speichern von Init-Skripts. Es kann eine beliebige Anzahl von Zielen angegeben werden. Die Skripts werden sequenziell in der angegebenen Reihenfolge ausgeführt. Siehe init_scripts.
instance_pool_id String Die optionale ID des Instanzpools, zu dem der Cluster gehört.
is_single_node Boolean Dieses Feld kann nur verwendet werden, wenn kind = CLASSIC_PREVIEW. Wenn dieser Wert auf „true“ festgelegt wird, legt Databricks automatisch einzelne Knoten mit Bezug auf custom_tags, spark_confund num_workers fest.
kind String Die durch diese Berechnungsspezifikation beschriebene Art von Berechnung.
node_type_id String Dieses Feld codiert mithilfe eines einzigen Werts die Ressourcen, die jedem der Spark-Knoten in diesem Cluster zur Verfügung stehen. Beispielsweise können die Spark-Knoten für arbeitsspeicher- oder rechenintensive Workloads bereitgestellt und optimiert werden. Eine Liste der verfügbaren Knotentypen kann mithilfe des API-Aufrufs :method:clusters/listNodeTypes abgerufen werden.
num_workers Integer Die Anzahl der Workerknoten, die dieser Cluster haben sollte. Ein Cluster verfügt über einen Spark-Treiber und num_workers Ausführer für insgesamt num_workers + 1 Spark-Knoten.
permissions Sequence Die Clusterberechtigungen. Weitere Informationen finden Sie unter Berechtigungen.
policy_id String Die ID der Clusterrichtlinie, die zum Erstellen des Clusters verwendet wird, falls zutreffend.
runtime_engine String Bestimmt die Runtime-Engine des Clusters (entweder STANDARD oder PHOTON).
single_user_name String Einzelner Benutzername, wenn data_security_mode SINGLE_USER ist
spark_conf Map Ein Objekt, das einen Satz optionaler, vom Benutzer angegebener Spark-Konfigurationsschlüssel-Wert-Paare enthält. Benutzer können auch eine Zeichenfolge mit zusätzlichen JVM-Optionen an den Treiber und die Executoren über spark.driver.extraJavaOptions bzw. spark.executor.extraJavaOptions übergeben.
spark_env_vars Map Ein Objekt, das einen Satz optionaler, benutzerdefinierter Umgebungsvariablen-Schlüsselwertpaare enthält.
spark_version String Die Spark-Version des Clusters, z. B. 3.3.x-scala2.11. Eine Liste der verfügbaren Spark-Versionen kann mithilfe des API-Aufrufs :method:clusters/sparkVersions abgerufen werden.
ssh_public_keys Sequence Inhalt des öffentlichen SSH-Schlüssels, der jedem Spark-Knoten in diesem Cluster hinzugefügt wird. Die entsprechenden privaten Schlüssel können zum Anmelden mit dem Benutzernamen ubuntu am Port 2200verwendet werden. Bis zu 10 Tasten können angegeben werden.
use_ml_runtime Boolean Dieses Feld kann nur verwendet werden, wenn kind = CLASSIC_PREVIEW. effective_spark_version wird durch spark_version (DBR Release) sowie durch das Feld use_ml_runtime und die Information, ob node_type_id ein GPU-Knoten ist oder nicht, bestimmt.
workload_type Map Clusterattribute, die für Cluster-Workloadtypen angezeigt werden. Siehe workload_type.

cluster.autoscale

Type: Map

Parameter für die automatische Skalierung von Clustern auf der Grundlage der Last nach oben und unten.

Key Type Description
min_workers Integer Die Mindestanzahl der Mitarbeiter, auf die der Cluster verkleinert werden kann, wenn sie nicht genutzt werden. Es ist auch die erste Anzahl der Mitarbeiter, die der Cluster nach der Erstellung haben wird.
max_workers Integer Die maximale Anzahl von Mitarbeitern, auf die der Cluster skaliert werden kann, wenn er überlastet ist. max_workers muss streng größer als min_workerssein.

cluster.aws_attributes

Type: Map

Attribute im Zusammenhang mit Clustern, die auf Amazon Web Services ausgeführt werden.

Key Type Description
zone_id String Bezeichner für die Verfügbarkeitszone/das Rechenzentrum, in dem sich der Cluster befindet. Diese Zeichenfolge hat eine Form wie us-west-2a.
availability String Verfügbarkeitstyp, der für alle Knoten nach dem first_on_demand verwendet wird. Gültige Werte sind SPOT, ON_DEMAND, SPOT_WITH_FALLBACK.
spot_bid_price_percent Integer Der maximale Preis für AWS-Spotinstanzen als Prozentsatz des On-Demand-Preises des entsprechenden Instanztyps.
instance_profile_arn String Knoten für diesen Cluster werden nur auf AWS-Instanzen mit diesem Instanzprofil platziert.
first_on_demand Integer Die ersten first_on_demand Knoten des Clusters werden auf On-Demand-Instanzen platziert. Dieser Wert sollte größer als 0sein, um sicherzustellen, dass der Clustertreiberknoten auf einer On-Demand-Instanz platziert wird.
ebs_volume_type String Der Typ der EBS-Volumes, die mit diesem Cluster gestartet werden. Gültige Werte sind GENERAL_PURPOSE_SSD und THROUGHPUT_OPTIMIZED_HDD.
ebs_volume_count Integer Die Anzahl der Volumes, die für jede Instanz gestartet werden.
ebs_volume_size Integer Die Größe jedes EBS-Volumes (in GiB) wird für jede Instanz gestartet.
ebs_volume_iops Integer Die Anzahl der IOPS pro EBS gp3-Volume.
ebs_volume_throughput Integer Der Durchsatz pro EBS gp3-Volume in MiB pro Sekunde.

cluster.azure_attributes

Type: Map

Attribute im Zusammenhang mit Clustern, die in Microsoft Azure ausgeführt werden.

Key Type Description
first_on_demand Integer Die ersten first_on_demand Knoten des Clusters werden auf On-Demand-Instanzen platziert.
availability String Verfügbarkeitstyp, der für alle Knoten nach dem first_on_demand verwendet wird. Gültige Werte sind SPOT_AZURE, ON_DEMAND_AZURE, SPOT_WITH_FALLBACK_AZURE.
spot_bid_max_price Number Der maximale Preis für Azure-Spotinstanzen. Wird -1 verwendet, um den niedrigsten Preis anzugeben.

Cluster.GCP-Attribute

Type: Map

Attribute im Zusammenhang mit Clustern, die auf der Google Cloud Platform ausgeführt werden.

Key Type Description
use_preemptible_executors Boolean Gibt an, ob präemptible Ausführungsumgebungen verwendet werden sollen. Preemptible Executors sind vorerwendbare GCE-Instanzen, die jederzeit von GCE zurückgefordert werden können.
google_service_account String Das Google-Dienstkonto, das von den Databricks-Cluster-VM-Instanzen verwendet werden soll.
local_ssd_count Integer Die Anzahl der lokalen SSDs, die an jeden Knoten im Cluster angefügt werden sollen. Der Standardwert ist 0.
zone_id String Bezeichner für die Verfügbarkeitszone/das Rechenzentrum, in dem sich der Cluster befindet.
availability String Verfügbarkeitstyp, der für alle Knoten verwendet wird. Gültige Werte sind PREEMPTIBLE_GCP, ON_DEMAND_GCP, PREEMPTIBLE_WITH_FALLBACK_GCP.
boot_disk_size Integer Die Größe des Startdatenträgers in GB. Werte liegen in der Regel zwischen 100 und 1000.

cluster.cluster_log_conf

Die Konfiguration für die Bereitstellung von Spark-Protokollen an ein langfristiges Speicherziel.

Key Type Description
dbfs Map DBFS-Speicherort für die Clusterprotokollbereitstellung. Siehe dbfs.
s3 Map S3-Speicherort für die Clusterprotokollbereitstellung. Siehe s3.
volumes Map Speicherort für Volumes für die Clusterprotokollübermittlung. Siehe Volumes.

cluster.cluster_log_conf.dbfs

Type: Map

DBFS-Speicherort für die Clusterprotokollbereitstellung.

Key Type Description
destination String Der DBFS-Pfad für die Clusterprotokollübermittlung (z. B. dbfs:/cluster-logs).

cluster.cluster_log_conf.s3

Type: Map

S3-Speicherort für die Clusterprotokollbereitstellung.

Key Type Description
destination String Der S3-URI für die Bereitstellung von Clusterprotokollen (z. B. s3://my-bucket/cluster-logs).
region String Die AWS-Region des S3-Buckets.
endpoint String Die S3-Endpunkt-URL (optional).
enable_encryption Boolean Gibt an, ob die Verschlüsselung für Clusterprotokolle aktiviert werden soll.
encryption_type String Der Verschlüsselungstyp. Gültige Werte sind SSE_S3, SSE_KMS.
kms_key String Der KMS-Schlüssel ARN für die Verschlüsselung (bei Verwendung SSE_KMS).
canned_acl String Die vordefinierte ACL-Einstellung, die auf die Clusterprotokolle angewendet werden soll.

cluster.cluster_log_conf.volumes

Type: Map

Speicherort für Volumes für die Clusterprotokollübermittlung.

Key Type Description
destination String Der Volume-Pfad für die Clusterprotokollübermittlung (z. B. /Volumes/catalog/schema/volume/cluster_log).

cluster.docker_image

Type: Map

Die konfiguration des benutzerdefinierten Docker-Images.

Key Type Description
url String URL des Docker-Images.
basic_auth Map Standardauthentifizierung für Docker-Repository. Siehe basic_auth.

cluster.docker_image.basic_auth (Basis-Authentifizierung)

Type: Map

Standardauthentifizierung für Docker-Repository.

Key Type Description
username String Der Benutzername für die Docker-Registrierungsauthentifizierung.
password String Das Kennwort für die Docker-Registrierungsauthentifizierung.

cluster.Initialisierungsskripte

Type: Map

Die Konfiguration zum Speichern von Init-Skripts. Mindestens ein Standorttyp muss angegeben werden.

Key Type Description
dbfs Map DBFS-Speicherort des Init-Skripts. Siehe dbfs.
workspace Map Speicherort des Init-Skripts im Arbeitsbereich. Weitere Informationen finden Sie unter Arbeitsbereich.
s3 Map S3-Speicherort des Init-Skripts. Siehe s3.
abfss Map ABFSS-Speicherort des Init-Skripts. Siehe Abfss.
gcs Map GCS-Speicherort des Init-Skripts. Siehe Gcs.
volumes Map UC Volumes-Speicherort des Init-Skripts. Siehe Volumes.

cluster.init_scripts.dbfs

Type: Map

DBFS-Speicherort des Init-Skripts.

Key Type Description
destination String Der DBFS-Pfad des Init-Skripts.

cluster.init_scripts.workspace

Type: Map

Speicherort des Init-Skripts im Arbeitsbereich.

Key Type Description
destination String Der Arbeitsbereichspfad des Init-Skripts.

cluster.init_scripts.s3

Type: Map

S3-Speicherort des Init-Skripts.

Key Type Description
destination String Der S3-URI des Init-Skripts.
region String Die AWS-Region des S3-Buckets.
endpoint String Die S3-Endpunkt-URL (optional).

cluster.init_scripts.abfss

Type: Map

ABFSS-Speicherort des Init-Skripts.

Key Type Description
destination String Der ABFSS-Pfad des Init-Skripts.

cluster.init_scripts.gcs

Type: Map

GCS-Speicherort des Init-Skripts.

Key Type Description
destination String Der GCS-Pfad des Init-Skripts.

cluster.init_scripts.volumes

Type: Map

Speicherort des Init-Skripts für Volumes.

Key Type Description
destination String Der UC Volumes-Pfad des Init-Skripts.

cluster.workload_type

Type: Map

Clusterattribute, die Cluster-Workloadtypen zeigen.

Key Type Description
clients Map Definiert, welche Art von Clients den Cluster verwenden kann. Siehe Clients.

cluster.workload_type.clients

Type: Map

Der Kliententyp für diese Rechenlast.

Key Type Description
jobs Boolean Gibt an, ob der Cluster Aufträge ausführen kann.
notebooks Boolean Gibt an, ob der Cluster Notizbücher ausführen kann.

Examples

Im folgenden Beispiel wird ein dedizierter Cluster (einzelbenutzer) für den aktuellen Benutzer mit Databricks Runtime 15.4 LTS und einer Clusterrichtlinie erstellt:

resources:
  clusters:
    my_cluster:
      num_workers: 0
      node_type_id: 'i3.xlarge'
      driver_node_type_id: 'i3.xlarge'
      spark_version: '15.4.x-scala2.12'
      spark_conf:
        'spark.executor.memory': '2g'
      autotermination_minutes: 60
      enable_elastic_disk: true
      single_user_name: ${workspace.current_user.userName}
      policy_id: '000128DB309672CA'
      enable_local_disk_encryption: false
      data_security_mode: SINGLE_USER
      runtime_engine": STANDARD

In diesem Beispiel wird ein einfacher Cluster my_cluster erstellt und dieser als Cluster festgelegt, um das Notizbuch in my_job auszuführen.

bundle:
  name: clusters

resources:
  clusters:
    my_cluster:
      num_workers: 2
      node_type_id: 'i3.xlarge'
      autoscale:
        min_workers: 2
        max_workers: 7
      spark_version: '13.3.x-scala2.12'
      spark_conf:
        'spark.executor.memory': '2g'

  jobs:
    my_job:
      tasks:
        - task_key: test_task
          notebook_task:
            notebook_path: './src/my_notebook.py'
          existing_cluster_id: ${resources.clusters.my_cluster.id}

Dashboard

Type: Map

Mit der Dashboardressource können Sie AI/BI-Dashboards in einem Bündel verwalten. Informationen zu AI/BI-Dashboards finden Sie unter Dashboards.

Wenn Sie ein Bündel bereitgestellt haben, das ein Dashboard aus Ihrer lokalen Umgebung enthält und dann die Benutzeroberfläche zum Ändern dieses Dashboards verwenden, werden Änderungen, die über die Benutzeroberfläche vorgenommen wurden, nicht auf die DASHBOARD-JSON-Datei im lokalen Bundle angewendet, es sei denn, Sie aktualisieren es explizit mit bundle generate. Sie können die Option --watch verwenden, um Änderungen am Dashboard kontinuierlich abzufragen und abzurufen. Siehe "databricks bundle generate".

Wenn Sie außerdem versuchen, ein Bundle aus Ihrer lokalen Umgebung bereitzustellen, das eine DASHBOARD-JSON-Datei enthält, die sich von der im Remotearbeitsbereich unterscheidet, tritt ein Fehler auf. Um die Bereitstellung zu erzwingen und das Dashboard im Remotearbeitsbereich mit dem lokalen zu überschreiben, verwenden Sie die Option --force. Siehe databricks bundle deploy.

Note

Wenn Sie Databricks Asset Bundles mit Dashboard Git-Unterstützung verwenden, verhindern Sie, dass doppelte Dashboards generiert werden, indem Sie die Synchronisierungszuordnung hinzufügen, um die Dashboards von der Synchronisierung als Dateien auszuschließen:

sync:
  exclude:
    - src/*.lvdash.json
dashboards:
  <dashboard-name>:
    <dashboard-field-name>: <dashboard-field-value>
Key Type Description
display_name String Der Anzeigename des Dashboards.
embed_credentials Boolean Gibt an, ob die Anmeldeinformationen für die Bündelbereitstellungsidentität zum Ausführen von Abfragen für alle Dashboard-Viewer verwendet werden. Wenn sie auf false festgelegt ist, werden die Anmeldeinformationen eines Viewers verwendet. Der Standardwert ist false.
etag String Das ETag für das Dashboard. Kann optional für Updates bereitgestellt werden, um sicherzustellen, dass das Dashboard seit dem letzten Lesen nicht geändert wurde.
file_path String Der lokale Pfad der Dashboardressource, einschließlich des Dateinamens. Exportierte Dashboards verfügen immer über die Dateierweiterung .lvdash.json.
permissions Sequence Die Dashboardberechtigungen. Weitere Informationen finden Sie unter Berechtigungen.
serialized_dashboard Any Der Inhalt des Dashboards in serialisierter Zeichenfolgenform.
warehouse_id String Die Warehouse-ID, die zum Ausführen des Dashboards verwendet wird.

Example

Im folgenden Beispiel wird das Dashboard NYC Taxi Trip Analysis im Databricks-Arbeitsbereich einbezogen und bereitgestellt.

resources:
  dashboards:
    nyc_taxi_trip_analysis:
      display_name: 'NYC Taxi Trip Analysis'
      file_path: ../src/nyc_taxi_trip_analysis.lvdash.json
      warehouse_id: ${var.warehouse_id}

Datenbankkatalog

Type: Map

Mit der Datenbankkatalogressource können Sie Datenbankkataloge definieren, die Datenbankinstanzen in einem Bündel entsprechen. Ein Datenbankkatalog ist eine Lakebase-Datenbank, die als Unity-Katalogkatalog registriert ist.

Informationen zu Datenbankkatalogen finden Sie unter Erstellen eines Katalogs.

database_catalogs:
  <database_catalog-name>:
    <database_catalog-field-name>: <database_catalog-field-value>
Key Type Description
create_database_if_not_exists Boolean Gibt an, ob die Datenbank erstellt werden soll, falls sie nicht vorhanden ist.
database_instance_name String Der Name der Instanz, die die Datenbank enthält.
database_name String Der Name der Datenbank (in einer Instanz), die dem Katalog zugeordnet ist.
lifecycle Map Enthält die Lebenszykluseinstellungen für eine Ressource, einschließlich des Verhaltens der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus.
name String Der Name des Katalogs im Unity-Katalog.

Example

Im folgenden Beispiel wird eine Datenbankinstanz mit einem entsprechenden Datenbankkatalog definiert:

resources:
  database_instances:
    my_instance:
      name: my-instance
      capacity: CU_1
  database_catalogs:
    my_catalog:
      database_instance_name: ${resources.database_instances.my_instance.name}
      name: example_catalog
      database_name: my_database
      create_database_if_not_exists: true

Datenbankinstanz

Type: Map

Mit der Datenbankinstanzressource können Sie Datenbankinstanzen in einem Bündel definieren. Eine Lakebase-Datenbankinstanz verwaltet Speicher- und Computeressourcen und stellt die Endpunkte bereit, mit denen Benutzer eine Verbindung herstellen.

Von Bedeutung

Wenn Sie ein Bundle mit einer Datenbankinstanz bereitstellen, beginnt die Instanz sofort mit der Ausführung und unterliegt den Preisen. Siehe Lakebase-Preise.

Informationen zu Datenbankinstanzen finden Sie unter Was ist eine Datenbankinstanz?.

database_instances:
  <database_instance-name>:
    <database_instance-field-name>: <database_instance-field-value>
Key Type Description
capacity String Die Sku der Instanz. Gültige Werte sind CU_1, CU_2, CU_4, CU_8.
custom_tags Sequence Eine Liste von Schlüssel-Wert-Paaren, die benutzerdefinierte Tags angeben, die der Instanz zugeordnet sind.
enable_pg_native_login Boolean Gibt an, ob die Instanz die PG native Kennwortanmeldung aktiviert hat. Wird standardmäßig auf true festgelegt.
enable_readable_secondaries Boolean Gibt an, ob Secondaries für schreibgeschützten Datenverkehr aktiviert werden sollen. Wird standardmäßig auf false festgelegt.
lifecycle Map Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus.
name String Der Name der Instanz. Dies ist der eindeutige Bezeichner für die Instanz.
node_count Integer Die Anzahl der Knoten in der Instanz, bestehend aus 1 primären und 0 oder mehr Secondärdateien. Standardmäßig werden 1 primäre und 0 Secondaries verwendet.
parent_instance_ref Map Der Verweis der übergeordneten Instanz. Dies ist nur verfügbar, wenn es sich bei der Instanz um eine untergeordnete Instanz handelt. Siehe übergeordnete Instanz.
permissions Sequence Berechtigungen der Datenbankinstanz. Weitere Informationen finden Sie unter Berechtigungen.
retention_window_in_days Integer Das Aufbewahrungsfenster für die Instanz. Dies ist das Zeitfenster in Tagen, für das die historischen Daten aufbewahrt werden. Der Standardwert ist 7 Tage. Gültige Werte sind 2 bis 35 Tage.
stopped Boolean Gibt an, ob die Instanz beendet wird.
usage_policy_id String Die gewünschte Verwendungsrichtlinie, die der Instanz zugeordnet werden soll.

datenbank_instanz.parent_instanz_ref

Type: Map

Der Verweis der übergeordneten Instanz. Dies ist nur verfügbar, wenn es sich bei der Instanz um eine untergeordnete Instanz handelt.

Key Type Description
branch_time String Verzweigungszeit der Referenzdatenbankinstanz. Bei einer übergeordneten Verweisinstanz ist dies der Zeitpunkt in der übergeordneten Instanz, aus der die Instanz erstellt wurde. Bei einer untergeordneten Referenzinstanz ist dies der Zeitpunkt der Instanz, aus der die untergeordnete Instanz erstellt wurde.
lsn String Vom Benutzer angegebene WAL LSN der Referenzdatenbankinstanz.
name String Name der Referenzdatenbankinstanz.

Example

Im folgenden Beispiel wird eine Datenbankinstanz mit einem entsprechenden Datenbankkatalog definiert:

resources:
  database_instances:
    my_instance:
      name: my-instance
      capacity: CU_1
  database_catalogs:
    my_catalog:
      database_instance_name: ${resources.database_instances.my_instance.name}
      name: example_catalog
      database_name: my_database
      create_database_if_not_exists: true

Ein Beispielbundle, das veranschaulicht, wie eine Datenbankinstanz und ein entsprechender Datenbankkatalog definiert werden, finden Sie im GitHub-Repository für Bundlebeispiele.

Experiment

Type: Map

Mit der Experimentressource können Sie MLflow-Experimente in einem Bündel definieren. Informationen zu MLflow-Experimenten finden Sie unter Organisieren von Trainingsläufen mit MLflow-Experimenten.

experiments:
  <experiment-name>:
    <experiment-field-name>: <experiment-field-value>
Key Type Description
artifact_location String Der Ort, an dem Artefakte für das Experiment gespeichert werden.
lifecycle Map Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus.
name String Der Anzeigename, der das Experiment identifiziert. Ein Experimentname muss ein absoluter Pfad im Databricks-Arbeitsbereich sein, z. B /Workspace/Users/someone@example.com/my_experiment. .
permissions Sequence Die Berechtigungen des Experiments. Weitere Informationen finden Sie unter Berechtigungen.
tags Sequence Zusätzliche Metadaten-Schlüssel-Wert-Paare. Siehe Tags.

Example

Im folgenden Beispiel wird ein Experiment definiert, das alle Benutzer anzeigen können:

resources:
  experiments:
    experiment:
      name: /Workspace/Users/someone@example.com/my_experiment
      permissions:
        - level: CAN_READ
          group_name: users
      description: MLflow experiment used to track runs

Arbeit

Type: Map

Für Databricks-Asset-Bundles werden Aufträge in Python unterstützt. Siehe databricks.bundles.jobs.

Mit der Auftragsressource können Sie Aufträge und die entsprechenden Tasks in Ihrem Bundle definieren.

Informationen zu Aufträgen finden Sie unter Lakeflow Jobs. Ein Lernprogramm, das eine Vorlage "Databricks Asset Bundles" verwendet, um einen Auftrag zu erstellen, finden Sie unter Entwickeln eines Auftrags mit Databricks Asset Bundles.For a tutorial that uses a Databricks Asset Bundles template to create a job, see Develop a job with Databricks Asset Bundles.

jobs:
  <job-name>:
    <job-field-name>: <job-field-value>
Key Type Description
budget_policy_id String Die ID der vom Benutzer angegebenen Budgetrichtlinie, die für diesen Auftrag verwendet werden soll. Wenn nicht angegeben, kann beim Erstellen oder Ändern des Auftrags eine Standardbudgetrichtlinie angewendet werden. Weitere Informationen über die von diesem Workload verwendete Budgetrichtlinie finden Sie unter effective_budget_policy_id.
continuous Map Eine optionale fortlaufende Eigenschaft für diesen Auftrag. Die fortlaufende Eigenschaft stellt sicher, dass es immer eine Ausführung gibt, die gerade ausgeführt wird. Nur einer von schedule und continuous kann verwendet werden. Weitere Informationen finden Sie unter fortlaufend.
deployment Map Bereitstellungsinformationen für Aufträge, die von externen Quellen verwaltet werden. Weitere Informationen finden Sie unter Bereitstellung.
description String Eine optionale Beschreibung für den Auftrag. Die maximale Länge beträgt 27700 Zeichen in UTF-8-Codierung.
edit_mode String Bearbeitungsmodus des Auftrags (entweder UI_LOCKED oder EDITABLE).
email_notifications Map Ein optionaler Satz von E-Mail-Adressen, die benachrichtigt werden, wenn die Ausführung dieses Auftrags beginnt oder abgeschlossen wird, sowie wenn dieser Auftrag gelöscht wird. Siehe email_notifications.
environments Sequence Eine Liste der Spezifikationen für die Aufgabenausführungsumgebung, auf die von serverlosen Tasks dieses Auftrags verwiesen werden kann. Für serverlose Aufgaben muss eine Umgebung vorhanden sein. Für serverlose Notizbuchaufgaben kann auf die Umgebung im Notizbuchumgebungsbereich zugegriffen werden. Für andere serverlose Aufgaben muss die Aufgabenumgebung mithilfe von environment_key in den Aufgabeneinstellungen angegeben werden. Siehe Umgebungen.
format String Deprecated. Das Format des Jobs.
git_source Map Eine optionale Spezifikation für ein Remote-Git-Repository, das den von Aufgaben verwendeten Quellcode enthält. Siehe job.git_source.
Wichtig: Die Felder git_source und das Aufgabenfeld source, die auf GIT gesetzt sind, werden für Pakete nicht empfohlen, da lokale relative Pfade möglicherweise nicht auf denselben Inhalt im Git-Repository verweisen. Pakete erwarten, dass ein bereitgestellter Job denselben Inhalt wie die lokale Kopie hat, von der er bereitgestellt wurde.
Klonen Sie stattdessen das Repository lokal, und richten Sie Ihr Bündelprojekt in diesem Repository ein, sodass die Quelle für Aufgaben der Arbeitsbereich ist.
health Map Ein optionaler Satz von Gesundheitsregeln, die für diese Aufgabe definiert werden können. Siehe Gesundheit.
job_clusters Sequence Eine Liste von Job-Cluster-Spezifikationen, die für Aufgaben dieses Jobs freigegeben und wiederverwendet werden können. Siehe job_clusters.
max_concurrent_runs Integer Eine optionale maximal zulässige Anzahl gleichzeitiger Ausführungen des Jobs. Legen Sie diesen Wert fest, wenn Sie mehrere Ausführungen desselben Auftrags gleichzeitig ausführen möchten.
name String Ein optionaler Name für den Job. Die maximale Länge beträgt 4096 Bytes in UTF-8-Codierung.
notification_settings Map Optionale Benachrichtigungseinstellungen, die verwendet werden, wenn Benachrichtigungen an jeweils email_notifications und webhook_notifications für diesen Auftrag gesendet werden. Siehe notification_settings.
parameters Sequence Parameterdefinitionen auf Job-Ebene.
performance_target String Definiert, wie leistungsfähig oder kosteneffizient die Ausführung in einer serverlosen Umgebung sein soll.
permissions Sequence Die Berechtigungen des Auftrags. Weitere Informationen finden Sie unter Berechtigungen.
queue Map Die Warteschlangeneinstellungen des Auftrags. Siehe Warteschlange.
run_as Map Schreibgeschützte Einstellung. Gibt den Benutzer oder Dienstprinzipal an, unter dem der Auftrag ausgeführt wird. Sofern nicht angegeben, wird der Auftrag unter dem Benutzer ausgeführt, der den Auftrag erstellt hat. Entweder user_name oder service_principal_name sollte angegeben werden. Falls nicht, wird eine Fehlermeldung ausgelöst. Siehe run_as.
schedule Map Ein optionaler periodischer Zeitplan für diesen Auftrag. Das Standardverhalten besteht darin, dass der Auftrag nur ausgeführt wird, wenn er ausgelöst wird, indem in der Benutzeroberfläche von Aufträgen auf "Jetzt ausführen" geklickt wird oder indem eine API-Anforderung an runNow gesendet wird. Siehe Zeitplan.
tags Map Eine Karte von Tags, die dem Auftrag zugeordnet sind. Diese werden an den Cluster als Clustertags für Auftragscluster weitergeleitet und unterliegen den gleichen Einschränkungen wie Clustertags. Es können maximal 25 Tags zu dem Auftrag hinzugefügt werden.
tasks Sequence Eine Liste der Aufgabenvorgaben, die von diesem Auftrag ausgeführt werden sollen. Siehe Hinzufügen von Aufgaben zu Aufträgen in Databricks Asset Bundles.
timeout_seconds Integer Ein optionales Timeout, das auf jede Ausführung dieses Auftrags angewendet wird. Ein Wert von 0 bedeutet kein Timeout.
trigger Map Eine Konfiguration zum Auslösen einer Ausführung, wenn bestimmte Bedingungen erfüllt sind. Siehe Auslöser.
webhook_notifications Map Eine Sammlung von Systembenachrichtigungs-IDs, die ausgelöst werden, wenn die Ausführung dieses Auftrags beginnt oder abgeschlossen ist. Siehe webhook_notifications.

Auftrag.kontinuierlich

Type: Map

Konfiguration für die fortlaufende Auftragsausführung.

Key Type Description
pause_status String Gibt an, ob der fortlaufende Auftrag pausiert ist oder nicht. Gültige Werte: PAUSED, UNPAUSED.
task_retry_mode String Geben Sie an, wie der fortlaufende Auftrag Wiederholungen auf Vorgangsebene anwendet. Gültige Werte sind NEVER und ON_FAILURE. Wird standardmäßig auf NEVER festgelegt.

job.deployment

Type: Map

Bereitstellungsinformationen für Aufträge, die von externen Quellen verwaltet werden.

Key Type Description
kind String Die Art der Bereitstellung. Beispiel: BUNDLE.
metadata_file_path String Der Pfad zur Metadatendatei für die Bereitstellung.

job.E-Mail-Benachrichtigungen

Type: Map

E-Mail-Benachrichtigungseinstellungen für Auftragsausführungen.

Key Type Description
on_start Sequence Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn eine Ausführung gestartet wird.
on_success Sequence Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn eine Ausführung erfolgreich ausgeführt wird.
on_failure Sequence Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn eine Ausführung fehlschlägt.
on_duration_warning_threshold_exceeded Sequence Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn eine Laufzeit den Warnschwellenwert überschreitet.
no_alert_for_skipped_runs Boolean Gibt an, ob das Senden von Benachrichtigungen für übersprungene Läufe übersprungen werden soll.

job.umgebungen

Type: Sequence

Eine Liste der Spezifikationen für die Aufgabenausführungsumgebung, auf die von serverlosen Aufgaben eines Auftrags verwiesen werden kann.

Jedes Element in der Liste ist ein JobEnvironment:

Key Type Description
environment_key String Der Schlüssel einer Umgebung. Es muss innerhalb eines Auftrags einzigartig sein.
spec Map Die Entität, die eine serverlose Umgebung darstellt. Siehe job.environments.spec.

job.environments.spec

Type: Map

Die Entität, die eine serverlose Umgebung darstellt.

Key Type Description
client String Deprecated. Die Clientversion.
dependencies Sequence Liste der Pip-Abhängigkeiten, wie von der Version der Pip in dieser Umgebung unterstützt.
environment_version String Erforderlich. Von der Umgebung verwendete Umgebungsversion. Jede Version enthält eine bestimmte Python-Version und eine Reihe von Python-Paketen. Die Version ist eine Zeichenfolge, die aus einer ganzen Zahl besteht.

job.git_source

Type: Map

Git-Repositorykonfiguration für Auftragsquellcode.

Key Type Description
git_branch String Der Name des Branches, der von diesem Auftrag ausgecheckt und verwendet werden soll. Dieses Feld kann nicht in Verbindung mit git_tag oder git_commit.
git_commit String Übernehmen Sie diesen Commit, um ausgecheckt und von diesem Auftrag verwendet zu werden. Dieses Feld kann nicht in Verbindung mit git_branch oder git_tag.
git_provider String Eindeutiger Bezeichner des Diensts, der zum Hosten des Git-Repositorys verwendet wird. Bei dem Wert wird die Groß-/Kleinschreibung nicht beachtet. Gültige Werte sind gitHub, bitbucketCloud, gitLab, azureDevOpsServices, gitHubEnterprise, bitbucketServer, gitLabEnterpriseEdition.
git_snapshot Map Schreibgeschützter Status des Remote-Repository zum Zeitpunkt der Ausführung des Auftrags. Dieses Feld ist nur bei Jobläufen enthalten. Siehe git_snapshot.
git_tag String Name des Tags, das ausgecheckt und von diesem Auftrag verwendet werden soll. Dieses Feld kann nicht in Verbindung mit git_branch oder git_commit.
git_url String DIE URL des Repositorys, das von diesem Auftrag geklont werden soll.

job.git_source.git_snapshot

Type: Map

Momentaufnahme von schreibgeschützten Commit-Informationen.

Key Type Description
used_commit String Commit, der zum Ausführen der Ausführung verwendet wurde. Wenn git_branch angegeben wurde, verweist dies auf den HEAD der Verzweigung zum Zeitpunkt der Ausführung; wenn git_tag angegeben wurde, verweist dies auf den Commit, auf den der Tag zeigt.

job.health

Type: Map

Konfiguration der Gesundheitsüberwachung für den Task.

Key Type Description
rules Sequence Eine Liste der Regeln für die Arbeitsintegrität. Jede Regel enthält ein metric und op (Operator) und value. Siehe job.health.rules.

job.gesundheit.regeln

Type: Sequence

Eine Liste der Regeln für die Arbeitsintegrität.

Jedes Element in der Liste ist ein JobHealthRule:

Key Type Description
metric String Gibt die Integritätsmetrik an, die für eine bestimmte Integritätsregel ausgewertet wird.
  • RUN_DURATION_SECONDS: Erwartete Gesamtzeit für einen Durchlauf in Sekunden.
  • STREAMING_BACKLOG_BYTES: Eine Schätzung der maximalen Byte von Daten, die auf die Nutzung aller Datenströme warten. Diese Metrik befindet sich in der öffentlichen Vorschau.
  • STREAMING_BACKLOG_RECORDS: Eine Schätzung des maximalen Offsetabstands über alle Datenströme hinweg. Diese Metrik befindet sich in der öffentlichen Vorschau.
  • STREAMING_BACKLOG_SECONDS: Eine Schätzung der maximalen Verzögerung für den Verbraucher über alle Datenströme hinweg. Diese Metrik befindet sich in der öffentlichen Vorschau.
  • STREAMING_BACKLOG_FILES: Eine Schätzung der maximalen Anzahl ausstehender Dateien über alle Datenströme hinweg. Diese Metrik befindet sich in der öffentlichen Vorschau.
op String Gibt den Operator an, der zum Vergleichen des Integritätsmetrikwerts mit dem angegebenen Schwellenwert verwendet wird.
value Integer Gibt den Schwellenwert an, dem die Integritätsmetrik gehorchen soll, um die Integritätsregel zu erfüllen.

job.job_clusters

Type: Sequence

Eine Liste von Job-Cluster-Spezifikationen, die für Aufgaben dieses Jobs freigegeben und wiederverwendet werden können. Bibliotheken können nicht in einem freigegebenen Auftragscluster deklariert werden. Sie müssen abhängige Bibliotheken in Aufgabeneinstellungen deklarieren.

Jedes Element in der Liste ist ein JobCluster:

Key Type Description
job_cluster_key String Ein eindeutiger Name für den Auftragscluster. Dieses Feld ist erforderlich und muss innerhalb des Auftrags eindeutig sein. JobTaskSettings kann auf dieses Feld verweisen, um zu bestimmen, welcher Cluster für die Aufgabenausführung gestartet werden soll.
new_cluster Map Wenn new_cluster, eine Beschreibung eines Clusters, der für jede Aufgabe erstellt wird. Siehe Cluster.

job.Benachrichtigungseinstellungen

Type: Map

Benachrichtigungseinstellungen, die für alle Benachrichtigungen für den Auftrag gelten.

Key Type Description
no_alert_for_skipped_runs Boolean Gibt an, ob das Senden von Benachrichtigungen für übersprungene Läufe übersprungen werden soll.
no_alert_for_canceled_runs Boolean Gibt an, ob das Senden von Benachrichtigungen für abgebrochene Ausführungen übersprungen werden soll.

Job-Warteschlange

Type: Map

Einstellungen der Warteschlange für die Aufgabe.

Key Type Description
enabled Boolean Gibt an, ob die Warteschlange für den Auftrag aktiviert werden soll.

job.schedule

Type: Map

Planen sie die Konfiguration für die regelmäßige Auftragsausführung.

Key Type Description
quartz_cron_expression String Ein Cron-Expression mit Quartz-Syntax, die angibt, wann der Job ausgeführt wird. Führt den Auftrag beispielsweise 0 0 9 * * ? täglich um 9:00 Uhr UTC aus.
timezone_id String Die Zeitzone für den Zeitplan. Zum Beispiel: America/Los_Angeles oder UTC.
pause_status String Gibt an, ob der Zeitplan angehalten wird oder nicht. Gültige Werte: PAUSED, UNPAUSED.

job.auslöser

Type: Map

Triggerkonfiguration für ereignisgesteuerte Auftragsausführung.

Key Type Description
file_arrival Map Trigger basierend auf Dateiankunft. Siehe file_arrival.
table Map Trigger basierend auf einer Tabelle. Siehe Tabelle.
table_update Map Trigger basierend auf Tabellenaktualisierungen. Siehe table_update.
periodic Map Periodischer Auslöser. Siehe zyklisch.

job.trigger.dateieingang

Type: Map

Auslösen der Konfiguration basierend auf dem Dateieingang.

Key Type Description
url String Der Dateipfad, der auf neue Dateien überwacht werden soll.
min_time_between_triggers_seconds Integer Minimale Zeit in Sekunden zwischen Triggerereignissen.
wait_after_last_change_seconds Integer Wartezeit in Sekunden nach der letzten Dateiänderung, bevor eine Auslösung erfolgt.

job.trigger.table

Type: Map

Auslösen der Konfiguration basierend auf einer Tabelle.

Key Type Description
table_names Sequence Eine Liste von Tabellennamen, die überwacht werden sollen.
condition String Die SQL-Bedingung, die erfüllt werden muss, um den Auftrag auszulösen.

job.trigger.tabellenaktualisierung

Type: Map

Auslösen der Konfiguration basierend auf Tabellenaktualisierungen.

Key Type Description
table_names Sequence Eine Liste der Tabellennamen, die auf Updates überwacht werden sollen.
condition String Die SQL-Bedingung, die erfüllt werden muss, um den Auftrag auszulösen.
wait_after_last_change_seconds Integer Wartezeit in Sekunden nach der letzten Tabellenaktualisierung, bevor der Trigger ausgelöst wird.

job.trigger.periodisch

Type: Map

Periodische Auslöserkonfiguration

Key Type Description
interval Integer Der Intervallwert für den periodischen Auslöser.
unit String Die Zeiteinheit für das Intervall. Gültige Werte: SECONDS, , MINUTESHOURS, DAYS, . WEEKS

job.Webhook-Benachrichtigungen

Type: Map

Webhook-Benachrichtigungseinstellungen für Auftragsausführungen.

Key Type Description
on_start Sequence Eine Liste der Webhook-Benachrichtigungs-IDs, die benachrichtigt werden sollen, wenn eine Ausführung gestartet wird.
on_success Sequence Eine Liste der Webhook-Benachrichtigungs-IDs, die benachrichtigt werden sollen, wenn eine Ausführung erfolgreich ausgeführt wird.
on_failure Sequence Eine Liste von Webhook-Benachrichtigungs-IDs, die verwendet werden, um Benachrichtigungen auszulösen, wenn eine Ausführung fehlschlägt.
on_duration_warning_threshold_exceeded Sequence Eine Liste der Webhook-Benachrichtigungs-IDs, die benachrichtigt werden sollen, wenn eine Laufzeit den Warnschwellenwert überschreitet.

Examples

Im folgenden Beispiel wird ein Job mit dem Ressourcenschlüssel hello-job mit einer Notebook-Aufgabe definiert.

resources:
  jobs:
    hello-job:
      name: hello-job
      tasks:
        - task_key: hello-task
          notebook_task:
            notebook_path: ./hello.py

Im folgenden Beispiel wird ein Auftrag mit einem SQL-Notizbuch definiert:

resources:
  jobs:
    job_with_sql_notebook:
      name: 'Job to demonstrate using a SQL notebook with a SQL warehouse'
      tasks:
        - task_key: notebook
          notebook_task:
            notebook_path: ./select.sql
            warehouse_id: 799f096837fzzzz4

Weitere Auftragskonfigurationsbeispiele finden Sie unter Auftragskonfiguration.

Informationen zum Definieren von Auftragsaufgaben und zum Überschreiben von Auftragseinstellungen finden Sie unter:

model (Legacy)

Type: Map

Mit der Modellressource können Sie Legacymodelle in Bündeln definieren. Databricks empfiehlt, stattdessen die in Unity-Katalog registrierten Modelle zu verwenden.

Modellbereitstellung-Endpunkt

Type: Map

Mit der model_serving_endpoint-Ressource können Sie Modell definieren, das Endpunktebedient. Weitere Informationen finden Sie unter Verwalten von Modellbereitstellungsendpunkten.

model_serving_endpoints:
  <model_serving_endpoint-name>:
    <model_serving_endpoint-field-name>: <model_serving_endpoint-field-value>
Key Type Description
ai_gateway Map Die Konfiguration des AI-Gateways für den bereitstellenden Endpunkt. HINWEIS: Derzeit werden nur externe Modell- und bereitgestellte Durchsatzendpunkte unterstützt. Siehe ai_gateway.
config Map Die Kernkonfiguration des Bereitstellungsendpunkts. Siehe "config".
name String Der Name des Bereitstellungsendpunkts Dieses Feld ist erforderlich und muss in einem Databricks-Arbeitsbereich eindeutig sein. Ein Endpunktname kann aus alphanumerischen Zeichen, Gedankenstrichen und Unterstrichen bestehen.
permissions Sequence Das Modell, das die Berechtigungen des Endpunkts bedient. Weitere Informationen finden Sie unter Berechtigungen.
rate_limits Sequence Deprecated. Ratengrenzwerte, die auf den Dienstendpunkt angewendet werden sollen. Verwenden Sie AI-Gateway, um Ratelimits zu verwalten.
route_optimized Boolean Aktivieren Sie die Routenoptimierung für den Dienstendpunkt.
tags Sequence Tags, die an den Bereitstellungsendpunkt angefügt und automatisch an Abrechnungsprotokolle weitergeleitet werden sollen.

Modellbereitstellungsendpunkt.ai_gateway

Type: Map

AI-Gatewaykonfiguration für den bereitstellenden Endpunkt.

Key Type Description
guardrails Map Guardrail-Konfiguration. Siehe Schutzschienen.
inference_table_config Map Konfiguration für die Inferenzprotokollierung für Unity-Katalogtabellen. Siehe inference_table_config.
rate_limits Sequence Konfigurationen für die Ratenbegrenzung.
usage_tracking_config Map Konfiguration zur Verfolgung der Nutzung. Siehe usage_tracking_config.

Modellbereitstellungsendpunkt.ai_gateway.Schutzmaßnahmen

Type: Map

Die Konfiguration der KI-Gateway-Schutzschienen.

Key Type Description
input Map Konfiguration der Eingabeschutzschienen mit Feldern wie safety, pii.
output Map Konfiguration der Ausgabeschutzschienen mit Feldern wie safety, pii.
invalid_keywords Sequence Eine Liste der zu blockierenden Schlüsselwörter.

model_serving_endpoint.ai_gateway.inferenz_tabellenkonfiguration

Type: Map

Konfiguration für die Inferenzprotokollierung für Unity-Katalogtabellen.

Key Type Description
catalog_name String Der Name des Katalogs im Unity-Katalog.
schema_name String Der Name des Schemas im Unity-Katalog.
table_name_prefix String Das Präfix für Inference-Tabellennamen.
enabled Boolean Gibt an, ob die Ableitungstabellenprotokollierung aktiviert ist.

Modellbereitstellungsendpunkt.ai_gateway.Nutzungsverfolgungskonfiguration

Type: Map

Die KI-Gatewaykonfiguration für die Nachverfolgung der Nutzung.

Key Type Description
enabled Boolean Gibt an, ob die Verwendungsnachverfolgung aktiviert ist.

model_serving_endpoint.config

Type: Map

Die Kernkonfiguration des bereitzustellenden Endpunkts.

Key Type Description
served_entities Sequence Eine Liste der bereitgestellten Entitäten für den Endpunkt, der bedient werden soll. Jede bereitgestellte Entität enthält Felder wie entity_name, entity_version, workload_size, scale_to_zero_enabled, , workload_type. environment_vars
served_models Sequence (Veraltet: Verwenden Sie served_entities stattdessen) Eine Liste der bereitgestellten Modelle für den Endpunkt, die bedient werden sollen.
traffic_config Map Die Verkehrskonfiguration, die definiert, wie Aufrufe an den Serving-Endpoint weitergeleitet werden sollen. Siehe traffic_config.
auto_capture_config Map Konfiguration für Inference-Tabellen, in denen Anforderungen und Antworten automatisch im Unity-Katalog protokolliert werden. Siehe auto_capture_config.

model_serving_endpoint.config.Verkehrskonfiguration

Type: Map

Die Verkehrskonfiguration, die definiert, wie Aufrufe an den Serving-Endpoint weitergeleitet werden sollen.

Key Type Description
routes Sequence Eine Liste der Routen für die Verkehrsverteilung. Jede Route enthält served_model_name und traffic_percentage.

model_serving_endpoint.config.auto_capture_config

Type: Map

Konfiguration für Inference-Tabellen, in denen Anforderungen und Antworten automatisch im Unity-Katalog protokolliert werden.

Key Type Description
catalog_name String Der Name des Katalogs im Unity-Katalog.
schema_name String Der Name des Schemas im Unity-Katalog.
table_name_prefix String Das Präfix für Inference-Tabellennamen.
enabled Boolean Gibt an, ob die Ableitungstabellenprotokollierung aktiviert ist.

Example

Im folgenden Beispiel wird ein Unity-Katalogmodell definiert, das Endpunkte bedient:

resources:
  model_serving_endpoints:
    uc_model_serving_endpoint:
      name: 'uc-model-endpoint'
      config:
        served_entities:
          - entity_name: 'myCatalog.mySchema.my-ads-model'
            entity_version: '10'
            workload_size: 'Small'
            scale_to_zero_enabled: 'true'
        traffic_config:
          routes:
            - served_model_name: 'my-ads-model-10'
              traffic_percentage: '100'
      tags:
        - key: 'team'
          value: 'data science'

Rohrleitung

Type: Map

Pipelines werden in Python für Databricks Asset Bundles unterstützt. Siehe databricks.bundles.pipelines.

Mit der Pipelineressource können Sie Pipelines erstellen. Informationen zu Pipelines finden Sie unter Lakeflow Spark Declarative Pipelines. Ein Lernprogramm, das die Vorlage "Databricks Asset Bundles" zum Erstellen einer Pipeline verwendet, finden Sie unter Develop Lakeflow Spark Declarative Pipelines with Databricks Asset Bundles.

pipelines:
  <pipeline-name>:
    <pipeline-field-name>: <pipeline-field-value>
Key Type Description
allow_duplicate_names Boolean Wenn dieser Wert auf „false“ fesgelegt wird, schlägt die Bereitstellung fehl, wenn der Name mit der einer anderen Pipeline in Konflikt steht.
budget_policy_id String Budgetpolitik dieser Pipeline.
catalog String Ein Katalog innerhalb des Unity-Katalogs, in dem Daten aus dieser Pipeline veröffentlicht werden können. Wenn target angegeben, werden Tabellen in dieser Pipeline in einem target Schema innerhalb catalog (z. B catalog. .target.table) veröffentlicht. Wenn target nicht angegeben, werden keine Daten im Unity-Katalog veröffentlicht.
channel String Der Lakeflow Spark Declarative Pipelines Release Channel, der angibt, welche Version von Lakeflow Spark Declarative Pipelines verwendet werden soll.
clusters Sequence Die Clustereinstellungen für diese Pipelinebereitstellung. Siehe Cluster.
configuration Map Die Konfiguration für diese Pipelineausführung.
continuous Boolean Gibt an, ob die Pipeline fortlaufend ist oder ausgelöst wird. Dieser Schlüssel ersetzt trigger.
deployment Map Bereitstellungstyp dieser Pipeline. Weitere Informationen finden Sie unter Bereitstellung.
development Boolean Gibt an, ob sich die Pipeline im Entwicklungsmodus befindet. Der Standardwert ist „false“.
dry_run Boolean Gibt an, ob es sich bei der Pipeline um eine Trockenlaufpipeline handelt.
edition String Die Edition des Pipelineprodukts.
environment Map Die Umgebungsspezifikation für diese Pipeline wurde verwendet, um Abhängigkeiten in einer serverlosen Computerumgebung zu installieren. Siehe Umgebung. Dieser Schlüssel wird nur in Databricks CLI Version 0.258 und höher unterstützt.
event_log Map Die Ereignisprotokollkonfiguration für diese Pipeline. Siehe event_log.
filters Map Die Filter, die bestimmen, welche Pipelinepakete in das bereitgestellte Diagramm aufgenommen werden sollen. Siehe Filter.
id String Eindeutiger Bezeichner für diese Pipeline.
ingestion_definition Map Die Konfiguration für eine verwaltete Aufnahmepipeline. Diese Einstellungen können nicht mit den Einstellungen libraries, schema, target, oder catalog verwendet werden. Siehe ingestion_definition.
libraries Sequence Eine Liste der Bibliotheken oder des Quellcodes, die für diese Bereitstellung benötigt werden. Siehe pipeline.libraries.
lifecycle Map Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus.
name String Ein benutzerfreundlicher Name für diese Pipeline.
notifications Sequence Die Benachrichtigungseinstellungen für diese Pipeline.
permissions Sequence Die Berechtigungen der Pipeline. Weitere Informationen finden Sie unter Berechtigungen.
photon Boolean Gibt an, ob Photon für diese Pipeline aktiviert ist.
root_path String Der Stammpfad für diese Pipeline. Dies wird beim Bearbeiten der Pipeline auf der Databricks-Benutzeroberfläche als Stammverzeichnis verwendet und beim Ausführen von Python-Quellen während der Pipelineausführung zu sys.path hinzugefügt.
run_as Map Die Identität, unter der die Pipeline ausgeführt wird. Wenn nicht angegeben, wird die Pipeline als der Benutzer ausgeführt, der die Pipeline erstellt hat. Nur user_name oder service_principal_name kann angegeben werden. Wenn beide angegeben sind, wird ein Fehler ausgelöst. Siehe run_as.
schema String Das Standardschema (Datenbank), in dem Tabellen gelesen oder veröffentlicht werden.
serverless Boolean Gibt an, ob die serverlose Berechnung für diese Pipeline aktiviert ist.
storage String Das DBFS-Stammverzeichnis zum Speichern von Prüfpunkten und Tabellen.
tags Map Eine Kartierung von Tags, die mit der Pipeline verknüpft sind. Diese werden als Clustertags an den Cluster weitergeleitet und unterliegen daher den gleichen Einschränkungen. Maximal 25 Tags können zur Pipeline hinzugefügt werden.
target String Zielschema (Datenbank), dem Tabellen in dieser Pipeline hinzugefügt werden sollen. Genau einer von schema oder target muss angegeben werden. Wenn Sie im Unity-Katalog veröffentlichen möchten, geben Sie auch an catalog. Dieses veraltete Feld wird für die Pipelineerstellung nicht mehr empfohlen und sollte zugunsten des Felds schema ersetzt werden.

pipeline.Bereitstellung

Type: Map

Bereitstellungstypkonfiguration für die Pipeline.

Key Type Description
kind String Die Art der Bereitstellung. Beispiel: BUNDLE.
metadata_file_path String Der Pfad zur Metadatendatei für die Bereitstellung.

pipeline.Umgebung

Type: Map

Umgebungsspezifikation für die Installation von Abhängigkeiten bei serverlosem Computing.

Key Type Description
dependencies Sequence Eine Liste der pip-Abhängigkeiten, wie von der Version von pip in dieser Umgebung unterstützt. Jede Abhängigkeit ist eine Pip-Anforderungsdateizeile.

pipeline.Ereignisprotokoll

Type: Map

Ereignisprotokollkonfiguration für die Pipeline.

Key Type Description
catalog String Der Unity-Katalogkatalog, unter dem das Ereignisprotokoll veröffentlicht wird.
name String Der Name des Ereignisprotokolls wird im Unity-Katalog veröffentlicht.
schema String Das Unity-Katalogschema, unter dem das Ereignisprotokoll veröffentlicht wird.

Pipeline.Filter

Type: Map

Filter, die bestimmen, welche Pipelinepakete in das bereitgestellte Diagramm eingeschlossen werden sollen.

Key Type Description
include Sequence Eine Liste der einzuschließden Paketnamen.
exclude Sequence Eine Liste der auszuschließenden Paketnamen.

pipeline.ingestion_definition

Type: Map

Konfiguration für eine verwaltete Aufnahmepipeline. Diese Einstellungen können nicht mit den Einstellungen libraries, schema, target, oder catalog verwendet werden.

Key Type Description
connection_name String Der Name der Verbindung, die zur Aufnahme genutzt werden soll.
ingestion_gateway_id String Die ID des Ingestion-Gateways.
objects Sequence Erforderlich. Einstellungen, die Tabellen angeben, die repliziert werden sollen, und das Ziel für die replizierten Tabellen. Jedes Objekt kann ein SchemaSpec-, TableSpec- oder ReportSpec-Objekt sein.
source_configuration Map Quellkonfigurationsparameter auf Katalogebene. Siehe source_configuration.
table_configuration Map Konfiguration für die Eingabetabellen. Siehe table_configuration.

SchemaSpec

Type: Map

Schemaobjektspezifikation zum Aufnehmen aller Tabellen aus einem Schema.

Key Type Description
source_schema String Der Name des zu aufnehmenden Quellschemas.
destination_catalog String Der Name des Zielkatalogs im Unity-Katalog.
destination_schema String Der Name des Zielschemas im Unity-Katalog.
table_configuration Map Konfiguration, die auf alle Tabellen in diesem Schema angewendet werden soll. Siehe pipeline.ingestion_definition.table_configuration.

Tabellenspezifikation

Type: Map

Tabellenobjektspezifikation zum Einlesen einer bestimmten Tabelle.

Key Type Description
source_schema String Der Name des Quellschemas, das die Tabelle enthält.
source_table String Der Name der zu aufnehmenden Quelltabelle.
destination_catalog String Der Name des Zielkatalogs im Unity-Katalog.
destination_schema String Der Name des Zielschemas im Unity-Katalog.
destination_table String Der Name der Zieltabelle im Unity-Katalog.
table_configuration Map Konfiguration für diese spezifische Tabelle. Siehe pipeline.ingestion_definition.table_configuration.

ReportSpec

Type: Map

Berichtsobjektspezifikation für die Erfassung von Analyseberichten.

Key Type Description
source_url String Die URL des Quellberichts.
source_report String Der Name oder der Bezeichner des Quellberichts.
destination_catalog String Der Name des Zielkatalogs im Unity-Katalog.
destination_schema String Der Name des Zielschemas im Unity-Katalog.
destination_table String Der Name der Zieltabelle für die Berichtsdaten.
table_configuration Map Konfiguration für die Berichtstabelle. Siehe pipeline.ingestion_definition.table_configuration.

Pipeline.Aufnahmedefinition.Quellkonfiguration

Type: Map

Konfiguration für die Quelle.

Key Type Description
catalog Map Quellkonfigurationsparameter auf Katalogebene. Siehe Katalog.
Pipeline.Aufnahmedefinition.Quellkonfiguration.Katalog

Type: Map

Quellkonfigurationsparameter auf Katalogebene

Key Type Description
postgres Map Postgres-spezifische Konfigurationsparameter auf Katalogebene. Enthält einen slot_config Schlüssel, der die Map Konfiguration des Postgres-Steckplatzes darstellt, die für die logische Replikation verwendet werden soll.
source_catalog String Der Name des Quellkatalogs.

Pipeline.Einfuhrungsdefinition.Tabellenkonfiguration

Type: Map

Konfigurationsoptionen für Eingabetabellen.

Key Type Description
exclude_columns Sequence Eine Liste der Spaltennamen, die für die Aufnahme ausgeschlossen werden sollen. Wenn nicht angegeben, steuert include_columns vollständig, welche Spalten aufgenommen werden sollen. Wenn angegeben, werden alle anderen Spalten, einschließlich zukünftiger, automatisch in die Eingabe einbezogen. Dieses Feld ist unvereinbar mit include_columns.
include_columns Sequence Eine Liste der Spaltennamen, die für den Datenimport enthalten sein sollen. Wenn nicht angegeben, werden alle Spalten mit Ausnahme der in exclude_columns einbezogen. Zukünftige Spalten werden automatisch einbezogen. Wenn angegeben, werden alle anderen zukünftigen Spalten automatisch von der Einspeisung ausgeschlossen. Dieses Feld ist unvereinbar mit exclude_columns.
primary_keys Sequence Eine Liste der Spaltennamen, die als Primärschlüssel für die Tabelle verwendet werden sollen.
sequence_by Sequence Die Spaltennamen, die die logische Reihenfolge von Ereignissen in den Quelldaten angeben. Spark Declarative Pipelines verwendet diese Sequenzierung, um Änderungsereignisse zu behandeln, die außerhalb der Reihenfolge ankommen.

pipeline.Bibliotheken

Type: Sequence

Definiert die Liste der Bibliotheken oder Code, die von dieser Pipeline benötigt werden.

Jedes Element in der Liste ist eine Definition:

Key Type Description
file Map Der Pfad zu einer Datei, die eine Pipeline definiert und in Databricks Repos gespeichert wird. Siehe pipeline.libraries.file.
glob Map Das einheitliche Feld, das Quellcode enthält. Jeder Eintrag kann ein Notizbuchpfad, ein Dateipfad oder ein Ordnerpfad sein, der endet /**. Dieses Feld kann nicht zusammen mit notebook oder fileverwendet werden. Siehe pipeline.libraries.glob.
notebook Map Der Pfad zu einem Notizbuch, das eine Pipeline definiert und im Databricks-Arbeitsbereich gespeichert wird. Siehe pipeline.libraries.notebook.
whl String Dieses Feld ist veraltet.

pipeline.Bibliotheken.Datei

Type: Map

Der Pfad zu einer Datei, die eine Pipeline definiert und in databricks Repos gespeichert wird.

Key Type Description
path String Der absolute Pfad des Quellcodes.

pipeline.libraries.glob

Type: Map

Das einheitliche Feld, das Quellcode enthält. Jeder Eintrag kann ein Notizbuchpfad, ein Dateipfad oder ein Ordnerpfad sein, der endet /**. Dieses Feld kann nicht zusammen mit notebook oder fileverwendet werden.

Key Type Description
include String Der Quellcode, der für Pipelines eingeschlossen werden soll

pipeline.libraries.notebook

Type: Map

Der Pfad zu einem Notizbuch, das eine Pipeline definiert und im Databricks-Arbeitsbereich gespeichert wird.

Key Type Description
path String Der absolute Pfad des Quellcodes.

Example

Im folgenden Beispiel wird eine Pipeline mit dem Ressourcenschlüssel hello-pipelinedefiniert:

resources:
  pipelines:
    hello-pipeline:
      name: hello-pipeline
      clusters:
        - label: default
          num_workers: 1
      development: true
      continuous: false
      channel: CURRENT
      edition: CORE
      photon: false
      libraries:
        - notebook:
            path: ./pipeline.py

Weitere Pipelinekonfigurationsbeispiele finden Sie unter Pipelinekonfiguration.

quality_monitor (Unity Katalog)

Type: Map

Mit der quality_monitor-Ressource können Sie einen Unity Catalog-Tabellenmonitor definieren. Informationen zu Monitoren finden Sie unter "Datenprofilerstellung".

quality_monitors:
  <quality_monitor-name>:
    <quality_monitor-field-name>: <quality_monitor-field-value>
Key Type Description
assets_dir String Das Verzeichnis zum Speichern von Überwachungsressourcen (z. B. Dashboard, Metriktabellen).
baseline_table_name String Name der Basistabelle, aus der Driftmetriken berechnet werden. Spalten in der überwachten Tabelle sollten auch in der Baselinetabelle vorhanden sein.
custom_metrics Sequence Benutzerdefinierte Metriken, die für die überwachte Tabelle berechnet werden sollen. Hierbei kann es sich um aggregierte Metriken, abgeleitete Metriken (aus bereits berechneten Aggregatmetriken) oder Driftmetriken (Vergleich von Metriken über Zeitfenster) sein. Siehe custom_metrics.
inference_log Map Konfiguration für die Überwachung von Inferezprotokollen. Siehe inference_log.
lifecycle Map Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus.
notifications Map Die Benachrichtigungseinstellungen für den Monitor. Siehe Benachrichtigungen.
output_schema_name String Schema, in dem Ausgabemetriktabellen erstellt werden.
schedule Map Der Zeitplan für die automatische Aktualisierung und die Aktualisierung von Metriktabellen. Siehe Zeitplan.
skip_builtin_dashboard Boolean Gibt an, ob Sie das Erstellen eines Standarddashboards überspringen möchten, in dem Datenqualitätsmetriken zusammengefasst werden.
slicing_exprs Sequence Liste der Spaltenausdrücke zum Aufteilen von Daten für gezielte die Analyse. Die Daten werden nach jedem Ausdruck unabhängig gruppiert, was zu einem separaten Segment für jedes Prädikat und seine Ergänzungen führt. Bei Spalten mit hoher Kardinalität werden nur die nach Häufigkeit 100 häufigsten eindeutigen Werte Segmente generieren.
snapshot Map Konfiguration für die Überwachung von Snapshot-Tabellen. Siehe Momentaufnahme.
table_name String Der vollständige Name der Tabelle.
time_series Map Konfiguration für die Überwachung von Zeitreihentabellen. Siehe time_series.
warehouse_id String Optionales Argument zum Angeben des Lagers für die Dashboarderstellung. Wenn nicht angegeben, wird das erste laufende Lager verwendet.

quality_monitor.custom_metrics

Type: Sequence

Eine Liste der benutzerdefinierten Metrikdefinitionen.

Jedes Element in der Liste ist ein CustomMetric:

Key Type Description
definition String Jinja-Vorlage für einen SQL-Ausdruck, der angibt, wie die Metrik berechnet wird. Siehe Erstellen einer Metrikdefinition.
input_columns Sequence Eine Liste der Spaltennamen in der Eingabetabelle, für die die Metrik berechnet werden soll. Kann verwendet werden :table , um anzugeben, dass die Metrik Informationen aus mehreren Spalten benötigt.
name String Name der Metrik in den Ausgabetabellen.
output_data_type String Der Ausgabetyp der benutzerdefinierten Metrik.
type String Kann nur eines von CUSTOM_METRIC_TYPE_AGGREGATE, CUSTOM_METRIC_TYPE_DERIVED oder CUSTOM_METRIC_TYPE_DRIFT sein. Die CUSTOM_METRIC_TYPE_AGGREGATE- und CUSTOM_METRIC_TYPE_DERIVED-Metriken werden in einer einzelnen Tabelle berechnet, wohingegen die CUSTOM_METRIC_TYPE_DRIFT-Metriken über die Basislinien- und Eingabetabelle oder über zwei aufeinanderfolgende Zeitfenster verglichen werden.
  • CUSTOM_METRIC_TYPE_AGGREGATE: Abhängen nur von den vorhandenen Spalten in Ihrer Tabelle.
  • CUSTOM_METRIC_TYPE_DERIVED: Hängt davon ab, dass zuvor berechnete Aggregatmetriken vorliegen
  • CUSTOM_METRIC_TYPE_DRIFT: Hängt von zuvor berechneten aggregierten oder abgeleiteten Metriken ab

Qualitätsüberwachung.Datenklassifizierungskonfiguration

Type: Map

Konfiguration für die Datenklassifizierung.

Key Type Description
enabled Boolean Gibt an, ob die Datenklassifizierung aktiviert ist.

qualitätsmonitor.inferenzprotokoll

Type: Map

Konfiguration für die Überwachung von Inferezprotokollen.

Key Type Description
granularities Sequence Die Zeitgranularitäten für das Aggregieren von Inferenzprotokollen (z. B. ["1 day"]).
model_id_col String Der Name der Spalte, die die Modell-ID enthält.
prediction_col String Der Name der Spalte, die die Vorhersage enthält.
timestamp_col String Der Name der Spalte, die den Zeitstempel enthält.
problem_type String Der Typ des ML-Problems. Gültige Werte sind PROBLEM_TYPE_CLASSIFICATION, PROBLEM_TYPE_REGRESSION.
label_col String Der Name der Spalte, die die Beschriftung (Bodenwahrkeit) enthält.

quality_monitor.benachrichtigungen

Type: Map

Benachrichtigungseinstellungen für den Monitor.

Key Type Description
on_failure Map Benachrichtigungseinstellungen, wenn der Monitor fehlschlägt. Siehe on_failure.
on_new_classification_tag_detected Map Benachrichtigungseinstellungen, wenn neue Klassifizierungstags erkannt werden. Weitere Informationen finden Sie unter on_new_classification_tag_detected.

Qualitätsüberwachung.Benachrichtigungen.bei_Fehler

Type: Map

Benachrichtigungseinstellungen, wenn der Monitor fehlschlägt.

Key Type Description
email_addresses Sequence Eine Liste von E-Mail-Adressen, die bei einem Monitorausfall benachrichtigt werden sollen.

quality_monitor.benachrichtigungen.bei_neuem_klassifizierung_tag_entdeckt

Type: Map

Benachrichtigungseinstellungen, wenn neue Klassifizierungstags erkannt werden.

Key Type Description
email_addresses Sequence Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn neue Klassifizierungstags erkannt werden.

quality_monitor.schedule

Type: Map

Zeitplan für die automatische Aktualisierung und Auffrischung von Metriktabellen.

Key Type Description
quartz_cron_expression String Ein Cron-Ausdruck mit Quartz-Syntax. Beispielsweise wird 0 0 8 * * ? täglich um 8:00 Uhr ausgeführt.
timezone_id String Die Zeitzone für den Zeitplan (z. B UTC. , America/Los_Angeles).
pause_status String Gibt an, ob der Zeitplan angehalten wird. Gültige Werte: PAUSED, UNPAUSED.

quality_monitor.snapshot

Type: Map

Konfiguration für die Überwachung von Snapshot-Tabellen.

Qualitätsmonitor.Zeitreihe

Konfiguration für die Überwachung von Zeitreihentabellen.

Key Type Description
granularities Sequence Die Zeitgranularitäten für das Aggregieren von Zeitreihendaten (z. B. ["30 minutes"]).
timestamp_col String Der Name der Spalte, die den Zeitstempel enthält.

Examples

Ein vollständiges Beispielbundle, das einen quality_monitor definiert, finden Sie im mlops_demo-Bundle.

In den folgenden Beispielen werden Qualitätsmonitore für InferenceLog-, TimeSeries- und Snapshot-Profiltypen definiert.

# InferenceLog profile type
resources:
  quality_monitors:
    my_quality_monitor:
      table_name: dev.mlops_schema.predictions
      output_schema_name: ${bundle.target}.mlops_schema
      assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      inference_log:
        granularities: [1 day]
        model_id_col: model_id
        prediction_col: prediction
        label_col: price
        problem_type: PROBLEM_TYPE_REGRESSION
        timestamp_col: timestamp
      schedule:
        quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
        timezone_id: UTC
# TimeSeries profile type
resources:
  quality_monitors:
    my_quality_monitor:
      table_name: dev.mlops_schema.predictions
      output_schema_name: ${bundle.target}.mlops_schema
      assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      time_series:
        granularities: [30 minutes]
        timestamp_col: timestamp
      schedule:
        quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
        timezone_id: UTC
# Snapshot profile type
resources:
  quality_monitors:
    my_quality_monitor:
      table_name: dev.mlops_schema.predictions
      output_schema_name: ${bundle.target}.mlops_schema
      assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
      snapshot: {}
      schedule:
        quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
        timezone_id: UTC

registriertes_Modell (Unity-Katalog)

Type: Map

Mit der registrierten Modellressource können Sie Modelle im Unity-Katalog definieren. Informationen zu den im Unity-Katalog registrierten Modellenfinden Sie unter Verwalten des Modelllebenszyklus im Unity-Katalog.

registered_models:
  <registered_model-name>:
    <registered_model-field-name>: <registered_model-field-value>
Key Type Description
aliases Sequence Liste der Aliase, die dem registrierten Modell zugeordnet sind. Siehe registered_model.aliases.
browse_only Boolean Gibt an, ob der Hauptbenutzer auf das Abrufen von Metadaten für das zugeordnete Objekt durch die BROWSE-Berechtigung eingeschränkt ist, wenn der Parameter include_browse in der Anfrage aktiviert ist.
catalog_name String Der Name des Katalogs, in dem sich das Schema und das registrierte Modell befinden.
comment String Der Kommentar, der dem registrierten Modell zugeordnet ist.
full_name String Der dreistufige (vollqualifizierte) Name des registrierten Modells
grants Sequence Die dem registrierten Modell zugeordneten Zuschüsse. Siehe Grant.
lifecycle Map Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus.
name String Der Name des registrierten Modells.
schema_name String Der Name des Schemas, in dem sich das registrierte Modell befindet.
storage_location String Der Speicherort in der Cloud, unter dem Modellversionsdatendateien gespeichert werden.

registriertes_Modell.Aliasse

Type: Sequence

Eine Liste der Aliase, die dem registrierten Modell zugeordnet sind.

Jedes Element in der Liste ist ein Alias:

Key Type Description
alias_name String Name des Alias, z. B. "Champion" oder "latest_stable"
catalog_name String Der Name des Katalogs, der die Modellversion enthält
id String Der eindeutige Bezeichner des Alias
model_name String Der Name des übergeordneten Modells, das in der Modellversion registriert ist, im Verhältnis zum übergeordneten Schema.
schema_name String Der Name des Schemas, das die Modellversion enthält, bezogen auf den übergeordneten Katalog.
version_num Integer Ganzzahlige Versionsnummer der Modellversion, auf die dieser Alias verweist.

Example

Im folgenden Beispiel wird ein registriertes Modell im Unity-Katalog definiert:

resources:
  registered_models:
    model:
      name: my_model
      catalog_name: ${bundle.target}
      schema_name: mlops_schema
      comment: Registered model in Unity Catalog for ${bundle.target} deployment target
      grants:
        - privileges:
            - EXECUTE
          principal: account users

Schema (Unity Catalog)

Type: Map

Schemas werden in Python für Databricks Asset Bundles unterstützt. Siehe databricks.bundles.schemas.

Mit dem Schemaressourcentyp können Sie Unity-Katalog Schemas für Tabellen und andere Ressourcen in Ihren Workflows und Pipelines definieren, die als Teil eines Bündels erstellt wurden. Ein Schema, das sich von anderen Ressourcentypen unterscheidet, weist die folgenden Einschränkungen auf:

  • Der Besitzer einer Schemaressource ist immer der Bereitstellungsbenutzer und kann nicht geändert werden. Wenn run_as im Bundle angegeben ist, wird sie von Vorgängen im Schema ignoriert.
  • Für die Schemaressource sind nur Felder verfügbar, die vom entsprechenden Schemas-Objekt-Erstellungs-API unterstützt werden. Beispielsweise wird enable_predictive_optimization nicht unterstützt, da sie nur in der Update-APIverfügbar ist.
schemas:
  <schema-name>:
    <schema-field-name>: <schema-field-value>
Key Type Description
catalog_name String Der Name des übergeordneten Katalogs.
comment String Eine vom Benutzer bereitgestellte Freiformtextbeschreibung.
grants Sequence Die dem Schema zugeordneten Zuschüsse. Siehe Grant.
lifecycle Map Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus.
name String Der Name des Schemas in Bezug auf den übergeordneten Katalog.
properties Map Eine Zuordnung von Schlüsselwerteigenschaften, die dem Schema zugeordnet sind.
storage_root String Die Speicherstamm-URL für verwaltete Tabellen innerhalb des Schemas.

Examples

Im folgenden Beispiel wird eine Pipeline mit dem Ressourcenschlüssel my_pipeline definiert, die ein Unity-Katalogschema mit dem Schlüssel my_schema als Ziel erstellt:

resources:
  pipelines:
    my_pipeline:
      name: test-pipeline-{{.unique_id}}
      libraries:
        - notebook:
            path: ../src/nb.ipynb
        - file:
            path: ../src/range.sql
      development: true
      catalog: ${resources.schemas.my_schema.catalog_name}
      target: ${resources.schemas.my_schema.id}

  schemas:
    my_schema:
      name: test-schema-{{.unique_id}}
      catalog_name: main
      comment: This schema was created by Databricks Asset Bundles.

Eine Zuordnung von Zuschüssen auf oberster Ebene wird von Databricks Asset Bundles nicht unterstützt. Wenn Sie also Zuschüsse für ein Schema festlegen möchten, definieren Sie die Zuschüsse für das Schema innerhalb der schemas-Zuordnung. Weitere Informationen zu Berechtigungen finden Sie unter Berechtigungen anzeigen, zuweisen und widerrufen.

Im folgenden Beispiel wird ein Unity-Katalogschema mit Zuschüssen definiert:

resources:
  schemas:
    my_schema:
      name: test-schema
      grants:
        - principal: users
          privileges:
            - SELECT
        - principal: my_team
          privileges:
            - CAN_MANAGE
      catalog_name: main

geheimer_Bereich

Type: Map

Mit der secret_scope-Ressource können Sie geheime Bereiche in einem Bündel definieren. Informationen zu geheimen Bereichen finden Sie unter "Geheime Verwaltung".

secret_scopes:
  <secret_scope-name>:
    <secret_scope-field-name>: <secret_scope-field-value>
Key Type Description
backend_type String Der Backend-Typ, mit dem der Reservierungsumfang erstellt werden soll. Wenn nicht angegeben, wird dies standardmäßig auf DATABRICKS gesetzt.
keyvault_metadata Map Die Metadaten für den geheimen Bereich, wenn backend_type gleich AZURE_KEYVAULT ist. Siehe keyvault_metadata.
lifecycle Map Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus.
name String Vom Benutzer angeforderter Bereichsname. Bereichsnamen sind eindeutig.
permissions Sequence Die Berechtigungen, die für den geheimen Bereich gelten sollen. Berechtigungen werden über Secret Scope ACLs verwaltet. Weitere Informationen finden Sie unter Berechtigungen.

secret_scope.keyvault_metadata

Type: Map

Die Metadaten für geheime Azure Key Vault-gesicherte Bereiche.

Key Type Description
resource_id String Die Azure-Ressourcen-ID des Key Vault.
dns_name String Der DNS-Name des Azure Key Vault.

Examples

Im folgenden Beispiel wird ein geheimer Reservierungsumfang definiert, der ein Schlüssel Vault-Backend verwendet:

resources:
  secret_scopes:
    secret_scope_azure:
      name: test-secrets-azure-backend
      backend_type: 'AZURE_KEYVAULT'
      keyvault_metadata:
        resource_id: my_azure_keyvault_id
        dns_name: my_azure_keyvault_dns_name

Im folgenden Beispiel wird eine benutzerdefinierte ACL mit geheimen Bereichen und Berechtigungen festgelegt:

resources:
  secret_scopes:
    my_secret_scope:
      name: my_secret_scope
      permissions:
        - user_name: admins
          level: WRITE
        - user_name: users
          level: READ

Ein Beispiel-Bundle, das demonstriert, wie man einen geheimen Reservierungsumfang und einen Einzelvorgang mit einer Aufgabe, die daraus liest, in einem Bundle definiert, finden Sie im bundle-examples GitHub repository.

SQL-Lager

Type: Map

Mit der SQL Warehouse-Ressource können Sie ein SQL-Lagerhaus in einem Bundle definieren. Informationen zu SQL Warehouses finden Sie unter Data Warehouses in Azure Databricks.

sql_warehouses:
  <sql-warehouse-name>:
    <sql-warehouse-field-name>: <sql-warehouse-field-value>
Key Type Description
auto_stop_mins Integer Die Zeitspanne in Minuten, die ein SQL-Lager im Leerlauf sein muss (z. B. keine RUNNING-Abfragen), bevor es automatisch beendet wird. Gültige Werte sind 0, was keinen Autostopp bedeutet, oder größer oder gleich 10. Der Standardwert ist 120.
channel Map Die Kanaldetails. Kanal anzeigen
cluster_size String Die Größe der für dieses Lager zugewiesenen Cluster. Wenn Sie die Größe eines Spark-Clusters erhöhen, können Sie größere Abfragen darauf ausführen. Wenn Sie die Anzahl gleichzeitiger Abfragen erhöhen möchten, optimieren Sie max_num_clusters. Unterstützte Werte finden Sie unter cluster_size.
creator_name String Der Name des Benutzers, der das Lager erstellt hat.
enable_photon Boolean Gibt an, ob das Lager photonoptimierte Cluster verwenden soll. Der Standardwert ist „false“.
enable_serverless_compute Boolean Gibt an, ob das Lager serverlose Berechnung verwenden soll.
instance_profile_arn String Deprecated. Instanzprofil, das zum Übergeben der IAM-Rolle an den Cluster verwendet wird,
lifecycle Map Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus.
max_num_clusters Integer Die maximale Anzahl von Clustern, die vom Autoscaler erstellt werden, um gleichzeitige Abfragen zu verarbeiten. Werte müssen kleiner oder gleich 30 und größer als oder gleich sein min_num_clusters. Ist nicht festgelegt, wird auf standardmäßig min_clusters gesetzt.
min_num_clusters Integer Die Mindestanzahl der verfügbaren Cluster, die für dieses SQL-Warehouse verwaltet werden. Indem dies erhöht wird, wird sichergestellt, dass stets eine größere Anzahl von Clustern aktiv ist, was somit die Kaltstartzeit für neue Abfragen verkürzen kann. Dies ähnelt reservierten und revocablen Kernen in einem Ressourcen-Manager. Werte müssen größer als 0 und kleiner als oder gleich min(max_num_clusters, 30) sein. Der Standardwert lautet 1.
name String Der logische Name für den Cluster. Der Name muss innerhalb einer Organisation eindeutig sein und weniger als 100 Zeichen umfassen.
permissions Sequence Die Berechtigungen, die für das Lager gelten sollen. Weitere Informationen finden Sie unter Berechtigungen.
spot_instance_policy String Gibt an, ob Spotinstanzen verwendet werden sollen. Gültige Werte sind POLICY_UNSPECIFIED, COST_OPTIMIZED, RELIABILITY_OPTIMIZED. Der Standardwert lautet COST_OPTIMIZED.
tags Map Eine Reihe von Schlüsselwertpaaren, die für alle Ressourcen (z. B. AWS-Instanzen und EBS-Volumes) markiert werden, die diesem SQL-Lager zugeordnet sind. Die Anzahl der Tags muss kleiner als 45 sein.
warehouse_type String Der Lagertyp ist entweder PRO oder CLASSIC. Wenn Sie serverlose Berechnung verwenden möchten, legen Sie dieses Feld auf PRO und legen Sie das Feld enable_serverless_compute auch auf true.

sql_warehouse.channel

Type: Map

Die Kanalkonfiguration für das SQL Warehouse.

Key Type Description
name String Der Name des Kanals. Gültige Werte sind : CHANNEL_NAME_CURRENT, CHANNEL_NAME_PREVIEW. CHANNEL_NAME_CUSTOM
dbsql_version String Die DBSQL-Version für benutzerdefinierte Kanäle.

Example

Im folgenden Beispiel wird ein SQL Warehouse definiert:

resources:
  sql_warehouses:
    my_sql_warehouse:
      name: my_sql_warehouse
      cluster_size: X-Large
      enable_serverless_compute: true
      max_num_clusters: 3
      min_num_clusters: 1
      auto_stop_mins: 60
      warehouse_type: PRO

synchronisierte_Datenbanktabelle

Type: Map

Mit der synchronisierten Datenbanktabellenressource können Sie Lakebase-Datenbanktabellen in einem Bündel definieren.

Informationen zu synchronisierten Datenbanktabellen finden Sie unter Was ist eine Datenbankinstanz?.

synced_database_tables:
  <synced_database_table-name>:
    <synced_database_table-field-name>: <synced_database_table-field-value>
Key Type Description
database_instance_name String Der Name der Zieldatenbankinstanz. Dies ist erforderlich, wenn synchronisierte Datenbanktabellen in Standardkatalogen erstellt werden. Dies ist optional, wenn synchronisierte Datenbanktabellen in registrierten Katalogen erstellt werden.
lifecycle Map Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus.
logical_database_name String Der Name des Ziel-Postgres-Datenbankobjekts (logische Datenbank) für diese Tabelle.
name String Der vollständige Name der Tabelle im Formular catalog.schema.table.
spec Map Die Datenbanktabellenspezifikation. Siehe Spezifikation der synchronisierten Datenbanktabelle.

synchronisierte_datenbanktabelle.spec

Type: Map

Die Datenbanktabellenspezifikation.

Key Type Description
create_database_objects_if_missing Boolean Gibt an, ob die logische Datenbank und Schemaressourcen der synchronisierten Tabelle erstellt werden sollen, sofern sie noch nicht vorhanden sind.
existing_pipeline_id String Die ID für eine vorhandene Pipeline. Wenn dies festgelegt ist, wird die synchronisierte Tabelle binär in die vorhandene Pipeline verpackt, auf die verwiesen wird. Dadurch wird vermieden, eine neue Pipeline zu erstellen und bestehende Rechenressourcen gemeinsam zu nutzen. In diesem Fall muss die scheduling_policy synchronisierte Tabelle mit der Terminplanungsrichtlinie der vorhandenen Pipeline übereinstimmen. Mindestens einer von existing_pipeline_id und new_pipeline_spec sollte definiert werden.
new_pipeline_spec Map Die Spezifikation für eine neue Pipeline. Siehe new_pipeline_spec. Mindestens einer von existing_pipeline_id und new_pipeline_spec sollte definiert werden.
primary_key_columns Sequence Die Liste der Spaltennamen, die den Primärschlüssel bilden.
scheduling_policy String Die Planungsrichtlinie für die Synchronisierung. Gültige Werte sind SNAPSHOT, CONTINUOUS.
source_table_full_name String Der vollständige Name der Quelltabelle im Format catalog.schema.table.
timeseries_key String Zeitreihen-Schlüssel zum Entfernen doppelter Zeilen mit demselben Primärschlüssel.

synchronisierte_datenbank_tabelle.spezifikation.neue_pipeline_spezifikation

Type: Map

Die Spezifikation für eine neue Pipeline, die von der synchronisierten Datenbanktabelle verwendet wird.

Key Type Description
budget_policy_id String Die ID der Budgetrichtlinie, die für die neu erstellte Pipeline festgelegt werden soll.
storage_catalog String Der Katalog für die Pipeline zum Speichern von Zwischendateien, z. B. Prüfpunkte und Ereignisprotokolle. Dies muss ein Standardkatalog sein, in dem der Benutzer über Berechtigungen zum Erstellen von Delta-Tabellen verfügt.
storage_schema String Das Schema für die Pipeline zum Speichern von Zwischendateien, z. B. Prüfpunkte und Ereignisprotokolle. Dies muss sich im Standardkatalog befinden, in dem der Benutzer über Berechtigungen zum Erstellen von Delta-Tabellen verfügt.

Examples

Im folgenden Beispiel wird eine synchronisierte Datenbanktabelle in einem entsprechenden Datenbankkatalog definiert:

resources:
  database_instances:
    my_instance:
      name: my-instance
      capacity: CU_1
  database_catalogs:
    my_catalog:
      database_instance_name: my-instance
      database_name: 'my_database'
      name: my_catalog
      create_database_if_not_exists: true
  synced_database_tables:
    my_synced_table:
      name: ${resources.database_catalogs.my_catalog.name}.${resources.database_catalogs.my_catalog.database_name}.my_destination_table
      database_instance_name: ${resources.database_catalogs.my_catalog.database_instance_name}
      logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
      spec:
        source_table_full_name: 'my_source_table'
        scheduling_policy: SNAPSHOT
        primary_key_columns:
          - my_pk_column
        new_pipeline_spec:
          storage_catalog: 'my_delta_catalog'
          storage_schema: 'my_delta_schema'

Im folgenden Beispiel wird eine synchronisierte Datenbanktabelle in einem Standardkatalog definiert:

resources:
  synced_database_tables:
    my_synced_table:
      name: 'my_standard_catalog.public.synced_table'
      # database_instance_name is required for synced tables created in standard catalogs.
      database_instance_name: 'my-database-instance'
      # logical_database_name is required for synced tables created in standard catalogs:
      logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
      spec:
        source_table_full_name: 'source_catalog.schema.table'
        scheduling_policy: SNAPSHOT
        primary_key_columns:
          - my_pk_column
        create_database_objects_if_missing: true
        new_pipeline_spec:
          storage_catalog: 'my_delta_catalog'
          storage_schema: 'my_delta_schema'

In diesem Beispiel wird eine synchronisierte Datenbanktabelle erstellt und der Pipelinezeitplan angepasst. Es wird davon ausgegangen, dass Sie bereits folgendes haben:

  • Eine Datenbankinstanz mit dem Namen my-database-instance
  • Ein Standardkatalog mit dem Namen my_standard_catalog
  • Ein Schema im Standardkatalog mit dem Namen default
  • Eine Delta-Quelltabelle namens source_delta.schema.customer mit dem Primärschlüssel c_custkey
resources:
  synced_database_tables:
    my_synced_table:
      name: 'my_standard_catalog.default.my_synced_table'
      database_instance_name: 'my-database-instance'
      logical_database_name: 'test_db'
      spec:
        source_table_full_name: 'source_delta.schema.customer'
        scheduling_policy: SNAPSHOT
        primary_key_columns:
          - c_custkey
        create_database_objects_if_missing: true
        new_pipeline_spec:
          storage_catalog: 'source_delta'
          storage_schema: 'schema'

  jobs:
    sync_pipeline_schedule_job:
      name: sync_pipeline_schedule_job
      description: 'Job to schedule synced database table pipeline.'
      tasks:
        - task_key: synced-table-pipeline
          pipeline_task:
            pipeline_id: ${resources.synced_database_tables.my_synced_table.data_synchronization_status.pipeline_id}
      schedule:
        quartz_cron_expression: '0 0 0 * * ?'

Volume (Unity Catalog)

Type: Map

Volumes werden in Python für Databricks Asset Bundles unterstützt. Siehe databricks.bundles.volumes.

Mit dem Ressourcentyp „Volume“ können Sie Unity Catalog-Volumes als Teil eines Bundles definieren und erstellen. Beachten Sie beim Bereitstellen eines Bundles mit einem definierten Volume Folgendes:

  • Auf ein Volume kann im artifact_path für das Bundle nicht verwiesen werden, bis es im Arbeitsbereich vorhanden ist. Wenn Sie also Databricks-Ressourcenbundles verwenden möchten, um das Volume zu erstellen, müssen Sie zuerst das Volume im Bundle definieren, es zum Erstellen des Volumes bereitstellen und dann bei nachfolgenden Bereitstellungen in artifact_path darauf verweisen.
  • Wenn für das Bereitstellungsziel dev_${workspace.current_user.short_name} konfiguriert ist, wird Volumes im Bundle nicht das Präfix mode: development vorangestellt. Sie können dieses Präfix jedoch manuell konfigurieren. Weitere Informationen finden Sie unter Benutzerdefinierte Voreinstellungen.
volumes:
  <volume-name>:
    <volume-field-name>: <volume-field-value>
Key Type Description
catalog_name String Der Name des Katalogs des Schemas und des Volumes.
comment String Ein an das Volume angefügter Kommentar.
grants Sequence Die Zuweisungen, die dem Volume zugeordnet sind. Siehe Grant.
lifecycle Map Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus.
name String Der Name des Volumes.
schema_name String Der Name des Schemas, in dem sich das Volume befindet.
storage_location String Der Speicherort in der Cloud.
volume_type String Der Volumetyp (entweder EXTERNAL oder MANAGED). Ein externes Volume befindet sich am angegebenen externen Speicherort. Ein verwaltetes Volume befindet sich am Standardspeicherort, der durch das übergeordnete Schema, den übergeordneten Katalog oder den Metastore angegeben wird. Siehe verwaltete und externe Volumes.

Example

Im folgenden Beispiel wird ein Unity-Katalogvolume mit dem Schlüssel my_volume_iderstellt:

resources:
  volumes:
    my_volume_id:
      catalog_name: main
      name: my_volume
      schema_name: my_schema

Ein Beispielbundle, das einen Auftrag ausführt, der in eine Datei im Unity Catalog-Volume schreibt, finden Sie im GitHub-Repository „bundle-examples“.

Allgemeine Objekte

gewähren

Type: Map

Definiert den Prinzipal und die Berechtigungen, die diesem Prinzipal gewährt werden sollen. Weitere Informationen zu Berechtigungen finden Sie unter Berechtigungen anzeigen, zuweisen und widerrufen.

Key Type Description
principal String Der Name des Prinzipals, dem Berechtigungen erteilt werden. Dies kann ein Benutzer, eine Gruppe oder ein Dienstprinzipal sein.
privileges Sequence Die Berechtigungen, die der angegebenen Entität gewährt werden sollen. Gültige Werte hängen vom Ressourcentyp ab (z. B. SELECT, MODIFY, CREATE, USAGE, READ_FILES, WRITE_FILES, EXECUTE, ALL_PRIVILEGES).

Example

Im folgenden Beispiel wird ein Unity-Katalogschema mit Zuschüssen definiert:

resources:
  schemas:
    my_schema:
      name: test-schema
      grants:
        - principal: users
          privileges:
            - SELECT
        - principal: my_team
          privileges:
            - CAN_MANAGE
      catalog_name: main

Lebenszyklus

Type: Map

Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird.

Key Type Description
prevent_destroy Boolean Lebenszykluseinstellung, um zu verhindern, dass die Ressource zerstört wird.