Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Mit Databricks Asset Bundles können Sie Informationen über die Azure Databricks-Ressourcen spezifizieren, die vom Bundle in der resources-Zuordnung der Bundle-Konfiguration verwendet werden. Weitere Informationen finden Sie unter Ressourcenzuordnung und Ressourcenschlüsselreferenz.
Diese Seite enthält Konfigurationsreferenz für alle unterstützten Ressourcentypen für Bundles und enthält Details und ein Beispiel für jeden unterstützten Typ. Weitere Beispiele finden Sie in Bundle-Konfigurationsbeispielen.
Das JSON-Schema für Bündel, die zum Überprüfen der YAML-Konfiguration verwendet werden, befindet sich im GitHub-Repository "Databricks CLI".
Tip
Verwenden Sie den Befehl databricks bundle generate, um YAML für jede vorhandene Ressource zu generieren. Siehe "databricks bundle generate".
Unterstützte Ressourcen
In der folgenden Tabelle sind unterstützte Ressourcentypen für Bundles (YAML und Python, sofern zutreffend) aufgeführt. Einige Ressourcen können erstellt werden, indem sie in einem Bundle definiert und das Bundle bereitgestellt werden. Einige Ressourcen können nur erstellt werden, indem auf eine vorhandene Ressource verwiesen wird, die in das Bundle aufgenommen werden soll.
Die Ressourcenkonfiguration definiert ein Databricks-Objekt, das einem Databricks-REST-API-Objekt entspricht. Unterstützte Erstellungsanforderungsfelder des REST-API-Objekts, die in YAML ausgedrückt sind, entsprechen den unterstützten Schlüsseln der Ressource. Links zur Dokumentation für das entsprechende Objekt der einzelnen Ressourcen finden Sie in der folgenden Tabelle.
Tip
Der Befehl databricks bundle validate gibt Warnungen zurück, wenn unbekannte Ressourceneigenschaften in Paketkonfigurationsdateien gefunden werden.
Alarm
Type: Map
Die Warnungsressource definiert eine SQL-Warnung (v2).
alerts:
<alert-name>:
<alert-field-name>: <alert-field-value>
| Key | Type | Description |
|---|---|---|
custom_description |
String | Wahlfrei. Benutzerdefinierte Beschreibung für die Warnung. Unterstützt die Mustache-Vorlage. |
custom_summary |
String | Wahlfrei. Benutzerdefinierte Zusammenfassung für die Warnung. Unterstützt die Mustache-Vorlage. |
display_name |
String | Erforderlich. Der Anzeigename der Warnung, z. B. Example alert. |
evaluation |
Map | Erforderlich. Die Auswertungskonfiguration für die Warnung. Siehe alert.evaluation. |
parent_path |
String | Wahlfrei. Der Arbeitsbereichspfad des Ordners, der die Warnung enthält. Kann nur beim Erstellen festgelegt werden und kann nicht aktualisiert werden. Beispiel: /Users/someone@example.com. |
permissions |
Sequence | Die Alarmgenehmigungen. Weitere Informationen finden Sie unter Berechtigungen. |
query_text |
String | Erforderlich. Der Text der auszuführenden Abfrage, zum Beispiel SELECT 1. |
run_as |
Map | Wahlfrei. Gibt die Identität an, die zum Ausführen der Warnung verwendet wird. Mit diesem Feld können Sie Warnungen so konfigurieren, dass sie als bestimmter Benutzer oder Serviceprinzipal ausgeführt werden. Siehe run_as.
|
schedule |
Map | Erforderlich. Die Zeitplankonfiguration für die Warnung. Siehe alert.schedule. |
warehouse_id |
String | Erforderlich. Die ID des SQL-Warehouses, das mit der Warnung verknüpft ist, z. B. a7066a8ef796be84. |
alert.evaluation
Type: Map
Die Auswertungskonfiguration für die Warnung.
| Key | Type | Description |
|---|---|---|
comparison_operator |
String | Der Operator, der für den Vergleich in der Warnungsauswertung verwendet wird. |
empty_result_state |
String | Der Warnungszustand, wenn das Ergebnis leer ist. Vermeiden Sie, dieses Feld auf UNKNOWN zu setzen, da der UNKNOWN-Zustand geplant ist, abgeschafft zu werden. |
notification |
Map | Der Benutzer oder ein anderes Ziel, das benachrichtigt werden soll, wenn die Warnung ausgelöst wird. Siehe alert.evaluation.notification. |
source |
Map | Die Quellspalte aus dem Ergebnis, die zum Auswerten der Warnung verwendet werden soll. Siehe alert.evaluation.source. |
threshold |
Map | Der Schwellenwert, der für die Warnungsauswertung verwendet werden soll. Dies kann eine Spalte oder ein Wert sein. Siehe alert.evaluation.threshold. |
alarmbewertung.benachrichtigung
Type: Map
Der Benutzer oder ein anderes Ziel, das benachrichtigt werden soll, wenn die Warnung ausgelöst wird.
| Key | Type | Description |
|---|---|---|
notify_on_ok |
Boolean | Wahlfrei. Gibt an, ob Benachrichtigungsabonnenten benachrichtigt werden sollen, wenn die Warnung wieder in den Normalzustand zurückkehrt. |
retrigger_seconds |
Integer | Wahlfrei. Die Anzahl der Sekunden, die eine Warnung nach dem Auslösen wartet, bevor eine andere Benachrichtigung gesendet werden darf. Wenn die Einstellung auf 0 gesetzt oder weggelassen wird, sendet die Warnung nach dem ersten Auslösen keine weiteren Benachrichtigungen. Festlegung dieses Werts 1 ermöglicht, dass die Warnung bei jedem Bewertungsvorgang, bei dem die Bedingung erfüllt ist, eine Benachrichtigung sendet, wodurch sie für Benachrichtigungszwecke immer erneut ausgelöst wird. |
subscriptions |
Sequence | Wahlfrei. Nicht angeordnete Liste der Benachrichtigungsabonnements. Siehe alert.evaluation.notification.subscriptions. |
warnung.bewertung.benachrichtigung.abonnements
Type: Sequence
Eine ungeordnete Liste der Benachrichtigungsabonnements.
Jedes Element in der Liste ist ein AlertSubscription:
| Key | Type | Description |
|---|---|---|
destination_id |
String | Die ID des Benachrichtigungsziels. |
user_email |
String | Die E-Mail-Adresse des Zu benachrichtigenden Benutzers. |
alert.evaluation.source
Type: Map
Quellspalte aus dem Ergebnis, die zum Auswerten der Warnung verwendet werden soll.
| Key | Type | Description |
|---|---|---|
aggregation |
String | Die Aggregationsmethode, die auf die Quellspalte angewendet werden soll. Gültige Werte sind SUM: , COUNT, COUNT_DISTINCT, AVG, MEDIAN, , MINMAXSTDDEV |
display |
String | Der Anzeigename für die Quellspalte. |
name |
String | Der Name der Quellspalte aus dem Abfrageergebnis. |
alert.evaluation.threshold
Type: Map
Der für die Warnungsauswertung zu verwendende Schwellenwert kann entweder eine Spalte oder ein Wert sein.
| Key | Type | Description |
|---|---|---|
column |
Map | Spaltenverweis, der als Schwellenwert verwendet werden soll. Siehe alert.evaluation.source. |
value |
Map | Literalwert, der als Schwellenwert verwendet werden soll. Siehe alert.evaluation.threshold.value. |
alert.evaluation.threshold.value
Type: Map
Literalwert, der als Schwellenwert verwendet werden soll. Geben Sie einen der folgenden Werttypen an.
| Key | Type | Description |
|---|---|---|
bool_value |
Boolean | Wahlfrei. Boolescher Wert für den Schwellenwert, truez. B. . |
double_value |
Double | Wahlfrei. Numerischer Wert für den Schwellenwert, 1.25z. B. . |
string_value |
String | Wahlfrei. Zeichenfolgenwert für den Schwellenwert, z. B. test. |
alert.schedule
Type: Map
Die Zeitplankonfiguration für die Warnung.
| Key | Type | Description |
|---|---|---|
pause_status |
String | Wahlfrei. Gibt an, ob dieser Zeitplan angehalten wird oder nicht. Gültige Werte: UNPAUSED, PAUSED. Standardwert: UNPAUSED. |
quartz_cron_schedule |
String | Erforderlich. Ein Cron-Ausdruck mit Quarzsyntax, der den Zeitplan für diese Pipeline angibt. Das Quarzformat wird im Quarzplanerformat beschrieben. |
timezone_id |
String | Erforderlich. Eine Java-Zeitzonen-ID. Der Zeitplan wird mithilfe dieser Zeitzone aufgelöst. Dies wird mit dem quartz_cron_schedule kombiniert, um den Zeitplan festzulegen. Weitere Informationen finden Sie unter SET TIME ZONE. |
Examples
Die folgende Beispielkonfiguration definiert eine Warnung mit einer einfachen Auswertung:
resources:
alerts:
my_alert:
display_name: my_alert
evaluation:
comparison_operator: EQUAL
source:
name: '1'
threshold:
value:
double_value: 2
query_text: select 2
schedule:
quartz_cron_schedule: '44 19 */1 * * ?'
timezone_id: Europe/Amsterdam
warehouse_id: 799f096837fzzzz4
Die folgende Beispielkonfiguration definiert eine Warnung mit Berechtigungen, die mithilfe von Aggregation ausgewertet werden und Benachrichtigungen sendet:
resources:
alerts:
my_alert:
permissions:
- level: CAN_MANAGE
user_name: someone@example.com
custom_summary: 'My alert'
display_name: 'My alert'
evaluation:
comparison_operator: 'EQUAL'
notification:
notify_on_ok: false
retrigger_seconds: 1
source:
aggregation: 'MAX'
display: '1'
name: '1'
threshold:
value:
double_value: 2
query_text: 'select 2'
schedule:
pause_status: 'UNPAUSED'
quartz_cron_schedule: '44 19 */1 * * ?'
timezone_id: 'Europe/Amsterdam'
warehouse_id: 799f096837fzzzz4
App
Type: Map
Die App-Ressource definiert eine Databricks-App. Informationen zu Databricks-Apps finden Sie unter Databricks Apps.
Um eine App hinzuzufügen, geben Sie die Einstellungen zum Definieren der App an, einschließlich der erforderlichen source_code_path.
Tip
Sie können ein Bündel mit einer Streamlit Databricks-App mit dem folgenden Befehl initialisieren:
databricks bundle init https://github.com/databricks/bundle-examples --template-dir contrib/templates/streamlit-app
apps:
<app-name>:
<app-field-name>: <app-field-value>
| Key | Type | Description |
|---|---|---|
budget_policy_id |
String | Die Budgetrichtlinien-ID für die App. |
compute_size |
String | Die Berechnungskapazität für die App. Gültige Werte sind MEDIUM oder LARGE hängen von der Arbeitsbereichskonfiguration ab. |
config |
Map | Deprecated. Definieren Sie stattdessen Die App-Konfigurationsbefehle und Umgebungsvariablen in der app.yaml Datei. Siehe Konfigurieren einer Databricks-App. |
description |
String | Beschreibung der App. |
lifecycle |
Map | Das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus. |
name |
String | Der Name der App. Der Name darf nur alphanumerische Zeichen und Bindestriche in Kleinbuchstaben enthalten. Er muss innerhalb des Arbeitsbereichs eindeutig sein. |
permissions |
Sequence | Die Berechtigungen der App. Weitere Informationen finden Sie unter Berechtigungen. |
resources |
Sequence | Die App berechnet Ressourcen. Siehe "app.resources". |
source_code_path |
String | Der ./app lokale Pfad des Quellcodes der Databricks-App. |
user_api_scopes |
Sequence | Die API-Bereiche des Benutzers. |
Appressourcen
Type: Sequence
Eine Liste der Computeressourcen für die App.
Jedes Element in der Liste ist ein AppResource:
| Key | Type | Description |
|---|---|---|
description |
String | Die Beschreibung der App-Ressource. |
database |
Map | Die Einstellungen, die die zu verwendende Lakebase-Datenbank identifizieren. Siehe "app.resources.database". |
genie_space |
Map | Die Einstellungen, die den zu verwendenden Genie-Raum identifizieren. Siehe app.resources.genie_space. |
job |
Map | Die Einstellungen, die die zu verwendende Auftragsressource identifizieren. Siehe "app.resources.job". |
name |
String | Der Name der App-Ressource. |
secret |
Map | Die Einstellungen, die die zu verwendende geheime Azure Databricks-Ressource identifizieren. Siehe "app.resources.secret". |
serving_endpoint |
Map | Die Einstellungen, die die zu verwendende Endpunktressource des Modells identifizieren. Siehe app.resources.serving_endpoint. |
sql_warehouse |
Map | Die Einstellungen, die die zu verwendende SQL Warehouse-Ressource identifizieren. Siehe app.resources.sql_warehouse. |
uc_securable |
Map | Die Einstellungen, die das zu verwendende Unity-Katalogvolume identifizieren. Siehe app.resources.uc_securable. |
app.resources.database
Type: Map
Die Einstellungen, die die zu verwendende Lakebase-Datenbank identifizieren.
| Key | Type | Description |
|---|---|---|
database_name |
String | Der Name der Datenbank. |
instance_name |
String | Der Name der Datenbankinstanz. |
permission |
String | Die Berechtigungsstufe für die Datenbank. Gültige Werte sind CAN_CONNECT_AND_CREATE. |
app.resources.genie_space
Type: Map
Die Einstellungen, die den zu verwendenden Genie-Raum identifizieren.
| Key | Type | Description |
|---|---|---|
name |
String | Der Name des Genie-Raums. |
permission |
String | Die Berechtigungsstufe für den Raum. Gültige Werte sind : CAN_VIEW, CAN_EDIT, CAN_MANAGE. CAN_RUN |
space_id |
String | Die ID des Genie-Raums, z. B. 550e8400-e29b-41d4-a716-999955440000. |
app.resources.job
Type: Map
Die Einstellungen, die die zu verwendende Auftragsressource identifizieren.
| Key | Type | Description |
|---|---|---|
id |
String | Die ID des Jobs. |
permission |
String | Die Berechtigungsstufe für den Auftrag. Gültige Werte sind : CAN_VIEW, CAN_MANAGE_RUN, CAN_MANAGE. IS_OWNER |
app.resources. geheim
Type: Map
Die Einstellungen, die die zu verwendende geheime Azure Databricks-Ressource identifizieren.
| Key | Type | Description |
|---|---|---|
key |
String | Der Schlüssel zum Geheimnis, um die Berechtigung zu erteilen. |
permission |
String | Die Berechtigungsstufe für den geheimen Schlüssel. Gültige Werte sind : READ, WRITE. MANAGE |
scope |
String | Der Name des geheimen Bereichs. |
app.resources.Bereitstellungspunkt
Type: Map
Die Einstellungen, die die zu verwendende Endpunktressource des Modells identifizieren.
| Key | Type | Description |
|---|---|---|
name |
String | Der Name des Bereitstellungsendpunkts |
permission |
String | Die Zugriffsstufe für den bereitstellenden Endpunkt. Gültige Werte sind : CAN_QUERY, CAN_MANAGE. CAN_VIEW |
app.resources.sql_warehouse
Type: Map
Die Einstellungen, die das zu verwendende SQL Warehouse identifizieren.
| Key | Type | Description |
|---|---|---|
id |
String | Die ID des SQL Data Warehouses. |
permission |
String | Die Berechtigungsstufe für das SQL Warehouse. Gültige Werte sind : CAN_USE, CAN_MANAGE. IS_OWNER |
app.resources.uc_securable
Type: Map
Die Einstellungen, die das zu verwendende Unity-Katalogvolume identifizieren.
| Key | Type | Description |
|---|---|---|
permission |
String | Die Berechtigungsstufe für den Unity-Katalog sicherungsfähig. Gültige Werte sind READ_VOLUME und WRITE_VOLUME. |
securable_full_name |
String | Der vollständige Name des Unity-Katalogs, der im Format catalog.schema.volumesicherungsfähig ist. |
securable_type |
String | Der Typ des Unity-Katalogs, der sicherungsfähig ist. Gültige Werte sind VOLUME. |
Example
Im folgenden Beispiel wird eine App namens my_app erstellt, die einen vom Bundle erstellten Auftrag verwaltet:
resources:
jobs:
# Define a job in the bundle
hello_world:
name: hello_world
tasks:
- task_key: task
spark_python_task:
python_file: ../src/main.py
environment_key: default
environments:
- environment_key: default
spec:
environment_version: '2'
# Define an app that manages the job in the bundle
apps:
job_manager:
name: 'job_manager_app'
description: 'An app which manages a job created by this bundle'
# The location of the source code for the app
source_code_path: ../src/app
# The resources in the bundle which this app has access to. This binds the resource in the app with the bundle resource.
resources:
- name: 'app-job'
job:
id: ${resources.jobs.hello_world.id}
permission: 'CAN_MANAGE_RUN'
Die entsprechende app.yaml Definition definiert die Konfiguration für die Ausführung der App:
command:
- flask
- --app
- app
- run
- --debug
env:
- name: JOB_ID
valueFrom: 'app-job'
Das vollständige Databricks-App-Beispielbundle finden Sie im GitHub-Repository „bundle-examples“.
Cluster
Type: Map
Die Clusterressource definiert einen Cluster.
clusters:
<cluster-name>:
<cluster-field-name>: <cluster-field-value>
| Key | Type | Description |
|---|---|---|
apply_policy_default_values |
Boolean | Wenn dieser Wert auf "true" festgelegt ist, werden feste und Standardwerte aus der Richtlinie für felder verwendet, die weggelassen werden. Wenn dieser Wert auf "false" festgelegt ist, werden nur feste Werte aus der Richtlinie angewendet. |
autoscale |
Map | Parameter, die benötigt werden, um Cluster basierend auf der Last automatisch nach oben und unten zu skalieren. Siehe Autoskala. |
autotermination_minutes |
Integer | Dadurch wird der Cluster automatisch beendet, wenn er für diese Zeit in Minuten inaktiv ist. Wenn nicht festgelegt, wird dieser Cluster nicht automatisch beendet. Wenn angegeben, muss der Schwellenwert zwischen 10 und 10000 Minuten liegen. Benutzer können diesen Wert auch auf 0 festlegen, um die automatische Beendigung explizit zu deaktivieren. |
aws_attributes |
Map | Attribute im Zusammenhang mit Clustern, die auf Amazon Web Services ausgeführt werden. Wenn bei der Clustererstellung nicht angegeben, wird eine Reihe von Standardwerten verwendet. Siehe aws_attributes. |
azure_attributes |
Map | Attribute im Zusammenhang mit Clustern, die in Microsoft Azure ausgeführt werden. Wenn bei der Clustererstellung nicht angegeben, wird eine Reihe von Standardwerten verwendet. Siehe azure_attributes. |
cluster_log_conf |
Map | Die Konfiguration für die Bereitstellung von Spark logs an ein langfristiges Speicherziel. Siehe cluster_log_conf. |
cluster_name |
String | Der vom Benutzer angeforderte Clustername. Das muss nicht einzigartig sein. Wenn beim Erstellen nicht angegeben, ist der Clustername eine leere Zeichenfolge. |
custom_tags |
Map | Zusätzliche Tags für Cluster-Ressourcen. Databricks wird alle Clusterressourcen (z. B. AWS-Instanzen und EBS-Volumes) mit diesen Tags zusätzlich zu default_tags kennzeichnen. |
data_security_mode |
String | Das Data Governance-Modell, das beim Zugriff auf Daten aus einem Cluster verwendet werden soll. Gültige Werte sind : NONE, SINGLE_USER, USER_ISOLATION, LEGACY_SINGLE_USER, , LEGACY_TABLE_ACL. LEGACY_PASSTHROUGH |
docker_image |
Map | Das benutzerdefinierte Docker-Image. Siehe docker_image. |
driver_instance_pool_id |
String | Die optionale ID des Instanzpools für den Treiber, zu dem der Cluster gehört. Der Poolcluster verwendet den Instanzpool mit id (instance_pool_id), wenn der Treiberpool nicht zugewiesen ist. |
driver_node_type_id |
String | Der Knotentyp des Spark-Treibers. Beachten Sie, dass dieses Feld optional ist; wenn nicht festgelegt, wird der Treiberknotentyp wie oben definiert als derselbe Wert node_type_id festgelegt. Dieses Feld zusammen mit node_type_id sollte nicht festgelegt werden, wenn virtual_cluster_size festgelegt ist. Wenn sowohl driver_node_type_id, node_type_id als auch virtual_cluster_size angegeben werden, haben driver_node_type_id und node_type_id Vorrang. |
enable_elastic_disk |
Boolean | Autoskalierung des lokalen Speichers: Wenn diese Option aktiviert ist, erwirbt der Cluster dynamisch zusätzlichen Datenträgerspeicher, wenn der Speicherplatz seiner Spark-Worker zur Neige geht. Für dieses Feature sind bestimmte AWS-Berechtigungen erforderlich, um ordnungsgemäß zu funktionieren . Weitere Details finden Sie im Benutzerhandbuch. |
enable_local_disk_encryption |
Boolean | Gibt an, ob LUKS auf den lokalen Datenträgern von Cluster-VMs aktiviert werden soll. |
gcp_attributes |
Map | Attribute im Zusammenhang mit Clustern, die auf der Google Cloud Platform ausgeführt werden. Wenn bei der Clustererstellung nicht angegeben, wird eine Reihe von Standardwerten verwendet. Siehe gcp_attributes. |
init_scripts |
Sequence | Die Konfiguration zum Speichern von Init-Skripts. Es kann eine beliebige Anzahl von Zielen angegeben werden. Die Skripts werden sequenziell in der angegebenen Reihenfolge ausgeführt. Siehe init_scripts. |
instance_pool_id |
String | Die optionale ID des Instanzpools, zu dem der Cluster gehört. |
is_single_node |
Boolean | Dieses Feld kann nur verwendet werden, wenn kind = CLASSIC_PREVIEW. Wenn dieser Wert auf „true“ festgelegt wird, legt Databricks automatisch einzelne Knoten mit Bezug auf custom_tags, spark_confund num_workers fest. |
kind |
String | Die durch diese Berechnungsspezifikation beschriebene Art von Berechnung. |
node_type_id |
String | Dieses Feld codiert mithilfe eines einzigen Werts die Ressourcen, die jedem der Spark-Knoten in diesem Cluster zur Verfügung stehen. Beispielsweise können die Spark-Knoten für arbeitsspeicher- oder rechenintensive Workloads bereitgestellt und optimiert werden. Eine Liste der verfügbaren Knotentypen kann mithilfe des API-Aufrufs :method:clusters/listNodeTypes abgerufen werden. |
num_workers |
Integer | Die Anzahl der Workerknoten, die dieser Cluster haben sollte. Ein Cluster verfügt über einen Spark-Treiber und num_workers Ausführer für insgesamt num_workers + 1 Spark-Knoten. |
permissions |
Sequence | Die Clusterberechtigungen. Weitere Informationen finden Sie unter Berechtigungen. |
policy_id |
String | Die ID der Clusterrichtlinie, die zum Erstellen des Clusters verwendet wird, falls zutreffend. |
runtime_engine |
String | Bestimmt die Runtime-Engine des Clusters (entweder STANDARD oder PHOTON). |
single_user_name |
String | Einzelner Benutzername, wenn data_security_mode SINGLE_USER ist |
spark_conf |
Map | Ein Objekt, das einen Satz optionaler, vom Benutzer angegebener Spark-Konfigurationsschlüssel-Wert-Paare enthält. Benutzer können auch eine Zeichenfolge mit zusätzlichen JVM-Optionen an den Treiber und die Executoren über spark.driver.extraJavaOptions bzw. spark.executor.extraJavaOptions übergeben. |
spark_env_vars |
Map | Ein Objekt, das einen Satz optionaler, benutzerdefinierter Umgebungsvariablen-Schlüsselwertpaare enthält. |
spark_version |
String | Die Spark-Version des Clusters, z. B. 3.3.x-scala2.11. Eine Liste der verfügbaren Spark-Versionen kann mithilfe des API-Aufrufs :method:clusters/sparkVersions abgerufen werden. |
ssh_public_keys |
Sequence | Inhalt des öffentlichen SSH-Schlüssels, der jedem Spark-Knoten in diesem Cluster hinzugefügt wird. Die entsprechenden privaten Schlüssel können zum Anmelden mit dem Benutzernamen ubuntu am Port 2200verwendet werden. Bis zu 10 Tasten können angegeben werden. |
use_ml_runtime |
Boolean | Dieses Feld kann nur verwendet werden, wenn kind = CLASSIC_PREVIEW.
effective_spark_version wird durch spark_version (DBR Release) sowie durch das Feld use_ml_runtime und die Information, ob node_type_id ein GPU-Knoten ist oder nicht, bestimmt. |
workload_type |
Map | Clusterattribute, die für Cluster-Workloadtypen angezeigt werden. Siehe workload_type. |
cluster.autoscale
Type: Map
Parameter für die automatische Skalierung von Clustern auf der Grundlage der Last nach oben und unten.
| Key | Type | Description |
|---|---|---|
min_workers |
Integer | Die Mindestanzahl der Mitarbeiter, auf die der Cluster verkleinert werden kann, wenn sie nicht genutzt werden. Es ist auch die erste Anzahl der Mitarbeiter, die der Cluster nach der Erstellung haben wird. |
max_workers |
Integer | Die maximale Anzahl von Mitarbeitern, auf die der Cluster skaliert werden kann, wenn er überlastet ist.
max_workers muss streng größer als min_workerssein. |
cluster.aws_attributes
Type: Map
Attribute im Zusammenhang mit Clustern, die auf Amazon Web Services ausgeführt werden.
| Key | Type | Description |
|---|---|---|
zone_id |
String | Bezeichner für die Verfügbarkeitszone/das Rechenzentrum, in dem sich der Cluster befindet. Diese Zeichenfolge hat eine Form wie us-west-2a. |
availability |
String | Verfügbarkeitstyp, der für alle Knoten nach dem first_on_demand verwendet wird. Gültige Werte sind SPOT, ON_DEMAND, SPOT_WITH_FALLBACK. |
spot_bid_price_percent |
Integer | Der maximale Preis für AWS-Spotinstanzen als Prozentsatz des On-Demand-Preises des entsprechenden Instanztyps. |
instance_profile_arn |
String | Knoten für diesen Cluster werden nur auf AWS-Instanzen mit diesem Instanzprofil platziert. |
first_on_demand |
Integer | Die ersten first_on_demand Knoten des Clusters werden auf On-Demand-Instanzen platziert. Dieser Wert sollte größer als 0sein, um sicherzustellen, dass der Clustertreiberknoten auf einer On-Demand-Instanz platziert wird. |
ebs_volume_type |
String | Der Typ der EBS-Volumes, die mit diesem Cluster gestartet werden. Gültige Werte sind GENERAL_PURPOSE_SSD und THROUGHPUT_OPTIMIZED_HDD. |
ebs_volume_count |
Integer | Die Anzahl der Volumes, die für jede Instanz gestartet werden. |
ebs_volume_size |
Integer | Die Größe jedes EBS-Volumes (in GiB) wird für jede Instanz gestartet. |
ebs_volume_iops |
Integer | Die Anzahl der IOPS pro EBS gp3-Volume. |
ebs_volume_throughput |
Integer | Der Durchsatz pro EBS gp3-Volume in MiB pro Sekunde. |
cluster.azure_attributes
Type: Map
Attribute im Zusammenhang mit Clustern, die in Microsoft Azure ausgeführt werden.
| Key | Type | Description |
|---|---|---|
first_on_demand |
Integer | Die ersten first_on_demand Knoten des Clusters werden auf On-Demand-Instanzen platziert. |
availability |
String | Verfügbarkeitstyp, der für alle Knoten nach dem first_on_demand verwendet wird. Gültige Werte sind SPOT_AZURE, ON_DEMAND_AZURE, SPOT_WITH_FALLBACK_AZURE. |
spot_bid_max_price |
Number | Der maximale Preis für Azure-Spotinstanzen. Wird -1 verwendet, um den niedrigsten Preis anzugeben. |
Cluster.GCP-Attribute
Type: Map
Attribute im Zusammenhang mit Clustern, die auf der Google Cloud Platform ausgeführt werden.
| Key | Type | Description |
|---|---|---|
use_preemptible_executors |
Boolean | Gibt an, ob präemptible Ausführungsumgebungen verwendet werden sollen. Preemptible Executors sind vorerwendbare GCE-Instanzen, die jederzeit von GCE zurückgefordert werden können. |
google_service_account |
String | Das Google-Dienstkonto, das von den Databricks-Cluster-VM-Instanzen verwendet werden soll. |
local_ssd_count |
Integer | Die Anzahl der lokalen SSDs, die an jeden Knoten im Cluster angefügt werden sollen. Der Standardwert ist 0. |
zone_id |
String | Bezeichner für die Verfügbarkeitszone/das Rechenzentrum, in dem sich der Cluster befindet. |
availability |
String | Verfügbarkeitstyp, der für alle Knoten verwendet wird. Gültige Werte sind PREEMPTIBLE_GCP, ON_DEMAND_GCP, PREEMPTIBLE_WITH_FALLBACK_GCP. |
boot_disk_size |
Integer | Die Größe des Startdatenträgers in GB. Werte liegen in der Regel zwischen 100 und 1000. |
cluster.cluster_log_conf
Die Konfiguration für die Bereitstellung von Spark-Protokollen an ein langfristiges Speicherziel.
| Key | Type | Description |
|---|---|---|
dbfs |
Map | DBFS-Speicherort für die Clusterprotokollbereitstellung. Siehe dbfs. |
s3 |
Map | S3-Speicherort für die Clusterprotokollbereitstellung. Siehe s3. |
volumes |
Map | Speicherort für Volumes für die Clusterprotokollübermittlung. Siehe Volumes. |
cluster.cluster_log_conf.dbfs
Type: Map
DBFS-Speicherort für die Clusterprotokollbereitstellung.
| Key | Type | Description |
|---|---|---|
destination |
String | Der DBFS-Pfad für die Clusterprotokollübermittlung (z. B. dbfs:/cluster-logs). |
cluster.cluster_log_conf.s3
Type: Map
S3-Speicherort für die Clusterprotokollbereitstellung.
| Key | Type | Description |
|---|---|---|
destination |
String | Der S3-URI für die Bereitstellung von Clusterprotokollen (z. B. s3://my-bucket/cluster-logs). |
region |
String | Die AWS-Region des S3-Buckets. |
endpoint |
String | Die S3-Endpunkt-URL (optional). |
enable_encryption |
Boolean | Gibt an, ob die Verschlüsselung für Clusterprotokolle aktiviert werden soll. |
encryption_type |
String | Der Verschlüsselungstyp. Gültige Werte sind SSE_S3, SSE_KMS. |
kms_key |
String | Der KMS-Schlüssel ARN für die Verschlüsselung (bei Verwendung SSE_KMS). |
canned_acl |
String | Die vordefinierte ACL-Einstellung, die auf die Clusterprotokolle angewendet werden soll. |
cluster.cluster_log_conf.volumes
Type: Map
Speicherort für Volumes für die Clusterprotokollübermittlung.
| Key | Type | Description |
|---|---|---|
destination |
String | Der Volume-Pfad für die Clusterprotokollübermittlung (z. B. /Volumes/catalog/schema/volume/cluster_log). |
cluster.docker_image
Type: Map
Die konfiguration des benutzerdefinierten Docker-Images.
| Key | Type | Description |
|---|---|---|
url |
String | URL des Docker-Images. |
basic_auth |
Map | Standardauthentifizierung für Docker-Repository. Siehe basic_auth. |
cluster.docker_image.basic_auth (Basis-Authentifizierung)
Type: Map
Standardauthentifizierung für Docker-Repository.
| Key | Type | Description |
|---|---|---|
username |
String | Der Benutzername für die Docker-Registrierungsauthentifizierung. |
password |
String | Das Kennwort für die Docker-Registrierungsauthentifizierung. |
cluster.Initialisierungsskripte
Type: Map
Die Konfiguration zum Speichern von Init-Skripts. Mindestens ein Standorttyp muss angegeben werden.
| Key | Type | Description |
|---|---|---|
dbfs |
Map | DBFS-Speicherort des Init-Skripts. Siehe dbfs. |
workspace |
Map | Speicherort des Init-Skripts im Arbeitsbereich. Weitere Informationen finden Sie unter Arbeitsbereich. |
s3 |
Map | S3-Speicherort des Init-Skripts. Siehe s3. |
abfss |
Map | ABFSS-Speicherort des Init-Skripts. Siehe Abfss. |
gcs |
Map | GCS-Speicherort des Init-Skripts. Siehe Gcs. |
volumes |
Map | UC Volumes-Speicherort des Init-Skripts. Siehe Volumes. |
cluster.init_scripts.dbfs
Type: Map
DBFS-Speicherort des Init-Skripts.
| Key | Type | Description |
|---|---|---|
destination |
String | Der DBFS-Pfad des Init-Skripts. |
cluster.init_scripts.workspace
Type: Map
Speicherort des Init-Skripts im Arbeitsbereich.
| Key | Type | Description |
|---|---|---|
destination |
String | Der Arbeitsbereichspfad des Init-Skripts. |
cluster.init_scripts.s3
Type: Map
S3-Speicherort des Init-Skripts.
| Key | Type | Description |
|---|---|---|
destination |
String | Der S3-URI des Init-Skripts. |
region |
String | Die AWS-Region des S3-Buckets. |
endpoint |
String | Die S3-Endpunkt-URL (optional). |
cluster.init_scripts.abfss
Type: Map
ABFSS-Speicherort des Init-Skripts.
| Key | Type | Description |
|---|---|---|
destination |
String | Der ABFSS-Pfad des Init-Skripts. |
cluster.init_scripts.gcs
Type: Map
GCS-Speicherort des Init-Skripts.
| Key | Type | Description |
|---|---|---|
destination |
String | Der GCS-Pfad des Init-Skripts. |
cluster.init_scripts.volumes
Type: Map
Speicherort des Init-Skripts für Volumes.
| Key | Type | Description |
|---|---|---|
destination |
String | Der UC Volumes-Pfad des Init-Skripts. |
cluster.workload_type
Type: Map
Clusterattribute, die Cluster-Workloadtypen zeigen.
| Key | Type | Description |
|---|---|---|
clients |
Map | Definiert, welche Art von Clients den Cluster verwenden kann. Siehe Clients. |
cluster.workload_type.clients
Type: Map
Der Kliententyp für diese Rechenlast.
| Key | Type | Description |
|---|---|---|
jobs |
Boolean | Gibt an, ob der Cluster Aufträge ausführen kann. |
notebooks |
Boolean | Gibt an, ob der Cluster Notizbücher ausführen kann. |
Examples
Im folgenden Beispiel wird ein dedizierter Cluster (einzelbenutzer) für den aktuellen Benutzer mit Databricks Runtime 15.4 LTS und einer Clusterrichtlinie erstellt:
resources:
clusters:
my_cluster:
num_workers: 0
node_type_id: 'i3.xlarge'
driver_node_type_id: 'i3.xlarge'
spark_version: '15.4.x-scala2.12'
spark_conf:
'spark.executor.memory': '2g'
autotermination_minutes: 60
enable_elastic_disk: true
single_user_name: ${workspace.current_user.userName}
policy_id: '000128DB309672CA'
enable_local_disk_encryption: false
data_security_mode: SINGLE_USER
runtime_engine": STANDARD
In diesem Beispiel wird ein einfacher Cluster my_cluster erstellt und dieser als Cluster festgelegt, um das Notizbuch in my_job auszuführen.
bundle:
name: clusters
resources:
clusters:
my_cluster:
num_workers: 2
node_type_id: 'i3.xlarge'
autoscale:
min_workers: 2
max_workers: 7
spark_version: '13.3.x-scala2.12'
spark_conf:
'spark.executor.memory': '2g'
jobs:
my_job:
tasks:
- task_key: test_task
notebook_task:
notebook_path: './src/my_notebook.py'
existing_cluster_id: ${resources.clusters.my_cluster.id}
Dashboard
Type: Map
Mit der Dashboardressource können Sie AI/BI-Dashboards in einem Bündel verwalten. Informationen zu AI/BI-Dashboards finden Sie unter Dashboards.
Wenn Sie ein Bündel bereitgestellt haben, das ein Dashboard aus Ihrer lokalen Umgebung enthält und dann die Benutzeroberfläche zum Ändern dieses Dashboards verwenden, werden Änderungen, die über die Benutzeroberfläche vorgenommen wurden, nicht auf die DASHBOARD-JSON-Datei im lokalen Bundle angewendet, es sei denn, Sie aktualisieren es explizit mit bundle generate. Sie können die Option --watch verwenden, um Änderungen am Dashboard kontinuierlich abzufragen und abzurufen. Siehe "databricks bundle generate".
Wenn Sie außerdem versuchen, ein Bundle aus Ihrer lokalen Umgebung bereitzustellen, das eine DASHBOARD-JSON-Datei enthält, die sich von der im Remotearbeitsbereich unterscheidet, tritt ein Fehler auf. Um die Bereitstellung zu erzwingen und das Dashboard im Remotearbeitsbereich mit dem lokalen zu überschreiben, verwenden Sie die Option --force. Siehe databricks bundle deploy.
Note
Wenn Sie Databricks Asset Bundles mit Dashboard Git-Unterstützung verwenden, verhindern Sie, dass doppelte Dashboards generiert werden, indem Sie die Synchronisierungszuordnung hinzufügen, um die Dashboards von der Synchronisierung als Dateien auszuschließen:
sync:
exclude:
- src/*.lvdash.json
dashboards:
<dashboard-name>:
<dashboard-field-name>: <dashboard-field-value>
| Key | Type | Description |
|---|---|---|
display_name |
String | Der Anzeigename des Dashboards. |
embed_credentials |
Boolean | Gibt an, ob die Anmeldeinformationen für die Bündelbereitstellungsidentität zum Ausführen von Abfragen für alle Dashboard-Viewer verwendet werden. Wenn sie auf false festgelegt ist, werden die Anmeldeinformationen eines Viewers verwendet. Der Standardwert ist false. |
etag |
String | Das ETag für das Dashboard. Kann optional für Updates bereitgestellt werden, um sicherzustellen, dass das Dashboard seit dem letzten Lesen nicht geändert wurde. |
file_path |
String | Der lokale Pfad der Dashboardressource, einschließlich des Dateinamens. Exportierte Dashboards verfügen immer über die Dateierweiterung .lvdash.json. |
permissions |
Sequence | Die Dashboardberechtigungen. Weitere Informationen finden Sie unter Berechtigungen. |
serialized_dashboard |
Any | Der Inhalt des Dashboards in serialisierter Zeichenfolgenform. |
warehouse_id |
String | Die Warehouse-ID, die zum Ausführen des Dashboards verwendet wird. |
Example
Im folgenden Beispiel wird das Dashboard NYC Taxi Trip Analysis im Databricks-Arbeitsbereich einbezogen und bereitgestellt.
resources:
dashboards:
nyc_taxi_trip_analysis:
display_name: 'NYC Taxi Trip Analysis'
file_path: ../src/nyc_taxi_trip_analysis.lvdash.json
warehouse_id: ${var.warehouse_id}
Datenbankkatalog
Type: Map
Mit der Datenbankkatalogressource können Sie Datenbankkataloge definieren, die Datenbankinstanzen in einem Bündel entsprechen. Ein Datenbankkatalog ist eine Lakebase-Datenbank, die als Unity-Katalogkatalog registriert ist.
Informationen zu Datenbankkatalogen finden Sie unter Erstellen eines Katalogs.
database_catalogs:
<database_catalog-name>:
<database_catalog-field-name>: <database_catalog-field-value>
| Key | Type | Description |
|---|---|---|
create_database_if_not_exists |
Boolean | Gibt an, ob die Datenbank erstellt werden soll, falls sie nicht vorhanden ist. |
database_instance_name |
String | Der Name der Instanz, die die Datenbank enthält. |
database_name |
String | Der Name der Datenbank (in einer Instanz), die dem Katalog zugeordnet ist. |
lifecycle |
Map | Enthält die Lebenszykluseinstellungen für eine Ressource, einschließlich des Verhaltens der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus. |
name |
String | Der Name des Katalogs im Unity-Katalog. |
Example
Im folgenden Beispiel wird eine Datenbankinstanz mit einem entsprechenden Datenbankkatalog definiert:
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: ${resources.database_instances.my_instance.name}
name: example_catalog
database_name: my_database
create_database_if_not_exists: true
Datenbankinstanz
Type: Map
Mit der Datenbankinstanzressource können Sie Datenbankinstanzen in einem Bündel definieren. Eine Lakebase-Datenbankinstanz verwaltet Speicher- und Computeressourcen und stellt die Endpunkte bereit, mit denen Benutzer eine Verbindung herstellen.
Von Bedeutung
Wenn Sie ein Bundle mit einer Datenbankinstanz bereitstellen, beginnt die Instanz sofort mit der Ausführung und unterliegt den Preisen. Siehe Lakebase-Preise.
Informationen zu Datenbankinstanzen finden Sie unter Was ist eine Datenbankinstanz?.
database_instances:
<database_instance-name>:
<database_instance-field-name>: <database_instance-field-value>
| Key | Type | Description |
|---|---|---|
capacity |
String | Die Sku der Instanz. Gültige Werte sind CU_1, CU_2, CU_4, CU_8. |
custom_tags |
Sequence | Eine Liste von Schlüssel-Wert-Paaren, die benutzerdefinierte Tags angeben, die der Instanz zugeordnet sind. |
enable_pg_native_login |
Boolean | Gibt an, ob die Instanz die PG native Kennwortanmeldung aktiviert hat. Wird standardmäßig auf true festgelegt. |
enable_readable_secondaries |
Boolean | Gibt an, ob Secondaries für schreibgeschützten Datenverkehr aktiviert werden sollen. Wird standardmäßig auf false festgelegt. |
lifecycle |
Map | Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus. |
name |
String | Der Name der Instanz. Dies ist der eindeutige Bezeichner für die Instanz. |
node_count |
Integer | Die Anzahl der Knoten in der Instanz, bestehend aus 1 primären und 0 oder mehr Secondärdateien. Standardmäßig werden 1 primäre und 0 Secondaries verwendet. |
parent_instance_ref |
Map | Der Verweis der übergeordneten Instanz. Dies ist nur verfügbar, wenn es sich bei der Instanz um eine untergeordnete Instanz handelt. Siehe übergeordnete Instanz. |
permissions |
Sequence | Berechtigungen der Datenbankinstanz. Weitere Informationen finden Sie unter Berechtigungen. |
retention_window_in_days |
Integer | Das Aufbewahrungsfenster für die Instanz. Dies ist das Zeitfenster in Tagen, für das die historischen Daten aufbewahrt werden. Der Standardwert ist 7 Tage. Gültige Werte sind 2 bis 35 Tage. |
stopped |
Boolean | Gibt an, ob die Instanz beendet wird. |
usage_policy_id |
String | Die gewünschte Verwendungsrichtlinie, die der Instanz zugeordnet werden soll. |
datenbank_instanz.parent_instanz_ref
Type: Map
Der Verweis der übergeordneten Instanz. Dies ist nur verfügbar, wenn es sich bei der Instanz um eine untergeordnete Instanz handelt.
| Key | Type | Description |
|---|---|---|
branch_time |
String | Verzweigungszeit der Referenzdatenbankinstanz. Bei einer übergeordneten Verweisinstanz ist dies der Zeitpunkt in der übergeordneten Instanz, aus der die Instanz erstellt wurde. Bei einer untergeordneten Referenzinstanz ist dies der Zeitpunkt der Instanz, aus der die untergeordnete Instanz erstellt wurde. |
lsn |
String | Vom Benutzer angegebene WAL LSN der Referenzdatenbankinstanz. |
name |
String | Name der Referenzdatenbankinstanz. |
Example
Im folgenden Beispiel wird eine Datenbankinstanz mit einem entsprechenden Datenbankkatalog definiert:
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: ${resources.database_instances.my_instance.name}
name: example_catalog
database_name: my_database
create_database_if_not_exists: true
Ein Beispielbundle, das veranschaulicht, wie eine Datenbankinstanz und ein entsprechender Datenbankkatalog definiert werden, finden Sie im GitHub-Repository für Bundlebeispiele.
Experiment
Type: Map
Mit der Experimentressource können Sie MLflow-Experimente in einem Bündel definieren. Informationen zu MLflow-Experimenten finden Sie unter Organisieren von Trainingsläufen mit MLflow-Experimenten.
experiments:
<experiment-name>:
<experiment-field-name>: <experiment-field-value>
| Key | Type | Description |
|---|---|---|
artifact_location |
String | Der Ort, an dem Artefakte für das Experiment gespeichert werden. |
lifecycle |
Map | Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus. |
name |
String | Der Anzeigename, der das Experiment identifiziert. Ein Experimentname muss ein absoluter Pfad im Databricks-Arbeitsbereich sein, z. B /Workspace/Users/someone@example.com/my_experiment. . |
permissions |
Sequence | Die Berechtigungen des Experiments. Weitere Informationen finden Sie unter Berechtigungen. |
tags |
Sequence | Zusätzliche Metadaten-Schlüssel-Wert-Paare. Siehe Tags. |
Example
Im folgenden Beispiel wird ein Experiment definiert, das alle Benutzer anzeigen können:
resources:
experiments:
experiment:
name: /Workspace/Users/someone@example.com/my_experiment
permissions:
- level: CAN_READ
group_name: users
description: MLflow experiment used to track runs
Arbeit
Type: Map
Für Databricks-Asset-Bundles werden Aufträge in Python unterstützt. Siehe databricks.bundles.jobs.
Mit der Auftragsressource können Sie Aufträge und die entsprechenden Tasks in Ihrem Bundle definieren.
Informationen zu Aufträgen finden Sie unter Lakeflow Jobs. Ein Lernprogramm, das eine Vorlage "Databricks Asset Bundles" verwendet, um einen Auftrag zu erstellen, finden Sie unter Entwickeln eines Auftrags mit Databricks Asset Bundles.For a tutorial that uses a Databricks Asset Bundles template to create a job, see Develop a job with Databricks Asset Bundles.
jobs:
<job-name>:
<job-field-name>: <job-field-value>
| Key | Type | Description |
|---|---|---|
budget_policy_id |
String | Die ID der vom Benutzer angegebenen Budgetrichtlinie, die für diesen Auftrag verwendet werden soll. Wenn nicht angegeben, kann beim Erstellen oder Ändern des Auftrags eine Standardbudgetrichtlinie angewendet werden. Weitere Informationen über die von diesem Workload verwendete Budgetrichtlinie finden Sie unter effective_budget_policy_id. |
continuous |
Map | Eine optionale fortlaufende Eigenschaft für diesen Auftrag. Die fortlaufende Eigenschaft stellt sicher, dass es immer eine Ausführung gibt, die gerade ausgeführt wird. Nur einer von schedule und continuous kann verwendet werden. Weitere Informationen finden Sie unter fortlaufend. |
deployment |
Map | Bereitstellungsinformationen für Aufträge, die von externen Quellen verwaltet werden. Weitere Informationen finden Sie unter Bereitstellung. |
description |
String | Eine optionale Beschreibung für den Auftrag. Die maximale Länge beträgt 27700 Zeichen in UTF-8-Codierung. |
edit_mode |
String | Bearbeitungsmodus des Auftrags (entweder UI_LOCKED oder EDITABLE). |
email_notifications |
Map | Ein optionaler Satz von E-Mail-Adressen, die benachrichtigt werden, wenn die Ausführung dieses Auftrags beginnt oder abgeschlossen wird, sowie wenn dieser Auftrag gelöscht wird. Siehe email_notifications. |
environments |
Sequence | Eine Liste der Spezifikationen für die Aufgabenausführungsumgebung, auf die von serverlosen Tasks dieses Auftrags verwiesen werden kann. Für serverlose Aufgaben muss eine Umgebung vorhanden sein. Für serverlose Notizbuchaufgaben kann auf die Umgebung im Notizbuchumgebungsbereich zugegriffen werden. Für andere serverlose Aufgaben muss die Aufgabenumgebung mithilfe von environment_key in den Aufgabeneinstellungen angegeben werden. Siehe Umgebungen. |
format |
String | Deprecated. Das Format des Jobs. |
git_source |
Map | Eine optionale Spezifikation für ein Remote-Git-Repository, das den von Aufgaben verwendeten Quellcode enthält. Siehe job.git_source. Wichtig: Die Felder git_source und das Aufgabenfeld source, die auf GIT gesetzt sind, werden für Pakete nicht empfohlen, da lokale relative Pfade möglicherweise nicht auf denselben Inhalt im Git-Repository verweisen. Pakete erwarten, dass ein bereitgestellter Job denselben Inhalt wie die lokale Kopie hat, von der er bereitgestellt wurde.Klonen Sie stattdessen das Repository lokal, und richten Sie Ihr Bündelprojekt in diesem Repository ein, sodass die Quelle für Aufgaben der Arbeitsbereich ist. |
health |
Map | Ein optionaler Satz von Gesundheitsregeln, die für diese Aufgabe definiert werden können. Siehe Gesundheit. |
job_clusters |
Sequence | Eine Liste von Job-Cluster-Spezifikationen, die für Aufgaben dieses Jobs freigegeben und wiederverwendet werden können. Siehe job_clusters. |
max_concurrent_runs |
Integer | Eine optionale maximal zulässige Anzahl gleichzeitiger Ausführungen des Jobs. Legen Sie diesen Wert fest, wenn Sie mehrere Ausführungen desselben Auftrags gleichzeitig ausführen möchten. |
name |
String | Ein optionaler Name für den Job. Die maximale Länge beträgt 4096 Bytes in UTF-8-Codierung. |
notification_settings |
Map | Optionale Benachrichtigungseinstellungen, die verwendet werden, wenn Benachrichtigungen an jeweils email_notifications und webhook_notifications für diesen Auftrag gesendet werden. Siehe notification_settings. |
parameters |
Sequence | Parameterdefinitionen auf Job-Ebene. |
performance_target |
String | Definiert, wie leistungsfähig oder kosteneffizient die Ausführung in einer serverlosen Umgebung sein soll. |
permissions |
Sequence | Die Berechtigungen des Auftrags. Weitere Informationen finden Sie unter Berechtigungen. |
queue |
Map | Die Warteschlangeneinstellungen des Auftrags. Siehe Warteschlange. |
run_as |
Map | Schreibgeschützte Einstellung. Gibt den Benutzer oder Dienstprinzipal an, unter dem der Auftrag ausgeführt wird. Sofern nicht angegeben, wird der Auftrag unter dem Benutzer ausgeführt, der den Auftrag erstellt hat. Entweder user_name oder service_principal_name sollte angegeben werden. Falls nicht, wird eine Fehlermeldung ausgelöst. Siehe run_as. |
schedule |
Map | Ein optionaler periodischer Zeitplan für diesen Auftrag. Das Standardverhalten besteht darin, dass der Auftrag nur ausgeführt wird, wenn er ausgelöst wird, indem in der Benutzeroberfläche von Aufträgen auf "Jetzt ausführen" geklickt wird oder indem eine API-Anforderung an runNow gesendet wird. Siehe Zeitplan. |
tags |
Map | Eine Karte von Tags, die dem Auftrag zugeordnet sind. Diese werden an den Cluster als Clustertags für Auftragscluster weitergeleitet und unterliegen den gleichen Einschränkungen wie Clustertags. Es können maximal 25 Tags zu dem Auftrag hinzugefügt werden. |
tasks |
Sequence | Eine Liste der Aufgabenvorgaben, die von diesem Auftrag ausgeführt werden sollen. Siehe Hinzufügen von Aufgaben zu Aufträgen in Databricks Asset Bundles. |
timeout_seconds |
Integer | Ein optionales Timeout, das auf jede Ausführung dieses Auftrags angewendet wird. Ein Wert von 0 bedeutet kein Timeout. |
trigger |
Map | Eine Konfiguration zum Auslösen einer Ausführung, wenn bestimmte Bedingungen erfüllt sind. Siehe Auslöser. |
webhook_notifications |
Map | Eine Sammlung von Systembenachrichtigungs-IDs, die ausgelöst werden, wenn die Ausführung dieses Auftrags beginnt oder abgeschlossen ist. Siehe webhook_notifications. |
Auftrag.kontinuierlich
Type: Map
Konfiguration für die fortlaufende Auftragsausführung.
| Key | Type | Description |
|---|---|---|
pause_status |
String | Gibt an, ob der fortlaufende Auftrag pausiert ist oder nicht. Gültige Werte: PAUSED, UNPAUSED. |
task_retry_mode |
String | Geben Sie an, wie der fortlaufende Auftrag Wiederholungen auf Vorgangsebene anwendet. Gültige Werte sind NEVER und ON_FAILURE. Wird standardmäßig auf NEVER festgelegt. |
job.deployment
Type: Map
Bereitstellungsinformationen für Aufträge, die von externen Quellen verwaltet werden.
| Key | Type | Description |
|---|---|---|
kind |
String | Die Art der Bereitstellung. Beispiel: BUNDLE. |
metadata_file_path |
String | Der Pfad zur Metadatendatei für die Bereitstellung. |
job.E-Mail-Benachrichtigungen
Type: Map
E-Mail-Benachrichtigungseinstellungen für Auftragsausführungen.
| Key | Type | Description |
|---|---|---|
on_start |
Sequence | Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn eine Ausführung gestartet wird. |
on_success |
Sequence | Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn eine Ausführung erfolgreich ausgeführt wird. |
on_failure |
Sequence | Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn eine Ausführung fehlschlägt. |
on_duration_warning_threshold_exceeded |
Sequence | Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn eine Laufzeit den Warnschwellenwert überschreitet. |
no_alert_for_skipped_runs |
Boolean | Gibt an, ob das Senden von Benachrichtigungen für übersprungene Läufe übersprungen werden soll. |
job.umgebungen
Type: Sequence
Eine Liste der Spezifikationen für die Aufgabenausführungsumgebung, auf die von serverlosen Aufgaben eines Auftrags verwiesen werden kann.
Jedes Element in der Liste ist ein JobEnvironment:
| Key | Type | Description |
|---|---|---|
environment_key |
String | Der Schlüssel einer Umgebung. Es muss innerhalb eines Auftrags einzigartig sein. |
spec |
Map | Die Entität, die eine serverlose Umgebung darstellt. Siehe job.environments.spec. |
job.environments.spec
Type: Map
Die Entität, die eine serverlose Umgebung darstellt.
| Key | Type | Description |
|---|---|---|
client |
String | Deprecated. Die Clientversion. |
dependencies |
Sequence | Liste der Pip-Abhängigkeiten, wie von der Version der Pip in dieser Umgebung unterstützt. |
environment_version |
String | Erforderlich. Von der Umgebung verwendete Umgebungsversion. Jede Version enthält eine bestimmte Python-Version und eine Reihe von Python-Paketen. Die Version ist eine Zeichenfolge, die aus einer ganzen Zahl besteht. |
job.git_source
Type: Map
Git-Repositorykonfiguration für Auftragsquellcode.
| Key | Type | Description |
|---|---|---|
git_branch |
String | Der Name des Branches, der von diesem Auftrag ausgecheckt und verwendet werden soll. Dieses Feld kann nicht in Verbindung mit git_tag oder git_commit. |
git_commit |
String | Übernehmen Sie diesen Commit, um ausgecheckt und von diesem Auftrag verwendet zu werden. Dieses Feld kann nicht in Verbindung mit git_branch oder git_tag. |
git_provider |
String | Eindeutiger Bezeichner des Diensts, der zum Hosten des Git-Repositorys verwendet wird. Bei dem Wert wird die Groß-/Kleinschreibung nicht beachtet. Gültige Werte sind gitHub, bitbucketCloud, gitLab, azureDevOpsServices, gitHubEnterprise, bitbucketServer, gitLabEnterpriseEdition. |
git_snapshot |
Map | Schreibgeschützter Status des Remote-Repository zum Zeitpunkt der Ausführung des Auftrags. Dieses Feld ist nur bei Jobläufen enthalten. Siehe git_snapshot. |
git_tag |
String | Name des Tags, das ausgecheckt und von diesem Auftrag verwendet werden soll. Dieses Feld kann nicht in Verbindung mit git_branch oder git_commit. |
git_url |
String | DIE URL des Repositorys, das von diesem Auftrag geklont werden soll. |
job.git_source.git_snapshot
Type: Map
Momentaufnahme von schreibgeschützten Commit-Informationen.
| Key | Type | Description |
|---|---|---|
used_commit |
String | Commit, der zum Ausführen der Ausführung verwendet wurde. Wenn git_branch angegeben wurde, verweist dies auf den HEAD der Verzweigung zum Zeitpunkt der Ausführung; wenn git_tag angegeben wurde, verweist dies auf den Commit, auf den der Tag zeigt. |
job.health
Type: Map
Konfiguration der Gesundheitsüberwachung für den Task.
| Key | Type | Description |
|---|---|---|
rules |
Sequence | Eine Liste der Regeln für die Arbeitsintegrität. Jede Regel enthält ein metric und op (Operator) und value. Siehe job.health.rules. |
job.gesundheit.regeln
Type: Sequence
Eine Liste der Regeln für die Arbeitsintegrität.
Jedes Element in der Liste ist ein JobHealthRule:
| Key | Type | Description |
|---|---|---|
metric |
String | Gibt die Integritätsmetrik an, die für eine bestimmte Integritätsregel ausgewertet wird.
|
op |
String | Gibt den Operator an, der zum Vergleichen des Integritätsmetrikwerts mit dem angegebenen Schwellenwert verwendet wird. |
value |
Integer | Gibt den Schwellenwert an, dem die Integritätsmetrik gehorchen soll, um die Integritätsregel zu erfüllen. |
job.job_clusters
Type: Sequence
Eine Liste von Job-Cluster-Spezifikationen, die für Aufgaben dieses Jobs freigegeben und wiederverwendet werden können. Bibliotheken können nicht in einem freigegebenen Auftragscluster deklariert werden. Sie müssen abhängige Bibliotheken in Aufgabeneinstellungen deklarieren.
Jedes Element in der Liste ist ein JobCluster:
| Key | Type | Description |
|---|---|---|
job_cluster_key |
String | Ein eindeutiger Name für den Auftragscluster. Dieses Feld ist erforderlich und muss innerhalb des Auftrags eindeutig sein.
JobTaskSettings kann auf dieses Feld verweisen, um zu bestimmen, welcher Cluster für die Aufgabenausführung gestartet werden soll. |
new_cluster |
Map | Wenn new_cluster, eine Beschreibung eines Clusters, der für jede Aufgabe erstellt wird. Siehe Cluster. |
job.Benachrichtigungseinstellungen
Type: Map
Benachrichtigungseinstellungen, die für alle Benachrichtigungen für den Auftrag gelten.
| Key | Type | Description |
|---|---|---|
no_alert_for_skipped_runs |
Boolean | Gibt an, ob das Senden von Benachrichtigungen für übersprungene Läufe übersprungen werden soll. |
no_alert_for_canceled_runs |
Boolean | Gibt an, ob das Senden von Benachrichtigungen für abgebrochene Ausführungen übersprungen werden soll. |
Job-Warteschlange
Type: Map
Einstellungen der Warteschlange für die Aufgabe.
| Key | Type | Description |
|---|---|---|
enabled |
Boolean | Gibt an, ob die Warteschlange für den Auftrag aktiviert werden soll. |
job.schedule
Type: Map
Planen sie die Konfiguration für die regelmäßige Auftragsausführung.
| Key | Type | Description |
|---|---|---|
quartz_cron_expression |
String | Ein Cron-Expression mit Quartz-Syntax, die angibt, wann der Job ausgeführt wird. Führt den Auftrag beispielsweise 0 0 9 * * ? täglich um 9:00 Uhr UTC aus. |
timezone_id |
String | Die Zeitzone für den Zeitplan. Zum Beispiel: America/Los_Angeles oder UTC. |
pause_status |
String | Gibt an, ob der Zeitplan angehalten wird oder nicht. Gültige Werte: PAUSED, UNPAUSED. |
job.auslöser
Type: Map
Triggerkonfiguration für ereignisgesteuerte Auftragsausführung.
| Key | Type | Description |
|---|---|---|
file_arrival |
Map | Trigger basierend auf Dateiankunft. Siehe file_arrival. |
table |
Map | Trigger basierend auf einer Tabelle. Siehe Tabelle. |
table_update |
Map | Trigger basierend auf Tabellenaktualisierungen. Siehe table_update. |
periodic |
Map | Periodischer Auslöser. Siehe zyklisch. |
job.trigger.dateieingang
Type: Map
Auslösen der Konfiguration basierend auf dem Dateieingang.
| Key | Type | Description |
|---|---|---|
url |
String | Der Dateipfad, der auf neue Dateien überwacht werden soll. |
min_time_between_triggers_seconds |
Integer | Minimale Zeit in Sekunden zwischen Triggerereignissen. |
wait_after_last_change_seconds |
Integer | Wartezeit in Sekunden nach der letzten Dateiänderung, bevor eine Auslösung erfolgt. |
job.trigger.table
Type: Map
Auslösen der Konfiguration basierend auf einer Tabelle.
| Key | Type | Description |
|---|---|---|
table_names |
Sequence | Eine Liste von Tabellennamen, die überwacht werden sollen. |
condition |
String | Die SQL-Bedingung, die erfüllt werden muss, um den Auftrag auszulösen. |
job.trigger.tabellenaktualisierung
Type: Map
Auslösen der Konfiguration basierend auf Tabellenaktualisierungen.
| Key | Type | Description |
|---|---|---|
table_names |
Sequence | Eine Liste der Tabellennamen, die auf Updates überwacht werden sollen. |
condition |
String | Die SQL-Bedingung, die erfüllt werden muss, um den Auftrag auszulösen. |
wait_after_last_change_seconds |
Integer | Wartezeit in Sekunden nach der letzten Tabellenaktualisierung, bevor der Trigger ausgelöst wird. |
job.trigger.periodisch
Type: Map
Periodische Auslöserkonfiguration
| Key | Type | Description |
|---|---|---|
interval |
Integer | Der Intervallwert für den periodischen Auslöser. |
unit |
String | Die Zeiteinheit für das Intervall. Gültige Werte: SECONDS, , MINUTESHOURS, DAYS, . WEEKS |
job.Webhook-Benachrichtigungen
Type: Map
Webhook-Benachrichtigungseinstellungen für Auftragsausführungen.
| Key | Type | Description |
|---|---|---|
on_start |
Sequence | Eine Liste der Webhook-Benachrichtigungs-IDs, die benachrichtigt werden sollen, wenn eine Ausführung gestartet wird. |
on_success |
Sequence | Eine Liste der Webhook-Benachrichtigungs-IDs, die benachrichtigt werden sollen, wenn eine Ausführung erfolgreich ausgeführt wird. |
on_failure |
Sequence | Eine Liste von Webhook-Benachrichtigungs-IDs, die verwendet werden, um Benachrichtigungen auszulösen, wenn eine Ausführung fehlschlägt. |
on_duration_warning_threshold_exceeded |
Sequence | Eine Liste der Webhook-Benachrichtigungs-IDs, die benachrichtigt werden sollen, wenn eine Laufzeit den Warnschwellenwert überschreitet. |
Examples
Im folgenden Beispiel wird ein Job mit dem Ressourcenschlüssel hello-job mit einer Notebook-Aufgabe definiert.
resources:
jobs:
hello-job:
name: hello-job
tasks:
- task_key: hello-task
notebook_task:
notebook_path: ./hello.py
Im folgenden Beispiel wird ein Auftrag mit einem SQL-Notizbuch definiert:
resources:
jobs:
job_with_sql_notebook:
name: 'Job to demonstrate using a SQL notebook with a SQL warehouse'
tasks:
- task_key: notebook
notebook_task:
notebook_path: ./select.sql
warehouse_id: 799f096837fzzzz4
Weitere Auftragskonfigurationsbeispiele finden Sie unter Auftragskonfiguration.
Informationen zum Definieren von Auftragsaufgaben und zum Überschreiben von Auftragseinstellungen finden Sie unter:
- Hinzufügen von Aufgaben zu Aufträgen in Databricks Asset Bundles
- Job-Aufgabeinstellungen außer Kraft setzen
model (Legacy)
Type: Map
Mit der Modellressource können Sie Legacymodelle in Bündeln definieren. Databricks empfiehlt, stattdessen die in Unity-Katalog registrierten Modelle zu verwenden.
Modellbereitstellung-Endpunkt
Type: Map
Mit der model_serving_endpoint-Ressource können Sie Modell definieren, das Endpunktebedient. Weitere Informationen finden Sie unter Verwalten von Modellbereitstellungsendpunkten.
model_serving_endpoints:
<model_serving_endpoint-name>:
<model_serving_endpoint-field-name>: <model_serving_endpoint-field-value>
| Key | Type | Description |
|---|---|---|
ai_gateway |
Map | Die Konfiguration des AI-Gateways für den bereitstellenden Endpunkt. HINWEIS: Derzeit werden nur externe Modell- und bereitgestellte Durchsatzendpunkte unterstützt. Siehe ai_gateway. |
config |
Map | Die Kernkonfiguration des Bereitstellungsendpunkts. Siehe "config". |
name |
String | Der Name des Bereitstellungsendpunkts Dieses Feld ist erforderlich und muss in einem Databricks-Arbeitsbereich eindeutig sein. Ein Endpunktname kann aus alphanumerischen Zeichen, Gedankenstrichen und Unterstrichen bestehen. |
permissions |
Sequence | Das Modell, das die Berechtigungen des Endpunkts bedient. Weitere Informationen finden Sie unter Berechtigungen. |
rate_limits |
Sequence | Deprecated. Ratengrenzwerte, die auf den Dienstendpunkt angewendet werden sollen. Verwenden Sie AI-Gateway, um Ratelimits zu verwalten. |
route_optimized |
Boolean | Aktivieren Sie die Routenoptimierung für den Dienstendpunkt. |
tags |
Sequence | Tags, die an den Bereitstellungsendpunkt angefügt und automatisch an Abrechnungsprotokolle weitergeleitet werden sollen. |
Modellbereitstellungsendpunkt.ai_gateway
Type: Map
AI-Gatewaykonfiguration für den bereitstellenden Endpunkt.
| Key | Type | Description |
|---|---|---|
guardrails |
Map | Guardrail-Konfiguration. Siehe Schutzschienen. |
inference_table_config |
Map | Konfiguration für die Inferenzprotokollierung für Unity-Katalogtabellen. Siehe inference_table_config. |
rate_limits |
Sequence | Konfigurationen für die Ratenbegrenzung. |
usage_tracking_config |
Map | Konfiguration zur Verfolgung der Nutzung. Siehe usage_tracking_config. |
Modellbereitstellungsendpunkt.ai_gateway.Schutzmaßnahmen
Type: Map
Die Konfiguration der KI-Gateway-Schutzschienen.
| Key | Type | Description |
|---|---|---|
input |
Map | Konfiguration der Eingabeschutzschienen mit Feldern wie safety, pii. |
output |
Map | Konfiguration der Ausgabeschutzschienen mit Feldern wie safety, pii. |
invalid_keywords |
Sequence | Eine Liste der zu blockierenden Schlüsselwörter. |
model_serving_endpoint.ai_gateway.inferenz_tabellenkonfiguration
Type: Map
Konfiguration für die Inferenzprotokollierung für Unity-Katalogtabellen.
| Key | Type | Description |
|---|---|---|
catalog_name |
String | Der Name des Katalogs im Unity-Katalog. |
schema_name |
String | Der Name des Schemas im Unity-Katalog. |
table_name_prefix |
String | Das Präfix für Inference-Tabellennamen. |
enabled |
Boolean | Gibt an, ob die Ableitungstabellenprotokollierung aktiviert ist. |
Modellbereitstellungsendpunkt.ai_gateway.Nutzungsverfolgungskonfiguration
Type: Map
Die KI-Gatewaykonfiguration für die Nachverfolgung der Nutzung.
| Key | Type | Description |
|---|---|---|
enabled |
Boolean | Gibt an, ob die Verwendungsnachverfolgung aktiviert ist. |
model_serving_endpoint.config
Type: Map
Die Kernkonfiguration des bereitzustellenden Endpunkts.
| Key | Type | Description |
|---|---|---|
served_entities |
Sequence | Eine Liste der bereitgestellten Entitäten für den Endpunkt, der bedient werden soll. Jede bereitgestellte Entität enthält Felder wie entity_name, entity_version, workload_size, scale_to_zero_enabled, , workload_type. environment_vars |
served_models |
Sequence | (Veraltet: Verwenden Sie served_entities stattdessen) Eine Liste der bereitgestellten Modelle für den Endpunkt, die bedient werden sollen. |
traffic_config |
Map | Die Verkehrskonfiguration, die definiert, wie Aufrufe an den Serving-Endpoint weitergeleitet werden sollen. Siehe traffic_config. |
auto_capture_config |
Map | Konfiguration für Inference-Tabellen, in denen Anforderungen und Antworten automatisch im Unity-Katalog protokolliert werden. Siehe auto_capture_config. |
model_serving_endpoint.config.Verkehrskonfiguration
Type: Map
Die Verkehrskonfiguration, die definiert, wie Aufrufe an den Serving-Endpoint weitergeleitet werden sollen.
| Key | Type | Description |
|---|---|---|
routes |
Sequence | Eine Liste der Routen für die Verkehrsverteilung. Jede Route enthält served_model_name und traffic_percentage. |
model_serving_endpoint.config.auto_capture_config
Type: Map
Konfiguration für Inference-Tabellen, in denen Anforderungen und Antworten automatisch im Unity-Katalog protokolliert werden.
| Key | Type | Description |
|---|---|---|
catalog_name |
String | Der Name des Katalogs im Unity-Katalog. |
schema_name |
String | Der Name des Schemas im Unity-Katalog. |
table_name_prefix |
String | Das Präfix für Inference-Tabellennamen. |
enabled |
Boolean | Gibt an, ob die Ableitungstabellenprotokollierung aktiviert ist. |
Example
Im folgenden Beispiel wird ein Unity-Katalogmodell definiert, das Endpunkte bedient:
resources:
model_serving_endpoints:
uc_model_serving_endpoint:
name: 'uc-model-endpoint'
config:
served_entities:
- entity_name: 'myCatalog.mySchema.my-ads-model'
entity_version: '10'
workload_size: 'Small'
scale_to_zero_enabled: 'true'
traffic_config:
routes:
- served_model_name: 'my-ads-model-10'
traffic_percentage: '100'
tags:
- key: 'team'
value: 'data science'
Rohrleitung
Type: Map
Pipelines werden in Python für Databricks Asset Bundles unterstützt. Siehe databricks.bundles.pipelines.
Mit der Pipelineressource können Sie Pipelines erstellen. Informationen zu Pipelines finden Sie unter Lakeflow Spark Declarative Pipelines. Ein Lernprogramm, das die Vorlage "Databricks Asset Bundles" zum Erstellen einer Pipeline verwendet, finden Sie unter Develop Lakeflow Spark Declarative Pipelines with Databricks Asset Bundles.
pipelines:
<pipeline-name>:
<pipeline-field-name>: <pipeline-field-value>
| Key | Type | Description |
|---|---|---|
allow_duplicate_names |
Boolean | Wenn dieser Wert auf „false“ fesgelegt wird, schlägt die Bereitstellung fehl, wenn der Name mit der einer anderen Pipeline in Konflikt steht. |
budget_policy_id |
String | Budgetpolitik dieser Pipeline. |
catalog |
String | Ein Katalog innerhalb des Unity-Katalogs, in dem Daten aus dieser Pipeline veröffentlicht werden können. Wenn target angegeben, werden Tabellen in dieser Pipeline in einem target Schema innerhalb catalog (z. B catalog. .target.table) veröffentlicht. Wenn target nicht angegeben, werden keine Daten im Unity-Katalog veröffentlicht. |
channel |
String | Der Lakeflow Spark Declarative Pipelines Release Channel, der angibt, welche Version von Lakeflow Spark Declarative Pipelines verwendet werden soll. |
clusters |
Sequence | Die Clustereinstellungen für diese Pipelinebereitstellung. Siehe Cluster. |
configuration |
Map | Die Konfiguration für diese Pipelineausführung. |
continuous |
Boolean | Gibt an, ob die Pipeline fortlaufend ist oder ausgelöst wird. Dieser Schlüssel ersetzt trigger. |
deployment |
Map | Bereitstellungstyp dieser Pipeline. Weitere Informationen finden Sie unter Bereitstellung. |
development |
Boolean | Gibt an, ob sich die Pipeline im Entwicklungsmodus befindet. Der Standardwert ist „false“. |
dry_run |
Boolean | Gibt an, ob es sich bei der Pipeline um eine Trockenlaufpipeline handelt. |
edition |
String | Die Edition des Pipelineprodukts. |
environment |
Map | Die Umgebungsspezifikation für diese Pipeline wurde verwendet, um Abhängigkeiten in einer serverlosen Computerumgebung zu installieren. Siehe Umgebung. Dieser Schlüssel wird nur in Databricks CLI Version 0.258 und höher unterstützt. |
event_log |
Map | Die Ereignisprotokollkonfiguration für diese Pipeline. Siehe event_log. |
filters |
Map | Die Filter, die bestimmen, welche Pipelinepakete in das bereitgestellte Diagramm aufgenommen werden sollen. Siehe Filter. |
id |
String | Eindeutiger Bezeichner für diese Pipeline. |
ingestion_definition |
Map | Die Konfiguration für eine verwaltete Aufnahmepipeline. Diese Einstellungen können nicht mit den Einstellungen libraries, schema, target, oder catalog verwendet werden. Siehe ingestion_definition. |
libraries |
Sequence | Eine Liste der Bibliotheken oder des Quellcodes, die für diese Bereitstellung benötigt werden. Siehe pipeline.libraries. |
lifecycle |
Map | Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus. |
name |
String | Ein benutzerfreundlicher Name für diese Pipeline. |
notifications |
Sequence | Die Benachrichtigungseinstellungen für diese Pipeline. |
permissions |
Sequence | Die Berechtigungen der Pipeline. Weitere Informationen finden Sie unter Berechtigungen. |
photon |
Boolean | Gibt an, ob Photon für diese Pipeline aktiviert ist. |
root_path |
String | Der Stammpfad für diese Pipeline. Dies wird beim Bearbeiten der Pipeline auf der Databricks-Benutzeroberfläche als Stammverzeichnis verwendet und beim Ausführen von Python-Quellen während der Pipelineausführung zu sys.path hinzugefügt. |
run_as |
Map | Die Identität, unter der die Pipeline ausgeführt wird. Wenn nicht angegeben, wird die Pipeline als der Benutzer ausgeführt, der die Pipeline erstellt hat. Nur user_name oder service_principal_name kann angegeben werden. Wenn beide angegeben sind, wird ein Fehler ausgelöst. Siehe run_as. |
schema |
String | Das Standardschema (Datenbank), in dem Tabellen gelesen oder veröffentlicht werden. |
serverless |
Boolean | Gibt an, ob die serverlose Berechnung für diese Pipeline aktiviert ist. |
storage |
String | Das DBFS-Stammverzeichnis zum Speichern von Prüfpunkten und Tabellen. |
tags |
Map | Eine Kartierung von Tags, die mit der Pipeline verknüpft sind. Diese werden als Clustertags an den Cluster weitergeleitet und unterliegen daher den gleichen Einschränkungen. Maximal 25 Tags können zur Pipeline hinzugefügt werden. |
target |
String | Zielschema (Datenbank), dem Tabellen in dieser Pipeline hinzugefügt werden sollen. Genau einer von schema oder target muss angegeben werden. Wenn Sie im Unity-Katalog veröffentlichen möchten, geben Sie auch an catalog. Dieses veraltete Feld wird für die Pipelineerstellung nicht mehr empfohlen und sollte zugunsten des Felds schema ersetzt werden. |
pipeline.Bereitstellung
Type: Map
Bereitstellungstypkonfiguration für die Pipeline.
| Key | Type | Description |
|---|---|---|
kind |
String | Die Art der Bereitstellung. Beispiel: BUNDLE. |
metadata_file_path |
String | Der Pfad zur Metadatendatei für die Bereitstellung. |
pipeline.Umgebung
Type: Map
Umgebungsspezifikation für die Installation von Abhängigkeiten bei serverlosem Computing.
| Key | Type | Description |
|---|---|---|
dependencies |
Sequence | Eine Liste der pip-Abhängigkeiten, wie von der Version von pip in dieser Umgebung unterstützt. Jede Abhängigkeit ist eine Pip-Anforderungsdateizeile. |
pipeline.Ereignisprotokoll
Type: Map
Ereignisprotokollkonfiguration für die Pipeline.
| Key | Type | Description |
|---|---|---|
catalog |
String | Der Unity-Katalogkatalog, unter dem das Ereignisprotokoll veröffentlicht wird. |
name |
String | Der Name des Ereignisprotokolls wird im Unity-Katalog veröffentlicht. |
schema |
String | Das Unity-Katalogschema, unter dem das Ereignisprotokoll veröffentlicht wird. |
Pipeline.Filter
Type: Map
Filter, die bestimmen, welche Pipelinepakete in das bereitgestellte Diagramm eingeschlossen werden sollen.
| Key | Type | Description |
|---|---|---|
include |
Sequence | Eine Liste der einzuschließden Paketnamen. |
exclude |
Sequence | Eine Liste der auszuschließenden Paketnamen. |
pipeline.ingestion_definition
Type: Map
Konfiguration für eine verwaltete Aufnahmepipeline. Diese Einstellungen können nicht mit den Einstellungen libraries, schema, target, oder catalog verwendet werden.
| Key | Type | Description |
|---|---|---|
connection_name |
String | Der Name der Verbindung, die zur Aufnahme genutzt werden soll. |
ingestion_gateway_id |
String | Die ID des Ingestion-Gateways. |
objects |
Sequence | Erforderlich. Einstellungen, die Tabellen angeben, die repliziert werden sollen, und das Ziel für die replizierten Tabellen. Jedes Objekt kann ein SchemaSpec-, TableSpec- oder ReportSpec-Objekt sein. |
source_configuration |
Map | Quellkonfigurationsparameter auf Katalogebene. Siehe source_configuration. |
table_configuration |
Map | Konfiguration für die Eingabetabellen. Siehe table_configuration. |
SchemaSpec
Type: Map
Schemaobjektspezifikation zum Aufnehmen aller Tabellen aus einem Schema.
| Key | Type | Description |
|---|---|---|
source_schema |
String | Der Name des zu aufnehmenden Quellschemas. |
destination_catalog |
String | Der Name des Zielkatalogs im Unity-Katalog. |
destination_schema |
String | Der Name des Zielschemas im Unity-Katalog. |
table_configuration |
Map | Konfiguration, die auf alle Tabellen in diesem Schema angewendet werden soll. Siehe pipeline.ingestion_definition.table_configuration. |
Tabellenspezifikation
Type: Map
Tabellenobjektspezifikation zum Einlesen einer bestimmten Tabelle.
| Key | Type | Description |
|---|---|---|
source_schema |
String | Der Name des Quellschemas, das die Tabelle enthält. |
source_table |
String | Der Name der zu aufnehmenden Quelltabelle. |
destination_catalog |
String | Der Name des Zielkatalogs im Unity-Katalog. |
destination_schema |
String | Der Name des Zielschemas im Unity-Katalog. |
destination_table |
String | Der Name der Zieltabelle im Unity-Katalog. |
table_configuration |
Map | Konfiguration für diese spezifische Tabelle. Siehe pipeline.ingestion_definition.table_configuration. |
ReportSpec
Type: Map
Berichtsobjektspezifikation für die Erfassung von Analyseberichten.
| Key | Type | Description |
|---|---|---|
source_url |
String | Die URL des Quellberichts. |
source_report |
String | Der Name oder der Bezeichner des Quellberichts. |
destination_catalog |
String | Der Name des Zielkatalogs im Unity-Katalog. |
destination_schema |
String | Der Name des Zielschemas im Unity-Katalog. |
destination_table |
String | Der Name der Zieltabelle für die Berichtsdaten. |
table_configuration |
Map | Konfiguration für die Berichtstabelle. Siehe pipeline.ingestion_definition.table_configuration. |
Pipeline.Aufnahmedefinition.Quellkonfiguration
Type: Map
Konfiguration für die Quelle.
| Key | Type | Description |
|---|---|---|
catalog |
Map | Quellkonfigurationsparameter auf Katalogebene. Siehe Katalog. |
Pipeline.Aufnahmedefinition.Quellkonfiguration.Katalog
Type: Map
Quellkonfigurationsparameter auf Katalogebene
| Key | Type | Description |
|---|---|---|
postgres |
Map | Postgres-spezifische Konfigurationsparameter auf Katalogebene. Enthält einen slot_config Schlüssel, der die Map Konfiguration des Postgres-Steckplatzes darstellt, die für die logische Replikation verwendet werden soll. |
source_catalog |
String | Der Name des Quellkatalogs. |
Pipeline.Einfuhrungsdefinition.Tabellenkonfiguration
Type: Map
Konfigurationsoptionen für Eingabetabellen.
| Key | Type | Description |
|---|---|---|
exclude_columns |
Sequence | Eine Liste der Spaltennamen, die für die Aufnahme ausgeschlossen werden sollen. Wenn nicht angegeben, steuert include_columns vollständig, welche Spalten aufgenommen werden sollen. Wenn angegeben, werden alle anderen Spalten, einschließlich zukünftiger, automatisch in die Eingabe einbezogen. Dieses Feld ist unvereinbar mit include_columns. |
include_columns |
Sequence | Eine Liste der Spaltennamen, die für den Datenimport enthalten sein sollen. Wenn nicht angegeben, werden alle Spalten mit Ausnahme der in exclude_columns einbezogen. Zukünftige Spalten werden automatisch einbezogen. Wenn angegeben, werden alle anderen zukünftigen Spalten automatisch von der Einspeisung ausgeschlossen. Dieses Feld ist unvereinbar mit exclude_columns. |
primary_keys |
Sequence | Eine Liste der Spaltennamen, die als Primärschlüssel für die Tabelle verwendet werden sollen. |
sequence_by |
Sequence | Die Spaltennamen, die die logische Reihenfolge von Ereignissen in den Quelldaten angeben. Spark Declarative Pipelines verwendet diese Sequenzierung, um Änderungsereignisse zu behandeln, die außerhalb der Reihenfolge ankommen. |
pipeline.Bibliotheken
Type: Sequence
Definiert die Liste der Bibliotheken oder Code, die von dieser Pipeline benötigt werden.
Jedes Element in der Liste ist eine Definition:
| Key | Type | Description |
|---|---|---|
file |
Map | Der Pfad zu einer Datei, die eine Pipeline definiert und in Databricks Repos gespeichert wird. Siehe pipeline.libraries.file. |
glob |
Map | Das einheitliche Feld, das Quellcode enthält. Jeder Eintrag kann ein Notizbuchpfad, ein Dateipfad oder ein Ordnerpfad sein, der endet /**. Dieses Feld kann nicht zusammen mit notebook oder fileverwendet werden. Siehe pipeline.libraries.glob. |
notebook |
Map | Der Pfad zu einem Notizbuch, das eine Pipeline definiert und im Databricks-Arbeitsbereich gespeichert wird. Siehe pipeline.libraries.notebook. |
whl |
String | Dieses Feld ist veraltet. |
pipeline.Bibliotheken.Datei
Type: Map
Der Pfad zu einer Datei, die eine Pipeline definiert und in databricks Repos gespeichert wird.
| Key | Type | Description |
|---|---|---|
path |
String | Der absolute Pfad des Quellcodes. |
pipeline.libraries.glob
Type: Map
Das einheitliche Feld, das Quellcode enthält. Jeder Eintrag kann ein Notizbuchpfad, ein Dateipfad oder ein Ordnerpfad sein, der endet /**. Dieses Feld kann nicht zusammen mit notebook oder fileverwendet werden.
| Key | Type | Description |
|---|---|---|
include |
String | Der Quellcode, der für Pipelines eingeschlossen werden soll |
pipeline.libraries.notebook
Type: Map
Der Pfad zu einem Notizbuch, das eine Pipeline definiert und im Databricks-Arbeitsbereich gespeichert wird.
| Key | Type | Description |
|---|---|---|
path |
String | Der absolute Pfad des Quellcodes. |
Example
Im folgenden Beispiel wird eine Pipeline mit dem Ressourcenschlüssel hello-pipelinedefiniert:
resources:
pipelines:
hello-pipeline:
name: hello-pipeline
clusters:
- label: default
num_workers: 1
development: true
continuous: false
channel: CURRENT
edition: CORE
photon: false
libraries:
- notebook:
path: ./pipeline.py
Weitere Pipelinekonfigurationsbeispiele finden Sie unter Pipelinekonfiguration.
quality_monitor (Unity Katalog)
Type: Map
Mit der quality_monitor-Ressource können Sie einen Unity Catalog-Tabellenmonitor definieren. Informationen zu Monitoren finden Sie unter "Datenprofilerstellung".
quality_monitors:
<quality_monitor-name>:
<quality_monitor-field-name>: <quality_monitor-field-value>
| Key | Type | Description |
|---|---|---|
assets_dir |
String | Das Verzeichnis zum Speichern von Überwachungsressourcen (z. B. Dashboard, Metriktabellen). |
baseline_table_name |
String | Name der Basistabelle, aus der Driftmetriken berechnet werden. Spalten in der überwachten Tabelle sollten auch in der Baselinetabelle vorhanden sein. |
custom_metrics |
Sequence | Benutzerdefinierte Metriken, die für die überwachte Tabelle berechnet werden sollen. Hierbei kann es sich um aggregierte Metriken, abgeleitete Metriken (aus bereits berechneten Aggregatmetriken) oder Driftmetriken (Vergleich von Metriken über Zeitfenster) sein. Siehe custom_metrics. |
inference_log |
Map | Konfiguration für die Überwachung von Inferezprotokollen. Siehe inference_log. |
lifecycle |
Map | Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus. |
notifications |
Map | Die Benachrichtigungseinstellungen für den Monitor. Siehe Benachrichtigungen. |
output_schema_name |
String | Schema, in dem Ausgabemetriktabellen erstellt werden. |
schedule |
Map | Der Zeitplan für die automatische Aktualisierung und die Aktualisierung von Metriktabellen. Siehe Zeitplan. |
skip_builtin_dashboard |
Boolean | Gibt an, ob Sie das Erstellen eines Standarddashboards überspringen möchten, in dem Datenqualitätsmetriken zusammengefasst werden. |
slicing_exprs |
Sequence | Liste der Spaltenausdrücke zum Aufteilen von Daten für gezielte die Analyse. Die Daten werden nach jedem Ausdruck unabhängig gruppiert, was zu einem separaten Segment für jedes Prädikat und seine Ergänzungen führt. Bei Spalten mit hoher Kardinalität werden nur die nach Häufigkeit 100 häufigsten eindeutigen Werte Segmente generieren. |
snapshot |
Map | Konfiguration für die Überwachung von Snapshot-Tabellen. Siehe Momentaufnahme. |
table_name |
String | Der vollständige Name der Tabelle. |
time_series |
Map | Konfiguration für die Überwachung von Zeitreihentabellen. Siehe time_series. |
warehouse_id |
String | Optionales Argument zum Angeben des Lagers für die Dashboarderstellung. Wenn nicht angegeben, wird das erste laufende Lager verwendet. |
quality_monitor.custom_metrics
Type: Sequence
Eine Liste der benutzerdefinierten Metrikdefinitionen.
Jedes Element in der Liste ist ein CustomMetric:
| Key | Type | Description |
|---|---|---|
definition |
String | Jinja-Vorlage für einen SQL-Ausdruck, der angibt, wie die Metrik berechnet wird. Siehe Erstellen einer Metrikdefinition. |
input_columns |
Sequence | Eine Liste der Spaltennamen in der Eingabetabelle, für die die Metrik berechnet werden soll. Kann verwendet werden :table , um anzugeben, dass die Metrik Informationen aus mehreren Spalten benötigt. |
name |
String | Name der Metrik in den Ausgabetabellen. |
output_data_type |
String | Der Ausgabetyp der benutzerdefinierten Metrik. |
type |
String | Kann nur eines von CUSTOM_METRIC_TYPE_AGGREGATE, CUSTOM_METRIC_TYPE_DERIVED oder CUSTOM_METRIC_TYPE_DRIFT sein. Die CUSTOM_METRIC_TYPE_AGGREGATE- und CUSTOM_METRIC_TYPE_DERIVED-Metriken werden in einer einzelnen Tabelle berechnet, wohingegen die CUSTOM_METRIC_TYPE_DRIFT-Metriken über die Basislinien- und Eingabetabelle oder über zwei aufeinanderfolgende Zeitfenster verglichen werden.
|
Qualitätsüberwachung.Datenklassifizierungskonfiguration
Type: Map
Konfiguration für die Datenklassifizierung.
| Key | Type | Description |
|---|---|---|
enabled |
Boolean | Gibt an, ob die Datenklassifizierung aktiviert ist. |
qualitätsmonitor.inferenzprotokoll
Type: Map
Konfiguration für die Überwachung von Inferezprotokollen.
| Key | Type | Description |
|---|---|---|
granularities |
Sequence | Die Zeitgranularitäten für das Aggregieren von Inferenzprotokollen (z. B. ["1 day"]). |
model_id_col |
String | Der Name der Spalte, die die Modell-ID enthält. |
prediction_col |
String | Der Name der Spalte, die die Vorhersage enthält. |
timestamp_col |
String | Der Name der Spalte, die den Zeitstempel enthält. |
problem_type |
String | Der Typ des ML-Problems. Gültige Werte sind PROBLEM_TYPE_CLASSIFICATION, PROBLEM_TYPE_REGRESSION. |
label_col |
String | Der Name der Spalte, die die Beschriftung (Bodenwahrkeit) enthält. |
quality_monitor.benachrichtigungen
Type: Map
Benachrichtigungseinstellungen für den Monitor.
| Key | Type | Description |
|---|---|---|
on_failure |
Map | Benachrichtigungseinstellungen, wenn der Monitor fehlschlägt. Siehe on_failure. |
on_new_classification_tag_detected |
Map | Benachrichtigungseinstellungen, wenn neue Klassifizierungstags erkannt werden. Weitere Informationen finden Sie unter on_new_classification_tag_detected. |
Qualitätsüberwachung.Benachrichtigungen.bei_Fehler
Type: Map
Benachrichtigungseinstellungen, wenn der Monitor fehlschlägt.
| Key | Type | Description |
|---|---|---|
email_addresses |
Sequence | Eine Liste von E-Mail-Adressen, die bei einem Monitorausfall benachrichtigt werden sollen. |
quality_monitor.benachrichtigungen.bei_neuem_klassifizierung_tag_entdeckt
Type: Map
Benachrichtigungseinstellungen, wenn neue Klassifizierungstags erkannt werden.
| Key | Type | Description |
|---|---|---|
email_addresses |
Sequence | Eine Liste der E-Mail-Adressen, die benachrichtigt werden sollen, wenn neue Klassifizierungstags erkannt werden. |
quality_monitor.schedule
Type: Map
Zeitplan für die automatische Aktualisierung und Auffrischung von Metriktabellen.
| Key | Type | Description |
|---|---|---|
quartz_cron_expression |
String | Ein Cron-Ausdruck mit Quartz-Syntax. Beispielsweise wird 0 0 8 * * ? täglich um 8:00 Uhr ausgeführt. |
timezone_id |
String | Die Zeitzone für den Zeitplan (z. B UTC. , America/Los_Angeles). |
pause_status |
String | Gibt an, ob der Zeitplan angehalten wird. Gültige Werte: PAUSED, UNPAUSED. |
quality_monitor.snapshot
Type: Map
Konfiguration für die Überwachung von Snapshot-Tabellen.
Qualitätsmonitor.Zeitreihe
Konfiguration für die Überwachung von Zeitreihentabellen.
| Key | Type | Description |
|---|---|---|
granularities |
Sequence | Die Zeitgranularitäten für das Aggregieren von Zeitreihendaten (z. B. ["30 minutes"]). |
timestamp_col |
String | Der Name der Spalte, die den Zeitstempel enthält. |
Examples
Ein vollständiges Beispielbundle, das einen quality_monitor definiert, finden Sie im mlops_demo-Bundle.
In den folgenden Beispielen werden Qualitätsmonitore für InferenceLog-, TimeSeries- und Snapshot-Profiltypen definiert.
# InferenceLog profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
inference_log:
granularities: [1 day]
model_id_col: model_id
prediction_col: prediction
label_col: price
problem_type: PROBLEM_TYPE_REGRESSION
timestamp_col: timestamp
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
# TimeSeries profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
time_series:
granularities: [30 minutes]
timestamp_col: timestamp
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
# Snapshot profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
snapshot: {}
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
registriertes_Modell (Unity-Katalog)
Type: Map
Mit der registrierten Modellressource können Sie Modelle im Unity-Katalog definieren. Informationen zu den im Unity-Katalog registrierten Modellenfinden Sie unter Verwalten des Modelllebenszyklus im Unity-Katalog.
registered_models:
<registered_model-name>:
<registered_model-field-name>: <registered_model-field-value>
| Key | Type | Description |
|---|---|---|
aliases |
Sequence | Liste der Aliase, die dem registrierten Modell zugeordnet sind. Siehe registered_model.aliases. |
browse_only |
Boolean | Gibt an, ob der Hauptbenutzer auf das Abrufen von Metadaten für das zugeordnete Objekt durch die BROWSE-Berechtigung eingeschränkt ist, wenn der Parameter include_browse in der Anfrage aktiviert ist. |
catalog_name |
String | Der Name des Katalogs, in dem sich das Schema und das registrierte Modell befinden. |
comment |
String | Der Kommentar, der dem registrierten Modell zugeordnet ist. |
full_name |
String | Der dreistufige (vollqualifizierte) Name des registrierten Modells |
grants |
Sequence | Die dem registrierten Modell zugeordneten Zuschüsse. Siehe Grant. |
lifecycle |
Map | Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus. |
name |
String | Der Name des registrierten Modells. |
schema_name |
String | Der Name des Schemas, in dem sich das registrierte Modell befindet. |
storage_location |
String | Der Speicherort in der Cloud, unter dem Modellversionsdatendateien gespeichert werden. |
registriertes_Modell.Aliasse
Type: Sequence
Eine Liste der Aliase, die dem registrierten Modell zugeordnet sind.
Jedes Element in der Liste ist ein Alias:
| Key | Type | Description |
|---|---|---|
alias_name |
String | Name des Alias, z. B. "Champion" oder "latest_stable" |
catalog_name |
String | Der Name des Katalogs, der die Modellversion enthält |
id |
String | Der eindeutige Bezeichner des Alias |
model_name |
String | Der Name des übergeordneten Modells, das in der Modellversion registriert ist, im Verhältnis zum übergeordneten Schema. |
schema_name |
String | Der Name des Schemas, das die Modellversion enthält, bezogen auf den übergeordneten Katalog. |
version_num |
Integer | Ganzzahlige Versionsnummer der Modellversion, auf die dieser Alias verweist. |
Example
Im folgenden Beispiel wird ein registriertes Modell im Unity-Katalog definiert:
resources:
registered_models:
model:
name: my_model
catalog_name: ${bundle.target}
schema_name: mlops_schema
comment: Registered model in Unity Catalog for ${bundle.target} deployment target
grants:
- privileges:
- EXECUTE
principal: account users
Schema (Unity Catalog)
Type: Map
Schemas werden in Python für Databricks Asset Bundles unterstützt. Siehe databricks.bundles.schemas.
Mit dem Schemaressourcentyp können Sie Unity-Katalog Schemas für Tabellen und andere Ressourcen in Ihren Workflows und Pipelines definieren, die als Teil eines Bündels erstellt wurden. Ein Schema, das sich von anderen Ressourcentypen unterscheidet, weist die folgenden Einschränkungen auf:
- Der Besitzer einer Schemaressource ist immer der Bereitstellungsbenutzer und kann nicht geändert werden. Wenn
run_asim Bundle angegeben ist, wird sie von Vorgängen im Schema ignoriert. - Für die Schemaressource sind nur Felder verfügbar, die vom entsprechenden Schemas-Objekt-Erstellungs-API unterstützt werden. Beispielsweise wird
enable_predictive_optimizationnicht unterstützt, da sie nur in der Update-APIverfügbar ist.
schemas:
<schema-name>:
<schema-field-name>: <schema-field-value>
| Key | Type | Description |
|---|---|---|
catalog_name |
String | Der Name des übergeordneten Katalogs. |
comment |
String | Eine vom Benutzer bereitgestellte Freiformtextbeschreibung. |
grants |
Sequence | Die dem Schema zugeordneten Zuschüsse. Siehe Grant. |
lifecycle |
Map | Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus. |
name |
String | Der Name des Schemas in Bezug auf den übergeordneten Katalog. |
properties |
Map | Eine Zuordnung von Schlüsselwerteigenschaften, die dem Schema zugeordnet sind. |
storage_root |
String | Die Speicherstamm-URL für verwaltete Tabellen innerhalb des Schemas. |
Examples
Im folgenden Beispiel wird eine Pipeline mit dem Ressourcenschlüssel my_pipeline definiert, die ein Unity-Katalogschema mit dem Schlüssel my_schema als Ziel erstellt:
resources:
pipelines:
my_pipeline:
name: test-pipeline-{{.unique_id}}
libraries:
- notebook:
path: ../src/nb.ipynb
- file:
path: ../src/range.sql
development: true
catalog: ${resources.schemas.my_schema.catalog_name}
target: ${resources.schemas.my_schema.id}
schemas:
my_schema:
name: test-schema-{{.unique_id}}
catalog_name: main
comment: This schema was created by Databricks Asset Bundles.
Eine Zuordnung von Zuschüssen auf oberster Ebene wird von Databricks Asset Bundles nicht unterstützt. Wenn Sie also Zuschüsse für ein Schema festlegen möchten, definieren Sie die Zuschüsse für das Schema innerhalb der schemas-Zuordnung. Weitere Informationen zu Berechtigungen finden Sie unter Berechtigungen anzeigen, zuweisen und widerrufen.
Im folgenden Beispiel wird ein Unity-Katalogschema mit Zuschüssen definiert:
resources:
schemas:
my_schema:
name: test-schema
grants:
- principal: users
privileges:
- SELECT
- principal: my_team
privileges:
- CAN_MANAGE
catalog_name: main
geheimer_Bereich
Type: Map
Mit der secret_scope-Ressource können Sie geheime Bereiche in einem Bündel definieren. Informationen zu geheimen Bereichen finden Sie unter "Geheime Verwaltung".
secret_scopes:
<secret_scope-name>:
<secret_scope-field-name>: <secret_scope-field-value>
| Key | Type | Description |
|---|---|---|
backend_type |
String | Der Backend-Typ, mit dem der Reservierungsumfang erstellt werden soll. Wenn nicht angegeben, wird dies standardmäßig auf DATABRICKS gesetzt. |
keyvault_metadata |
Map | Die Metadaten für den geheimen Bereich, wenn backend_type gleich AZURE_KEYVAULT ist. Siehe keyvault_metadata. |
lifecycle |
Map | Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus. |
name |
String | Vom Benutzer angeforderter Bereichsname. Bereichsnamen sind eindeutig. |
permissions |
Sequence | Die Berechtigungen, die für den geheimen Bereich gelten sollen. Berechtigungen werden über Secret Scope ACLs verwaltet. Weitere Informationen finden Sie unter Berechtigungen. |
secret_scope.keyvault_metadata
Type: Map
Die Metadaten für geheime Azure Key Vault-gesicherte Bereiche.
| Key | Type | Description |
|---|---|---|
resource_id |
String | Die Azure-Ressourcen-ID des Key Vault. |
dns_name |
String | Der DNS-Name des Azure Key Vault. |
Examples
Im folgenden Beispiel wird ein geheimer Reservierungsumfang definiert, der ein Schlüssel Vault-Backend verwendet:
resources:
secret_scopes:
secret_scope_azure:
name: test-secrets-azure-backend
backend_type: 'AZURE_KEYVAULT'
keyvault_metadata:
resource_id: my_azure_keyvault_id
dns_name: my_azure_keyvault_dns_name
Im folgenden Beispiel wird eine benutzerdefinierte ACL mit geheimen Bereichen und Berechtigungen festgelegt:
resources:
secret_scopes:
my_secret_scope:
name: my_secret_scope
permissions:
- user_name: admins
level: WRITE
- user_name: users
level: READ
Ein Beispiel-Bundle, das demonstriert, wie man einen geheimen Reservierungsumfang und einen Einzelvorgang mit einer Aufgabe, die daraus liest, in einem Bundle definiert, finden Sie im bundle-examples GitHub repository.
SQL-Lager
Type: Map
Mit der SQL Warehouse-Ressource können Sie ein SQL-Lagerhaus in einem Bundle definieren. Informationen zu SQL Warehouses finden Sie unter Data Warehouses in Azure Databricks.
sql_warehouses:
<sql-warehouse-name>:
<sql-warehouse-field-name>: <sql-warehouse-field-value>
| Key | Type | Description |
|---|---|---|
auto_stop_mins |
Integer | Die Zeitspanne in Minuten, die ein SQL-Lager im Leerlauf sein muss (z. B. keine RUNNING-Abfragen), bevor es automatisch beendet wird. Gültige Werte sind 0, was keinen Autostopp bedeutet, oder größer oder gleich 10. Der Standardwert ist 120. |
channel |
Map | Die Kanaldetails. Kanal anzeigen |
cluster_size |
String | Die Größe der für dieses Lager zugewiesenen Cluster. Wenn Sie die Größe eines Spark-Clusters erhöhen, können Sie größere Abfragen darauf ausführen. Wenn Sie die Anzahl gleichzeitiger Abfragen erhöhen möchten, optimieren Sie max_num_clusters. Unterstützte Werte finden Sie unter cluster_size. |
creator_name |
String | Der Name des Benutzers, der das Lager erstellt hat. |
enable_photon |
Boolean | Gibt an, ob das Lager photonoptimierte Cluster verwenden soll. Der Standardwert ist „false“. |
enable_serverless_compute |
Boolean | Gibt an, ob das Lager serverlose Berechnung verwenden soll. |
instance_profile_arn |
String | Deprecated. Instanzprofil, das zum Übergeben der IAM-Rolle an den Cluster verwendet wird, |
lifecycle |
Map | Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus. |
max_num_clusters |
Integer | Die maximale Anzahl von Clustern, die vom Autoscaler erstellt werden, um gleichzeitige Abfragen zu verarbeiten. Werte müssen kleiner oder gleich 30 und größer als oder gleich sein min_num_clusters. Ist nicht festgelegt, wird auf standardmäßig min_clusters gesetzt. |
min_num_clusters |
Integer | Die Mindestanzahl der verfügbaren Cluster, die für dieses SQL-Warehouse verwaltet werden. Indem dies erhöht wird, wird sichergestellt, dass stets eine größere Anzahl von Clustern aktiv ist, was somit die Kaltstartzeit für neue Abfragen verkürzen kann. Dies ähnelt reservierten und revocablen Kernen in einem Ressourcen-Manager. Werte müssen größer als 0 und kleiner als oder gleich min(max_num_clusters, 30) sein. Der Standardwert lautet 1. |
name |
String | Der logische Name für den Cluster. Der Name muss innerhalb einer Organisation eindeutig sein und weniger als 100 Zeichen umfassen. |
permissions |
Sequence | Die Berechtigungen, die für das Lager gelten sollen. Weitere Informationen finden Sie unter Berechtigungen. |
spot_instance_policy |
String | Gibt an, ob Spotinstanzen verwendet werden sollen. Gültige Werte sind POLICY_UNSPECIFIED, COST_OPTIMIZED, RELIABILITY_OPTIMIZED. Der Standardwert lautet COST_OPTIMIZED. |
tags |
Map | Eine Reihe von Schlüsselwertpaaren, die für alle Ressourcen (z. B. AWS-Instanzen und EBS-Volumes) markiert werden, die diesem SQL-Lager zugeordnet sind. Die Anzahl der Tags muss kleiner als 45 sein. |
warehouse_type |
String | Der Lagertyp ist entweder PRO oder CLASSIC. Wenn Sie serverlose Berechnung verwenden möchten, legen Sie dieses Feld auf PRO und legen Sie das Feld enable_serverless_compute auch auf true. |
sql_warehouse.channel
Type: Map
Die Kanalkonfiguration für das SQL Warehouse.
| Key | Type | Description |
|---|---|---|
name |
String | Der Name des Kanals. Gültige Werte sind : CHANNEL_NAME_CURRENT, CHANNEL_NAME_PREVIEW. CHANNEL_NAME_CUSTOM |
dbsql_version |
String | Die DBSQL-Version für benutzerdefinierte Kanäle. |
Example
Im folgenden Beispiel wird ein SQL Warehouse definiert:
resources:
sql_warehouses:
my_sql_warehouse:
name: my_sql_warehouse
cluster_size: X-Large
enable_serverless_compute: true
max_num_clusters: 3
min_num_clusters: 1
auto_stop_mins: 60
warehouse_type: PRO
synchronisierte_Datenbanktabelle
Type: Map
Mit der synchronisierten Datenbanktabellenressource können Sie Lakebase-Datenbanktabellen in einem Bündel definieren.
Informationen zu synchronisierten Datenbanktabellen finden Sie unter Was ist eine Datenbankinstanz?.
synced_database_tables:
<synced_database_table-name>:
<synced_database_table-field-name>: <synced_database_table-field-value>
| Key | Type | Description |
|---|---|---|
database_instance_name |
String | Der Name der Zieldatenbankinstanz. Dies ist erforderlich, wenn synchronisierte Datenbanktabellen in Standardkatalogen erstellt werden. Dies ist optional, wenn synchronisierte Datenbanktabellen in registrierten Katalogen erstellt werden. |
lifecycle |
Map | Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus. |
logical_database_name |
String | Der Name des Ziel-Postgres-Datenbankobjekts (logische Datenbank) für diese Tabelle. |
name |
String | Der vollständige Name der Tabelle im Formular catalog.schema.table. |
spec |
Map | Die Datenbanktabellenspezifikation. Siehe Spezifikation der synchronisierten Datenbanktabelle. |
synchronisierte_datenbanktabelle.spec
Type: Map
Die Datenbanktabellenspezifikation.
| Key | Type | Description |
|---|---|---|
create_database_objects_if_missing |
Boolean | Gibt an, ob die logische Datenbank und Schemaressourcen der synchronisierten Tabelle erstellt werden sollen, sofern sie noch nicht vorhanden sind. |
existing_pipeline_id |
String | Die ID für eine vorhandene Pipeline. Wenn dies festgelegt ist, wird die synchronisierte Tabelle binär in die vorhandene Pipeline verpackt, auf die verwiesen wird. Dadurch wird vermieden, eine neue Pipeline zu erstellen und bestehende Rechenressourcen gemeinsam zu nutzen. In diesem Fall muss die scheduling_policy synchronisierte Tabelle mit der Terminplanungsrichtlinie der vorhandenen Pipeline übereinstimmen. Mindestens einer von existing_pipeline_id und new_pipeline_spec sollte definiert werden. |
new_pipeline_spec |
Map | Die Spezifikation für eine neue Pipeline. Siehe new_pipeline_spec. Mindestens einer von existing_pipeline_id und new_pipeline_spec sollte definiert werden. |
primary_key_columns |
Sequence | Die Liste der Spaltennamen, die den Primärschlüssel bilden. |
scheduling_policy |
String | Die Planungsrichtlinie für die Synchronisierung. Gültige Werte sind SNAPSHOT, CONTINUOUS. |
source_table_full_name |
String | Der vollständige Name der Quelltabelle im Format catalog.schema.table. |
timeseries_key |
String | Zeitreihen-Schlüssel zum Entfernen doppelter Zeilen mit demselben Primärschlüssel. |
synchronisierte_datenbank_tabelle.spezifikation.neue_pipeline_spezifikation
Type: Map
Die Spezifikation für eine neue Pipeline, die von der synchronisierten Datenbanktabelle verwendet wird.
| Key | Type | Description |
|---|---|---|
budget_policy_id |
String | Die ID der Budgetrichtlinie, die für die neu erstellte Pipeline festgelegt werden soll. |
storage_catalog |
String | Der Katalog für die Pipeline zum Speichern von Zwischendateien, z. B. Prüfpunkte und Ereignisprotokolle. Dies muss ein Standardkatalog sein, in dem der Benutzer über Berechtigungen zum Erstellen von Delta-Tabellen verfügt. |
storage_schema |
String | Das Schema für die Pipeline zum Speichern von Zwischendateien, z. B. Prüfpunkte und Ereignisprotokolle. Dies muss sich im Standardkatalog befinden, in dem der Benutzer über Berechtigungen zum Erstellen von Delta-Tabellen verfügt. |
Examples
Im folgenden Beispiel wird eine synchronisierte Datenbanktabelle in einem entsprechenden Datenbankkatalog definiert:
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: my-instance
database_name: 'my_database'
name: my_catalog
create_database_if_not_exists: true
synced_database_tables:
my_synced_table:
name: ${resources.database_catalogs.my_catalog.name}.${resources.database_catalogs.my_catalog.database_name}.my_destination_table
database_instance_name: ${resources.database_catalogs.my_catalog.database_instance_name}
logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
spec:
source_table_full_name: 'my_source_table'
scheduling_policy: SNAPSHOT
primary_key_columns:
- my_pk_column
new_pipeline_spec:
storage_catalog: 'my_delta_catalog'
storage_schema: 'my_delta_schema'
Im folgenden Beispiel wird eine synchronisierte Datenbanktabelle in einem Standardkatalog definiert:
resources:
synced_database_tables:
my_synced_table:
name: 'my_standard_catalog.public.synced_table'
# database_instance_name is required for synced tables created in standard catalogs.
database_instance_name: 'my-database-instance'
# logical_database_name is required for synced tables created in standard catalogs:
logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
spec:
source_table_full_name: 'source_catalog.schema.table'
scheduling_policy: SNAPSHOT
primary_key_columns:
- my_pk_column
create_database_objects_if_missing: true
new_pipeline_spec:
storage_catalog: 'my_delta_catalog'
storage_schema: 'my_delta_schema'
In diesem Beispiel wird eine synchronisierte Datenbanktabelle erstellt und der Pipelinezeitplan angepasst. Es wird davon ausgegangen, dass Sie bereits folgendes haben:
- Eine Datenbankinstanz mit dem Namen
my-database-instance - Ein Standardkatalog mit dem Namen
my_standard_catalog - Ein Schema im Standardkatalog mit dem Namen
default - Eine Delta-Quelltabelle namens
source_delta.schema.customermit dem Primärschlüsselc_custkey
resources:
synced_database_tables:
my_synced_table:
name: 'my_standard_catalog.default.my_synced_table'
database_instance_name: 'my-database-instance'
logical_database_name: 'test_db'
spec:
source_table_full_name: 'source_delta.schema.customer'
scheduling_policy: SNAPSHOT
primary_key_columns:
- c_custkey
create_database_objects_if_missing: true
new_pipeline_spec:
storage_catalog: 'source_delta'
storage_schema: 'schema'
jobs:
sync_pipeline_schedule_job:
name: sync_pipeline_schedule_job
description: 'Job to schedule synced database table pipeline.'
tasks:
- task_key: synced-table-pipeline
pipeline_task:
pipeline_id: ${resources.synced_database_tables.my_synced_table.data_synchronization_status.pipeline_id}
schedule:
quartz_cron_expression: '0 0 0 * * ?'
Volume (Unity Catalog)
Type: Map
Volumes werden in Python für Databricks Asset Bundles unterstützt. Siehe databricks.bundles.volumes.
Mit dem Ressourcentyp „Volume“ können Sie Unity Catalog-Volumes als Teil eines Bundles definieren und erstellen. Beachten Sie beim Bereitstellen eines Bundles mit einem definierten Volume Folgendes:
- Auf ein Volume kann im
artifact_pathfür das Bundle nicht verwiesen werden, bis es im Arbeitsbereich vorhanden ist. Wenn Sie also Databricks-Ressourcenbundles verwenden möchten, um das Volume zu erstellen, müssen Sie zuerst das Volume im Bundle definieren, es zum Erstellen des Volumes bereitstellen und dann bei nachfolgenden Bereitstellungen inartifact_pathdarauf verweisen. - Wenn für das Bereitstellungsziel
dev_${workspace.current_user.short_name}konfiguriert ist, wird Volumes im Bundle nicht das Präfixmode: developmentvorangestellt. Sie können dieses Präfix jedoch manuell konfigurieren. Weitere Informationen finden Sie unter Benutzerdefinierte Voreinstellungen.
volumes:
<volume-name>:
<volume-field-name>: <volume-field-value>
| Key | Type | Description |
|---|---|---|
catalog_name |
String | Der Name des Katalogs des Schemas und des Volumes. |
comment |
String | Ein an das Volume angefügter Kommentar. |
grants |
Sequence | Die Zuweisungen, die dem Volume zugeordnet sind. Siehe Grant. |
lifecycle |
Map | Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird. Siehe Lebenszyklus. |
name |
String | Der Name des Volumes. |
schema_name |
String | Der Name des Schemas, in dem sich das Volume befindet. |
storage_location |
String | Der Speicherort in der Cloud. |
volume_type |
String | Der Volumetyp (entweder EXTERNAL oder MANAGED). Ein externes Volume befindet sich am angegebenen externen Speicherort. Ein verwaltetes Volume befindet sich am Standardspeicherort, der durch das übergeordnete Schema, den übergeordneten Katalog oder den Metastore angegeben wird. Siehe verwaltete und externe Volumes. |
Example
Im folgenden Beispiel wird ein Unity-Katalogvolume mit dem Schlüssel my_volume_iderstellt:
resources:
volumes:
my_volume_id:
catalog_name: main
name: my_volume
schema_name: my_schema
Ein Beispielbundle, das einen Auftrag ausführt, der in eine Datei im Unity Catalog-Volume schreibt, finden Sie im GitHub-Repository „bundle-examples“.
Allgemeine Objekte
gewähren
Type: Map
Definiert den Prinzipal und die Berechtigungen, die diesem Prinzipal gewährt werden sollen. Weitere Informationen zu Berechtigungen finden Sie unter Berechtigungen anzeigen, zuweisen und widerrufen.
| Key | Type | Description |
|---|---|---|
principal |
String | Der Name des Prinzipals, dem Berechtigungen erteilt werden. Dies kann ein Benutzer, eine Gruppe oder ein Dienstprinzipal sein. |
privileges |
Sequence | Die Berechtigungen, die der angegebenen Entität gewährt werden sollen. Gültige Werte hängen vom Ressourcentyp ab (z. B. SELECT, MODIFY, CREATE, USAGE, READ_FILES, WRITE_FILES, EXECUTE, ALL_PRIVILEGES). |
Example
Im folgenden Beispiel wird ein Unity-Katalogschema mit Zuschüssen definiert:
resources:
schemas:
my_schema:
name: test-schema
grants:
- principal: users
privileges:
- SELECT
- principal: my_team
privileges:
- CAN_MANAGE
catalog_name: main
Lebenszyklus
Type: Map
Enthält die Lebenszykluseinstellungen für eine Ressource. Sie steuert das Verhalten der Ressource, wenn sie bereitgestellt oder zerstört wird.
| Key | Type | Description |
|---|---|---|
prevent_destroy |
Boolean | Lebenszykluseinstellung, um zu verhindern, dass die Ressource zerstört wird. |