Auftragssystemtabellenreferenz

Note

Das Schema lakeflow war früher bekannt als workflow. Der Inhalt beider Schemas ist identisch.

Dieser Artikel ist eine Referenz für die lakeflow-Systemtabellen, die die Auftragsaktivitäten in Ihrem Konto erfassen. Diese Tabellen enthalten Datensätze aus allen Arbeitsbereichen in Ihrem Konto, die in derselben Cloudregion bereitgestellt wurden. Um Datensätze aus einer anderen Region anzuzeigen, müssen Sie die Tabellen aus einem Arbeitsbereich anzeigen, der in dieser Region bereitgestellt wird.

Requirements

Um auf diese Systemtabellen zuzugreifen, müssen Benutzer eine der folgenden Aktionen ausführen:
- Seien Sie sowohl ein Metastore-Administrator als auch ein Kontoadministrator, oder ...
- Verfügen Sie über USE- und SELECT-Berechtigungen für die Systemschemata. Siehe Gewähren des Zugriffs auf Systemtabellen.

Verfügbare Auftragstabellen

Alle auftragsbezogenen Systemtabellen befinden sich im system.lakeflow Schema. Derzeit hostet das Schema vier Tabellen:

Table	Description	Unterstützt Streaming	Freier Aufbewahrungszeitraum	Umfasst globale oder regionale Daten
Aufträge (Öffentliche Vorschau)	Verfolgt alle aufträge, die im Konto erstellt wurden	Yes	365 Tage	Regional
job_tasks (öffentliche Vorschau)	Verfolgt alle Auftragsaufgaben, die im Konto ausgeführt werden	Yes	365 Tage	Regional
job_run_timeline (Öffentliche Vorschau)	Verfolgt die Ausführung des Auftrags und zugehörige Metadaten	Yes	365 Tage	Regional
job_task_run_timeline (öffentliche Vorschau)	Verfolgt die Ausführung von Auftragsaufgaben und zugehörige Metadaten	Yes	365 Tage	Regional
Pipelines (Öffentliche Vorschau)	Verfolgt alle Pipelines, die im Konto erstellt wurden	Yes	365 Tage	Regional
pipeline_update_timeline (Öffentliche Vorschau)	Verfolgt die Pipelineaktualisierungen und zugehörige Metadaten nach.	Yes	365 Tage	Regional

Detaillierte Schemareferenz

In den folgenden Abschnitten werden Schemaverweise für jede der auftragsbezogenen Systemtabellen bereitgestellt.

Auftragstabellenschema

Die jobs Tabelle ist eine langsam ändernde Dimensionstabelle (SCD2). Wenn eine Zeile geändert wird, wird eine neue Zeile ausgegeben, die logisch die vorherige Zeile ersetzt.

Tabellenpfad: system.lakeflow.jobs

Spaltenname	Datentyp	Description	Notes
`account_id`	string	Die ID des Kontos, zu dem dieser Auftrag gehört
`workspace_id`	string	Die ID des Arbeitsbereichs, zu dem dieser Auftrag gehört
`job_id`	string	Die ID des Auftrags	Nur innerhalb eines einzelnen Arbeitsbereichs eindeutig
`name`	string	Der vom Benutzer angegebene Name des Auftrags
`description`	string	Die vom Benutzer bereitgestellte Beschreibung des Auftrags	Dieses Feld ist leer, wenn vom Kunden verwaltete Schlüssel konfiguriert sind.
`creator_id`	string	Die ID des Prinzipals, der den Auftrag erstellt hat
`tags`	map	Die vom Benutzer bereitgestellten benutzerdefinierten Tags, die diesem Auftrag zugeordnet sind
`change_time`	timestamp	Der Zeitpunkt, zu dem der Auftrag zuletzt geändert wurde	Als +00:00 (UTC) aufgezeichnete Zeitzone
`delete_time`	timestamp	Der Zeitpunkt, zu dem der Auftrag vom Benutzer gelöscht wurde	Als +00:00 (UTC) aufgezeichnete Zeitzone
`run_as`	string	Die ID des Benutzer- oder Dienstprinzipals, dessen Berechtigungen für die Pipeline-Aktualisierung verwendet werden
`trigger`	struct	Die Triggerkonfiguration für den Job	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`trigger_type`	string	Der Typ von Trigger für den Auftrag	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`run_as_user_name`	string	Die E-Mail des Benutzers oder der ID des Dienstprinzipals, deren Berechtigungen für die Ausführung des Auftrags verwendet werden	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`creator_user_name`	string	Die E-Mail-Adresse des Benutzers oder die ID des Dienstprinzipals, der den Auftrag erstellt hat	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`paused`	boolean	Gibt an, ob der Auftrag angehalten ist.	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`timeout_seconds`	long	Die Timeout-Dauer für den Job in Sekunden	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`health_rules`	array	Für diese Arbeit definierte Gesundheitsregeln	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`deployment`	struct	Bereitstellungsinformationen für Aufträge, die von externen Quellen verwaltet werden	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`create_time`	timestamp	Die Zeit, zu der dieser Auftrag erstellt wurde. Als +00:00 (UTC) aufgezeichnete Zeitzone.	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.

Beispielabfrage

-- Get the most recent version of a job
SELECT
  *,
  ROW_NUMBER() OVER(PARTITION BY workspace_id, job_id ORDER BY change_time DESC) as rn
FROM
  system.lakeflow.jobs QUALIFY rn=1

Auftragsaufgabentabellenschema

Die Auftragsaufgabentabelle ist eine langsam ändernde Dimensionstabelle (SCD2). Wenn eine Zeile geändert wird, wird eine neue Zeile ausgegeben, die logisch die vorherige Zeile ersetzt.

Tabellenpfad: system.lakeflow.job_tasks

Spaltenname	Datentyp	Description	Notes
`account_id`	string	Die ID des Kontos, zu dem dieser Auftrag gehört
`workspace_id`	string	Die ID des Arbeitsbereichs, zu dem dieser Auftrag gehört
`job_id`	string	Die ID des Auftrags	Nur innerhalb eines einzelnen Arbeitsbereichs eindeutig
`task_key`	string	Der Referenzschlüssel für einen Vorgang in einem Auftrag	Nur innerhalb eines einzelnen Auftrags eindeutig
`depends_on_keys`	array	Die Aufgabenschlüssel aller vorgelagerten Abhängigkeiten dieses Vorgangs
`change_time`	timestamp	Zeitpunkt der letzten Änderung des Vorgangs	Als +00:00 (UTC) aufgezeichnete Zeitzone
`delete_time`	timestamp	Der Zeitpunkt, zu dem eine Aufgabe vom Benutzer gelöscht wurde	Als +00:00 (UTC) aufgezeichnete Zeitzone
`timeout_seconds`	long	Die Timeoutdauer für den Vorgang in Sekunden	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`health_rules`	array	Satz von Gesundheitsregeln, die für diese Arbeitsaufgabe definiert sind	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.

Beispielabfrage

-- Get the most recent version of a job task
SELECT
  *,
  ROW_NUMBER() OVER(PARTITION BY workspace_id, job_id ORDER BY change_time DESC) as rn
FROM
  system.lakeflow.job_tasks QUALIFY rn=1

Zeitachsentabellenschema für Auftragsausführung

Die Tabelle mit der Auftragsausführungszeitachse ist unveränderlich und zum Zeitpunkt der Produktion vollständig.

Tabellenpfad: system.lakeflow.job_run_timeline

Spaltenname	Datentyp	Description	Notes
`account_id`	string	Die ID des Kontos, zu dem dieser Auftrag gehört
`workspace_id`	string	Die ID des Arbeitsbereichs, zu dem dieser Auftrag gehört
`job_id`	string	Die ID des Auftrags	Dieser Schlüssel ist nur innerhalb eines einzelnen Arbeitsbereichs eindeutig.
`run_id`	string	Die ID der Auftragsausführung
`period_start_time`	timestamp	Die Startzeit für die Ausführung oder für den Zeitraum	Zeitzoneninformationen werden am Ende des Werts aufgezeichnet, wobei `+00:00` die UTC darstellt. Ausführliche Informationen dazu, wie Databricks lange Ausführungen in stündliche Intervalle unterteilt, finden Sie in der Timeline-Slicing-Logik.
`period_end_time`	timestamp	Die Endzeit für die Ausführung oder für den Zeitraum	Zeitzoneninformationen werden am Ende des Werts aufgezeichnet, wobei `+00:00` die UTC darstellt. Ausführliche Informationen dazu, wie Databricks lange Ausführungen in stündliche Intervalle unterteilt, finden Sie in der Timeline-Slicing-Logik.
`trigger_type`	string	Der Triggertyp, der eine Ausführung auslösen kann	Mögliche Werte finden Sie unter Triggertypwerte
`run_type`	string	Der Auftragstyp, der ausgeführt wird	Mögliche Werte finden Sie unter Ausführungstypwerte
`run_name`	string	Der vom Benutzer angegebene Ausführungsname, der diesem Auftrag zugeordnet ist
`compute_ids`	array	Array, das die Auftragsberechnungs-IDs für den übergeordneten Auftrag enthält	Wird verwendet, um den Auftragscluster zu identifizieren, der für die `WORKFLOW_RUN` Ausführungstypen genutzt wird. Weitere Computeinformationen finden Sie in der Tabelle `job_task_run_timeline`.
`result_state`	string	Das Ergebnis der Ausführung des Auftrags	Für Läufe, die länger als eine Stunde dauern und über mehrere Reihen verteilt sind, wird diese Spalte nur in der Reihe ausgefüllt, die das Ende des Durchlaufs darstellt. Mögliche Werte finden Sie unter Ergebnisstatuswerte.
`termination_code`	string	Der Beendigungscode des Auftragslaufs	Für Läufe, die länger als eine Stunde dauern und über mehrere Reihen verteilt sind, wird diese Spalte nur in der Reihe ausgefüllt, die das Ende des Durchlaufs darstellt. Mögliche Werte finden Sie unter Beendigungscodewerte.
`job_parameters`	map	Die Parameter auf Auftragsebene, die in der Auftragsausführung verwendet werden	Enthält nur die Werte aus job_parameters. Veraltete Parameterfelder (`notebook_params`, `python_params`, , `python_named_paramsspark_submit_params`und `sql_params`) sind nicht enthalten.
`source_task_run_id`	string	Die ID der Ausführung der Quellaufgabe. Verwenden Sie diese Spalte, um zu ermitteln, welche Aufgabe ausgeführt wurde, die diesen Auftrag ausgelöst hat.	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`root_task_run_id`	string	Die ID der Ausführung der Stammaufgabe. Verwenden Sie diese Spalte, um zu ermitteln, welche Aufgabe ausgeführt wurde, die diesen Auftrag ausgelöst hat.	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`compute`	array	Einzelheiten zu den Rechnerressourcen, die beim Auftrag verwendet wurden	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`termination_type`	string	Der Typ der Beendigung für die Auftragsausführung	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`setup_duration_seconds`	long	Die Dauer der Setupphase für den Auftrag beträgt Sekunden.	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`queue_duration_seconds`	long	Die Dauer, die in der Warteschlange für den Auftrag in Sekunden verbracht wird	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`run_duration_seconds`	long	Die Gesamtdauer des Auftrags, der in Sekunden ausgeführt wird	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`cleanup_duration_seconds`	long	Die Dauer der Bereinigungsphase für den Auftragslauf in Sekunden	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`execution_duration_seconds`	long	Die Dauer der Ausführungsphase für den Auftrag in Sekunden	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.

Beispielabfrage

-- This query gets the daily job count for a workspace for the last 7 days:
SELECT
  workspace_id,
  COUNT(DISTINCT run_id) as job_count,
  to_date(period_start_time) as date
FROM system.lakeflow.job_run_timeline
WHERE
  period_start_time > CURRENT_TIMESTAMP() - INTERVAL 7 DAYS
GROUP BY ALL

-- This query returns the daily job count for a workspace for the last 7 days, distributed by the outcome of the job run.
SELECT
  workspace_id,
  COUNT(DISTINCT run_id) as job_count,
  result_state,
  to_date(period_start_time) as date
FROM system.lakeflow.job_run_timeline
WHERE
  period_start_time > CURRENT_TIMESTAMP() - INTERVAL 7 DAYS
  AND result_state IS NOT NULL
GROUP BY ALL

-- This query returns the average time of job runs, measured in seconds. The records are organized by job. A top 90 and a 95 percentile column show the average lengths of the job's longest runs.
with job_run_duration as (
    SELECT
        workspace_id,
        job_id,
        run_id,
        CAST(SUM(period_end_time - period_start_time) AS LONG) as duration
    FROM
        system.lakeflow.job_run_timeline
    WHERE
      period_start_time > CURRENT_TIMESTAMP() - INTERVAL 7 DAYS
    GROUP BY ALL
)
SELECT
    t1.workspace_id,
    t1.job_id,
    COUNT(DISTINCT t1.run_id) as runs,
    MEAN(t1.duration) as mean_seconds,
    AVG(t1.duration) as avg_seconds,
    PERCENTILE(t1.duration, 0.9) as p90_seconds,
    PERCENTILE(t1.duration, 0.95) as p95_seconds
FROM
    job_run_duration t1
GROUP BY ALL
ORDER BY mean_seconds DESC
LIMIT 100

-- This query provides a historical runtime for a specific job based on the `run_name` parameter. For the query to work, you must set the `run_name`.
SELECT
  workspace_id,
  run_id,
  SUM(period_end_time - period_start_time) as run_time
FROM system.lakeflow.job_run_timeline
WHERE
  run_type="SUBMIT_RUN"
  AND run_name = :run_name
  AND period_start_time > CURRENT_TIMESTAMP() - INTERVAL 60 DAYS
GROUP BY ALL

-- This query collects a list of retried job runs with the number of retries for each run.
with repaired_runs as (
    SELECT
    workspace_id, job_id, run_id, COUNT(*) - 1 as retries_count
    FROM system.lakeflow.job_run_timeline
    WHERE result_state IS NOT NULL
    GROUP BY ALL
    HAVING retries_count > 0
    )
SELECT
    *
FROM repaired_runs
ORDER BY retries_count DESC
    LIMIT 10;

Auftragsaufgabe: Zeitachsentabellenschema ausführen

Die Tabelle mit der Aufgabenausführungszeitachse ist unveränderlich und zum Zeitpunkt der Produktion vollständig.

Tabellenpfad: system.lakeflow.job_task_run_timeline

Spaltenname	Datentyp	Description	Notes
`account_id`	string	Die ID des Kontos, zu dem dieser Auftrag gehört
`workspace_id`	string	Die ID des Arbeitsbereichs, zu dem dieser Auftrag gehört
`job_id`	string	Die ID des Auftrags	Nur innerhalb eines einzelnen Arbeitsbereichs eindeutig
`run_id`	string	Die ID der Ausführung der Aufgabe
`job_run_id`	string	Die ID der Auftragsausführung
`parent_run_id`	string	Die ID der übergeordneten Ausführung
`period_start_time`	timestamp	Die Startzeit für den Vorgang oder für den Zeitraum	Zeitzoneninformationen werden am Ende des Werts aufgezeichnet, wobei `+00:00` die UTC darstellt. Ausführliche Informationen dazu, wie Databricks lange Ausführungen in stündliche Intervalle unterteilt, finden Sie in der Timeline-Slicing-Logik.
`period_end_time`	timestamp	Die Endzeit für den Vorgang oder für den Zeitraum	Zeitzoneninformationen werden am Ende des Werts aufgezeichnet, wobei `+00:00` die UTC darstellt. Ausführliche Informationen dazu, wie Databricks lange Ausführungen in stündliche Intervalle unterteilt, finden Sie in der Timeline-Slicing-Logik.
`task_key`	string	Der Referenzschlüssel für einen Vorgang in einem Auftrag	Dieser Schlüssel ist nur innerhalb eines einzelnen Auftrags eindeutig
`compute_ids`	array	Das compute_ids Array enthält IDs von Auftragsclustern, interaktiven Clustern und SQL-Lagerhäusern, die von der Auftragsaufgabe verwendet werden.
`result_state`	string	Das Ergebnis der Ausführung der Auftragsaufgabe	Bei Aufgabenläufen, die länger als eine Stunde dauern, die über mehrere Zeilen verteilt sind, wird diese Spalte nur in der Zeile aufgefüllt, die das Ende der Ausführung darstellt. Mögliche Werte finden Sie unter Ergebnisstatuswerte.
`termination_code`	string	Der Beendigungscode der Aufgabe	Bei Aufgabenläufen, die länger als eine Stunde dauern, die über mehrere Zeilen verteilt sind, wird diese Spalte nur in der Zeile aufgefüllt, die das Ende der Ausführung darstellt. Mögliche Werte finden Sie unter Beendigungscodewerte.
`compute`	array	Details zu den Computerressourcen, die beim Ausführen der Auftragsaufgabe verwendet werden	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`termination_type`	string	Der Typ der Beendigung für die Auftragsaufgabe	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`task_parameters`	map	Die Parameter auf Aufgabenebene, die in der Auftragsaufgabe ausgeführt werden	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`setup_duration_seconds`	long	Die Dauer der Setupphase für die Ausführung der Aufgabe in Sekunden	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`cleanup_duration_seconds`	long	Die Dauer der Bereinigungsphase für den Vorgang in Sekunden	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.
`execution_duration_seconds`	long	Die Dauer der Ausführungsphase für die Aufgabe in Sekunden	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.

Pipelines-Tabellenschema

Die Pipelinetabelle ist eine langsam veränderliche Dimensionstabelle (SCD2). Wenn eine Zeile geändert wird, wird eine neue Zeile ausgegeben, die logisch die vorherige Zeile ersetzt.

Tabellenpfad: system.lakeflow.pipelines

Spaltenname	Datentyp	Description	Notes
`account_id`	string	Die ID des Kontos, zu dem diese Pipeline gehört
`workspace_id`	string	Die ID des Arbeitsbereichs, zu dem diese Pipeline gehört
`pipeline_id`	string	Die ID der Pipeline	Nur innerhalb eines einzelnen Arbeitsbereichs eindeutig
`pipeline_type`	string	Der Typ der Pipeline	Mögliche Werte finden Sie unter Pipelinetypwerte
`name`	string	Der vom Benutzer angegebene Name der Pipeline
`created_by`	string	Die E-Mail des Benutzers oder die ID des Dienstprinzipals, der die Pipeline erstellt hat.
`run_as`	string	Die E-Mail des Benutzers oder die ID des Dienstprinzipals, dessen Berechtigungen für die Pipelineausführung verwendet werden
`tags`	map	Die vom Benutzer bereitgestellten benutzerdefinierten Tags, die diesem Auftrag zugeordnet sind
`settings`	struct	Die Einstellungen der Pipeline	Siehe Pipelineeinstellungen
`configuration`	map	Die vom Benutzer bereitgestellte Konfiguration der Pipeline
`change_time`	timestamp	Zeitpunkt der letzten Änderung der Pipeline	Als +00:00 (UTC) aufgezeichnete Zeitzone
`delete_time`	timestamp	Der Zeitpunkt, zu dem die Pipeline vom Benutzer gelöscht wurde	Als +00:00 (UTC) aufgezeichnete Zeitzone
`create_time`	timestamp	Der Zeitpunkt, zu dem eine Pipeline vom Benutzer erstellt wurde. Als +00:00 (UTC) aufgezeichnete Zeitzone.	Nicht ausgefüllt für Zeilen, die vor Anfang Dezember 2025 generiert wurden.

Beispielabfrage

-- Get the most recent version of a pipeline
SELECT
  *,
  ROW_NUMBER() OVER(PARTITION BY workspace_id, pipeline_id ORDER BY change_time DESC) as rn
FROM
  system.lakeflow.pipelines QUALIFY rn=1

-- Enrich billing logs with pipeline metadata
with latest_pipelines AS (
  SELECT
    *,
    ROW_NUMBER() OVER(PARTITION BY workspace_id, pipeline_id ORDER BY change_time DESC) as rn
  FROM
    system.lakeflow.pipelines QUALIFY rn=1
)
SELECT
  usage.*,
  pipelines.*
FROM system.billing.usage
LEFT JOIN latest_pipelines
  ON (usage.workspace_id = pipelines.workspace_id
    AND usage.usage_metadata.dlt_pipeline_id = pipelines.pipeline_id)
WHERE
  usage.usage_metadata.dlt_pipeline_id IS NOT NULL

Zeitachsentabellenschema für Pipelineupdates

Die Zeitachsentabelle der Pipelineaktualisierung ist unveränderlich und zum Zeitpunkt ihrer Erstellung vollständig.

Tabellenpfad: system.lakeflow.pipeline_update_timeline

Spaltenname	Datentyp	Description	Notes
`account_id`	string	Die ID des Kontos, zu dem diese Pipeline gehört
`workspace_id`	string	Die ID des Arbeitsbereichs, zu dem diese Pipeline gehört
`pipeline_id`	string	Die ID der Pipeline	Nur innerhalb eines einzelnen Arbeitsbereichs eindeutig
`update_id`	string	Die ID des Pipelineupdates	Nur innerhalb eines einzelnen Arbeitsbereichs eindeutig
`update_type`	string	Der Typ des Pipeline-Updates	Mögliche Werte finden Sie unter Werte für Pipeline-Update-Typen
`request_id`	string	Die ID der Anforderung. Hilft ihnen zu verstehen, wie oft ein Update erneut versucht/neu gestartet werden musste.
`run_as_user_name`	string	Die E-Mail des Benutzers oder die ID des Dienstprinzipals, dessen Berechtigungen für das Pipeline-Update verwendet werden
`trigger_type`	string	Was dieses Update ausgelöst hat	Mögliche Werte finden Sie unter Pipelinetriggertypwerte
`trigger_details`	struct	Die Details des Auslösers der Pipeline	Mögliche Werte finden Sie unter Details zum Pipelinetriggertyp
`result_state`	string	Das Ergebnis des Pipeline-Updates	Bei Updates, die über mehr als 1 Stunden hinweg ausgeführt werden, die über mehrere Zeilen verteilt sind, wird diese Spalte nur in der Zeile aufgefüllt, die das Ende der Aktualisierung darstellt. Mögliche Werte finden Sie unter Pipelineergebnisreferenz.
`compute`	struct	Details zur Computeressource, die im Pipelineupdate verwendet wird
`period_start_time`	timestamp	Die Startzeit für das Pipelineupdate oder für die Stunde. Der Wert wird als UTC-Zeitstempel gespeichert.	Zeitzoneninformationen werden am Ende des Werts aufgezeichnet, wobei `+00:00` die UTC darstellt. Ausführliche Informationen dazu, wie Databricks lange Ausführungen in stündliche Intervalle unterteilt, finden Sie in der Timeline-Slicing-Logik.
`period_end_time`	timestamp	Die Endzeit für das Pipeline-Update oder für die betreffende Stunde. Der Wert wird als UTC-Zeitstempel gespeichert.	Zeitzoneninformationen werden am Ende des Werts aufgezeichnet, wobei `+00:00` die UTC darstellt. Ausführliche Informationen dazu, wie Databricks lange Ausführungen in stündliche Intervalle unterteilt, finden Sie in der Timeline-Slicing-Logik.
`refresh_selection`	array	Eine Liste von Tabellen zur Aktualisierung ohne fullRefresh
`full_refresh_selection`	array	Eine Liste der zu aktualisierenden Tabellen mit fullRefresh
`reset_checkpoint_selection`	array	Eine Liste der Streamingflüsse zum Löschen der Prüfpunkte für

Beispielabfrage

-- This query gets the daily pipeline update count for a workspace for the last 7 days:
SELECT
    workspace_id,
    COUNT(DISTINCT update_id) as update_count,
    to_date(period_start_time) as date
FROM system.lakeflow.pipeline_update_timeline
WHERE
    period_start_time > CURRENT_TIMESTAMP() - INTERVAL 7 DAYS
GROUP BY ALL

-- This query returns the daily pipeline update count for a workspace for the last 7 days, distributed by the outcome of the pipeline update.
SELECT
    workspace_id,
    COUNT(DISTINCT update_id) as update_count,
    result_state,
    to_date(period_start_time) as date
FROM system.lakeflow.pipeline_update_timeline
WHERE
    period_start_time > CURRENT_TIMESTAMP() - INTERVAL 7 DAYS
  AND result_state IS NOT NULL
GROUP BY ALL

-- This query returns the average time of pipeline updates, measured in seconds. The records are organized by pipeline. A top 90 and a 95 percentile column show the average lengths of the pipeline's longest updates.
with pipeline_update_duration as (
    SELECT
      workspace_id,
      pipeline_id,
      update_id,
      CAST(SUM(period_end_time - period_start_time) AS LONG) as duration
    FROM
        system.lakeflow.pipeline_update_timeline
    WHERE
        period_start_time > CURRENT_TIMESTAMP() - INTERVAL 7 DAYS
    GROUP BY ALL
)
SELECT
    t1.workspace_id,
    t1.pipeline_id,
    COUNT(DISTINCT t1.update_id) as update_count,
    MEAN(t1.duration) as mean_seconds,
    AVG(t1.duration) as avg_seconds,
    PERCENTILE(t1.duration, 0.9) as p90_seconds,
    PERCENTILE(t1.duration, 0.95) as p95_seconds
FROM
    pipeline_update_duration t1
GROUP BY ALL
ORDER BY mean_seconds DESC
    LIMIT 100

Allgemeine Verknüpfungsmuster

In den folgenden Abschnitten werden Beispielabfragen bereitgestellt, die häufig verwendete Verknüpfungsmuster für Auftragssystemtabellen hervorheben.

Verknüpfen von Aufträgen und Zeitachsentabellen für Auftragsausführung

Anreichern einer Auftragsausführung mit einem Auftragsnamen

with jobs as (
    SELECT
        *,
        ROW_NUMBER() OVER (PARTITION BY workspace_id, job_id ORDER BY change_time DESC) as rn
    FROM system.lakeflow.jobs QUALIFY rn=1
)
SELECT
    job_run_timeline.*
    jobs.name
FROM system.lakeflow.job_run_timeline
    LEFT JOIN jobs USING (workspace_id, job_id)

Verknüpfen der Auftragsausführungszeitachsen- und Verbrauchstabellen

Anreichern jedes Abrechnungsprotokolls mit Auftragsausführungsmetadaten

Die folgende Abfrage erweitert Abrechnungsprotokolle mit Auftragsausführungsmetadaten aus klassischen und serverlosen Aufträgen:

with aggregated_job_runs AS (
  SELECT
    j.workspace_id,
    COALESCE(t.job_id, j.job_id) as origin_job_id,
    COALESCE(t.job_run_id, j.run_id) AS origin_job_run_id,
    j.job_id as billing_job_id,
    j.run_id as billing_run_id,
    CASE WHEN j.root_task_run_id IS NOT NULL THEN true ELSE false END AS is_workflow_run
  FROM
    system.lakeflow.job_run_timeline j
  LEFT JOIN
    system.lakeflow.job_task_run_timeline t
  ON
    j.workspace_id = t.workspace_id
    AND j.root_task_run_id = t.run_id
  WHERE j.period_start_time >= CURRENT_DATE() - INTERVAL 7 DAYS
  GROUP BY ALL
),
billing_logs_enriched AS (
  SELECT
      t2.origin_job_id,
      t2.origin_job_run_id,
      t1.*
  FROM system.billing.usage t1
      INNER JOIN aggregated_job_runs t2
          ON t1.workspace_id = t2.workspace_id
              AND t1.usage_metadata.job_id = t2.billing_job_id
              AND t1.usage_metadata.job_run_id = t2.billing_run_id
  WHERE
      billing_origin_product="JOBS" AND usage_date >= CURRENT_DATE() - INTERVAL 7 DAYS
)
SELECT
  workspace_id,
  origin_job_id AS job_id,
  origin_job_run_id AS run_id,
  sku_name,
  SUM(usage_quantity) as total_usage_quantity,
  SUM(CASE WHEN usage_metadata.job_run_id != origin_job_run_id THEN usage_quantity ELSE 0 END) AS workflow_run_usage_quantity,
  COUNT(DISTINCT usage_metadata.job_run_id) - 1 AS workflow_runs
FROM billing_logs_enriched
GROUP BY ALL

Berechnen der Kosten pro Auftragsausführung

Diese Abfrage wird mit der billing.usage Systemtabelle verknüpft, um die Kosten pro Auftragsausführung zu berechnen.

with jobs_usage AS (
  SELECT
    *,
    usage_metadata.job_id,
    usage_metadata.job_run_id as run_id,
    identity_metadata.run_as as run_as
  FROM system.billing.usage
  WHERE billing_origin_product="JOBS"
),
jobs_usage_with_usd AS (
  SELECT
    jobs_usage.*,
    usage_quantity * pricing.default as usage_usd
  FROM jobs_usage
    LEFT JOIN system.billing.list_prices pricing ON
      jobs_usage.sku_name = pricing.sku_name
      AND pricing.price_start_time <= jobs_usage.usage_start_time
      AND (pricing.price_end_time >= jobs_usage.usage_start_time OR pricing.price_end_time IS NULL)
      AND pricing.currency_code="USD"
),
jobs_usage_aggregated AS (
  SELECT
    workspace_id,
    job_id,
    run_id,
    FIRST(run_as, TRUE) as run_as,
    sku_name,
    SUM(usage_usd) as usage_usd,
    SUM(usage_quantity) as usage_quantity
  FROM jobs_usage_with_usd
  GROUP BY ALL
)
SELECT
  t1.*,
  MIN(period_start_time) as run_start_time,
  MAX(period_end_time) as run_end_time,
  FIRST(result_state, TRUE) as result_state
FROM jobs_usage_aggregated t1
  LEFT JOIN system.lakeflow.job_run_timeline t2 USING (workspace_id, job_id, run_id)
GROUP BY ALL
ORDER BY usage_usd DESC
LIMIT 100

Abrufen von Verbrauchsprotokollen für SUBMIT_RUN-Aufträge

SELECT
  *
FROM system.billing.usage
WHERE
  EXISTS (
      SELECT 1
      FROM system.lakeflow.job_run_timeline
      WHERE
        job_run_timeline.job_id = usage_metadata.job_id
        AND run_name = :run_name
        AND workspace_id = :workspace_id
  )

Verknüpfen von der Zeitachse der Auftragsaufgabenausführung und Clustertabellen

Aufgabenläufe mit Clustermetadaten anreichern

with clusters as (
    SELECT
        *,
        ROW_NUMBER() OVER (PARTITION BY workspace_id, cluster_id ORDER BY change_time DESC) as rn
    FROM system.compute.clusters QUALIFY rn=1
),
exploded_task_runs AS (
  SELECT
    *,
    EXPLODE(compute_ids) as cluster_id
  FROM system.lakeflow.job_task_run_timeline
  WHERE array_size(compute_ids) > 0
)
SELECT
  *
FROM exploded_task_runs t1
  LEFT JOIN clusters t2
    USING (workspace_id, cluster_id)

Suchen von Aufträgen, die auf All-Purpose Compute ausgeführt werden

Diese Abfrage wird mit der compute.clusters Systemtabelle verknüpft, um zuletzt ausgeführte Aufträge zurückzugeben, die auf All-Purpose Compute ausgeführt werden, anstatt auf Jobs Compute.

with clusters AS (
  SELECT
    *,
    ROW_NUMBER() OVER(PARTITION BY workspace_id, cluster_id ORDER BY change_time DESC) as rn
  FROM system.compute.clusters
  WHERE cluster_source="UI" OR cluster_source="API"
  QUALIFY rn=1
),
job_tasks_exploded AS (
  SELECT
    workspace_id,
    job_id,
    EXPLODE(compute_ids) as cluster_id
  FROM system.lakeflow.job_task_run_timeline
  WHERE period_start_time >= CURRENT_DATE() - INTERVAL 30 DAY
  GROUP BY ALL
),
all_purpose_cluster_jobs AS (
  SELECT
    t1.*,
    t2.cluster_name,
    t2.owned_by,
    t2.dbr_version
  FROM job_tasks_exploded t1
    INNER JOIN clusters t2 USING (workspace_id, cluster_id)
)
SELECT * FROM all_purpose_cluster_jobs LIMIT 10;

Suchen nach Aufträgen, die in den letzten 30 Tagen nicht ausgeführt werden

Diese Abfrage verknüpft die lakeflow.jobs Tabellen und lakeflow.job_run_timeline Systemtabellen, um Aufträge zurückzugeben, die in den letzten 30 Tagen nicht ausgeführt werden.

with latest_jobs AS (
    SELECT
        *,
        ROW_NUMBER() OVER (PARTITION BY workspace_id, job_id ORDER BY change_time DESC) as rn
    FROM system.lakeflow.jobs QUALIFY rn=1
),
latest_not_deleted_jobs AS (
    SELECT
        workspace_id,
        job_id,
        name,
        change_time,
        tags
    FROM latest_jobs WHERE delete_time IS NULL
),
last_seen_job_timestamp AS (
    SELECT
        workspace_id,
        job_id,
        MAX(period_start_time) as last_executed_at
    FROM system.lakeflow.job_run_timeline
    WHERE
        run_type="JOB_RUN"
    GROUP BY ALL
)
SELECT
    t1.workspace_id,
    t1.job_id,
    t1.name,
    t1.change_time as last_modified_at,
    t2.last_executed_at,
    t1.tags
FROM latest_not_deleted_jobs t1
    LEFT JOIN last_seen_job_timestamp t2
        USING (workspace_id, job_id)
WHERE
    (t2.last_executed_at <= CURRENT_DATE() - INTERVAL 30 DAYS) OR (t2.last_executed_at IS NULL)
ORDER BY last_executed_at ASC

Auftragsüberwachungs-Dashboard

Das folgende Dashboard verwendet Systemtabellen, um Ihnen bei den ersten Schritten bei der Überwachung Ihrer Aufträge und des Betriebszustands zu helfen. Sie umfasst häufige Anwendungsfälle wie Auftragsleistungsnachverfolgung, Fehlerüberwachung und Ressourcenauslastung.

Lakeflow Observability Dashboard

Übersicht über Lakeflow-Observability-Dashboard-Jobs

Informationen zum Herunterladen des Dashboards finden Sie unter Überwachen von Auftragskosten und -leistung mit Systemtabellen

Troubleshooting

Auftrag wird nicht in der Tabelle `lakeflow.jobs` protokolliert

Wenn ein Auftrag in den Systemtabellen nicht sichtbar ist:

Der Auftrag wurde in den letzten 365 Tagen nicht geändert.
- Ändern Sie alle Felder des Auftrags, die im Schema vorhanden sind, um einen neuen Datensatz auszugeben.
Der Job wurde in einer anderen Region erstellt.
Neuere Auftragserstellung (Tabellenabstand)

Kann den in der `job_run_timeline` Tabelle angezeigten Job nicht finden.

Nicht alle Auftragsausführungen sind überall sichtbar. Während JOB_RUN-Einträge in allen auftragsbezogenen Tabellen erscheinen, werden WORKFLOW_RUN (Notizbuch-Workflow-Ausführungen) nur in job_run_timeline aufgezeichnet. SUBMIT_RUN (einmalige Übermittlungen) werden hingegen sowohl in der einen als auch in der anderen Zeitleistentabelle aufgezeichnet. Diese Ausführungen werden nicht in andere Auftragssystemtabellen wie jobs oder job_tasks eingetragen.

Eine detaillierte Übersicht darüber, wo jeder Ausführungstyp sichtbar und zugänglich ist, finden Sie in der nachstehenden Tabelle " Run types" weiter unten.

Auftragsausführung ist in der Tabelle `billing.usage` nicht sichtbar

In system.billing.usage wird usage_metadata.job_id nur für Aufträge aufgefüllt, die auf Aufragscompute oder serverlosem Computing ausgeführt werden.

Darüber hinaus haben WORKFLOW_RUN Arbeitsplätze in usage_metadata.job_idkeine eigene usage_metadata.job_run_id- oder system.billing.usage-Zuordnung. Stattdessen wird der Computeverbrauch dem übergeordneten Notebook, das sie ausgelöst hat, zugeordnet. Dies bedeutet, dass beim Start einer Workflowausführung durch ein Notebook sämtliche Computekosten unter der Nutzung des übergeordneten Notebooks und nicht als separater Workflowauftrag angezeigt werden.

Weitere Informationen finden Sie in der -Verwendungsmetadatenreferenz.

Berechnen der Kosten eines Auftrags, der auf All-Purpose Compute ausgeführt wird

Präzise Kostenberechnungen für Aufträge, die auf All-Purpose Compute ausgeführt werden, sind mit einer Genauigkeit von 100 % nicht möglich. Wenn ein Auftrag auf einem interaktiven (allgemeinen) Rechner ausgeführt wird, werden mehrere Workloads wie Notizbücher, SQL-Abfragen oder andere Aufträge häufig gleichzeitig auf derselben Rechnerressource ausgeführt. Da die Clusterressourcen gemeinsam genutzt werden, gibt es keine direkte 1:1-Zuordnung zwischen Rechenkosten und einzelnen Auftragsläufen.

Für die genaue Nachverfolgung von Auftragskosten empfiehlt Databricks das Ausführen von Aufträgen auf dediziertem Job-Computes oder serverlosem Computing, wobei usage_metadata.job_id und usage_metadata.job_run_id eine genaue Kostenzuweisung ermöglichen.

Wenn Sie All-Purpose Compute verwenden müssen, haben Sie folgende Möglichkeiten:

Überwachen Sie Verbrauch und Kosten des gesamten Clusters in system.billing.usage basierend auf usage_metadata.cluster_id.
Separat die Laufzeitmetriken von Aufträgen verfolgen.
Berücksichtigen Sie, dass jede Kostenschätzung aufgrund gemeinsam genutzter Ressourcen ungefähr ist.

Weitere Informationen zur Kostenzuordnung finden Sie unter Referenz zu Nutzungsmetadaten.

Referenzwerte

Der folgende Abschnitt enthält Verweise auf ausgewählte Spalten in auftragsbezogenen Tabellen.

Aufteilungslogik in den Zeitachsentabellen

Die Spalten period_start_time und period_end_time in den Tabellen job_run_timeline und job_task_run_timeline zeichnen den aktiven Zeitraum einer Auftragsausführung oder einer Aufgabenausführung auf.

Jede Zeile zeichnet bis zu einer Stunde Laufzeit auf. Läufe, die länger als 1 Stunde dauern, werden über mehrere Zeilen aufgezeichnet. Diese Aufteilung sorgt für stündliche Granularität bei der Überwachung langfristig ausgeführter Aufgaben.

Note

Wenn eine Ausführung nie begonnen hat, wird sie durch eine Zeile dargestellt, in der period_start_time gleich period_end_time ist. Dies gibt keine aktive Laufzeit an. Um zu verstehen, warum die Ausführung nicht gestartet wurde, überprüfen Sie die termination_code Spalte.

Kurzlaufaufträge

Für Ausführungen, die kürzer als 1 Stunde sind, wird eine einzelne Zeile ausgegeben, wobei period_start_time sie auf die Startzeit der Ausführung festgelegt ist und period_end_time auf die Endzeit der Ausführung festgelegt ist.

Beispielsweise wird ein Auftrag, der um 12:13 Uhr UTC gestartet und um 12:45 Uhr UTC endet, durch eine einzelne Zeile dargestellt:

workspace_id	job_id	run_id	period_start_time	period_end_time
6051921418418893	280090038844882	174832649710507	2025-06-08T12:13:01.605	2025-06-08T12:45:06.009

Lange ausgeführte Aufträge

Bei Läufen, die länger als 1 Stunde dauern, werden mehrere Zeilen mit demselben run_idausgegeben, die jeweils bis zu einer Stunde der Laufzeit darstellen:

Die erste Zeile beginnt mit der tatsächlichen Startzeit und endet am Ende der ersten Laufstunde.
Zwischenreihen (falls vorhanden) umfassen vollständige stündliche Fenster, die an der vorherigen Slice period_end_time ausgerichtet sind.
Die letzte Zeile beginnt am Anfang des vorherigen Datenschnitts und endet mit der tatsächlichen Endzeit der Ausführung.

Beispielsweise wird ein Auftrag, der von 4:47 PM UTC bis 18:28 UHR UTC ausgeführt wurde, in mehrere Zeilen unterteilt. Jede Zeile stellt eine Stunde Aktivität dar, mit Ausnahme der letzten Zeile, die kürzer sein kann:

workspace_id	job_id	run_id	period_start_time	period_end_time
6051921418418893	280090038844882	55408597258956	2025-07-01T16:47:55.992	2025-07-01T17:47:56.434
6051921418418893	280090038844882	55408597258956	2025-07-01T17:47:56.434	2025-07-01T18:47:58.876
6051921418418893	280090038844882	55408597258956	2025-07-01T18:47:58.876	2025-07-01T19:47:59.682
6051921418418893	280090038844882	55408597258956	2025-07-01T19:47:59.682	2025-07-01T20:28:29.743

Triggertypwerte

In der job_run_timeline Tabelle sind die möglichen Werte für die trigger_type Spalte:

CONTINUOUS
CRON
FILE_ARRIVAL
ONETIME
ONETIME_RETRY

Ausführungstypwerte

In der job_run_timeline Tabelle sind die möglichen Werte für die run_type Spalte:

Type	Description	Ui-Speicherort	API Endpoint	Systemtabellen
`JOB_RUN`	Standardauftragsausführung	Benutzeroberfläche für Aufträge und Auftragsausführungen	Endpunkte vom Typ /jobs und /jobs/runs	Aufträge, job_tasks, job_run_timeline, job_task_run_timeline
`SUBMIT_RUN`	Einmalige Ausführung über POST /jobs/runs/submit	Nur Benutzeroberfläche für Auftragsausführungen	Nur Endpunkte vom Typ /jobs/runs	Arbeitsablauf-Zeitstrahl, Aufgabenablauf-Zeitstrahl
`WORKFLOW_RUN`	Vom Notizbuchworkflow initiierte Ausführung	Nicht sichtbar	Nicht zugänglich	job_run_timeline

Ergebniszustandswerte

In den job_task_run_timeline Und job_run_timeline Tabellen sind die möglichen Werte für die result_state Spalte:

State	Description
`SUCCEEDED`	Die Ausführung wurde erfolgreich abgeschlossen.
`FAILED`	Die Ausführung wurde mit einem Fehler abgeschlossen.
`SKIPPED`	Die Ausführung wurde nie ausgeführt, weil eine Bedingung nicht erfüllt wurde.
`CANCELLED`	Die Ausführung wurde auf Anforderung des Benutzers abgebrochen.
`TIMED_OUT`	Die Ausführung wurde beendet, nachdem das Timeout aufgetreten ist.
`ERROR`	Die Ausführung wurde mit einem Fehler abgeschlossen.
`BLOCKED`	Die Ausführung wurde aufgrund einer upstream-Abhängigkeit blockiert.
`NULL`	Die Zeile stellt eine Zwischen-Slice eines zeitintensiven Auftrags dar. Dies `result_state` ist nur in der Zeile verfügbar, die das Ende der Ausführung darstellt.

Beendigungscodewerte

In den job_task_run_timeline Und job_run_timeline Tabellen sind die möglichen Werte für die termination_code Spalte:

Beendigungscode	Description
`SUCCESS`	Der Lauf wurde erfolgreich abgeschlossen.
`CANCELLED`	Die Ausführung wurde während der Ausführung von der Databricks-Plattform abgebrochen; Beispiel: Wenn die maximale Laufzeit überschritten wurde.
`SKIPPED`	"Run" wurde nie ausgeführt, z. B. wenn der Upstream-Aufgabenlauf fehlschlug, die Abhängigkeitstyp-Bedingung nicht erfüllt wurde oder keine materiellen Aufgaben zur Ausführung vorhanden waren.
`DRIVER_ERROR`	Bei der Ausführung ist beim Kommunizieren mit dem Spark-Treiber ein Fehler aufgetreten.
`CLUSTER_ERROR`	Fehler bei der Ausführung aufgrund eines Clusterfehlers.
`REPOSITORY_CHECKOUT_FAILED`	Fehler beim Abschließen des Auscheckens aufgrund eines Fehlers bei der Kommunikation mit dem Drittanbieterdienst.
`INVALID_CLUSTER_REQUEST`	Der Durchlauf ist fehlgeschlagen, weil er eine ungültige Anforderung zum Starten des Clusters ausgegeben hat.
`WORKSPACE_RUN_LIMIT_EXCEEDED`	Der Arbeitsbereich hat das Kontingent für die maximale Anzahl parallel aktiver Ausführungen erreicht. Erwägen Sie die Planung der Abläufe über einen größeren Zeitrahmen.
`FEATURE_DISABLED`	Der Lauf ist fehlgeschlagen, weil er versucht hat, auf eine Funktion zuzugreifen, die für den Arbeitsbereich nicht verfügbar ist.
`CLUSTER_REQUEST_LIMIT_EXCEEDED`	Die Anzahl der Clustererstellungs-, Start- und Vergrößerungsanfragen hat das zugewiesene Ratenlimit überschritten. Erwägen Sie, die Ausführung über einen größeren Zeitraum zu verteilen.
`STORAGE_ACCESS_ERROR`	Fehler bei der Ausführung aufgrund eines Fehlers beim Zugriff auf den Kunden-Blob Storage.
`RUN_EXECUTION_ERROR`	Die Ausführung wurde mit Vorgangsfehlern abgeschlossen.
`UNAUTHORIZED_ERROR`	Fehler beim Ausführen aufgrund eines Berechtigungsproblems beim Zugriff auf eine Ressource.
`LIBRARY_INSTALLATION_ERROR`	Fehler bei der Ausführung beim Installieren der vom Benutzer angeforderten Bibliothek. Die Ursachen können umfassen, sind jedoch nicht darauf beschränkt: Die bereitgestellte Bibliothek ist ungültig, oder es bestehen unzureichende Berechtigungen zum Installieren der Bibliothek.
`MAX_CONCURRENT_RUNS_EXCEEDED`	Die geplante Ausführung überschreitet den Grenzwert für maximale parallele Ausführungen, der für den Auftrag festgelegt ist.
`MAX_SPARK_CONTEXTS_EXCEEDED`	Die Ausführung wird auf einem Cluster geplant, der bereits die maximale Anzahl von Kontexten erreicht hat, deren Erstellung konfiguriert ist.
`RESOURCE_NOT_FOUND`	Eine Ressource, die für die Ausführung erforderlich ist, existiert nicht.
`INVALID_RUN_CONFIGURATION`	Fehler bei der Ausführung aufgrund einer ungültigen Konfiguration.
`CLOUD_FAILURE`	Fehler bei der Ausführung aufgrund eines Cloudanbieterproblems.
`MAX_JOB_QUEUE_SIZE_EXCEEDED`	Die Ausführung wurde aufgrund des Grenzwerts der Warteschlangengröße auf Auftragsebene übersprungen.

Pipelinetypwerte

In der pipelines Tabelle sind die möglichen Werte für die pipeline_type Spalte:

Pipelinetyp	Description
`ETL_PIPELINE`	Standardpipeline
`MATERIALIZED_VIEW`	Materialisierte Ansichten in Databricks SQL
`STREAMING_TABLE`	Streamen von Tabellen in Databricks SQL
`INGESTION_PIPELINE`	Lakeflow Connect-Erfassung
`INGESTION_GATEWAY`	Lakeflow Connect-Gateway-Erfassung

Referenz für Pipelineergebnisse

In der pipeline_update_timeline Tabelle sind die möglichen Werte für die result_state Spalte:

COMPLETED
FAILED
CANCELED

Referenz zu Pipelineeinstellungen

In der pipelines Tabelle sind die möglichen Werte für die settings Spalte:

Value	Description
`photon`	Ein Flag, das angibt, ob Photon zum Ausführen der Pipeline verwendet werden soll
`development`	Ein Kennzeichen, das angibt, ob die Pipeline im Entwicklungs- oder Produktionsmodus ausgeführt werden soll
`continuous`	Dies ist ein Flag, das angibt, ob die Pipeline kontinuierlich ausgeführt werden soll
`serverless`	Ein Flag, das angibt, ob die Pipeline auf einem serverlosen Cluster ausgeführt werden soll
`edition`	Die Produktedition zum Ausführen der Pipeline
`channel`	Die Version der zu verwendenden Pipelinelaufzeit

Pipeline-Update-Typwerte

In der pipeline_update_timeline Tabelle sind die möglichen Werte für die update_type Spalte:

API_CALL
RETRY_ON_FAILURE
SERVICE_UPGRADE
SCHEMA_CHANGE
JOB_TASK
USER_ACTION
DBSQL_REQUEST
SETTINGS_CHANGE
SCHEMA_EXPLORATION
INFRASTRUCTURE_MAINTENANCE
START_RESOURCES

Typwerte für Pipelinetrigger

In der pipeline_update_timeline Tabelle sind die möglichen Werte für die trigger_type Spalte:

Value	Description
`job_task`	Details der job_task, die das Update der Pipeline ausgelöst hat

Details des Pipeline-Trigger-Typs

In der pipeline_update_timeline Tabelle sind die möglichen Werte für die trigger_type.job_task Struktur:

Value	Description	Notes
`job_id`	Die ID des Auftrags, der das Update der Pipeline ausgelöst hat	Der `SQL_SCHEDULE` Wert gibt an, dass dies `job_task` als Teil des SQL-Codes geplant wurde.
`job_task_run_id`	Die ID der Aufgabe, die das Update der Pipeline ausgelöst hat	Der `SQL_SCHEDULE` Wert gibt an, dass dies `job_task` als Teil des SQL-Codes geplant wurde.
`performance_target`	Nur für serverlose Pipeline-Updates befüllt	Entweder `PERFORMANCE_OPTIMIZED` oder `STANDARD`

Feedback

War diese Seite hilfreich?

Last updated on 2025-12-19

Freigeben über

Auftragssystemtabellenreferenz

Requirements

Verfügbare Auftragstabellen

Detaillierte Schemareferenz

Auftragstabellenschema

Beispielabfrage

Auftragsaufgabentabellenschema

Beispielabfrage

Zeitachsentabellenschema für Auftragsausführung

Beispielabfrage

Auftragsaufgabe: Zeitachsentabellenschema ausführen

Pipelines-Tabellenschema

Beispielabfrage

Zeitachsentabellenschema für Pipelineupdates

Beispielabfrage

Allgemeine Verknüpfungsmuster

Verknüpfen von Aufträgen und Zeitachsentabellen für Auftragsausführung

Anreichern einer Auftragsausführung mit einem Auftragsnamen

Verknüpfen der Auftragsausführungszeitachsen- und Verbrauchstabellen

Anreichern jedes Abrechnungsprotokolls mit Auftragsausführungsmetadaten

Berechnen der Kosten pro Auftragsausführung

Abrufen von Verbrauchsprotokollen für SUBMIT_RUN-Aufträge

Verknüpfen von der Zeitachse der Auftragsaufgabenausführung und Clustertabellen

Aufgabenläufe mit Clustermetadaten anreichern

Suchen von Aufträgen, die auf All-Purpose Compute ausgeführt werden

Suchen nach Aufträgen, die in den letzten 30 Tagen nicht ausgeführt werden

Auftragsüberwachungs-Dashboard

Troubleshooting

Auftrag wird nicht in der Tabelle lakeflow.jobs protokolliert

Kann den in der job_run_timeline Tabelle angezeigten Job nicht finden.

Auftragsausführung ist in der Tabelle billing.usage nicht sichtbar

Berechnen der Kosten eines Auftrags, der auf All-Purpose Compute ausgeführt wird

Referenzwerte

Aufteilungslogik in den Zeitachsentabellen

Kurzlaufaufträge

Lange ausgeführte Aufträge

Triggertypwerte

Ausführungstypwerte

Ergebniszustandswerte

Beendigungscodewerte

Pipelinetypwerte

Referenz für Pipelineergebnisse

Referenz zu Pipelineeinstellungen

Pipeline-Update-Typwerte

Typwerte für Pipelinetrigger

Details des Pipeline-Trigger-Typs

Feedback

Zusätzliche Ressourcen

Auftrag wird nicht in der Tabelle `lakeflow.jobs` protokolliert

Kann den in der `job_run_timeline` Tabelle angezeigten Job nicht finden.

Auftragsausführung ist in der Tabelle `billing.usage` nicht sichtbar