Udostępnij przez


Schemat dziennika zdarzeń potoku

Dziennik zdarzeń potoku zawiera wszystkie informacje związane z potokiem, w tym dzienniki inspekcji, kontrole jakości danych, postęp potoku i pochodzenie danych.

W poniższych tabelach opisano schemat dziennika zdarzeń. Niektóre z tych pól zawierają dane JSON, które wymagają analizowania w celu wykonywania niektórych zapytań, takich jak details pole. Usługa Azure Databricks obsługuje operator : do analizowania pól JSON. Zobacz operator : (znak dwukropka).

Uwaga / Notatka

Niektóre pola w dzienniku zdarzeń służą do użytku wewnętrznego przez usługę Azure Databricks. W poniższej dokumentacji opisano pola przeznaczone do użycia przez klienta.

Aby uzyskać szczegółowe informacje na temat korzystania z dziennika zdarzeń potoku, zobacz Dziennik zdarzeń potoku.

Obiekt PipelineEvent

Reprezentuje pojedyncze zdarzenie potokowe w dzienniku zdarzeń.

(No changes needed) Description
id Unikatowy identyfikator rekordu dziennika zdarzeń.
sequence Ciąg JSON zawierający metadane służące do identyfikowania i porządkowania zdarzeń.
origin Ciąg JSON zawierający metadane dotyczące źródła zdarzenia, na przykład dostawca chmury, region dostawcy chmury, użytkownik i informacje o pipeline’u. Zobacz Obiekt Origin.
timestamp Godzina zarejestrowania zdarzenia w formacie UTC.
message Czytelny dla człowieka komunikat opisujący zdarzenie.
level Poziom ostrzeżenia. Możliwe wartości to:
  • INFO: Zdarzenia informacyjne
  • WARN: Nieoczekiwane, ale niekrytyczne problemy
  • ERROR: Błąd zdarzenia, który może wymagać uwagi użytkownika
  • METRICS: używany w przypadku zdarzeń o dużym wolumenie, które są przechowywane tylko w tabeli Delta i nie są wyświetlane w interfejsie użytkownika potoków.
maturity_level Stabilność schematu zdarzeń. Możliwe wartości to:
  • STABLE: schemat jest stabilny i nie zmieni się.
  • NULL: schemat jest stabilny i nie zmieni się. Wartość może być NULL, jeśli rekord został utworzony przed dodaniem pola maturity_level (wersja 2022.37).
  • EVOLVING: Schemat nie jest stabilny i może ulec zmianie.
  • DEPRECATED: Schemat jest przestarzały, a środowisko uruchomieniowe potoku deklaratywnego Spark Lakeflow może przestać generować to zdarzenie w dowolnym momencie.

Nie zaleca się budowania monitorowania lub alertów na podstawie pól EVOLVING lub DEPRECATED.
error Jeśli wystąpił błąd, szczegóły opisujące błąd.
details Ciąg JSON zawierający ustrukturyzowane szczegóły zdarzenia. Jest to pole podstawowe używane do analizowania zdarzeń. Format ciągu JSON zależy od .event_type Aby uzyskać więcej informacji, zobacz Obiekt szczegółów .
event_type Typ zdarzenia. Aby uzyskać listę typów zdarzeń oraz typ tworzonego obiektu szczegółów, zobacz Obiekt szczegółów.

Obiekt szczegółów

Każde zdarzenie ma różne details właściwości w obiekcie JSON, w zależności od event_type zdarzenia. W tej tabeli wymieniono element event_type, i skojarzony element details. Właściwości details są opisane w sekcji Typy szczegółów .

Typ szczegółów według event_type Description
create_update Zapisuje pełną konfigurację używaną do rozpoczęcia aktualizacji potoku. Zawiera każdą konfigurację ustaloną przez Databricks. Aby uzyskać szczegółowe informacje, zobacz Szczegóły dotyczące create_update.
user_action Zawiera szczegółowe informacje na temat działania użytkownika na potoku (w tym tworzenie potoku, a także uruchamianie lub anulowanie aktualizacji). Aby uzyskać szczegółowe informacje, zobacz Szczegóły dotyczące zdarzenia user_action.
flow_progress Opisuje cykl życia przepływu od uruchamiania, przez działanie, do ukończenia lub niepowodzenia. Aby uzyskać szczegółowe informacje, zobacz Szczegóły dotyczące zdarzenia flow_progress.
update_progress Opisuje cykl życia aktualizacji potoku od rozpoczęcia, poprzez uruchomienie, do ukończenia lub niepowodzenia. Aby uzyskać szczegółowe informacje, zobacz Szczegóły dotyczące zdarzenia update_progress.
flow_definition Definiuje schemat i plan zapytania dla wszystkich przekształceń występujących w danym przepływie. Można traktować jako krawędzie DAG przepływu danych. Może służyć do obliczania pochodzenia dla każdego przepływu, a także do wyświetlenia objaśnionego planu zapytania. Aby uzyskać szczegółowe informacje, zobacz Szczegóły dotyczące zdarzenia flow_definition.
dataset_definition Definiuje zestaw danych, który jest źródłem lub miejscem docelowym dla danego przepływu. Aby uzyskać szczegółowe informacje, zobacz Szczegóły dotyczące zdarzenia dataset_definition.
sink_definition Definiuje dany ujście. Aby uzyskać szczegółowe informacje, zobacz Szczegóły zdarzenia sink_definition.
deprecation Wyświetla listę funkcji, które wkrótce zostaną wycofane lub są obecnie przestarzałe, z których korzysta ten potok. Aby zapoznać się z przykładami wartości, zobacz Szczegóły enumeracji dotyczącej zdarzenia wycofania.
cluster_resources Zawiera informacje o zasobach klastra dla potoków uruchomionych w klasycznych obliczeniach. Te metryki są wypełniane tylko dla klasycznych potoków obliczeniowych. Aby uzyskać szczegółowe informacje, zobacz Szczegóły dotyczące zdarzenia cluster_resources.
autoscale Zawiera informacje o skalowaniu automatycznym dla potoków działających w klasycznym środowisku obliczeniowym. Te metryki są wypełniane tylko dla klasycznych potoków obliczeniowych. Aby uzyskać szczegółowe informacje, zobacz Szczegóły zdarzenia automatycznego skalowania.
planning_information Reprezentuje informacje o planowaniu związane z materializowanym widokiem, przyrostowym odświeżaniem a pełnym odświeżaniem. Może służyć do uzyskania dodatkowych informacji na temat tego, dlaczego zmaterializowany widok jest w pełni ponownie skompilowany. Aby uzyskać szczegółowe informacje, zobacz Szczegóły dotyczące zdarzenia planning_information.
hook_progress Zdarzenie wskazujące aktualny stan haka użytkownika podczas działania potoku. Służy do monitorowania stanu hooków zdarzeń, na przykład do wysyłania do zewnętrznych narzędzi do monitorowania. Aby uzyskać szczegółowe informacje, zobacz Szczegóły dotyczące zdarzenia hook_progress.
operation_progress Zawiera informacje o postępie operacji. Aby uzyskać szczegółowe informacje, zobacz Szczegóły dotyczące zdarzenia operation_progress.
stream_progress Zawiera informacje o postępie potoku. Aby uzyskać szczegółowe informacje, zobacz Szczegóły dotyczące zdarzenia stream_progress.

Typy szczegółów

Następujące obiekty reprezentują details innego typu zdarzenia w PipelineEvent obiekcie.

Szczegóły dotyczące create_update

Szczegóły wydarzenia create_update .

(No changes needed) Description
dbr_version Wersja środowiska Databricks Runtime.
run_as Identyfikator użytkownika, którego aktualizacja będzie uruchamiana w imieniu użytkownika. Zazwyczaj jest to właściciel potoku lub jednostki usługi.
cause Przyczyna aktualizacji. Zazwyczaj w przypadku JOB_TASK uruchamiania z zadania lub USER_ACTION uruchamiania interakcyjnego przez użytkownika.

Szczegóły zdarzenia user_action

Szczegóły wydarzenia user_action . Zawiera następujące pola:

(No changes needed) Description
user_name Nazwa użytkownika, który zainicjował aktualizację potoku.
user_id Identyfikator użytkownika, który wyzwolił aktualizację potoku. To nie zawsze jest jednoznaczne z run_as użytkownikiem, który może być jednostką usługi lub innym użytkownikiem.
action Akcja wykonywana przez użytkownika, w tym START i CREATE.

Szczegóły zdarzenia flow_progress

Szczegóły zdarzenia flow_progress .

(No changes needed) Description
status Nowy stan przepływu. Może być jednym z:
  • QUEUED
  • STARTING
  • RUNNING
  • COMPLETED
  • FAILED
  • SKIPPED
  • STOPPED
  • IDLE
  • EXCLUDED
metrics Metryki dotyczące przepływu. Aby uzyskać szczegółowe informacje, zobacz FlowMetrics (Metryki przepływu).
data_quality Metryki jakości danych dotyczące przepływu i skojarzonych oczekiwań. Aby uzyskać szczegółowe informacje, zobacz DataQualityMetrics.

Szczegóły zdarzenia update_progress

Szczegóły zdarzenia update_progress.

(No changes needed) Description
state Nowy stan aktualizacji. Może być jednym z:
  • QUEUED
  • CREATED
  • WAITING_FOR_RESOURCES
  • INITIALIZING
  • RESETTING
  • SETTING_UP_TABLES
  • RUNNING
  • STOPPING
  • COMPLETED
  • FAILED
  • CANCELED

Przydatne do obliczania czasu trwania różnych etapów aktualizacji ciągu przetwarzania danych, od łącznego czasu trwania do czasu spędzonego na oczekiwanie na zasoby, na przykład.
cancellation_cause Przyczyna, dla której aktualizacja znalazła się w stanie CANCELED. Zawiera przyczyny, takie jak USER_ACTION lub WORKFLOW_CANCELLATION (przepływ pracy, który wyzwolił aktualizację został anulowany).

Szczegóły zdarzenia flow_definition

Szczegóły zdarzenia flow_definition .

(No changes needed) Description
input_datasets Dane wejściowe odczytane przez ten przepływ.
output_dataset Zestaw danych wyjściowych, do którego zapisywany jest ten przepływ.
output_sink Wyjście danych, do którego jest zapisywany ten przepływ.
explain_text Wyjaśniony plan zapytania.
schema_json Ciąg schematu JSON Spark SQL.
schema Schemat tego przepływu.
flow_type Typ przepływu. Może być jednym z:
  • COMPLETE: Tabela przesyłania strumieniowego zapisuje dane w miejscu docelowym w trybie pełnym (przesyłanie strumieniowe).
  • CHANGE: Tabela przesyłania strumieniowego przy użyciu APPLY_CHANGES_INTO.
  • SNAPSHOT_CHANGE: Tabela przesyłania strumieniowego przy użyciu APPLY CHANGES INTO ... FROM SNAPSHOT ....
  • APPEND: Przesyłanie strumieniowe tabeli jest zapisywane w miejscu docelowym w trybie dodawania.
  • MATERIALIZED_VIEW: Wyprowadza dane do zmaterializowanego widoku.
  • VIEW: Wyprowadza dane do widoku.
comment Komentarz użytkownika lub opis zestawu danych.
spark_conf Konfiguracje Spark ustawione dla tego przepływu.
language Język używany do tworzenia tego przepływu. Może to być SCALA, PYTHONlub SQL.
once Czy ten przepływ został zadeklarowany do uruchomienia raz.

Szczegóły zdarzenia dataset_definition

Szczegóły zdarzenia dataset_definition . Zawiera następujące pola:

(No changes needed) Description
dataset_type Rozróżnia zmaterializowane widoki i tabele przesyłania strumieniowego.
num_flows Liczba przepływów zapisywanych w zestawie danych.
expectations Oczekiwania związane z zestawem danych.

Szczegóły zdarzenia sink_definition

Szczegóły zdarzenia sink_definition .

(No changes needed) Description
format Format zlewu.
options Opcje klucz-wartość skojarzone z ujściem.

Szczegóły wyliczenia zdarzenia wycofania

Zdarzenie deprecation ma message pole. Możliwe wartości dla elementu message obejmują następujące wartości. Jest to częściowa lista, która rośnie wraz z upływem czasu.

(No changes needed) Description
TABLE_MANAGED_BY_MULTIPLE_PIPELINES Tabela jest zarządzana przez wiele przepływów danych.
INVALID_CLUSTER_LABELS Używanie etykiet klastra, które nie są wspierane.
PINNED_DBR_VERSION Używanie dbr_version zamiast channel w ustawieniach potoku.
PREVIOUS_CHANNEL_USED Korzystanie z kanału wydania PREVIOUS, który może zostać usunięty w przyszłej wersji.
LONG_DATASET_NAME Użycie nazwy zestawu danych dłuższej niż obsługiwana długość.
LONG_SINK_NAME Użycie nazwy źródła dłuższej niż dozwolona długość.
LONG_FLOW_NAME Używanie nazwy przepływu dłuższej niż obsługiwana długość.
ENHANCED_AUTOSCALING_POLICY_COMPLIANCE Zasady klastra są zgodne tylko wtedy, gdy rozszerzone skalowanie automatyczne używa stałego rozmiaru klastra.
DATA_SAMPLE_CONFIGURATION_KEY Używanie klucza konfiguracji do konfigurowania próbkowania danych jest przestarzałe.
INCOMPATIBLE_CLUSTER_SETTINGS Bieżące ustawienia klastra lub zasady klastra nie są już zgodne z deklaratywnymi potokami Lakeflow Spark.
STREAMING_READER_OPTIONS_DROPPED Korzystanie z opcji czytnika przesyłania strumieniowego, które są pomijane.
DISALLOWED_SERVERLESS_STATIC_SPARK_CONFIG Ustawianie statycznych ustawień Spark w konfiguracji potoku dla architektur bezserwerowych jest niedozwolone.
INVALID_SERVERLESS_PIPELINE_CONFIG Klient bezserwerowy udostępnia nieprawidłową konfigurację potoku.
UNUSED_EXPLICIT_PATH_ON_UC_MANAGED_TABLE Określanie nieużywanych jawnych ścieżek tabel w tabelach zarządzanych przez UC.
FOREACH_BATCH_FUNCTION_NOT_SERIALIZABLE Podana funkcja foreachBatch nie może być serializowana.
DROP_PARTITION_COLS_NO_PARTITIONING Usunięcie atrybutu partition_cols powoduje brak partycjonowania.
PYTHON_CREATE_TABLE Użyj polecenia @dlt.create\_table zamiast @dp.table lub @dp.materialized\_view.
PYTHON_CREATE_VIEW Użyj @dlt.create\_view zamiast @dp.temporary\_view.
PYTHON_CREATE_STREAMING_LIVE_TABLE Użyj create_streaming_live_table zamiast create_streaming_table.
PYTHON_CREATE_TARGET_TABLE Użyj create_target_table zamiast create_streaming_table.
FOREIGN_KEY_TABLE_CONSTRAINT_CYCLE Zestaw tabel zarządzanych przez potok danych ma cykl odnaleziony wśród ograniczeń klucza obcego.
PARTIALLY_QUALIFIED_TABLE_REFERENCE_INCOMPATIBLE_WITH_DEFAULT_PUBLISHING_MODE Częściowo kwalifikowane odwołanie do tabeli, które ma różne znaczenie w domyślnym trybie publikowania i tradycyjnym trybie publikowania.

Szczegóły zdarzenia cluster_resources

Szczegóły zdarzenia cluster_resources . Dotyczy tylko potoków uruchamianych na klasycznej infrastrukturze obliczeniowej.

(No changes needed) Description
task_slot_metrics Metryki slotów zadań klastra. Aby uzyskać szczegółowe informacje, zobacz Obiekt TaskSlotMetrics
autoscale_info Stan autoskalatorów. Aby uzyskać szczegółowe informacje, zobacz obiekt AutoscaleInfo

Szczegóły zdarzenia automatycznego skalowania

Szczegóły zdarzenia autoscale. Zdarzenia skalowania automatycznego mają zastosowanie tylko wtedy, gdy potok używa klasycznych zasobów obliczeniowych.

(No changes needed) Description
status Stan tego zdarzenia. Może być jednym z:
  • SUCCEEDED
  • RESIZING
  • FAILED
  • PARTIALLY_SUCCEEDED
optimal_num_executors Optymalna liczba egzekutorów sugerowana przez algorytm przed zastosowaniem min_workers i max_workers granic.
requested_num_executors Liczba funkcji wykonawczych po obcięciu optymalnej liczby funkcji wykonawczych sugerowanych przez algorytm do min_workers i max_workers granic.

Szczegóły zdarzenia planning_information

Szczegóły zdarzenia planning_information . Przydatne do wyświetlania szczegółów związanych z wybranym typem odświeżania dla danego przepływu podczas aktualizacji. Może służyć do debugowania, dlaczego aktualizacja jest w pełni odświeżona, a nie przyrostowo odświeżona. Aby uzyskać więcej informacji na temat odświeżania przyrostowego, zobacz Odświeżanie przyrostowe dla zmaterializowanych widoków

(No changes needed) Description
technique_information Informacje dotyczące odświeżania. Zawiera on zarówno informacje na temat wybranej metodologii odświeżania, jak i możliwych metodologii odświeżania, które zostały uwzględnione. Przydatne do debugowania, dlaczego zmaterializowany widok nie może zwiększać się. Aby uzyskać więcej informacji, zobacz TechniqueInformation.
source_table_information Informacje o tabeli źródłowej. Może być przydatne podczas debugowania, dlaczego widok materializowany nie zdołał przejść procesu inkrementalizacji. Aby uzyskać szczegółowe informacje, zobacz Obiekt TableInformation.
target_table_information Informacje o tabeli docelowej. Aby uzyskać szczegółowe informacje, zobacz Obiekt TableInformation.

Szczegóły zdarzenia hook_progress

Szczegóły hook_progress zdarzenia. Zawiera następujące pola:

(No changes needed) Description
name Nazwa elementu zaczepienia użytkownika.
status Stan haka użytkownika.

Szczegóły zdarzenia operation_progress

Szczegóły operation_progress zdarzenia. Zawiera następujące pola:

(No changes needed) Description
type Typ śledzonej operacji. Jeden z:
  • AUTO_LOADER_LISTING
  • AUTO_LOADER_BACKFILL
  • CONNECTOR_FETCH
  • CDC_SNAPSHOT
status Stan operacji. Jeden z:
  • STARTED
  • COMPLETED
  • CANCELED
  • FAILED
  • IN_PROGRESS
duration_ms Łączny czas operacji upłynął w milisekundach. Tylko uwzględnione w zdarzeniu końcowym (gdzie stan to COMPLETED, CANCELEDlub FAILED).

Szczegóły zdarzenia stream_progress

Szczegóły stream_progress zdarzenia. Zawiera następujące pole:

(No changes needed) Description
stream_progress Szczegóły strumienia potoku. Podobnie jak w przypadku metryk dla Structured Streaming StreamingQueryListener.
Różnice zostały opisane w poniższych akapitach. Aby uzyskać pełną dokumentację dotyczącą StreamingQueryListener metryk, zobacz StreamingQueryListener object metrics (Metryki obiektów StreamingQueryListener).

Różnice między stream_progress metrykami obiektów i StreamingQueryListener :

  • Następujące metryki są obecne w StreamingQueryListener, ale nie w stream_progress: numInputRows, inputRowsPerSecond, i processedRowsPerSecond.
  • W przypadku strumieni Kafka i Kineses, pola startOffset, endOffset i latestOffset mogą być zbyt duże i są obcinane. Dla każdego z tych pól dodawane jest dodatkowe pole ...Truncated, startOffsetTruncated, endOffsetTruncated i latestOffsetTruncated z wartością logiczną dla określenia, czy dane są obcięte.

Inne obiekty

Następujące obiekty reprezentują dodatkowe dane lub enumeracje w obiektach zdarzeń.

obiekt AutoscaleInfo

Metryki autoskalowania dla klastra. Dotyczy tylko potoków uruchamianych na klasycznej infrastrukturze obliczeniowej.

(No changes needed) Description
state Stan skalowania automatycznego. Może być jednym z:
  • SUCCEEDED
  • RESIZING
  • FAILED
  • PARTIALLY_SUCCEEDED
optimal_num_executors Optymalna liczba funkcji wykonawczych. Jest to optymalny rozmiar sugerowany przez algorytm przed obcięciem przez określoną przez użytkownika minimalną/maksymalną liczbę funkcji wykonawczych.
latest_requested_num_executors Liczba egzekutorów żądanych od menedżera klastra przez menedżera stanu w najnowszym żądaniu. Jest to liczba funkcji wykonawczych, do których menedżer stanu próbuje przeprowadzić skalowanie, i jest aktualizowana, gdy menedżer stanu próbuje zamknąć stan skalowania w przypadku przekroczenia limitu czasu. To pole nie jest wypełniane, jeśli nie ma oczekującego żądania.
request_pending_seconds Czas oczekiwania na żądanie skalowania. Nie jest on wypełniany, jeśli nie ma oczekującego żądania.

CostModelRejectionSubType obiekt

Wyliczenie powodów odrzucenia procesu przyrostowego ze względu na porównanie kosztów pełnego odświeżania do odświeżania przyrostowego w zdarzeniu planning_information.

Wartość Description
NUM_JOINS_THRESHOLD_EXCEEDED Pełne odświeżanie, ponieważ zapytanie zawiera zbyt wiele sprzężeń.
CHANGESET_SIZE_THRESHOLD_EXCEEDED Pełne odświeżanie, ponieważ zmieniono zbyt wiele wierszy w tabelach bazowych.
TABLE_SIZE_THRESHOLD_EXCEEDED Pełne odświeżanie, ponieważ rozmiar tabeli podstawowej przekroczył próg.
EXCESSIVE_OPERATOR_NESTING Wykonaj pełne odświeżenie, ponieważ definicja zapytania jest złożona i ma wiele poziomów zagnieżdżania operatorów.
COST_MODEL_REJECTION_SUB_TYPE_UNSPECIFIED Wykonaj pełne odświeżenie z innego powodu.

Obiekt DataQualityMetrics

Metryki dotyczące spełnienia oczekiwań w ramach procesu. Używane w flow_progress szczegółach zdarzenia.

(No changes needed) Description
dropped_records Liczba rekordów, które zostały odrzucone, ponieważ nie spełniły co najmniej jednego oczekiwania.
expectations Metryki dotyczące oczekiwań dodanych do dowolnego zestawu danych w planie zapytania przepływu. Jeśli istnieje wiele oczekiwań, może to służyć do śledzenia, które oczekiwania zostały spełnione lub nie powiodły się. Aby uzyskać szczegółowe informacje, zobacz Obiekt ExpectationMetrics .

Obiekt ExpectationMetrics

Metryki dotyczące oczekiwań dla określonego oczekiwania.

(No changes needed) Description
name Nazwa oczekiwania.
dataset Nazwa zestawu danych, do którego dodano oczekiwanie.
passed_records Liczba rekordów, które przechodzą oczekiwanie.
failed_records Liczba rekordów, które nie spełniają oczekiwań. Śledzi, czy oczekiwania zostały spełnione, ale nie opisuje, co stanie się z rekordami (ostrzega, zawodzi lub porzuca).

Obiekt FlowMetrics

Metryki dotyczące przepływu, w tym sumy całkowite dla przepływu i podzielone według określonego źródła. Używane w flow_progress szczegółach zdarzenia.

Każde źródło przesyłania strumieniowego obsługuje tylko określone metryki przepływu. W poniższej tabeli przedstawiono metryki dostępne dla obsługiwanych źródeł przesyłania strumieniowego:

przesłać źródło bajty zaległości elementy zaległe sekundy zaległości Pliki zaległe
Kafka
Kinesis
Delta
Automatyczny ładownik
Google Pub/Sub (usługa przesyłania wiadomości)
(No changes needed) Description
num_output_rows Liczba wierszy wyjściowych napisanych przez aktualizację tego przepływu.
backlog_bytes Łączne zaległości w bajtach we wszystkich źródłach wejściowych w przepływie danych.
backlog_records Łączna liczba rekordów zaległości we wszystkich źródłach wejściowych w przepływie.
backlog_files Łączna liczba zaległych plików we wszystkich źródłach wejściowych przepływu.
backlog_seconds Maksymalna liczba sekund opóźnień we wszystkich źródłach wejściowych w przepływie.
executor_time_ms Suma wszystkich czasów wykonywania zadań w milisekundach dla tego procesu w całym okresie raportowania.
executor_cpu_time_ms Suma wszystkich czasów wykonywania zadań przez procesor CPU w milisekundach dla tego przepływu w okresie raportowania.
num_upserted_rows Liczba wierszy wyjściowych przekazanych do zestawu danych przez aktualizację tego przepływu.
num_deleted_rows Liczba istniejących wierszy wyjściowych usuniętych z zestawu danych przez aktualizację tego przepływu.
num_output_bytes Liczba bajtów wyjściowych zapisanych podczas aktualizacji tego przepływu.
source_metrics Metryki dla każdego źródła danych wejściowych w przepływie. Przydatne do monitorowania postępu pozyskiwania ze źródeł spoza Deklaratywnych Potoków Spark Lakeflow (takich jak Apache Kafka, Pulsar lub Auto Loader). Obejmuje pola:
  • source_name: nazwa źródła.
  • backlog_bytes: Bufor w bajtach dla tego źródła.
  • backlog_records: Rejestry zaległości dla tego źródła.
  • backlog_files: pliki Backlog dla tego źródła.
  • backlog_seconds: liczba sekund zaległości dla tego źródła.

IncrementalizationIssue, obiekt

Reprezentuje problemy z przyrostową aktualizacją, które mogą spowodować pełne odświeżenie podczas planowania aktualizacji.

(No changes needed) Description
issue_type Typ problemu, który może uniemożliwić zaktualizowanie zmaterializowanego widoku przyrostowo. Aby uzyskać szczegółowe informacje, zobacz Typ problemu.
prevent_incrementalization Czy ten problem uniemożliwił wykonanie inkrementalizacji.
table_information Informacje o tabeli skojarzone z problemami, takimi jak CDF_UNAVAILABLE, , INPUT_NOT_IN_DELTADATA_FILE_MISSING.
operator_name Informacje dotyczące planu. Ustaw dla problemów, gdy typ problemu to PLAN_NOT_DETERMINISTIC lub PLAN_NOT_INCREMENTALIZABLE, operator albo wyrażenie, które powoduje niedeterminizm lub niezdolność do inkrementacji.
expression_name Nazwa wyrażenia.
join_type Informacje pomocnicze, gdy operator jest sprzężeniem. Na przykład: JOIN_TYPE_LEFT_OUTER lub JOIN_TYPE_INNER.
plan_not_incrementalizable_sub_type Kategoria szczegółowa, gdy typ problemu to PLAN_NOT_INCREMENTALIZABLE. Aby uzyskać szczegółowe informacje, zobacz Obiekt PlanNotIncrementalizableSubType.
plan_not_deterministic_sub_type Kategoria szczegółowa, gdy typ problemu to PLAN_NOT_DETERMINISTIC. Aby uzyskać szczegółowe informacje, zobacz Obiekt PlanNotDeterministicSubType.
fingerprint_diff_before Różnica w porównaniu do wcześniejszego odcisku palca.
fingerprint_diff_current Różnica z bieżącego odcisku palca.
cost_model_rejection_subtype Kategoria szczegółowa, gdy typ problemu to INCREMENTAL_PLAN_REJECTED_BY_COST_MODEL. Aby uzyskać szczegółowe informacje, zobacz obiekt CostModelRejectionSubType.

IssueType, obiekt

Wyliczenie typów problemów, które mogą spowodować pełne odświeżenie.

Wartość Description
CDF_UNAVAILABLE Usługa CDF (zestawienie danych zmian) nie jest włączona w niektórych tabelach podstawowych. Pole table_information zawiera informacje o tym, która tabela nie ma włączonej usługi CDF. Użyj ALTER TABLE <table-name> SET TBLPROPERTIES ( 'delta.enableChangeDataFeed' = true), aby włączyć CDF dla tabeli podstawowej. Jeśli tabela źródłowa jest zmaterializowanym widokiem, CDF powinno być domyślnie ustawione na ON.
DELTA_PROTOCOL_CHANGED Pełne odświeżenie, ponieważ niektóre tabele podstawowe (szczegóły w polu table_information) miały zmianę protokołu Delta.
DATA_SCHEMA_CHANGED Pełne odświeżenie, ponieważ niektóre tabele podstawowe (szczegóły w polu table_information) miały zmianę schematu danych w kolumnach używanych przez definicję zmaterializowanego widoku. Nie ma znaczenia, czy kolumna, która nie jest używana przez widok zmaterializowany, została zmieniona lub dodana do tabeli bazowej.
PARTITION_SCHEMA_CHANGED Pełne odświeżanie, ponieważ niektóre tabele podstawowe (szczegóły w table_information polu) miały zmianę schematu partycji.
INPUT_NOT_IN_DELTA Pełne odświeżanie, ponieważ zmaterializowana definicja widoku obejmuje niektóre dane wejściowe inne niż delta.
DATA_FILE_MISSING Pełne odświeżanie, ponieważ niektóre pliki tabeli podstawowej są już opróżniane ze względu na ich okres przechowywania.
PLAN_NOT_DETERMINISTIC Pełne odświeżanie, ponieważ niektóre operatory lub wyrażenia w zmaterializowanej definicji widoku nie są deterministyczne. Pola operator_name i expression_name zawierają informacje o tym, który operator lub wyrażenie spowodował problem.
PLAN_NOT_INCREMENTALIZABLE Pełne odświeżanie, ponieważ niektóre operatory lub wyrażenia w zmaterializowanej definicji widoku nie są zwiększalne.
SERIALIZATION_VERSION_CHANGED Proszę wykonać pełne odświeżenie, ponieważ znacząco zmieniła się logika identyfikacji zapytań.
QUERY_FINGERPRINT_CHANGED Pełne odświeżanie, ponieważ definicja widoku zmaterializowanego została zmieniona lub wydania Lakeflow Spark Deklaratywne Pipelines doprowadziły do zmiany planów oceny zapytań.
CONFIGURATION_CHANGED Pełne odświeżanie, ponieważ zmieniono konfiguracje kluczy (na przykład spark.sql.ansi.enabled), które mogą mieć wpływ na ocenę zapytania. Pełna ponowna kompilacja jest wymagana, aby uniknąć niespójnych stanów w zmaterializowanym widoku.
CHANGE_SET_MISSING Pełne odświeżanie, ponieważ jest to pierwsze obliczenie zmaterializowanego widoku. Jest to oczekiwane zachowanie w przypadku początkowego obliczenia zmaterializowanego widoku.
EXPECTATIONS_NOT_SUPPORTED Pełne odświeżanie, ponieważ zmaterializowana definicja widoku zawiera oczekiwania, które nie są obsługiwane w przypadku aktualizacji przyrostowych. Usuń oczekiwania lub obsłuż je poza definicją widoku zmaterializowanego, jeśli wymagane jest przyrostowe wsparcie.
TOO_MANY_FILE_ACTIONS Pełne odświeżanie, ponieważ liczba akcji pliku przekroczyła próg przetwarzania przyrostowego. Rozważ zmniejszenie współczynnika zmian plików w tabelach podstawowych lub zwiększenie progów.
INCREMENTAL_PLAN_REJECTED_BY_COST_MODEL Pełne odświeżanie, ponieważ model kosztów ustalił, że pełne odświeżanie jest bardziej wydajne niż konserwacja przyrostowa. Przejrzyj zachowanie modelu kosztów lub złożoność planu zapytania, aby zezwolić na aktualizacje przyrostowe.
ROW_TRACKING_NOT_ENABLED Pełne odświeżanie, ponieważ śledzenie wierszy nie jest włączone w co najmniej jednej tabeli podstawowej. Włącz śledzenie wierszy przy użyciu polecenia ALTER TABLE <table-name> SET TBLPROPERTIES ('delta.enableRowTracking' = true).
TOO_MANY_PARTITIONS_CHANGED Odśwież w pełni, ponieważ zbyt wiele partycji zmieniło się w tabelach podstawowych. Spróbuj ograniczyć liczbę zmian partycji, aby pozostać w granicach przetwarzania przyrostowego.
MAP_TYPE_NOT_SUPPORTED Pełne odświeżanie, ponieważ zmaterializowana definicja widoku zawiera typ mapy, który nie jest obsługiwany w przypadku aktualizacji przyrostowych. Rozważ restrukturyzację danych, aby uniknąć typów map w zmaterializowanym widoku.
TIME_ZONE_CHANGED Odśwież w pełni, ponieważ ustawienie sesji lub strefy czasowej systemu uległo zmianie.
DATA_HAS_CHANGED W pełni odświeżane, ponieważ dane istotne dla zmaterializowanego widoku zmieniły się w sposób uniemożliwiający przyrostowe aktualizacje. Oceń zmiany danych i strukturę definicji widoku, aby zapewnić zgodność z logiką przyrostową.
PRIOR_TIMESTAMP_MISSING Pełne odświeżanie, ponieważ brakuje znacznika czasu ostatniego pomyślnego uruchomienia. Może się to zdarzyć po utracie metadanych lub interwencji ręcznej.

MaintenanceType, obiekt

Wyliczenie typów konserwacji, które można wybrać podczas zdarzenia planning_information. Jeśli typ nie jest MAINTENANCE_TYPE_COMPLETE_RECOMPUTE ani MAINTENANCE_TYPE_NO_OP, to jest odświeżaniem przyrostowym.

Wartość Description
MAINTENANCE_TYPE_COMPLETE_RECOMPUTE Pełna ponowna kompilacja; zawsze wyświetlane.
MAINTENANCE_TYPE_NO_OP Gdy tabele podstawowe nie zmieniają się.
MAINTENANCE_TYPE_PARTITION_OVERWRITE Przyrostowo odświeżaj odpowiednie partycje, gdy zmaterializowany widok jest współpartyjonowany z jedną z tabel źródłowych.
MAINTENANCE_TYPE_ROW_BASED Odświeżanie przyrostowe przez tworzenie modułowych zestawów zmian dla różnych operacji, takich jak JOIN, FILTER, i UNION ALL,, oraz komponowanie ich w celu obliczenia złożonych zapytań. Używane, gdy śledzenie wierszy dla tabel źródłowych jest włączone i istnieje ograniczona liczba sprzężeń w zapytaniu.
MAINTENANCE_TYPE_APPEND_ONLY Odświeżanie przyrostowe przez obliczanie tylko nowych wierszy, ponieważ w tabelach źródłowych nie było żadnych operacji wstawiania lub aktualizacji ani usuwania.
MAINTENANCE_TYPE_GROUP_AGGREGATE Stopniowe odświeżanie poprzez obliczanie zmian dla każdej wartości zbiorczej. Używane, gdy agregacje asocjacyjne, takie jak count, sum, meani stddev, znajdują się na najwyższym poziomie zapytania.
MAINTENANCE_TYPE_GENERIC_AGGREGATE Odświeżanie przyrostowe przez obliczenie tylko grup agregacji, których dotyczy problem. Używane, gdy agregacje takie jak median (nie tylko asocjacyjne) znajdują się na najwyższym poziomie zapytania.
MAINTENANCE_TYPE_WINDOW_FUNCTION Zapytania przyrostowego odświeżania z użyciem funkcji okna takich jak PARTITION BY, poprzez przeliczenie tylko zmienionych partycji. Używane, gdy wszystkie funkcje okna mają klauzulę PARTITION BY lub JOIN i znajdują się na najwyższym poziomie zapytania.

Obiekt źródła

Gdzie pochodzi zdarzenie.

(No changes needed) Description
cloud Dostawca usług w chmurze. Możliwe wartości to:
  • AWS
  • Azure
  • GCP
region Region chmury.
org_id Identyfikator organizacji lub identyfikator obszaru roboczego użytkownika. Unikalne w chmurze. Przydatne do identyfikowania obszaru roboczego lub łączenia z innymi tabelami, takimi jak tabele rozliczeniowe systemu.
pipeline_id Identyfikator potoku. Unikatowy identyfikator potoku. Przydatne do identyfikowania pipeline'u lub dołączania do innych tabel, takich jak systemowe tabele rozliczeniowe.
pipeline_type Typ potoku do pokazania, gdzie został utworzony potok. Możliwe wartości to:
  • DBSQL: potok utworzony za pośrednictwem usługi Databricks SQL.
  • WORKSPACE: potok ETL utworzony za pomocą Lakeflow Spark Declarative Pipelines.
  • MANAGED_INGESTION: Potok pozyskiwania zarządzanego przez program Lakeflow Connect.
  • BRICKSTORE: potok służący do aktualizowania tabeli online na potrzeby obsługi funkcji w czasie rzeczywistym.
  • BRICKINDEX: potok aktualizowania wektorowej bazy danych. Aby uzyskać więcej informacji, zobacz wyszukiwanie wektorów.
pipeline_name Nazwa potoku.
cluster_id Identyfikator klastra, w którym odbywa się wykonywanie. Unikatowy na skalę światową.
update_id Identyfikator pojedynczego wykonania potoku. Jest to odpowiednik identyfikatora uruchomienia.
table_name Nazwa tabeli Delta, do której są zapisywane dane.
dataset_name W pełni kwalifikowana nazwa zestawu danych.
sink_name Nazwa odbiornika.
flow_id Identyfikator przepływu. Śledzi stan przepływu używanego w wielu aktualizacjach. Tak długo, jak parametr flow_id pozostaje taki sam, przepływ jest odświeżany przyrostowo. flow_id zmienia się, gdy zmaterializowany widok jest w pełni odświeżany, punkt kontrolny jest resetowany lub zachodzi pełne przeliczenie w obrębie zmaterializowanego widoku.
flow_name Nazwa przepływu.
batch_id Identyfikator mikrobajtu. Unikatowe w przepływie.
request_id Identyfikator żądania, które spowodowało aktualizację.

PlanNotDeterministicSubType, obiekt

Wyliczenie przypadków niedeterministycznych dla planning_information zdarzenia.

Wartość Description
STREAMING_SOURCE Pełne odświeżanie, ponieważ zmaterializowana definicja widoku zawiera źródło przesyłania strumieniowego, które nie jest obsługiwane.
USER_DEFINED_FUNCTION Pełne odświeżanie, ponieważ zmaterializowany widok zawiera nieobsługiwaną funkcję zdefiniowaną przez użytkownika. Obsługiwane są tylko deterministyczne funkcje zdefiniowane przez użytkownika w Pythonie. Inne funkcje zdefiniowane przez użytkownika mogą uniemożliwiać aktualizacje przyrostowe.
TIME_FUNCTION Pełne odświeżanie, ponieważ zmaterializowany widok zawiera funkcję opartą na czasie, taką jak CURRENT_DATE lub CURRENT_TIMESTAMP. Właściwość expression_name zawiera nazwę nieobsługiwanej funkcji.
NON_DETERMINISTIC_EXPRESSION Pełne odświeżanie, ponieważ zapytanie zawiera wyrażenie niedeterministyczne, takie jak RANDOM(). Właściwość expression_name wskazuje funkcję niedeterministyczną, która uniemożliwia konserwację przyrostową.

PlanNotIncrementalizableSubType, obiekt

Wyliczenie przyczyn, dla których plan aktualizacji może nie być przyrostowy.

Wartość Description
OPERATOR_NOT_SUPPORTED Pełne odświeżanie, ponieważ plan zapytania zawiera nieobsługiwany operator. Właściwość operator_name zawiera nazwę nieobsługiwanego operatora.
AGGREGATE_NOT_TOP_NODE Pełne odświeżanie, ponieważ operator agregacji (GROUP BY) nie znajduje się na najwyższym poziomie planu zapytania. Konserwacja przyrostowa obsługuje agregacje tylko na najwyższym poziomie. Rozważ zdefiniowanie dwóch zmaterializowanych widoków w celu oddzielenia agregacji.
AGGREGATE_WITH_DISTINCT Pełne odświeżanie, ponieważ agregacja zawiera klauzulę DISTINCT , która nie jest obsługiwana w przypadku aktualizacji przyrostowych.
AGGREGATE_WITH_UNSUPPORTED_EXPRESSION Pełne odświeżanie, ponieważ agregacja zawiera nieobsługiwane wyrażenia. Właściwość expression_name wskazuje problematyczne wyrażenie.
SUBQUERY_EXPRESSION Pełne odświeżanie, ponieważ zmaterializowana definicja widoku zawiera wyrażenie podrzędne, które nie jest obsługiwane.
WINDOW_FUNCTION_NOT_TOP_LEVEL Całkowicie odśwież, ponieważ funkcja okna nie znajduje się na najwyższym poziomie planu zapytania.
WINDOW_FUNCTION_WITHOUT_PARTITION_BY W pełni odśwież, ponieważ funkcja okna jest definiowana bez klauzuli PARTITION BY .

TableInformation, obiekt

Przedstawia szczegóły tabeli uwzględnianej podczas zdarzenia planning_information.

(No changes needed) Description
table_name Nazwa tabeli używana w zapytaniu z Unity Catalog lub magazynu metadanych Hive. Może nie być dostępny w przypadku dostępu opartego na ścieżkach.
table_id To jest wymagane. Identyfikator tabeli z Delta log.
catalog_table_type Typ tabeli określony w wykazie.
partition_columns Partycjonowanie kolumn tabeli.
table_change_type Zmień typ w tabeli. Jeden z: TABLE_CHANGE_TYPE_UNKNOWN, TABLE_CHANGE_TYPE_APPEND_ONLY, TABLE_CHANGE_TYPE_GENERAL_CHANGE.
full_size Pełny rozmiar tabeli w liczbie bajtów.
change_size Rozmiar zmienionych wierszy w zmienionych plikach. Jest obliczany przy użyciu polecenia change_file_read_size * num_changed_rows / num_rows_in_changed_files.
num_changed_partitions Liczba zmienionych partycji.
is_size_after_pruning Czy full_size i change_size reprezentują dane po oczyszczeniu pliku statycznego?
is_row_id_enabled Określa, czy identyfikator wiersza jest włączony w tabeli.
is_cdf_enabled Czy w tabeli jest włączona funkcja CDF?
is_deletion_vector_enabled Określa, czy wektor usuwania jest włączony w tabeli.
is_change_from_legacy_cdf Niezależnie od tego, czy zmiana tabeli wynika z legacy CDF, czy z CDF opartego na identyfikatorze wiersza.

Obiekt TaskSlotMetrics

Metryki slotów zadań dla klastra. Dotyczy tylko aktualizacji potoków działających na klasycznych zasobach obliczeniowych.

(No changes needed) Description
summary_duration_ms Czas trwania w milisekundach, dla których są obliczane zagregowane metryki (na przykład avg_num_task_slots).
num_task_slots Liczba slotów zadań Spark w momencie raportowania.
avg_num_task_slots Średnia liczba slotów zadań platformy Spark w okresie podsumowania.
avg_task_slot_utilization Średnie wykorzystanie miejsca zadania (liczba aktywnych zadań podzielonych przez liczbę miejsc zadań) w okresie podsumowania.
num_executors Liczba funkcji wykonawczych platformy Spark w momencie raportowania.
avg_num_queued_tasks Średni rozmiar kolejki zadań (łączna liczba zadań pomniejszona o liczbę aktywnych zadań) w czasie trwania podsumowania.

Obiekt TechniqueInformation

Odśwież informacje o metodologii planowania.

(No changes needed) Description
maintenance_type Typ konserwacji związany z tym elementem informacji.
Jeśli typ nie jest MAINTENANCE_TYPE_COMPLETE_RECOMPUTE lub MAINTENANCE_TYPE_NO_OP, przepływ jest odświeżany przyrostowo.
Aby uzyskać szczegółowe informacje, zobacz Obiekt MaintenanceType.
is_chosen Wartość true dla techniki wybranej na potrzeby odświeżania.
is_applicable Określa, czy typ konserwacji ma zastosowanie.
incrementalization_issues Problemy z przyrostową aktualizacją, które mogą spowodować pełne odświeżenie systemu. Szczegóły znajdziesz w IncrementalizationIssue object.
change_set_information Informacje o finalnym utworzonym zestawie zmian. Wartości są jedną z następujących:
  • CHANGE_SET_TYPE_APPEND_ONLY
  • CHANGE_SET_TYPE_GENERAL_ROW_CHANGE