Delen via


Schema van gebeurtenislogboek van pijplijn

Het gebeurtenislogboek van de pijplijn bevat alle informatie met betrekking tot een pijplijn, waaronder auditlogboeken, controles van gegevenskwaliteit, voortgang van pijplijnen en gegevensherkomst.

In de volgende tabellen wordt het gebeurtenislogboekschema beschreven. Sommige van deze velden bevatten JSON-gegevens waarvoor parsering is vereist om bepaalde query's uit te voeren, zoals het details veld. Azure Databricks ondersteunt de :-operator om JSON-velden te parseren. Zie : (dubbelepuntteken) operator.

Opmerking

Sommige velden in het gebeurtenislogboek zijn voor intern gebruik door Azure Databricks. In de volgende documentatie worden de velden beschreven die zijn bedoeld voor klantverbruik.

Zie Het gebeurtenislogboek Pijplijn voor meer informatie over het gebruik van het gebeurtenislogboek van de pijplijn.

PipelineEventobject

Vertegenwoordigt één pijplijngebeurtenis in het gebeurtenislogboek.

Veld Description
id Een unieke id voor de gebeurtenislogboekrecord.
sequence Een JSON-tekenreeks met metagegevens voor het identificeren en orden van gebeurtenissen.
origin Een JSON-tekenreeks met metagegevens voor de oorsprong van de gebeurtenis, bijvoorbeeld de cloudprovider, de regio van de cloudprovider, de gebruiker en de pijplijngegevens. Zie Origin-object.
timestamp De tijd waarop de gebeurtenis is vastgelegd, in UTC.
message Een door mensen leesbaar bericht waarin de gebeurtenis wordt beschreven.
level Het waarschuwingsniveau. Mogelijke waarden zijn:
  • INFO: Informatieve gebeurtenissen
  • WARN: Onverwachte, maar niet-kritieke problemen
  • ERROR: Gebeurtenisfout die mogelijk aandacht van de gebruiker nodig heeft
  • METRICS: Wordt gebruikt voor gebeurtenissen met een hoog volume die alleen zijn opgeslagen in de Delta-tabel en niet worden weergegeven in de gebruikersinterface van pijplijnen.
maturity_level De stabiliteit van het gebeurtenisschema. Mogelijke waarden zijn:
  • STABLE: het schema is stabiel en verandert niet.
  • NULL: het schema is stabiel en verandert niet. De waarde kan zijn NULL als de record is gemaakt voordat het maturity_level veld werd toegevoegd (release 2022.37).
  • EVOLVING: Het schema is niet stabiel en kan veranderen.
  • DEPRECATED: Het schema is afgeschaft en de declaratieve pijplijnruntime van Lakeflow Spark kan op elk gewenst moment stoppen met het produceren van deze gebeurtenis.

Het wordt niet aanbevolen om bewaking of waarschuwingen te bouwen gebaseerd op EVOLVING of DEPRECATED velden.
error Als er een fout is opgetreden, worden de details beschreven die de fout beschrijven.
details Een JSON-tekenreeks met gestructureerde details van de gebeurtenis. Dit is het primaire veld dat wordt gebruikt voor het analyseren van gebeurtenissen. De JSON-tekenreeksindeling is afhankelijk van de event_type. Zie het detailobject voor meer informatie.
event_type Het gebeurtenistype. Zie het detailobject voor een lijst met gebeurtenistypen en het objecttype details dat ze maken.

Het detailobject

Elke gebeurtenis heeft verschillende details eigenschappen in het JSON-object, op basis van de event_type gebeurtenis. In deze tabel worden de event_type en de bijbehorende details vermeld. De details eigenschappen worden beschreven in de sectie Detailstypen .

Detailstype op event_type Description
create_update Legt de volledige configuratie vast die wordt gebruikt om een pijplijnupdate te starten. Bevat een configuratieset van Databricks. Zie Details voor create_update voor meer informatie.
user_action Bevat details over elke gebruikersactie in de pijplijn (inclusief het maken van een pijplijn en het starten of annuleren van een update). Zie Details voor het user_action-gebeurtenis voor meer informatie.
flow_progress Beschrijft de levenscyclus van een proces, beginnend bij starten en uitvoeren, totdat het voltooid of mislukt is. Voor meer informatie, zie details over het flow_progress event.
update_progress Beschrijft de levenscyclus van een pijplijnupdate van het starten, uitvoeren, tot voltooid of mislukt. Zie voor details Details van de update_progress-evenement.
flow_definition Definieert het schema en het queryplan voor transformaties die in een bepaalde stroom plaatsvinden. Kan worden beschouwd als de randen van de Dataflow-DAG. Het kan worden gebruikt om de herkomst voor elke stroom te berekenen en om het uitgelegde queryplan te bekijken. Zie voor meer informatie Details voor flow_definition gebeurtenis.
dataset_definition Hiermee definieert u een gegevensset, die de bron of het doel voor een bepaalde stroom is. Zie voor meer informatie Details voor dataset_definition gebeurtenis.
sink_definition Definieert een bepaalde sink. Zie voor meer informatie Details voor gebeurtenis sink_definition.
deprecation Hier vindt u een lijst met functies die binnenkort of momenteel verouderd zijn en door deze pijplijn worden gebruikt. Zie Details enum voor deprecatie-evenement voor voorbeelden van de waarden.
cluster_resources Bevat informatie over clusterresources voor pijplijnen die worden uitgevoerd op klassieke berekeningen. Deze metrische gegevens worden alleen ingevuld voor klassieke rekenpijplijnen. Zie voor meer informatie Details van de cluster_resources-gebeurtenis.
autoscale Bevat informatie over autoschaling voor pijplijnen die worden uitgevoerd op klassieke rekenkracht. Deze metrische gegevens worden alleen ingevuld voor klassieke rekenpijplijnen. Zie Details voor gebeurtenis voor automatisch schalen voor meer informatie.
planning_information Vertegenwoordigt planningsinformatie met betrekking tot gematerialiseerde weergave incrementele vs. volledige vernieuwing. Kan worden gebruikt om meer informatie te krijgen over waarom een gerealiseerde weergave volledig opnieuw wordt gecomputeerd. Zie Details van de planning_informatie-gebeurtenis voor meer informatie.
hook_progress Een gebeurtenis om de huidige status van een gebruikershook aan te geven tijdens de pijplijnuitvoering. Wordt gebruikt voor het bewaken van de status van gebeurtenishooks, bijvoorbeeld om te verzenden naar externe observatieproducten. Zie voor meer informatie Details van de hook_progress gebeurtenis.
operation_progress Bevat informatie over de voortgang van een bewerking. Zie voor meer informatie Details voor de operation_progress-gebeurtenis.
stream_progress Bevat informatie over de voortgang van een pijplijn. Zie Details voor het stream_progress-evenement voor meer informatie.

Detailstypen

De volgende objecten vertegenwoordigen het details van een ander gebeurtenistype in het PipelineEvent object.

Details voor create_update

De details voor het create_update evenement.

Veld Description
dbr_version De versie van Databricks Runtime.
run_as De gebruikers-id ten behoeve waarvan de update wordt uitgevoerd. Dit is doorgaans de eigenaar van de pijplijn of een service-principal.
cause De reden voor de update. Ofwel JOB_TASK als het wordt uitgevoerd vanuit een taak, of USER_ACTION wanneer het interactief wordt uitgevoerd door een gebruiker.

Gegevens voor gebruikersactie gebeurtenis

De details voor het user_action evenement. Bevat de volgende velden:

Veld Description
user_name De naam van de gebruiker die een pijplijnupdate heeft geactiveerd.
user_id De id van de gebruiker die een pijplijnupdate heeft geactiveerd. Dit is niet altijd hetzelfde als de run_as gebruiker, die een service-principal of een andere gebruiker kan zijn.
action De actie die de gebruiker heeft ondernomen, inclusief START en CREATE.

Details voor flow_progress gebeurtenis

De details voor een flow_progress gebeurtenis.

Veld Description
status De nieuwe status van de stroom. Dit kan een van de volgende zijn:
  • QUEUED
  • STARTING
  • RUNNING
  • COMPLETED
  • FAILED
  • SKIPPED
  • STOPPED
  • IDLE
  • EXCLUDED
metrics Metrische gegevens over de stroom. Zie FlowMetrics voor meer informatie.
data_quality Kwaliteitsstatistieken van de datastroom en de bijbehorende verwachtingen. Zie DataQualityMetrics voor meer informatie.

Details voor "update_progress" gebeurtenis

De details voor een update_progress gebeurtenis.

Veld Description
state De nieuwe status van de update. Dit kan een van de volgende zijn:
  • QUEUED
  • CREATED
  • WAITING_FOR_RESOURCES
  • INITIALIZING
  • RESETTING
  • SETTING_UP_TABLES
  • RUNNING
  • STOPPING
  • COMPLETED
  • FAILED
  • CANCELED

Handig voor het berekenen van de duur van verschillende fasen van een pijplijnupdate, bijvoorbeeld van de totale duur tot aan de tijd besteed aan het wachten op middelen.
cancellation_cause De reden waarom een update de CANCELED status heeft ingevoerd. Bevat redenen zoals USER_ACTION of WORKFLOW_CANCELLATION (de werkstroom die de update heeft geactiveerd, is geannuleerd).

Details voor flow_definition gebeurtenis

De details voor een flow_definition gebeurtenis.

Veld Description
input_datasets De invoer die door deze stroom wordt gelezen.
output_dataset De uitvoergegevensset waar deze flow naar schrijft.
output_sink De uitvoersink waar deze stroom naar schrijft.
explain_text Het uitgewerkte query-plan.
schema_json Spark SQL JSON-schematekenreeks.
schema Schema van deze stroom.
flow_type Het type van stroom. Dit kan een van de volgende zijn:
  • COMPLETE: Streamingtabel schrijft naar de bestemming in de volledige modus (streaming).
  • CHANGE: Streamingtabel met behulp van APPLY_CHANGES_INTO.
  • SNAPSHOT_CHANGE: Streamingtabel met behulp van APPLY CHANGES INTO ... FROM SNAPSHOT ....
  • APPEND: De streamingtabel schrijft naar de bestemming in de toevoeg- (streaming) modus.
  • MATERIALIZED_VIEW: Uitvoer naar een gematerialiseerde weergave.
  • VIEW: Uitvoer naar een weergave.
comment Opmerking of beschrijving van de gebruiker over de gegevensset.
spark_conf Spark-configuraties zijn ingesteld voor deze verwerkingsstroom.
language De taal die wordt gebruikt om deze workflow te maken. De waarde kan SCALA, PYTHONof SQL zijn.
once Of deze stroom is gedeclareerd om eenmaal te worden uitgevoerd.

Details voor dataset_definition gebeurtenis

De details voor een dataset_definition gebeurtenis. Bevat de volgende velden:

Veld Description
dataset_type Maakt onderscheid tussen gerealiseerde weergaven en streaming-tabellen.
num_flows Het aantal stromen dat naar de dataset wordt geschreven.
expectations De verwachtingen die zijn gekoppeld aan de gegevensset.

Details voor sink_definition gebeurtenis

De details voor een sink_definition gebeurtenis.

Veld Description
format De indeling van de sink.
options De sleutelwaardeopties die aan de sink zijn gekoppeld.

Details enum voor verouderingsgebeurtenis

De deprecation gebeurtenis heeft een message veld. De mogelijke waarden voor de message zijn als volgt. Dit is een gedeeltelijke lijst die na verloop van tijd groeit.

Veld Description
TABLE_MANAGED_BY_MULTIPLE_PIPELINES Een tabel wordt beheerd door meerdere pijplijnen.
INVALID_CLUSTER_LABELS Clusterlabels gebruiken die niet worden ondersteund.
PINNED_DBR_VERSION Gebruiken dbr_version in plaats van channel in pijplijninstellingen.
PREVIOUS_CHANNEL_USED Het releasekanaal PREVIOUSgebruiken, wat in een toekomstige release kan verdwijnen.
LONG_DATASET_NAME Een gegevenssetnaam gebruiken die langer is dan de ondersteunde lengte.
LONG_SINK_NAME Een sinknaam gebruiken die langer is dan de ondersteunde lengte.
LONG_FLOW_NAME Een stroomnaam gebruiken die langer is dan de ondersteunde lengte.
ENHANCED_AUTOSCALING_POLICY_COMPLIANCE Clusterbeleid voldoet alleen wanneer verbeterde automatische schaalaanpassing een vaste clustergrootte gebruikt.
DATA_SAMPLE_CONFIGURATION_KEY Het gebruik van de configuratiesleutel voor het configureren van gegevenssampling is afgeschaft.
INCOMPATIBLE_CLUSTER_SETTINGS Huidige clusterinstellingen of clusterbeleid zijn niet langer compatibel met declaratieve Pijplijnen van Lakeflow Spark.
STREAMING_READER_OPTIONS_DROPPED Streaminglezeropties gebruiken die worden verwijderd.
DISALLOWED_SERVERLESS_STATIC_SPARK_CONFIG Het instellen van statische Spark-configuraties via pijplijnconfiguratie voor serverloze pijplijnen is niet toegestaan.
INVALID_SERVERLESS_PIPELINE_CONFIG Serverloze klant biedt een ongeldige pijplijnconfiguratie.
UNUSED_EXPLICIT_PATH_ON_UC_MANAGED_TABLE Ongebruikte expliciete tabelpaden opgeven voor door UC beheerde tabellen.
FOREACH_BATCH_FUNCTION_NOT_SERIALIZABLE De opgegeven foreachBatch-functie is niet serialiseerbaar.
DROP_PARTITION_COLS_NO_PARTITIONING Het verwijderen van het kenmerk partition_cols resulteert in geen partitionering.
PYTHON_CREATE_TABLE Gebruiken @dlt.create\_table in plaats van @dp.table of @dp.materialized\_view.
PYTHON_CREATE_VIEW Gebruiken @dlt.create\_view in plaats van @dp.temporary\_view.
PYTHON_CREATE_STREAMING_LIVE_TABLE Gebruiken create_streaming_live_table in plaats van create_streaming_table.
PYTHON_CREATE_TARGET_TABLE Gebruiken create_target_table in plaats van create_streaming_table.
FOREIGN_KEY_TABLE_CONSTRAINT_CYCLE Een set tabellen die door een pijplijn wordt beheerd, heeft een cyclus in de set met beperkingen voor externe sleutels.
PARTIALLY_QUALIFIED_TABLE_REFERENCE_INCOMPATIBLE_WITH_DEFAULT_PUBLISHING_MODE Een gedeeltelijk gekwalificeerde tabelreferentie met verschillende betekenissen in de standaardpublicatiemodus en de verouderde publicatiemodus.

Details voor cluster_resources evenement

De details voor een cluster_resources gebeurtenis. Alleen van toepassing op pipelines die worden uitgevoerd op een klassieke compute-omgeving.

Veld Description
task_slot_metrics De taakslotmetriek van het cluster. Zie TaskSlotMetrics-object voor meer informatie
autoscale_info De status van automatische schaalaanpassingen. Zie Het object AutoscaleInfo voor meer informatie

Details voor gebeurtenis voor automatisch schalen

De details voor een autoscale gebeurtenis. Gebeurtenissen voor automatisch schalen zijn alleen van toepassing wanneer de pijplijn gebruikmaakt van klassieke berekeningen.

Veld Description
status Status van deze gebeurtenis. Dit kan een van de volgende zijn:
  • SUCCEEDED
  • RESIZING
  • FAILED
  • PARTIALLY_SUCCEEDED
optimal_num_executors Het optimale aantal uitvoerders dat door het algoritme wordt voorgesteld voordat de grenzen min_workers en max_workers worden toegepast.
requested_num_executors Het aantal uitvoerders na het beperken van het optimale aantal uitvoerders dat door het algoritme is aangepast aan de grenzen van min_workers en max_workers.

Details voor planning_information gebeurtenis

De details voor een planning_information gebeurtenis. Handig voor het weergeven van details met betrekking tot het gekozen vernieuwingstype voor een bepaalde stroom tijdens een update. Kan worden gebruikt om te achterhalen waarom een update volledig wordt vernieuwd in plaats van incrementeel worden vernieuwd. Zie Incrementeel vernieuwen voor gerealiseerde weergaven voor meer informatie over incrementele vernieuwingen

Veld Description
technique_information Informatie over vernieuwen. Het bevat zowel informatie over de gekozen vernieuwingsmethodologie als de mogelijke vernieuwingsmethoden die werden overwogen. Handig voor het opsporen van fouten waarom een gematerialiseerde weergave niet incrementeel kan worden bijgewerkt. Zie TechniqueInformation voor meer informatie.
source_table_information Brontabelgegevens. Dit kan handig zijn voor de foutopsporing van de reden waarom een gematerialiseerde weergave niet kon worden geïncrementaliseerd. Zie TableInformation-object voor meer informatie.
target_table_information Doeltabelgegevens. Zie TableInformation-object voor meer informatie.

Details voor hook_progress evenement

De details van een hook_progress gebeurtenis. Bevat de volgende velden:

Veld Description
name De naam van de user hook.
status De status van de gebruikerskoppeling.

Details voor het operation_progress evenement

De details van een operation_progress gebeurtenis. Bevat de volgende velden:

Veld Description
type Het type bewerking dat wordt bijgehouden. Een van de volgende:
  • AUTO_LOADER_LISTING
  • AUTO_LOADER_BACKFILL
  • CONNECTOR_FETCH
  • CDC_SNAPSHOT
status De status van de operatie. Een van de volgende:
  • STARTED
  • COMPLETED
  • CANCELED
  • FAILED
  • IN_PROGRESS
duration_ms De totale verstreken tijd van de bewerking in milliseconden. Alleen opgenomen in de eindgebeurtenis (waarbij de status is COMPLETED, CANCELEDof FAILED).

Details voor stream_progress gebeurtenis

De details van een stream_progress gebeurtenis. Bevat het volgende veld:

Veld Description
stream_progress De details van de pijplijnstroom. Vergelijkbaar met de StreamingQueryListener metrische gegevens voor Structured Streaming.
De verschillen worden beschreven in de volgende alinea's. Zie StreamingQueryListener voor volledige documentatie over metrische gegevens.

Verschillen tussen metrische gegevens van stream_progress objecten StreamingQueryListener :

  • De volgende metrische gegevens zijn aanwezig in StreamingQueryListener, maar niet in stream_progress: numInputRows, inputRowsPerSeconden processedRowsPerSecond.
  • Voor Kafka- en Kineses-stromen kunnen de startOffset, endOffseten latestOffset velden te groot zijn en afgekapt zijn. Voor elk van deze velden wordt een extra ...Truncated veld, startOffsetTruncated, endOffsetTruncateden latestOffsetTruncated, toegevoegd met een Booleaanse waarde om te bepalen of de gegevens worden afgekapt.

Andere objecten

De volgende objecten vertegenwoordigen aanvullende gegevens of opsommingen binnen de gebeurtenisobjecten.

AutoscaleInfo-object

De metrische gegevens voor automatisch schalen voor een cluster. Alleen van toepassing op pipelines die worden uitgevoerd op een klassieke compute-omgeving.

Veld Description
state De status van Autoscaling. Dit kan een van de volgende zijn:
  • SUCCEEDED
  • RESIZING
  • FAILED
  • PARTIALLY_SUCCEEDED
optimal_num_executors Het optimale aantal uitvoerders. Dit is de optimale grootte die door het algoritme wordt voorgesteld voordat deze wordt afgekapt door de door de gebruiker opgegeven min/max aantal uitvoerders.
latest_requested_num_executors Het aantal uitvoerders dat is aangevraagd bij de clusterbeheerder door de statusbeheerder in de meest recente aanvraag. Dit is het aantal uitvoerders waarmee de statusbeheerder probeert te schalen en wordt bijgewerkt wanneer de statusbeheerder de schaalstatus probeert af te sluiten in het geval van time-outs. Dit veld wordt niet ingevuld als er geen aanvraag in behandeling is.
request_pending_seconds De tijdsduur waarop de schaalaanvraag in behandeling is. Dit wordt niet ingevuld als er geen aanvraag in behandeling is.

CostModelRejectionSubType-object

Een opsomming van de redenen waarom incrementalisatie wordt geweigerd, op basis van de kosten van volledig vernieuwen versus incrementeel vernieuwen in een planning_information gebeurtenis.

Waarde Description
NUM_JOINS_THRESHOLD_EXCEEDED Volledig vernieuwen omdat de query te veel joins bevat.
CHANGESET_SIZE_THRESHOLD_EXCEEDED Volledig vernieuwen omdat er te veel rijen in de basistabellen zijn gewijzigd.
TABLE_SIZE_THRESHOLD_EXCEEDED Volledig vernieuwen omdat de grootte van de basistabel de drempelwaarde heeft overschreden.
EXCESSIVE_OPERATOR_NESTING Volledig vernieuwen omdat de querydefinitie complex is en veel niveaus van geneste operators bevat.
COST_MODEL_REJECTION_SUB_TYPE_UNSPECIFIED Volledig vernieuwen om welke andere reden dan ook.

DataQualityMetrics-object

Metrische gegevens over hoe wordt voldaan aan de verwachtingen binnen de stroom. Wordt gebruikt in de details van een flow_progress gebeurtenis.

Veld Description
dropped_records Het aantal records dat is verwijderd omdat er een of meer verwachtingen zijn mislukt.
expectations KPI's voor verwachtingen die zijn toegevoegd aan een gegevensset in het queryplan van de flow. Wanneer er meerdere verwachtingen zijn, kan dit worden gebruikt om bij te houden welke verwachtingen zijn voldaan of mislukt. Zie het Object ExpectationMetrics voor meer informatie.

ExpectationMetrics-object

Metrische gegevens over verwachtingen, voor een specifieke verwachting.

Veld Description
name De naam van de verwachting.
dataset De naam van de gegevensset waaraan de verwachting is toegevoegd.
passed_records Het aantal records dat aan de verwachting voldoen.
failed_records Het aantal records dat niet aan de verwachtingen voldoet. Hiermee wordt bijgehouden of aan de verwachting is voldaan, maar niet wordt beschreven wat er met de records gebeurt (waarschuwen, mislukken of de records verwijderen).

FlowMetrics-object

Statistieken over het verkeer, inclusief zowel het totaal voor het verkeer als uitgesplitst per specifieke bron. Wordt gebruikt in de details van een flow_progress gebeurtenis.

Elke streamingbron ondersteunt alleen specifieke metrische stroomgegevens. In de volgende tabel ziet u de metrische gegevens die beschikbaar zijn voor ondersteunde streamingbronnen:

source achterstandsbytes achterstandsoverzicht wachttijd seconden achterstandsbestanden
Kafka
Kinesis
Delta
Automatische lader
Google Pub/Sub (een berichten- en gebeurtenissenservice van Google)
Veld Description
num_output_rows Het aantal uitvoerrijen dat is geschreven door een update van deze workflow.
backlog_bytes Totale achterstand aan bytes voor alle invoerbronnen in de gegevensstroom.
backlog_records Totaal aantal achterstallige records voor alle inputbronnen in de workflow.
backlog_files Totale achterstandsbestanden voor alle invoerbronnen in de stroom.
backlog_seconds Maximale wachttijd in seconden voor alle invoerbronnen in de gegevensstroom.
executor_time_ms Som van alle uitvoeringstijden van taken in milliseconden van deze stroom gedurende de rapportageperiode.
executor_cpu_time_ms Som van alle CPU-tijden voor taakuitvoering in milliseconden van deze stroom gedurende de rapportageperiode.
num_upserted_rows Het aantal uitvoerrijen dat in de gegevensset is ingevoegd of bijgewerkt door een update van deze flow.
num_deleted_rows Het aantal bestaande uitvoerrijen dat uit de gegevensset is verwijderd door een update van deze stroom.
num_output_bytes Het aantal uitvoerbytes dat is geschreven door een update van deze datastroom.
source_metrics Metrische gegevens voor elke invoerbron in de stroom. Handig voor het bewaken van de verwerkingsvoortgang van bronnen buiten de declaratieve pijplijnen van Lakeflow Spark (zoals Apache Kafka, Pulsar of Auto Loader). Bevat de velden:
  • source_name: De naam van de bron.
  • backlog_bytes: Achterstand als bytes voor deze bron.
  • backlog_records: Backloggegevens voor deze bron.
  • backlog_files: Achterstandsbestanden voor deze bron.
  • backlog_seconds: Achterstandstijd in seconden voor deze bron.

IncrementalizationIssue-object

Vertegenwoordigt problemen met incrementeel maken die een volledige vernieuwing kunnen veroorzaken bij het plannen van een update.

Veld Description
issue_type Een probleemtype dat kan voorkomen dat de gerealiseerde weergave incrementeel wordt. Zie Probleemtype voor meer informatie.
prevent_incrementalization Of dit probleem heeft voorkomen dat de incrementalisatie plaatsvindt.
table_information Tabelgegevens die zijn gekoppeld aan problemen zoals CDF_UNAVAILABLE, INPUT_NOT_IN_DELTA, DATA_FILE_MISSING.
operator_name Plangerelateerde informatie. Instellen voor kwesties wanneer het probleemtype de PLAN_NOT_DETERMINISTIC of PLAN_NOT_INCREMENTALIZABLE operator of expressie is die het niet-determinisme of de niet-incrementeerbaarheid veroorzaakt.
expression_name De expressienaam.
join_type Hulpinformatie wanneer de operator een join is. Een voorbeeld hiervan is JOIN_TYPE_LEFT_OUTER of JOIN_TYPE_INNER.
plan_not_incrementalizable_sub_type Gedetailleerde categorie wanneer het probleemtype is PLAN_NOT_INCREMENTALIZABLE. Zie het object PlanNotIncrementalizableSubType voor meer informatie.
plan_not_deterministic_sub_type Gedetailleerde categorie wanneer het probleemtype is PLAN_NOT_DETERMINISTIC. Zie PlanNotDeterministicSubType object voor meer informatie.
fingerprint_diff_before Het verschil van de vingerafdruk van tevoren.
fingerprint_diff_current De verschillen van de huidige vingerafdruk.
cost_model_rejection_subtype Gedetailleerde categorie wanneer het probleemtype is INCREMENTAL_PLAN_REJECTED_BY_COST_MODEL. Zie het object CostModelRejectionSubType voor meer informatie.

IssueType-object

Een opsomming van probleemtypen die een volledige vernieuwing kunnen veroorzaken.

Waarde Description
CDF_UNAVAILABLE CDF (Change Data Feed) is niet ingeschakeld voor sommige basistabellen. Het table_information veld bevat informatie over de tabel waarvoor CDF niet is ingeschakeld. Gebruik ALTER TABLE <table-name> SET TBLPROPERTIES ( 'delta.enableChangeDataFeed' = true) dit om CDF in te schakelen voor de basistabel. Als de brontabel een gerealiseerde weergave is, moet CDF standaard worden ingesteld op ON .
DELTA_PROTOCOL_CHANGED Volledig vernieuwen omdat sommige basistabellen (details in het veld) een wijziging in het table_information Delta-protocol hadden.
DATA_SCHEMA_CHANGED Volledig vernieuwen omdat sommige basistabellen (details in het table_information veld) een gegevensschemawijziging hadden in de kolommen die door de gerealiseerde weergavedefinitie worden gebruikt. Niet relevant als een kolom die de gerealiseerde weergave niet gebruikt, is gewijzigd of toegevoegd aan de basistabel.
PARTITION_SCHEMA_CHANGED Volledig vernieuwen omdat sommige basistabellen (details in het table_information veld) een partitieschemawijziging hadden.
INPUT_NOT_IN_DELTA Volledig vernieuwen omdat de gerealiseerde weergavedefinitie enige niet-Delta-invoer omvat.
DATA_FILE_MISSING Volledig vernieuwen omdat sommige basistabelbestanden al zijn leeggezogen vanwege de bewaarperiode.
PLAN_NOT_DETERMINISTIC Volledig vernieuwen omdat sommige operators of expressies in de gerealiseerde weergavedefinitie niet deterministisch zijn. De operator_name velden en expression_name velden geven informatie over welke operator of expressie het probleem heeft veroorzaakt.
PLAN_NOT_INCREMENTALIZABLE Volledig vernieuwen omdat sommige operators of expressies in de gerealiseerde weergavedefinitie niet incrementeel kunnen worden uitgevoerd.
SERIALIZATION_VERSION_CHANGED Volledige vernieuwing vanwege een significante wijziging in de query fingerprinting logica.
QUERY_FINGERPRINT_CHANGED Volledig vernieuwen omdat de definitie van de gematerialiseerde weergave is gewijzigd, of omdat declaratieve pijplijnen van Lakeflow Spark een wijziging in de query-evaluatieplannen hebben veroorzaakt.
CONFIGURATION_CHANGED Volledig vernieuwen omdat sleutelconfiguraties (bijvoorbeeld spark.sql.ansi.enabled) die van invloed kunnen zijn op de evaluatie van query's zijn gewijzigd. Volledige recomputing is vereist om inconsistente statussen in de gerealiseerde weergave te voorkomen.
CHANGE_SET_MISSING Volledig vernieuwen omdat dit de eerste berekening is van de gerealiseerde weergave. Dit is het verwachte gedrag voor de aanvankelijke materialized view-berekening.
EXPECTATIONS_NOT_SUPPORTED Volledig vernieuwen omdat de gerealiseerde weergavedefinitie verwachtingen bevat, die niet worden ondersteund voor incrementele updates. Verwijder verwachtingen of verwerk ze buiten de gerealiseerde weergavedefinitie als incrementele ondersteuning nodig is.
TOO_MANY_FILE_ACTIONS Volledig vernieuwen omdat het aantal bestandsacties de drempelwaarde voor incrementele verwerking heeft overschreden. Overweeg het reduceren van veranderingen in bestanden in basistabellen of het verhogen van de drempelwaarden.
INCREMENTAL_PLAN_REJECTED_BY_COST_MODEL Volledig vernieuwen omdat het kostenmodel heeft vastgesteld dat een volledige vernieuwing efficiënter is dan incrementeel onderhoud. Bekijk het gedrag van het kostenmodel of de complexiteit van het queryplan om incrementele updates mogelijk te maken.
ROW_TRACKING_NOT_ENABLED Volledig vernieuwen omdat het bijhouden van rijen niet is ingeschakeld voor een of meer basistabellen. Rijvolgsysteem inschakelen met behulp van ALTER TABLE <table-name> SET TBLPROPERTIES ('delta.enableRowTracking' = true).
TOO_MANY_PARTITIONS_CHANGED Volledig vernieuwen omdat er te veel partities zijn gewijzigd in de basistabellen. Probeer het aantal partitiewijzigingen te beperken om binnen incrementele verwerkingslimieten te blijven.
MAP_TYPE_NOT_SUPPORTED Volledig vernieuwen omdat de gerealiseerde weergavedefinitie een kaarttype bevat, dat niet wordt ondersteund voor incrementele updates. Overweeg de gegevens te herstructureren om kaarttypen in de gerealiseerde weergave te voorkomen.
TIME_ZONE_CHANGED Volledig vernieuwen omdat de instelling voor de sessie of systeemtijdzone is gewijzigd.
DATA_HAS_CHANGED Volledig vernieuwen omdat de gegevens die relevant zijn voor de gerealiseerde weergave zijn gewijzigd op een manier die incrementele updates voorkomt. Evalueer de gegevenswijzigingen en structuur van de weergavedefinitie om compatibiliteit met incrementele logica te garanderen.
PRIOR_TIMESTAMP_MISSING Volledig vernieuwen omdat de tijdstempel van de laatste geslaagde uitvoering ontbreekt. Dit kan gebeuren na verlies van metagegevens of handmatige interventie.

MaintenanceType-object

Een opsomming van onderhoudstypen die tijdens een planning_information gebeurtenis kunnen worden gekozen. Als het type niet MAINTENANCE_TYPE_COMPLETE_RECOMPUTE is of MAINTENANCE_TYPE_NO_OP, is het type een incrementele vernieuwing.

Waarde Description
MAINTENANCE_TYPE_COMPLETE_RECOMPUTE Volledige hercomputing; altijd weergegeven.
MAINTENANCE_TYPE_NO_OP Wanneer basistabellen niet worden gewijzigd.
MAINTENANCE_TYPE_PARTITION_OVERWRITE Incrementeel verfrissen van betrokken partities wanneer de materialized view samen gepartitioneerd is met een van de brontabellen.
MAINTENANCE_TYPE_ROW_BASED Incrementeel vernieuwen door modulaire wijzigingensets te maken voor verschillende bewerkingen, zoals JOIN, FILTERen UNION ALL, ze op te stellen om complexe query's te berekenen. Gebruikt wanneer het bijhouden van rijen voor de brontabellen is ingeschakeld, en er een beperkt aantal joins voor de query is.
MAINTENANCE_TYPE_APPEND_ONLY Incrementeel bijwerken door alleen nieuwe rijen te berekenen omdat er geen updates, invoegingen of verwijderingen in de brontabellen zijn geweest.
MAINTENANCE_TYPE_GROUP_AGGREGATE Incrementeel vernieuwen door wijzigingen voor elke geaggregeerde waarde te berekenen. Wordt gebruikt bij associatieve aggregaties, zoals count, sum, meanen stddev, bevinden zich op het hoogste niveau van de query.
MAINTENANCE_TYPE_GENERIC_AGGREGATE Incrementeel vernieuwen door alleen de betrokken statistische groepen te berekenen. Wordt gebruikt wanneer aggregaties zoals median (niet alleen associatieve) zich op het hoogste niveau van de query bevinden.
MAINTENANCE_TYPE_WINDOW_FUNCTION Incrementieel vernieuwen van query's met vensterfuncties zoals PARTITION BY door alleen de gewijzigde partities opnieuw te berekenen. Wordt gebruikt wanneer alle vensterfuncties een PARTITION BY of JOIN component hebben en zich op het hoogste niveau van de query bevinden.

Oorsprongobject

Waar de gebeurtenis vandaan komt.

Veld Description
cloud De cloudprovider. Mogelijke waarden zijn:
  • AWS
  • Azuur
  • GCP
region De cloudregio.
org_id De organisatie-id of werkruimte-id van de gebruiker. Uniek binnen een cloud. Handig om de werkruimte te identificeren of samen te voegen met andere tabellen, zoals systeemfactureringstabellen.
pipeline_id De ID van de pijplijn. Een unieke id voor de pijplijn. Handig om de pijplijn te identificeren of om samen te voegen met andere tabellen, zoals systeemfactureringstabellen.
pipeline_type Het type pijplijn om weer te geven waar de pijplijn is gemaakt. Mogelijke waarden zijn:
  • DBSQL: Een pijplijn die is gemaakt via Databricks SQL.
  • WORKSPACE: Een ETL-pijplijn die is gemaakt via Lakeflow Spark-declaratieve pijplijnen.
  • MANAGED_INGESTION: Een beheerde opnamepijplijn van Lakeflow Connect.
  • BRICKSTORE: Een pijplijn om een online tabel bij te werken voor realtime feature serving.
  • BRICKINDEX: Een pijplijn voor het bijwerken van een vectordatabase. Zie vectorzoekopdrachten voor meer informatie.
pipeline_name De naam van de pijplijn.
cluster_id De id van het cluster waar een uitvoering plaatsvindt. Wereldwijd uniek.
update_id De ID van één uitvoering van de pijplijn. Dit komt overeen met de run-ID.
table_name De naam van de (Delta)-tabel waarnaar wordt geschreven.
dataset_name De volledig gekwalificeerde naam van een gegevensset.
sink_name De naam van een sink.
flow_id De id van de stroom. Hiermee wordt de status bijgehouden van de stroom die wordt gebruikt voor meerdere updates. Zolang de flow_id flow hetzelfde is, wordt de flow incrementeel ververst. De gematerialiseerde weergave flow_id verandert wanneer de gematerialiseerde weergave volledig wordt vernieuwd, het controlepunt reset of er een volledige hercomputatie plaatsvindt binnen de gematerialiseerde weergave.
flow_name De naam van de stroom.
batch_id De id van een microbatch. Uniek binnen een stroom.
request_id De id van de aanvraag die een update heeft veroorzaakt.

PlanNotDeterministicSubType-object

Een opsomming van niet-deterministische gevallen voor een planning_information gebeurtenis.

Waarde Description
STREAMING_SOURCE Volledig vernieuwen omdat de gerealiseerde weergavedefinitie een streamingbron bevat, die niet wordt ondersteund.
USER_DEFINED_FUNCTION Volledig vernieuwen omdat de gerealiseerde weergave een niet-ondersteunde door de gebruiker gedefinieerde functie bevat. Alleen deterministische Python UDF's worden ondersteund. Andere UDFs kunnen incrementele updates voorkomen.
TIME_FUNCTION Volledig vernieuwen omdat de gerealiseerde weergave een functie op basis van tijd bevat, zoals CURRENT_DATE of CURRENT_TIMESTAMP. De expression_name eigenschap bevat de naam van de niet-ondersteunde functie.
NON_DETERMINISTIC_EXPRESSION Volledig vernieuwen omdat de query een niet-deterministische expressie bevat, zoals RANDOM(). De expression_name eigenschap geeft de niet-deterministische functie aan die incrementeel onderhoud voorkomt.

PlanNotIncrementalizableSubType-object

Een opsomming van de redenen waarom een updateplan mogelijk niet incrementeel kan worden uitgevoerd.

Waarde Description
OPERATOR_NOT_SUPPORTED Volledig vernieuwen omdat het queryplan een niet-ondersteunde operator bevat. De operator_name eigenschap bevat de naam van de niet-ondersteunde operator.
AGGREGATE_NOT_TOP_NODE Volledig herladen omdat een aggregatieoperator (GROUP BY) zich niet op het hoogste niveau van het queryplan bevindt. Incrementeel onderhoud ondersteunt alleen aggregaties op het hoogste niveau. Overweeg twee gerealiseerde weergaven te definiëren om de aggregatie te scheiden.
AGGREGATE_WITH_DISTINCT Volledig vernieuwen omdat de aggregatie een DISTINCT component bevat, die niet wordt ondersteund voor incrementele updates.
AGGREGATE_WITH_UNSUPPORTED_EXPRESSION Volledig vernieuwen omdat de aggregatie niet-ondersteunde expressies bevat. De expression_name eigenschap geeft de problematische expressie aan.
SUBQUERY_EXPRESSION Volledig vernieuwen omdat de gerealiseerde weergavedefinitie een subquery-expressie bevat, die niet wordt ondersteund.
WINDOW_FUNCTION_NOT_TOP_LEVEL Volledig vernieuwen omdat een vensterfunctie zich niet op het hoogste niveau van het queryplan bevindt.
WINDOW_FUNCTION_WITHOUT_PARTITION_BY Volledig vernieuwen omdat een vensterfunctie is gedefinieerd zonder een PARTITION BY component.

TableInformation-object

Vertegenwoordigt details van een tabel die tijdens een planning_information gebeurtenis wordt overwogen.

Veld Description
table_name Tabelnaam die wordt gebruikt in de query uit Unity Catalog of Hive-metastore. Mogelijk niet beschikbaar bij padgebaseerde toegang.
table_id Verplicht. Tabel-id uit het Delta-logboek.
catalog_table_type Type van de tabel zoals opgegeven in de catalogus.
partition_columns Partitiekolommen van de tabel.
table_change_type Wijzig het type in de tabel. Een van: TABLE_CHANGE_TYPE_UNKNOWN, TABLE_CHANGE_TYPE_APPEND_ONLY, TABLE_CHANGE_TYPE_GENERAL_CHANGE.
full_size De volledige grootte van de tabel in het aantal bytes.
change_size De grootte van de gewijzigde rijen in gewijzigde bestanden. Het wordt berekend met behulp van change_file_read_size * num_changed_rows / num_rows_in_changed_files.
num_changed_partitions Aantal gewijzigde partities.
is_size_after_pruning Worden full_size en change_size als gegevens na het verwijderen van statische bestanden beschouwd?
is_row_id_enabled Of rij-id is ingeschakeld in de tabel.
is_cdf_enabled Of CDF is ingeschakeld voor de tabel.
is_deletion_vector_enabled Of de verwijderingsvector is ingeschakeld in de tabel.
is_change_from_legacy_cdf Of de tabelwijziging afkomstig is van legacy CDF of van rij-ID-gebaseerde CDF.

TaskSlotMetrics-object

De metrics van de taakslot voor een cluster. Alleen van toepassing op pijplijnupdates die worden uitgevoerd op klassieke berekeningen.

Veld Description
summary_duration_ms De duur in milliseconden waarover de samengestelde metrische maten (bijvoorbeeld avg_num_task_slots) worden berekend.
num_task_slots Het aantal Spark-taakslots op het moment van rapportage.
avg_num_task_slots Het gemiddelde aantal Spark-taakslots gedurende de samenvattingsduur.
avg_task_slot_utilization Het gemiddelde gebruik van de taaksite (aantal actieve taken gedeeld door het aantal taaksites) gedurende de samenvattingsduur.
num_executors Het aantal Spark-uitvoerders op het moment van rapportage.
avg_num_queued_tasks De gemiddelde grootte van de taakwachtrij (het aantal totale taken minus het aantal actieve taken) gedurende de samenvattingsduur.

TechniqueInformationobject

Informatie over methodologie vernieuwen voor een planningsevenement.

Veld Description
maintenance_type Onderhoudstype met betrekking tot dit stukje informatie.
Als het type niet MAINTENANCE_TYPE_COMPLETE_RECOMPUTE of MAINTENANCE_TYPE_NO_OP is, wordt de stroom geleidelijk vernieuwd.
Zie het MaintenanceType-object voor meer informatie.
is_chosen Waar voor de techniek die is gekozen voor de vernieuwing.
is_applicable Of het onderhoudstype van toepassing is.
incrementalization_issues Problemen met incrementalisatie die ertoe kunnen leiden dat een update volledig opnieuw wordt uitgevoerd. Zie het object IncrementalizationIssue voor meer informatie.
change_set_information Informatie over de uiteindelijke geproduceerde wijzigingsset. Waarden zijn een van de volgende:
  • CHANGE_SET_TYPE_APPEND_ONLY
  • CHANGE_SET_TYPE_GENERAL_ROW_CHANGE