Schema van gebeurtenislogboek van pijplijn

Het gebeurtenislogboek van de pijplijn bevat alle informatie met betrekking tot een pijplijn, waaronder auditlogboeken, controles van gegevenskwaliteit, voortgang van pijplijnen en gegevensherkomst.

In de volgende tabellen wordt het gebeurtenislogboekschema beschreven. Sommige van deze velden bevatten JSON-gegevens waarvoor parsering is vereist om bepaalde query's uit te voeren, zoals het details veld. Azure Databricks ondersteunt de :-operator om JSON-velden te parseren. Zie : (dubbelepuntteken) operator.

Opmerking

Sommige velden in het gebeurtenislogboek zijn voor intern gebruik door Azure Databricks. In de volgende documentatie worden de velden beschreven die zijn bedoeld voor klantverbruik.

Zie Het gebeurtenislogboek Pijplijn voor meer informatie over het gebruik van het gebeurtenislogboek van de pijplijn.

PipelineEventobject

Vertegenwoordigt één pijplijngebeurtenis in het gebeurtenislogboek.

Veld	Description
`id`	Een unieke id voor de gebeurtenislogboekrecord.
`sequence`	Een JSON-tekenreeks met metagegevens voor het identificeren en orden van gebeurtenissen.
`origin`	Een JSON-tekenreeks met metagegevens voor de oorsprong van de gebeurtenis, bijvoorbeeld de cloudprovider, de regio van de cloudprovider, de gebruiker en de pijplijngegevens. Zie Origin-object.
`timestamp`	De tijd waarop de gebeurtenis is vastgelegd, in UTC.
`message`	Een door mensen leesbaar bericht waarin de gebeurtenis wordt beschreven.
`level`	Het waarschuwingsniveau. Mogelijke waarden zijn: `INFO`: Informatieve gebeurtenissen `WARN`: Onverwachte, maar niet-kritieke problemen `ERROR`: Gebeurtenisfout die mogelijk aandacht van de gebruiker nodig heeft `METRICS`: Wordt gebruikt voor gebeurtenissen met een hoog volume die alleen zijn opgeslagen in de Delta-tabel en niet worden weergegeven in de gebruikersinterface van pijplijnen.
`maturity_level`	De stabiliteit van het gebeurtenisschema. Mogelijke waarden zijn: `STABLE`: het schema is stabiel en verandert niet. `NULL`: het schema is stabiel en verandert niet. De waarde kan zijn `NULL` als de record is gemaakt voordat het `maturity_level` veld werd toegevoegd (release 2022.37). `EVOLVING`: Het schema is niet stabiel en kan veranderen. `DEPRECATED`: Het schema is afgeschaft en de declaratieve pijplijnruntime van Lakeflow Spark kan op elk gewenst moment stoppen met het produceren van deze gebeurtenis. Het wordt niet aanbevolen om bewaking of waarschuwingen te bouwen gebaseerd op `EVOLVING` of `DEPRECATED` velden.
`error`	Als er een fout is opgetreden, worden de details beschreven die de fout beschrijven.
`details`	Een JSON-tekenreeks met gestructureerde details van de gebeurtenis. Dit is het primaire veld dat wordt gebruikt voor het analyseren van gebeurtenissen. De JSON-tekenreeksindeling is afhankelijk van de `event_type`. Zie het detailobject voor meer informatie.
`event_type`	Het gebeurtenistype. Zie het detailobject voor een lijst met gebeurtenistypen en het objecttype details dat ze maken.

Het detailobject

Elke gebeurtenis heeft verschillende details eigenschappen in het JSON-object, op basis van de event_type gebeurtenis. In deze tabel worden de event_type en de bijbehorende details vermeld. De details eigenschappen worden beschreven in de sectie Detailstypen .

Detailstype op `event_type`	Description
`create_update`	Legt de volledige configuratie vast die wordt gebruikt om een pijplijnupdate te starten. Bevat een configuratieset van Databricks. Zie Details voor create_update voor meer informatie.
`user_action`	Bevat details over elke gebruikersactie in de pijplijn (inclusief het maken van een pijplijn en het starten of annuleren van een update). Zie Details voor het user_action-gebeurtenis voor meer informatie.
`flow_progress`	Beschrijft de levenscyclus van een proces, beginnend bij starten en uitvoeren, totdat het voltooid of mislukt is. Voor meer informatie, zie details over het flow_progress event.
`update_progress`	Beschrijft de levenscyclus van een pijplijnupdate van het starten, uitvoeren, tot voltooid of mislukt. Zie voor details Details van de update_progress-evenement.
`flow_definition`	Definieert het schema en het queryplan voor transformaties die in een bepaalde stroom plaatsvinden. Kan worden beschouwd als de randen van de Dataflow-DAG. Het kan worden gebruikt om de herkomst voor elke stroom te berekenen en om het uitgelegde queryplan te bekijken. Zie voor meer informatie Details voor flow_definition gebeurtenis.
`dataset_definition`	Hiermee definieert u een gegevensset, die de bron of het doel voor een bepaalde stroom is. Zie voor meer informatie Details voor dataset_definition gebeurtenis.
`sink_definition`	Definieert een bepaalde sink. Zie voor meer informatie Details voor gebeurtenis sink_definition.
`deprecation`	Hier vindt u een lijst met functies die binnenkort of momenteel verouderd zijn en door deze pijplijn worden gebruikt. Zie Details enum voor deprecatie-evenement voor voorbeelden van de waarden.
`cluster_resources`	Bevat informatie over clusterresources voor pijplijnen die worden uitgevoerd op klassieke berekeningen. Deze metrische gegevens worden alleen ingevuld voor klassieke rekenpijplijnen. Zie voor meer informatie Details van de cluster_resources-gebeurtenis.
`autoscale`	Bevat informatie over autoschaling voor pijplijnen die worden uitgevoerd op klassieke rekenkracht. Deze metrische gegevens worden alleen ingevuld voor klassieke rekenpijplijnen. Zie Details voor gebeurtenis voor automatisch schalen voor meer informatie.
`planning_information`	Vertegenwoordigt planningsinformatie met betrekking tot gematerialiseerde weergave incrementele vs. volledige vernieuwing. Kan worden gebruikt om meer informatie te krijgen over waarom een gerealiseerde weergave volledig opnieuw wordt gecomputeerd. Zie Details van de planning_informatie-gebeurtenis voor meer informatie.
`hook_progress`	Een gebeurtenis om de huidige status van een gebruikershook aan te geven tijdens de pijplijnuitvoering. Wordt gebruikt voor het bewaken van de status van gebeurtenishooks, bijvoorbeeld om te verzenden naar externe observatieproducten. Zie voor meer informatie Details van de hook_progress gebeurtenis.
`operation_progress`	Bevat informatie over de voortgang van een bewerking. Zie voor meer informatie Details voor de operation_progress-gebeurtenis.
`stream_progress`	Bevat informatie over de voortgang van een pijplijn. Zie Details voor het stream_progress-evenement voor meer informatie.

Detailstypen

De volgende objecten vertegenwoordigen het details van een ander gebeurtenistype in het PipelineEvent object.

Details voor create_update

De details voor het create_update evenement.

Veld	Description
`dbr_version`	De versie van Databricks Runtime.
`run_as`	De gebruikers-id ten behoeve waarvan de update wordt uitgevoerd. Dit is doorgaans de eigenaar van de pijplijn of een service-principal.
`cause`	De reden voor de update. Ofwel `JOB_TASK` als het wordt uitgevoerd vanuit een taak, of `USER_ACTION` wanneer het interactief wordt uitgevoerd door een gebruiker.

Gegevens voor gebruikersactie gebeurtenis

De details voor het user_action evenement. Bevat de volgende velden:

Veld	Description
`user_name`	De naam van de gebruiker die een pijplijnupdate heeft geactiveerd.
`user_id`	De id van de gebruiker die een pijplijnupdate heeft geactiveerd. Dit is niet altijd hetzelfde als de `run_as` gebruiker, die een service-principal of een andere gebruiker kan zijn.
`action`	De actie die de gebruiker heeft ondernomen, inclusief `START` en `CREATE`.

Details voor flow_progress gebeurtenis

De details voor een flow_progress gebeurtenis.

Veld	Description
`status`	De nieuwe status van de stroom. Dit kan een van de volgende zijn: `QUEUED` `STARTING` `RUNNING` `COMPLETED` `FAILED` `SKIPPED` `STOPPED` `IDLE` `EXCLUDED`
`metrics`	Metrische gegevens over de stroom. Zie FlowMetrics voor meer informatie.
`data_quality`	Kwaliteitsstatistieken van de datastroom en de bijbehorende verwachtingen. Zie DataQualityMetrics voor meer informatie.

Details voor "update_progress" gebeurtenis

De details voor een update_progress gebeurtenis.

Veld	Description
`state`	De nieuwe status van de update. Dit kan een van de volgende zijn: `QUEUED` `CREATED` `WAITING_FOR_RESOURCES` `INITIALIZING` `RESETTING` `SETTING_UP_TABLES` `RUNNING` `STOPPING` `COMPLETED` `FAILED` `CANCELED` Handig voor het berekenen van de duur van verschillende fasen van een pijplijnupdate, bijvoorbeeld van de totale duur tot aan de tijd besteed aan het wachten op middelen.
`cancellation_cause`	De reden waarom een update de `CANCELED` status heeft ingevoerd. Bevat redenen zoals `USER_ACTION` of `WORKFLOW_CANCELLATION` (de werkstroom die de update heeft geactiveerd, is geannuleerd).

Details voor flow_definition gebeurtenis

De details voor een flow_definition gebeurtenis.

Veld	Description
`input_datasets`	De invoer die door deze stroom wordt gelezen.
`output_dataset`	De uitvoergegevensset waar deze flow naar schrijft.
`output_sink`	De uitvoersink waar deze stroom naar schrijft.
`explain_text`	Het uitgewerkte query-plan.
`schema_json`	Spark SQL JSON-schematekenreeks.
`schema`	Schema van deze stroom.
`flow_type`	Het type van stroom. Dit kan een van de volgende zijn: `COMPLETE`: Streamingtabel schrijft naar de bestemming in de volledige modus (streaming). `CHANGE`: Streamingtabel met behulp van `APPLY_CHANGES_INTO`. `SNAPSHOT_CHANGE`: Streamingtabel met behulp van `APPLY CHANGES INTO ... FROM SNAPSHOT ...`. `APPEND`: De streamingtabel schrijft naar de bestemming in de toevoeg- (streaming) modus. `MATERIALIZED_VIEW`: Uitvoer naar een gematerialiseerde weergave. `VIEW`: Uitvoer naar een weergave.
`comment`	Opmerking of beschrijving van de gebruiker over de gegevensset.
`spark_conf`	Spark-configuraties zijn ingesteld voor deze verwerkingsstroom.
`language`	De taal die wordt gebruikt om deze workflow te maken. De waarde kan `SCALA`, `PYTHON`of `SQL` zijn.
`once`	Of deze stroom is gedeclareerd om eenmaal te worden uitgevoerd.

Details voor dataset_definition gebeurtenis

De details voor een dataset_definition gebeurtenis. Bevat de volgende velden:

Veld	Description
`dataset_type`	Maakt onderscheid tussen gerealiseerde weergaven en streaming-tabellen.
`num_flows`	Het aantal stromen dat naar de dataset wordt geschreven.
`expectations`	De verwachtingen die zijn gekoppeld aan de gegevensset.

Details voor sink_definition gebeurtenis

De details voor een sink_definition gebeurtenis.

Veld	Description
`format`	De indeling van de sink.
`options`	De sleutelwaardeopties die aan de sink zijn gekoppeld.

Details enum voor verouderingsgebeurtenis

De deprecation gebeurtenis heeft een message veld. De mogelijke waarden voor de message zijn als volgt. Dit is een gedeeltelijke lijst die na verloop van tijd groeit.

Veld	Description
`TABLE_MANAGED_BY_MULTIPLE_PIPELINES`	Een tabel wordt beheerd door meerdere pijplijnen.
`INVALID_CLUSTER_LABELS`	Clusterlabels gebruiken die niet worden ondersteund.
`PINNED_DBR_VERSION`	Gebruiken `dbr_version` in plaats van `channel` in pijplijninstellingen.
`PREVIOUS_CHANNEL_USED`	Het releasekanaal `PREVIOUS`gebruiken, wat in een toekomstige release kan verdwijnen.
`LONG_DATASET_NAME`	Een gegevenssetnaam gebruiken die langer is dan de ondersteunde lengte.
`LONG_SINK_NAME`	Een sinknaam gebruiken die langer is dan de ondersteunde lengte.
`LONG_FLOW_NAME`	Een stroomnaam gebruiken die langer is dan de ondersteunde lengte.
`ENHANCED_AUTOSCALING_POLICY_COMPLIANCE`	Clusterbeleid voldoet alleen wanneer verbeterde automatische schaalaanpassing een vaste clustergrootte gebruikt.
`DATA_SAMPLE_CONFIGURATION_KEY`	Het gebruik van de configuratiesleutel voor het configureren van gegevenssampling is afgeschaft.
`INCOMPATIBLE_CLUSTER_SETTINGS`	Huidige clusterinstellingen of clusterbeleid zijn niet langer compatibel met declaratieve Pijplijnen van Lakeflow Spark.
`STREAMING_READER_OPTIONS_DROPPED`	Streaminglezeropties gebruiken die worden verwijderd.
`DISALLOWED_SERVERLESS_STATIC_SPARK_CONFIG`	Het instellen van statische Spark-configuraties via pijplijnconfiguratie voor serverloze pijplijnen is niet toegestaan.
`INVALID_SERVERLESS_PIPELINE_CONFIG`	Serverloze klant biedt een ongeldige pijplijnconfiguratie.
`UNUSED_EXPLICIT_PATH_ON_UC_MANAGED_TABLE`	Ongebruikte expliciete tabelpaden opgeven voor door UC beheerde tabellen.
`FOREACH_BATCH_FUNCTION_NOT_SERIALIZABLE`	De opgegeven foreachBatch-functie is niet serialiseerbaar.
`DROP_PARTITION_COLS_NO_PARTITIONING`	Het verwijderen van het kenmerk partition_cols resulteert in geen partitionering.
`PYTHON_CREATE_TABLE`	Gebruiken @dlt.create\_table in plaats van @dp.table of @dp.materialized\_view.
`PYTHON_CREATE_VIEW`	Gebruiken @dlt.create\_view in plaats van @dp.temporary\_view.
`PYTHON_CREATE_STREAMING_LIVE_TABLE`	Gebruiken `create_streaming_live_table` in plaats van `create_streaming_table`.
`PYTHON_CREATE_TARGET_TABLE`	Gebruiken `create_target_table` in plaats van `create_streaming_table`.
`FOREIGN_KEY_TABLE_CONSTRAINT_CYCLE`	Een set tabellen die door een pijplijn wordt beheerd, heeft een cyclus in de set met beperkingen voor externe sleutels.
`PARTIALLY_QUALIFIED_TABLE_REFERENCE_INCOMPATIBLE_WITH_DEFAULT_PUBLISHING_MODE`	Een gedeeltelijk gekwalificeerde tabelreferentie met verschillende betekenissen in de standaardpublicatiemodus en de verouderde publicatiemodus.

Details voor cluster_resources evenement

De details voor een cluster_resources gebeurtenis. Alleen van toepassing op pipelines die worden uitgevoerd op een klassieke compute-omgeving.

Veld	Description
`task_slot_metrics`	De taakslotmetriek van het cluster. Zie TaskSlotMetrics-object voor meer informatie
`autoscale_info`	De status van automatische schaalaanpassingen. Zie Het object AutoscaleInfo voor meer informatie

Details voor gebeurtenis voor automatisch schalen

De details voor een autoscale gebeurtenis. Gebeurtenissen voor automatisch schalen zijn alleen van toepassing wanneer de pijplijn gebruikmaakt van klassieke berekeningen.

Veld	Description
`status`	Status van deze gebeurtenis. Dit kan een van de volgende zijn: `SUCCEEDED` `RESIZING` `FAILED` `PARTIALLY_SUCCEEDED`
`optimal_num_executors`	Het optimale aantal uitvoerders dat door het algoritme wordt voorgesteld voordat de grenzen `min_workers` en `max_workers` worden toegepast.
`requested_num_executors`	Het aantal uitvoerders na het beperken van het optimale aantal uitvoerders dat door het algoritme is aangepast aan de grenzen van `min_workers` en `max_workers`.

Details voor planning_information gebeurtenis

De details voor een planning_information gebeurtenis. Handig voor het weergeven van details met betrekking tot het gekozen vernieuwingstype voor een bepaalde stroom tijdens een update. Kan worden gebruikt om te achterhalen waarom een update volledig wordt vernieuwd in plaats van incrementeel worden vernieuwd. Zie Incrementeel vernieuwen voor gerealiseerde weergaven voor meer informatie over incrementele vernieuwingen

Veld	Description
`technique_information`	Informatie over vernieuwen. Het bevat zowel informatie over de gekozen vernieuwingsmethodologie als de mogelijke vernieuwingsmethoden die werden overwogen. Handig voor het opsporen van fouten waarom een gematerialiseerde weergave niet incrementeel kan worden bijgewerkt. Zie TechniqueInformation voor meer informatie.
`source_table_information`	Brontabelgegevens. Dit kan handig zijn voor de foutopsporing van de reden waarom een gematerialiseerde weergave niet kon worden geïncrementaliseerd. Zie TableInformation-object voor meer informatie.
`target_table_information`	Doeltabelgegevens. Zie TableInformation-object voor meer informatie.

Details voor hook_progress evenement

De details van een hook_progress gebeurtenis. Bevat de volgende velden:

Veld	Description
`name`	De naam van de user hook.
`status`	De status van de gebruikerskoppeling.

Details voor het operation_progress evenement

De details van een operation_progress gebeurtenis. Bevat de volgende velden:

Veld	Description
`type`	Het type bewerking dat wordt bijgehouden. Een van de volgende: `AUTO_LOADER_LISTING` `AUTO_LOADER_BACKFILL` `CONNECTOR_FETCH` `CDC_SNAPSHOT`
`status`	De status van de operatie. Een van de volgende: `STARTED` `COMPLETED` `CANCELED` `FAILED` `IN_PROGRESS`
`duration_ms`	De totale verstreken tijd van de bewerking in milliseconden. Alleen opgenomen in de eindgebeurtenis (waarbij de status is `COMPLETED`, `CANCELED`of `FAILED`).

Details voor stream_progress gebeurtenis

De details van een stream_progress gebeurtenis. Bevat het volgende veld:

Veld	Description
`stream_progress`	De details van de pijplijnstroom. Vergelijkbaar met de `StreamingQueryListener` metrische gegevens voor Structured Streaming. De verschillen worden beschreven in de volgende alinea's. Zie `StreamingQueryListener` voor volledige documentatie over metrische gegevens.

Verschillen tussen metrische gegevens van stream_progress objecten StreamingQueryListener :

De volgende metrische gegevens zijn aanwezig in StreamingQueryListener, maar niet in stream_progress: numInputRows, inputRowsPerSeconden processedRowsPerSecond.
Voor Kafka- en Kineses-stromen kunnen de startOffset, endOffseten latestOffset velden te groot zijn en afgekapt zijn. Voor elk van deze velden wordt een extra ...Truncated veld, startOffsetTruncated, endOffsetTruncateden latestOffsetTruncated, toegevoegd met een Booleaanse waarde om te bepalen of de gegevens worden afgekapt.

Andere objecten

De volgende objecten vertegenwoordigen aanvullende gegevens of opsommingen binnen de gebeurtenisobjecten.

AutoscaleInfo-object

De metrische gegevens voor automatisch schalen voor een cluster. Alleen van toepassing op pipelines die worden uitgevoerd op een klassieke compute-omgeving.

Veld	Description
`state`	De status van Autoscaling. Dit kan een van de volgende zijn: `SUCCEEDED` `RESIZING` `FAILED` `PARTIALLY_SUCCEEDED`
`optimal_num_executors`	Het optimale aantal uitvoerders. Dit is de optimale grootte die door het algoritme wordt voorgesteld voordat deze wordt afgekapt door de door de gebruiker opgegeven min/max aantal uitvoerders.
`latest_requested_num_executors`	Het aantal uitvoerders dat is aangevraagd bij de clusterbeheerder door de statusbeheerder in de meest recente aanvraag. Dit is het aantal uitvoerders waarmee de statusbeheerder probeert te schalen en wordt bijgewerkt wanneer de statusbeheerder de schaalstatus probeert af te sluiten in het geval van time-outs. Dit veld wordt niet ingevuld als er geen aanvraag in behandeling is.
`request_pending_seconds`	De tijdsduur waarop de schaalaanvraag in behandeling is. Dit wordt niet ingevuld als er geen aanvraag in behandeling is.

CostModelRejectionSubType-object

Een opsomming van de redenen waarom incrementalisatie wordt geweigerd, op basis van de kosten van volledig vernieuwen versus incrementeel vernieuwen in een planning_information gebeurtenis.

Waarde	Description
`NUM_JOINS_THRESHOLD_EXCEEDED`	Volledig vernieuwen omdat de query te veel joins bevat.
`CHANGESET_SIZE_THRESHOLD_EXCEEDED`	Volledig vernieuwen omdat er te veel rijen in de basistabellen zijn gewijzigd.
`TABLE_SIZE_THRESHOLD_EXCEEDED`	Volledig vernieuwen omdat de grootte van de basistabel de drempelwaarde heeft overschreden.
`EXCESSIVE_OPERATOR_NESTING`	Volledig vernieuwen omdat de querydefinitie complex is en veel niveaus van geneste operators bevat.
`COST_MODEL_REJECTION_SUB_TYPE_UNSPECIFIED`	Volledig vernieuwen om welke andere reden dan ook.

DataQualityMetrics-object

Metrische gegevens over hoe wordt voldaan aan de verwachtingen binnen de stroom. Wordt gebruikt in de details van een flow_progress gebeurtenis.

Veld	Description
`dropped_records`	Het aantal records dat is verwijderd omdat er een of meer verwachtingen zijn mislukt.
`expectations`	KPI's voor verwachtingen die zijn toegevoegd aan een gegevensset in het queryplan van de flow. Wanneer er meerdere verwachtingen zijn, kan dit worden gebruikt om bij te houden welke verwachtingen zijn voldaan of mislukt. Zie het Object ExpectationMetrics voor meer informatie.

ExpectationMetrics-object

Metrische gegevens over verwachtingen, voor een specifieke verwachting.

Veld	Description
`name`	De naam van de verwachting.
`dataset`	De naam van de gegevensset waaraan de verwachting is toegevoegd.
`passed_records`	Het aantal records dat aan de verwachting voldoen.
`failed_records`	Het aantal records dat niet aan de verwachtingen voldoet. Hiermee wordt bijgehouden of aan de verwachting is voldaan, maar niet wordt beschreven wat er met de records gebeurt (waarschuwen, mislukken of de records verwijderen).

FlowMetrics-object

Statistieken over het verkeer, inclusief zowel het totaal voor het verkeer als uitgesplitst per specifieke bron. Wordt gebruikt in de details van een flow_progress gebeurtenis.

Elke streamingbron ondersteunt alleen specifieke metrische stroomgegevens. In de volgende tabel ziet u de metrische gegevens die beschikbaar zijn voor ondersteunde streamingbronnen:

source	achterstandsbytes	achterstandsoverzicht	wachttijd seconden	achterstandsbestanden
Kafka	✓	✓
Kinesis	✓		✓
Delta	✓			✓
Automatische lader	✓			✓
Google Pub/Sub (een berichten- en gebeurtenissenservice van Google)	✓	✓

Veld	Description
`num_output_rows`	Het aantal uitvoerrijen dat is geschreven door een update van deze workflow.
`backlog_bytes`	Totale achterstand aan bytes voor alle invoerbronnen in de gegevensstroom.
`backlog_records`	Totaal aantal achterstallige records voor alle inputbronnen in de workflow.
`backlog_files`	Totale achterstandsbestanden voor alle invoerbronnen in de stroom.
`backlog_seconds`	Maximale wachttijd in seconden voor alle invoerbronnen in de gegevensstroom.
`executor_time_ms`	Som van alle uitvoeringstijden van taken in milliseconden van deze stroom gedurende de rapportageperiode.
`executor_cpu_time_ms`	Som van alle CPU-tijden voor taakuitvoering in milliseconden van deze stroom gedurende de rapportageperiode.
`num_upserted_rows`	Het aantal uitvoerrijen dat in de gegevensset is ingevoegd of bijgewerkt door een update van deze flow.
`num_deleted_rows`	Het aantal bestaande uitvoerrijen dat uit de gegevensset is verwijderd door een update van deze stroom.
`num_output_bytes`	Het aantal uitvoerbytes dat is geschreven door een update van deze datastroom.
`source_metrics`	Metrische gegevens voor elke invoerbron in de stroom. Handig voor het bewaken van de verwerkingsvoortgang van bronnen buiten de declaratieve pijplijnen van Lakeflow Spark (zoals Apache Kafka, Pulsar of Auto Loader). Bevat de velden: `source_name`: De naam van de bron. `backlog_bytes`: Achterstand als bytes voor deze bron. `backlog_records`: Backloggegevens voor deze bron. `backlog_files`: Achterstandsbestanden voor deze bron. `backlog_seconds`: Achterstandstijd in seconden voor deze bron.

IncrementalizationIssue-object

Vertegenwoordigt problemen met incrementeel maken die een volledige vernieuwing kunnen veroorzaken bij het plannen van een update.

Veld	Description
`issue_type`	Een probleemtype dat kan voorkomen dat de gerealiseerde weergave incrementeel wordt. Zie Probleemtype voor meer informatie.
`prevent_incrementalization`	Of dit probleem heeft voorkomen dat de incrementalisatie plaatsvindt.
`table_information`	Tabelgegevens die zijn gekoppeld aan problemen zoals `CDF_UNAVAILABLE`, `INPUT_NOT_IN_DELTA`, `DATA_FILE_MISSING`.
`operator_name`	Plangerelateerde informatie. Instellen voor kwesties wanneer het probleemtype de `PLAN_NOT_DETERMINISTIC` of `PLAN_NOT_INCREMENTALIZABLE` operator of expressie is die het niet-determinisme of de niet-incrementeerbaarheid veroorzaakt.
`expression_name`	De expressienaam.
`join_type`	Hulpinformatie wanneer de operator een join is. Een voorbeeld hiervan is `JOIN_TYPE_LEFT_OUTER` of `JOIN_TYPE_INNER`.
`plan_not_incrementalizable_sub_type`	Gedetailleerde categorie wanneer het probleemtype is `PLAN_NOT_INCREMENTALIZABLE`. Zie het object PlanNotIncrementalizableSubType voor meer informatie.
`plan_not_deterministic_sub_type`	Gedetailleerde categorie wanneer het probleemtype is `PLAN_NOT_DETERMINISTIC`. Zie PlanNotDeterministicSubType object voor meer informatie.
`fingerprint_diff_before`	Het verschil van de vingerafdruk van tevoren.
`fingerprint_diff_current`	De verschillen van de huidige vingerafdruk.
`cost_model_rejection_subtype`	Gedetailleerde categorie wanneer het probleemtype is `INCREMENTAL_PLAN_REJECTED_BY_COST_MODEL`. Zie het object CostModelRejectionSubType voor meer informatie.

IssueType-object

Een opsomming van probleemtypen die een volledige vernieuwing kunnen veroorzaken.

Waarde	Description
`CDF_UNAVAILABLE`	CDF (Change Data Feed) is niet ingeschakeld voor sommige basistabellen. Het `table_information` veld bevat informatie over de tabel waarvoor CDF niet is ingeschakeld. Gebruik `ALTER TABLE <table-name> SET TBLPROPERTIES ( 'delta.enableChangeDataFeed' = true)` dit om CDF in te schakelen voor de basistabel. Als de brontabel een gerealiseerde weergave is, moet CDF standaard worden ingesteld op `ON` .
`DELTA_PROTOCOL_CHANGED`	Volledig vernieuwen omdat sommige basistabellen (details in het veld) een wijziging in het `table_information` Delta-protocol hadden.
`DATA_SCHEMA_CHANGED`	Volledig vernieuwen omdat sommige basistabellen (details in het `table_information` veld) een gegevensschemawijziging hadden in de kolommen die door de gerealiseerde weergavedefinitie worden gebruikt. Niet relevant als een kolom die de gerealiseerde weergave niet gebruikt, is gewijzigd of toegevoegd aan de basistabel.
`PARTITION_SCHEMA_CHANGED`	Volledig vernieuwen omdat sommige basistabellen (details in het `table_information` veld) een partitieschemawijziging hadden.
`INPUT_NOT_IN_DELTA`	Volledig vernieuwen omdat de gerealiseerde weergavedefinitie enige niet-Delta-invoer omvat.
`DATA_FILE_MISSING`	Volledig vernieuwen omdat sommige basistabelbestanden al zijn leeggezogen vanwege de bewaarperiode.
`PLAN_NOT_DETERMINISTIC`	Volledig vernieuwen omdat sommige operators of expressies in de gerealiseerde weergavedefinitie niet deterministisch zijn. De `operator_name` velden en `expression_name` velden geven informatie over welke operator of expressie het probleem heeft veroorzaakt.
`PLAN_NOT_INCREMENTALIZABLE`	Volledig vernieuwen omdat sommige operators of expressies in de gerealiseerde weergavedefinitie niet incrementeel kunnen worden uitgevoerd.
`SERIALIZATION_VERSION_CHANGED`	Volledige vernieuwing vanwege een significante wijziging in de query fingerprinting logica.
`QUERY_FINGERPRINT_CHANGED`	Volledig vernieuwen omdat de definitie van de gematerialiseerde weergave is gewijzigd, of omdat declaratieve pijplijnen van Lakeflow Spark een wijziging in de query-evaluatieplannen hebben veroorzaakt.
`CONFIGURATION_CHANGED`	Volledig vernieuwen omdat sleutelconfiguraties (bijvoorbeeld `spark.sql.ansi.enabled`) die van invloed kunnen zijn op de evaluatie van query's zijn gewijzigd. Volledige recomputing is vereist om inconsistente statussen in de gerealiseerde weergave te voorkomen.
`CHANGE_SET_MISSING`	Volledig vernieuwen omdat dit de eerste berekening is van de gerealiseerde weergave. Dit is het verwachte gedrag voor de aanvankelijke materialized view-berekening.
`EXPECTATIONS_NOT_SUPPORTED`	Volledig vernieuwen omdat de gerealiseerde weergavedefinitie verwachtingen bevat, die niet worden ondersteund voor incrementele updates. Verwijder verwachtingen of verwerk ze buiten de gerealiseerde weergavedefinitie als incrementele ondersteuning nodig is.
`TOO_MANY_FILE_ACTIONS`	Volledig vernieuwen omdat het aantal bestandsacties de drempelwaarde voor incrementele verwerking heeft overschreden. Overweeg het reduceren van veranderingen in bestanden in basistabellen of het verhogen van de drempelwaarden.
`INCREMENTAL_PLAN_REJECTED_BY_COST_MODEL`	Volledig vernieuwen omdat het kostenmodel heeft vastgesteld dat een volledige vernieuwing efficiënter is dan incrementeel onderhoud. Bekijk het gedrag van het kostenmodel of de complexiteit van het queryplan om incrementele updates mogelijk te maken.
`ROW_TRACKING_NOT_ENABLED`	Volledig vernieuwen omdat het bijhouden van rijen niet is ingeschakeld voor een of meer basistabellen. Rijvolgsysteem inschakelen met behulp van `ALTER TABLE <table-name> SET TBLPROPERTIES ('delta.enableRowTracking' = true)`.
`TOO_MANY_PARTITIONS_CHANGED`	Volledig vernieuwen omdat er te veel partities zijn gewijzigd in de basistabellen. Probeer het aantal partitiewijzigingen te beperken om binnen incrementele verwerkingslimieten te blijven.
`MAP_TYPE_NOT_SUPPORTED`	Volledig vernieuwen omdat de gerealiseerde weergavedefinitie een kaarttype bevat, dat niet wordt ondersteund voor incrementele updates. Overweeg de gegevens te herstructureren om kaarttypen in de gerealiseerde weergave te voorkomen.
`TIME_ZONE_CHANGED`	Volledig vernieuwen omdat de instelling voor de sessie of systeemtijdzone is gewijzigd.
`DATA_HAS_CHANGED`	Volledig vernieuwen omdat de gegevens die relevant zijn voor de gerealiseerde weergave zijn gewijzigd op een manier die incrementele updates voorkomt. Evalueer de gegevenswijzigingen en structuur van de weergavedefinitie om compatibiliteit met incrementele logica te garanderen.
`PRIOR_TIMESTAMP_MISSING`	Volledig vernieuwen omdat de tijdstempel van de laatste geslaagde uitvoering ontbreekt. Dit kan gebeuren na verlies van metagegevens of handmatige interventie.

MaintenanceType-object

Een opsomming van onderhoudstypen die tijdens een planning_information gebeurtenis kunnen worden gekozen. Als het type niet MAINTENANCE_TYPE_COMPLETE_RECOMPUTE is of MAINTENANCE_TYPE_NO_OP, is het type een incrementele vernieuwing.

Waarde	Description
`MAINTENANCE_TYPE_COMPLETE_RECOMPUTE`	Volledige hercomputing; altijd weergegeven.
`MAINTENANCE_TYPE_NO_OP`	Wanneer basistabellen niet worden gewijzigd.
`MAINTENANCE_TYPE_PARTITION_OVERWRITE`	Incrementeel verfrissen van betrokken partities wanneer de materialized view samen gepartitioneerd is met een van de brontabellen.
`MAINTENANCE_TYPE_ROW_BASED`	Incrementeel vernieuwen door modulaire wijzigingensets te maken voor verschillende bewerkingen, zoals `JOIN`, `FILTER`en `UNION ALL,` ze op te stellen om complexe query's te berekenen. Gebruikt wanneer het bijhouden van rijen voor de brontabellen is ingeschakeld, en er een beperkt aantal joins voor de query is.
`MAINTENANCE_TYPE_APPEND_ONLY`	Incrementeel bijwerken door alleen nieuwe rijen te berekenen omdat er geen updates, invoegingen of verwijderingen in de brontabellen zijn geweest.
`MAINTENANCE_TYPE_GROUP_AGGREGATE`	Incrementeel vernieuwen door wijzigingen voor elke geaggregeerde waarde te berekenen. Wordt gebruikt bij associatieve aggregaties, zoals `count`, `sum`, `mean`en `stddev`, bevinden zich op het hoogste niveau van de query.
`MAINTENANCE_TYPE_GENERIC_AGGREGATE`	Incrementeel vernieuwen door alleen de betrokken statistische groepen te berekenen. Wordt gebruikt wanneer aggregaties zoals `median` (niet alleen associatieve) zich op het hoogste niveau van de query bevinden.
`MAINTENANCE_TYPE_WINDOW_FUNCTION`	Incrementieel vernieuwen van query's met vensterfuncties zoals `PARTITION BY` door alleen de gewijzigde partities opnieuw te berekenen. Wordt gebruikt wanneer alle vensterfuncties een `PARTITION BY` of `JOIN` component hebben en zich op het hoogste niveau van de query bevinden.

Oorsprongobject

Waar de gebeurtenis vandaan komt.

Veld	Description
`cloud`	De cloudprovider. Mogelijke waarden zijn: AWS Azuur GCP
`region`	De cloudregio.
`org_id`	De organisatie-id of werkruimte-id van de gebruiker. Uniek binnen een cloud. Handig om de werkruimte te identificeren of samen te voegen met andere tabellen, zoals systeemfactureringstabellen.
`pipeline_id`	De ID van de pijplijn. Een unieke id voor de pijplijn. Handig om de pijplijn te identificeren of om samen te voegen met andere tabellen, zoals systeemfactureringstabellen.
`pipeline_type`	Het type pijplijn om weer te geven waar de pijplijn is gemaakt. Mogelijke waarden zijn: `DBSQL`: Een pijplijn die is gemaakt via Databricks SQL. `WORKSPACE`: Een ETL-pijplijn die is gemaakt via Lakeflow Spark-declaratieve pijplijnen. `MANAGED_INGESTION`: Een beheerde opnamepijplijn van Lakeflow Connect. `BRICKSTORE`: Een pijplijn om een online tabel bij te werken voor realtime feature serving. `BRICKINDEX`: Een pijplijn voor het bijwerken van een vectordatabase. Zie vectorzoekopdrachten voor meer informatie.
`pipeline_name`	De naam van de pijplijn.
`cluster_id`	De id van het cluster waar een uitvoering plaatsvindt. Wereldwijd uniek.
`update_id`	De ID van één uitvoering van de pijplijn. Dit komt overeen met de run-ID.
`table_name`	De naam van de (Delta)-tabel waarnaar wordt geschreven.
`dataset_name`	De volledig gekwalificeerde naam van een gegevensset.
`sink_name`	De naam van een sink.
`flow_id`	De id van de stroom. Hiermee wordt de status bijgehouden van de stroom die wordt gebruikt voor meerdere updates. Zolang de `flow_id` flow hetzelfde is, wordt de flow incrementeel ververst. De gematerialiseerde weergave `flow_id` verandert wanneer de gematerialiseerde weergave volledig wordt vernieuwd, het controlepunt reset of er een volledige hercomputatie plaatsvindt binnen de gematerialiseerde weergave.
`flow_name`	De naam van de stroom.
`batch_id`	De id van een microbatch. Uniek binnen een stroom.
`request_id`	De id van de aanvraag die een update heeft veroorzaakt.

PlanNotDeterministicSubType-object

Een opsomming van niet-deterministische gevallen voor een planning_information gebeurtenis.

Waarde	Description
`STREAMING_SOURCE`	Volledig vernieuwen omdat de gerealiseerde weergavedefinitie een streamingbron bevat, die niet wordt ondersteund.
`USER_DEFINED_FUNCTION`	Volledig vernieuwen omdat de gerealiseerde weergave een niet-ondersteunde door de gebruiker gedefinieerde functie bevat. Alleen deterministische Python UDF's worden ondersteund. Andere UDFs kunnen incrementele updates voorkomen.
`TIME_FUNCTION`	Volledig vernieuwen omdat de gerealiseerde weergave een functie op basis van tijd bevat, zoals `CURRENT_DATE` of `CURRENT_TIMESTAMP`. De `expression_name` eigenschap bevat de naam van de niet-ondersteunde functie.
`NON_DETERMINISTIC_EXPRESSION`	Volledig vernieuwen omdat de query een niet-deterministische expressie bevat, zoals `RANDOM()`. De `expression_name` eigenschap geeft de niet-deterministische functie aan die incrementeel onderhoud voorkomt.

PlanNotIncrementalizableSubType-object

Een opsomming van de redenen waarom een updateplan mogelijk niet incrementeel kan worden uitgevoerd.

Waarde	Description
`OPERATOR_NOT_SUPPORTED`	Volledig vernieuwen omdat het queryplan een niet-ondersteunde operator bevat. De `operator_name` eigenschap bevat de naam van de niet-ondersteunde operator.
`AGGREGATE_NOT_TOP_NODE`	Volledig herladen omdat een aggregatieoperator (`GROUP BY`) zich niet op het hoogste niveau van het queryplan bevindt. Incrementeel onderhoud ondersteunt alleen aggregaties op het hoogste niveau. Overweeg twee gerealiseerde weergaven te definiëren om de aggregatie te scheiden.
`AGGREGATE_WITH_DISTINCT`	Volledig vernieuwen omdat de aggregatie een `DISTINCT` component bevat, die niet wordt ondersteund voor incrementele updates.
`AGGREGATE_WITH_UNSUPPORTED_EXPRESSION`	Volledig vernieuwen omdat de aggregatie niet-ondersteunde expressies bevat. De `expression_name` eigenschap geeft de problematische expressie aan.
`SUBQUERY_EXPRESSION`	Volledig vernieuwen omdat de gerealiseerde weergavedefinitie een subquery-expressie bevat, die niet wordt ondersteund.
`WINDOW_FUNCTION_NOT_TOP_LEVEL`	Volledig vernieuwen omdat een vensterfunctie zich niet op het hoogste niveau van het queryplan bevindt.
`WINDOW_FUNCTION_WITHOUT_PARTITION_BY`	Volledig vernieuwen omdat een vensterfunctie is gedefinieerd zonder een `PARTITION BY` component.

TableInformation-object

Vertegenwoordigt details van een tabel die tijdens een planning_information gebeurtenis wordt overwogen.

Veld	Description
`table_name`	Tabelnaam die wordt gebruikt in de query uit Unity Catalog of Hive-metastore. Mogelijk niet beschikbaar bij padgebaseerde toegang.
`table_id`	Verplicht. Tabel-id uit het Delta-logboek.
`catalog_table_type`	Type van de tabel zoals opgegeven in de catalogus.
`partition_columns`	Partitiekolommen van de tabel.
`table_change_type`	Wijzig het type in de tabel. Een van: `TABLE_CHANGE_TYPE_UNKNOWN`, `TABLE_CHANGE_TYPE_APPEND_ONLY`, `TABLE_CHANGE_TYPE_GENERAL_CHANGE`.
`full_size`	De volledige grootte van de tabel in het aantal bytes.
`change_size`	De grootte van de gewijzigde rijen in gewijzigde bestanden. Het wordt berekend met behulp van `change_file_read_size * num_changed_rows / num_rows_in_changed_files`.
`num_changed_partitions`	Aantal gewijzigde partities.
`is_size_after_pruning`	Worden `full_size` en `change_size` als gegevens na het verwijderen van statische bestanden beschouwd?
`is_row_id_enabled`	Of rij-id is ingeschakeld in de tabel.
`is_cdf_enabled`	Of CDF is ingeschakeld voor de tabel.
`is_deletion_vector_enabled`	Of de verwijderingsvector is ingeschakeld in de tabel.
`is_change_from_legacy_cdf`	Of de tabelwijziging afkomstig is van legacy CDF of van rij-ID-gebaseerde CDF.

TaskSlotMetrics-object

De metrics van de taakslot voor een cluster. Alleen van toepassing op pijplijnupdates die worden uitgevoerd op klassieke berekeningen.

Veld	Description
`summary_duration_ms`	De duur in milliseconden waarover de samengestelde metrische maten (bijvoorbeeld `avg_num_task_slots`) worden berekend.
`num_task_slots`	Het aantal Spark-taakslots op het moment van rapportage.
`avg_num_task_slots`	Het gemiddelde aantal Spark-taakslots gedurende de samenvattingsduur.
`avg_task_slot_utilization`	Het gemiddelde gebruik van de taaksite (aantal actieve taken gedeeld door het aantal taaksites) gedurende de samenvattingsduur.
`num_executors`	Het aantal Spark-uitvoerders op het moment van rapportage.
`avg_num_queued_tasks`	De gemiddelde grootte van de taakwachtrij (het aantal totale taken minus het aantal actieve taken) gedurende de samenvattingsduur.

TechniqueInformationobject

Informatie over methodologie vernieuwen voor een planningsevenement.

Veld	Description
`maintenance_type`	Onderhoudstype met betrekking tot dit stukje informatie. Als het type niet `MAINTENANCE_TYPE_COMPLETE_RECOMPUTE` of `MAINTENANCE_TYPE_NO_OP` is, wordt de stroom geleidelijk vernieuwd. Zie het MaintenanceType-object voor meer informatie.
`is_chosen`	Waar voor de techniek die is gekozen voor de vernieuwing.
`is_applicable`	Of het onderhoudstype van toepassing is.
`incrementalization_issues`	Problemen met incrementalisatie die ertoe kunnen leiden dat een update volledig opnieuw wordt uitgevoerd. Zie het object IncrementalizationIssue voor meer informatie.
`change_set_information`	Informatie over de uiteindelijke geproduceerde wijzigingsset. Waarden zijn een van de volgende: `CHANGE_SET_TYPE_APPEND_ONLY` `CHANGE_SET_TYPE_GENERAL_ROW_CHANGE`

Feedback

Is deze pagina nuttig?

Last updated on 2026-01-21