Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Het gebeurtenislogboek van de pijplijn bevat alle informatie met betrekking tot een pijplijn, waaronder auditlogboeken, controles van gegevenskwaliteit, voortgang van pijplijnen en gegevensherkomst.
In de volgende tabellen wordt het gebeurtenislogboekschema beschreven. Sommige van deze velden bevatten JSON-gegevens waarvoor parsering is vereist om bepaalde query's uit te voeren, zoals het details veld. Azure Databricks ondersteunt de :-operator om JSON-velden te parseren. Zie : (dubbelepuntteken) operator.
Opmerking
Sommige velden in het gebeurtenislogboek zijn voor intern gebruik door Azure Databricks. In de volgende documentatie worden de velden beschreven die zijn bedoeld voor klantverbruik.
Zie Het gebeurtenislogboek Pijplijn voor meer informatie over het gebruik van het gebeurtenislogboek van de pijplijn.
PipelineEventobject
Vertegenwoordigt één pijplijngebeurtenis in het gebeurtenislogboek.
| Veld | Description |
|---|---|
id |
Een unieke id voor de gebeurtenislogboekrecord. |
sequence |
Een JSON-tekenreeks met metagegevens voor het identificeren en orden van gebeurtenissen. |
origin |
Een JSON-tekenreeks met metagegevens voor de oorsprong van de gebeurtenis, bijvoorbeeld de cloudprovider, de regio van de cloudprovider, de gebruiker en de pijplijngegevens. Zie Origin-object. |
timestamp |
De tijd waarop de gebeurtenis is vastgelegd, in UTC. |
message |
Een door mensen leesbaar bericht waarin de gebeurtenis wordt beschreven. |
level |
Het waarschuwingsniveau. Mogelijke waarden zijn:
|
maturity_level |
De stabiliteit van het gebeurtenisschema. Mogelijke waarden zijn:
Het wordt niet aanbevolen om bewaking of waarschuwingen te bouwen gebaseerd op EVOLVING of DEPRECATED velden. |
error |
Als er een fout is opgetreden, worden de details beschreven die de fout beschrijven. |
details |
Een JSON-tekenreeks met gestructureerde details van de gebeurtenis. Dit is het primaire veld dat wordt gebruikt voor het analyseren van gebeurtenissen. De JSON-tekenreeksindeling is afhankelijk van de event_type. Zie het detailobject voor meer informatie. |
event_type |
Het gebeurtenistype. Zie het detailobject voor een lijst met gebeurtenistypen en het objecttype details dat ze maken. |
Het detailobject
Elke gebeurtenis heeft verschillende details eigenschappen in het JSON-object, op basis van de event_type gebeurtenis. In deze tabel worden de event_type en de bijbehorende details vermeld. De details eigenschappen worden beschreven in de sectie Detailstypen .
Detailstype op event_type |
Description |
|---|---|
create_update |
Legt de volledige configuratie vast die wordt gebruikt om een pijplijnupdate te starten. Bevat een configuratieset van Databricks. Zie Details voor create_update voor meer informatie. |
user_action |
Bevat details over elke gebruikersactie in de pijplijn (inclusief het maken van een pijplijn en het starten of annuleren van een update). Zie Details voor het user_action-gebeurtenis voor meer informatie. |
flow_progress |
Beschrijft de levenscyclus van een proces, beginnend bij starten en uitvoeren, totdat het voltooid of mislukt is. Voor meer informatie, zie details over het flow_progress event. |
update_progress |
Beschrijft de levenscyclus van een pijplijnupdate van het starten, uitvoeren, tot voltooid of mislukt. Zie voor details Details van de update_progress-evenement. |
flow_definition |
Definieert het schema en het queryplan voor transformaties die in een bepaalde stroom plaatsvinden. Kan worden beschouwd als de randen van de Dataflow-DAG. Het kan worden gebruikt om de herkomst voor elke stroom te berekenen en om het uitgelegde queryplan te bekijken. Zie voor meer informatie Details voor flow_definition gebeurtenis. |
dataset_definition |
Hiermee definieert u een gegevensset, die de bron of het doel voor een bepaalde stroom is. Zie voor meer informatie Details voor dataset_definition gebeurtenis. |
sink_definition |
Definieert een bepaalde sink. Zie voor meer informatie Details voor gebeurtenis sink_definition. |
deprecation |
Hier vindt u een lijst met functies die binnenkort of momenteel verouderd zijn en door deze pijplijn worden gebruikt. Zie Details enum voor deprecatie-evenement voor voorbeelden van de waarden. |
cluster_resources |
Bevat informatie over clusterresources voor pijplijnen die worden uitgevoerd op klassieke berekeningen. Deze metrische gegevens worden alleen ingevuld voor klassieke rekenpijplijnen. Zie voor meer informatie Details van de cluster_resources-gebeurtenis. |
autoscale |
Bevat informatie over autoschaling voor pijplijnen die worden uitgevoerd op klassieke rekenkracht. Deze metrische gegevens worden alleen ingevuld voor klassieke rekenpijplijnen. Zie Details voor gebeurtenis voor automatisch schalen voor meer informatie. |
planning_information |
Vertegenwoordigt planningsinformatie met betrekking tot gematerialiseerde weergave incrementele vs. volledige vernieuwing. Kan worden gebruikt om meer informatie te krijgen over waarom een gerealiseerde weergave volledig opnieuw wordt gecomputeerd. Zie Details van de planning_informatie-gebeurtenis voor meer informatie. |
hook_progress |
Een gebeurtenis om de huidige status van een gebruikershook aan te geven tijdens de pijplijnuitvoering. Wordt gebruikt voor het bewaken van de status van gebeurtenishooks, bijvoorbeeld om te verzenden naar externe observatieproducten. Zie voor meer informatie Details van de hook_progress gebeurtenis. |
operation_progress |
Bevat informatie over de voortgang van een bewerking. Zie voor meer informatie Details voor de operation_progress-gebeurtenis. |
stream_progress |
Bevat informatie over de voortgang van een pijplijn. Zie Details voor het stream_progress-evenement voor meer informatie. |
Detailstypen
De volgende objecten vertegenwoordigen het details van een ander gebeurtenistype in het PipelineEvent object.
Details voor create_update
De details voor het create_update evenement.
| Veld | Description |
|---|---|
dbr_version |
De versie van Databricks Runtime. |
run_as |
De gebruikers-id ten behoeve waarvan de update wordt uitgevoerd. Dit is doorgaans de eigenaar van de pijplijn of een service-principal. |
cause |
De reden voor de update. Ofwel JOB_TASK als het wordt uitgevoerd vanuit een taak, of USER_ACTION wanneer het interactief wordt uitgevoerd door een gebruiker. |
Gegevens voor gebruikersactie gebeurtenis
De details voor het user_action evenement. Bevat de volgende velden:
| Veld | Description |
|---|---|
user_name |
De naam van de gebruiker die een pijplijnupdate heeft geactiveerd. |
user_id |
De id van de gebruiker die een pijplijnupdate heeft geactiveerd. Dit is niet altijd hetzelfde als de run_as gebruiker, die een service-principal of een andere gebruiker kan zijn. |
action |
De actie die de gebruiker heeft ondernomen, inclusief START en CREATE. |
Details voor flow_progress gebeurtenis
De details voor een flow_progress gebeurtenis.
| Veld | Description |
|---|---|
status |
De nieuwe status van de stroom. Dit kan een van de volgende zijn:
|
metrics |
Metrische gegevens over de stroom. Zie FlowMetrics voor meer informatie. |
data_quality |
Kwaliteitsstatistieken van de datastroom en de bijbehorende verwachtingen. Zie DataQualityMetrics voor meer informatie. |
Details voor "update_progress" gebeurtenis
De details voor een update_progress gebeurtenis.
| Veld | Description |
|---|---|
state |
De nieuwe status van de update. Dit kan een van de volgende zijn:
Handig voor het berekenen van de duur van verschillende fasen van een pijplijnupdate, bijvoorbeeld van de totale duur tot aan de tijd besteed aan het wachten op middelen. |
cancellation_cause |
De reden waarom een update de CANCELED status heeft ingevoerd. Bevat redenen zoals USER_ACTION of WORKFLOW_CANCELLATION (de werkstroom die de update heeft geactiveerd, is geannuleerd). |
Details voor flow_definition gebeurtenis
De details voor een flow_definition gebeurtenis.
| Veld | Description |
|---|---|
input_datasets |
De invoer die door deze stroom wordt gelezen. |
output_dataset |
De uitvoergegevensset waar deze flow naar schrijft. |
output_sink |
De uitvoersink waar deze stroom naar schrijft. |
explain_text |
Het uitgewerkte query-plan. |
schema_json |
Spark SQL JSON-schematekenreeks. |
schema |
Schema van deze stroom. |
flow_type |
Het type van stroom. Dit kan een van de volgende zijn:
|
comment |
Opmerking of beschrijving van de gebruiker over de gegevensset. |
spark_conf |
Spark-configuraties zijn ingesteld voor deze verwerkingsstroom. |
language |
De taal die wordt gebruikt om deze workflow te maken. De waarde kan SCALA, PYTHONof SQL zijn. |
once |
Of deze stroom is gedeclareerd om eenmaal te worden uitgevoerd. |
Details voor dataset_definition gebeurtenis
De details voor een dataset_definition gebeurtenis. Bevat de volgende velden:
| Veld | Description |
|---|---|
dataset_type |
Maakt onderscheid tussen gerealiseerde weergaven en streaming-tabellen. |
num_flows |
Het aantal stromen dat naar de dataset wordt geschreven. |
expectations |
De verwachtingen die zijn gekoppeld aan de gegevensset. |
Details voor sink_definition gebeurtenis
De details voor een sink_definition gebeurtenis.
| Veld | Description |
|---|---|
format |
De indeling van de sink. |
options |
De sleutelwaardeopties die aan de sink zijn gekoppeld. |
Details enum voor verouderingsgebeurtenis
De deprecation gebeurtenis heeft een message veld. De mogelijke waarden voor de message zijn als volgt. Dit is een gedeeltelijke lijst die na verloop van tijd groeit.
| Veld | Description |
|---|---|
TABLE_MANAGED_BY_MULTIPLE_PIPELINES |
Een tabel wordt beheerd door meerdere pijplijnen. |
INVALID_CLUSTER_LABELS |
Clusterlabels gebruiken die niet worden ondersteund. |
PINNED_DBR_VERSION |
Gebruiken dbr_version in plaats van channel in pijplijninstellingen. |
PREVIOUS_CHANNEL_USED |
Het releasekanaal PREVIOUSgebruiken, wat in een toekomstige release kan verdwijnen. |
LONG_DATASET_NAME |
Een gegevenssetnaam gebruiken die langer is dan de ondersteunde lengte. |
LONG_SINK_NAME |
Een sinknaam gebruiken die langer is dan de ondersteunde lengte. |
LONG_FLOW_NAME |
Een stroomnaam gebruiken die langer is dan de ondersteunde lengte. |
ENHANCED_AUTOSCALING_POLICY_COMPLIANCE |
Clusterbeleid voldoet alleen wanneer verbeterde automatische schaalaanpassing een vaste clustergrootte gebruikt. |
DATA_SAMPLE_CONFIGURATION_KEY |
Het gebruik van de configuratiesleutel voor het configureren van gegevenssampling is afgeschaft. |
INCOMPATIBLE_CLUSTER_SETTINGS |
Huidige clusterinstellingen of clusterbeleid zijn niet langer compatibel met declaratieve Pijplijnen van Lakeflow Spark. |
STREAMING_READER_OPTIONS_DROPPED |
Streaminglezeropties gebruiken die worden verwijderd. |
DISALLOWED_SERVERLESS_STATIC_SPARK_CONFIG |
Het instellen van statische Spark-configuraties via pijplijnconfiguratie voor serverloze pijplijnen is niet toegestaan. |
INVALID_SERVERLESS_PIPELINE_CONFIG |
Serverloze klant biedt een ongeldige pijplijnconfiguratie. |
UNUSED_EXPLICIT_PATH_ON_UC_MANAGED_TABLE |
Ongebruikte expliciete tabelpaden opgeven voor door UC beheerde tabellen. |
FOREACH_BATCH_FUNCTION_NOT_SERIALIZABLE |
De opgegeven foreachBatch-functie is niet serialiseerbaar. |
DROP_PARTITION_COLS_NO_PARTITIONING |
Het verwijderen van het kenmerk partition_cols resulteert in geen partitionering. |
PYTHON_CREATE_TABLE |
Gebruiken @dlt.create\_table in plaats van @dp.table of @dp.materialized\_view. |
PYTHON_CREATE_VIEW |
Gebruiken @dlt.create\_view in plaats van @dp.temporary\_view. |
PYTHON_CREATE_STREAMING_LIVE_TABLE |
Gebruiken create_streaming_live_table in plaats van create_streaming_table. |
PYTHON_CREATE_TARGET_TABLE |
Gebruiken create_target_table in plaats van create_streaming_table. |
FOREIGN_KEY_TABLE_CONSTRAINT_CYCLE |
Een set tabellen die door een pijplijn wordt beheerd, heeft een cyclus in de set met beperkingen voor externe sleutels. |
PARTIALLY_QUALIFIED_TABLE_REFERENCE_INCOMPATIBLE_WITH_DEFAULT_PUBLISHING_MODE |
Een gedeeltelijk gekwalificeerde tabelreferentie met verschillende betekenissen in de standaardpublicatiemodus en de verouderde publicatiemodus. |
Details voor cluster_resources evenement
De details voor een cluster_resources gebeurtenis. Alleen van toepassing op pipelines die worden uitgevoerd op een klassieke compute-omgeving.
| Veld | Description |
|---|---|
task_slot_metrics |
De taakslotmetriek van het cluster. Zie TaskSlotMetrics-object voor meer informatie |
autoscale_info |
De status van automatische schaalaanpassingen. Zie Het object AutoscaleInfo voor meer informatie |
Details voor gebeurtenis voor automatisch schalen
De details voor een autoscale gebeurtenis. Gebeurtenissen voor automatisch schalen zijn alleen van toepassing wanneer de pijplijn gebruikmaakt van klassieke berekeningen.
| Veld | Description |
|---|---|
status |
Status van deze gebeurtenis. Dit kan een van de volgende zijn:
|
optimal_num_executors |
Het optimale aantal uitvoerders dat door het algoritme wordt voorgesteld voordat de grenzen min_workers en max_workers worden toegepast. |
requested_num_executors |
Het aantal uitvoerders na het beperken van het optimale aantal uitvoerders dat door het algoritme is aangepast aan de grenzen van min_workers en max_workers. |
Details voor planning_information gebeurtenis
De details voor een planning_information gebeurtenis. Handig voor het weergeven van details met betrekking tot het gekozen vernieuwingstype voor een bepaalde stroom tijdens een update. Kan worden gebruikt om te achterhalen waarom een update volledig wordt vernieuwd in plaats van incrementeel worden vernieuwd. Zie Incrementeel vernieuwen voor gerealiseerde weergaven voor meer informatie over incrementele vernieuwingen
| Veld | Description |
|---|---|
technique_information |
Informatie over vernieuwen. Het bevat zowel informatie over de gekozen vernieuwingsmethodologie als de mogelijke vernieuwingsmethoden die werden overwogen. Handig voor het opsporen van fouten waarom een gematerialiseerde weergave niet incrementeel kan worden bijgewerkt. Zie TechniqueInformation voor meer informatie. |
source_table_information |
Brontabelgegevens. Dit kan handig zijn voor de foutopsporing van de reden waarom een gematerialiseerde weergave niet kon worden geïncrementaliseerd. Zie TableInformation-object voor meer informatie. |
target_table_information |
Doeltabelgegevens. Zie TableInformation-object voor meer informatie. |
Details voor hook_progress evenement
De details van een hook_progress gebeurtenis. Bevat de volgende velden:
| Veld | Description |
|---|---|
name |
De naam van de user hook. |
status |
De status van de gebruikerskoppeling. |
Details voor het operation_progress evenement
De details van een operation_progress gebeurtenis. Bevat de volgende velden:
| Veld | Description |
|---|---|
type |
Het type bewerking dat wordt bijgehouden. Een van de volgende:
|
status |
De status van de operatie. Een van de volgende:
|
duration_ms |
De totale verstreken tijd van de bewerking in milliseconden. Alleen opgenomen in de eindgebeurtenis (waarbij de status is COMPLETED, CANCELEDof FAILED). |
Details voor stream_progress gebeurtenis
De details van een stream_progress gebeurtenis. Bevat het volgende veld:
Verschillen tussen metrische gegevens van stream_progress objecten StreamingQueryListener :
- De volgende metrische gegevens zijn aanwezig in
StreamingQueryListener, maar niet instream_progress:numInputRows,inputRowsPerSecondenprocessedRowsPerSecond. - Voor Kafka- en Kineses-stromen kunnen de
startOffset,endOffsetenlatestOffsetvelden te groot zijn en afgekapt zijn. Voor elk van deze velden wordt een extra...Truncatedveld,startOffsetTruncated,endOffsetTruncatedenlatestOffsetTruncated, toegevoegd met een Booleaanse waarde om te bepalen of de gegevens worden afgekapt.
Andere objecten
De volgende objecten vertegenwoordigen aanvullende gegevens of opsommingen binnen de gebeurtenisobjecten.
AutoscaleInfo-object
De metrische gegevens voor automatisch schalen voor een cluster. Alleen van toepassing op pipelines die worden uitgevoerd op een klassieke compute-omgeving.
| Veld | Description |
|---|---|
state |
De status van Autoscaling. Dit kan een van de volgende zijn:
|
optimal_num_executors |
Het optimale aantal uitvoerders. Dit is de optimale grootte die door het algoritme wordt voorgesteld voordat deze wordt afgekapt door de door de gebruiker opgegeven min/max aantal uitvoerders. |
latest_requested_num_executors |
Het aantal uitvoerders dat is aangevraagd bij de clusterbeheerder door de statusbeheerder in de meest recente aanvraag. Dit is het aantal uitvoerders waarmee de statusbeheerder probeert te schalen en wordt bijgewerkt wanneer de statusbeheerder de schaalstatus probeert af te sluiten in het geval van time-outs. Dit veld wordt niet ingevuld als er geen aanvraag in behandeling is. |
request_pending_seconds |
De tijdsduur waarop de schaalaanvraag in behandeling is. Dit wordt niet ingevuld als er geen aanvraag in behandeling is. |
CostModelRejectionSubType-object
Een opsomming van de redenen waarom incrementalisatie wordt geweigerd, op basis van de kosten van volledig vernieuwen versus incrementeel vernieuwen in een planning_information gebeurtenis.
| Waarde | Description |
|---|---|
NUM_JOINS_THRESHOLD_EXCEEDED |
Volledig vernieuwen omdat de query te veel joins bevat. |
CHANGESET_SIZE_THRESHOLD_EXCEEDED |
Volledig vernieuwen omdat er te veel rijen in de basistabellen zijn gewijzigd. |
TABLE_SIZE_THRESHOLD_EXCEEDED |
Volledig vernieuwen omdat de grootte van de basistabel de drempelwaarde heeft overschreden. |
EXCESSIVE_OPERATOR_NESTING |
Volledig vernieuwen omdat de querydefinitie complex is en veel niveaus van geneste operators bevat. |
COST_MODEL_REJECTION_SUB_TYPE_UNSPECIFIED |
Volledig vernieuwen om welke andere reden dan ook. |
DataQualityMetrics-object
Metrische gegevens over hoe wordt voldaan aan de verwachtingen binnen de stroom. Wordt gebruikt in de details van een flow_progress gebeurtenis.
| Veld | Description |
|---|---|
dropped_records |
Het aantal records dat is verwijderd omdat er een of meer verwachtingen zijn mislukt. |
expectations |
KPI's voor verwachtingen die zijn toegevoegd aan een gegevensset in het queryplan van de flow. Wanneer er meerdere verwachtingen zijn, kan dit worden gebruikt om bij te houden welke verwachtingen zijn voldaan of mislukt. Zie het Object ExpectationMetrics voor meer informatie. |
ExpectationMetrics-object
Metrische gegevens over verwachtingen, voor een specifieke verwachting.
| Veld | Description |
|---|---|
name |
De naam van de verwachting. |
dataset |
De naam van de gegevensset waaraan de verwachting is toegevoegd. |
passed_records |
Het aantal records dat aan de verwachting voldoen. |
failed_records |
Het aantal records dat niet aan de verwachtingen voldoet. Hiermee wordt bijgehouden of aan de verwachting is voldaan, maar niet wordt beschreven wat er met de records gebeurt (waarschuwen, mislukken of de records verwijderen). |
FlowMetrics-object
Statistieken over het verkeer, inclusief zowel het totaal voor het verkeer als uitgesplitst per specifieke bron. Wordt gebruikt in de details van een flow_progress gebeurtenis.
Elke streamingbron ondersteunt alleen specifieke metrische stroomgegevens. In de volgende tabel ziet u de metrische gegevens die beschikbaar zijn voor ondersteunde streamingbronnen:
| source | achterstandsbytes | achterstandsoverzicht | wachttijd seconden | achterstandsbestanden |
|---|---|---|---|---|
| Kafka | ✓ | ✓ | ||
| Kinesis | ✓ | ✓ | ||
| Delta | ✓ | ✓ | ||
| Automatische lader | ✓ | ✓ | ||
| Google Pub/Sub (een berichten- en gebeurtenissenservice van Google) | ✓ | ✓ |
| Veld | Description |
|---|---|
num_output_rows |
Het aantal uitvoerrijen dat is geschreven door een update van deze workflow. |
backlog_bytes |
Totale achterstand aan bytes voor alle invoerbronnen in de gegevensstroom. |
backlog_records |
Totaal aantal achterstallige records voor alle inputbronnen in de workflow. |
backlog_files |
Totale achterstandsbestanden voor alle invoerbronnen in de stroom. |
backlog_seconds |
Maximale wachttijd in seconden voor alle invoerbronnen in de gegevensstroom. |
executor_time_ms |
Som van alle uitvoeringstijden van taken in milliseconden van deze stroom gedurende de rapportageperiode. |
executor_cpu_time_ms |
Som van alle CPU-tijden voor taakuitvoering in milliseconden van deze stroom gedurende de rapportageperiode. |
num_upserted_rows |
Het aantal uitvoerrijen dat in de gegevensset is ingevoegd of bijgewerkt door een update van deze flow. |
num_deleted_rows |
Het aantal bestaande uitvoerrijen dat uit de gegevensset is verwijderd door een update van deze stroom. |
num_output_bytes |
Het aantal uitvoerbytes dat is geschreven door een update van deze datastroom. |
source_metrics |
Metrische gegevens voor elke invoerbron in de stroom. Handig voor het bewaken van de verwerkingsvoortgang van bronnen buiten de declaratieve pijplijnen van Lakeflow Spark (zoals Apache Kafka, Pulsar of Auto Loader). Bevat de velden:
|
IncrementalizationIssue-object
Vertegenwoordigt problemen met incrementeel maken die een volledige vernieuwing kunnen veroorzaken bij het plannen van een update.
| Veld | Description |
|---|---|
issue_type |
Een probleemtype dat kan voorkomen dat de gerealiseerde weergave incrementeel wordt. Zie Probleemtype voor meer informatie. |
prevent_incrementalization |
Of dit probleem heeft voorkomen dat de incrementalisatie plaatsvindt. |
table_information |
Tabelgegevens die zijn gekoppeld aan problemen zoals CDF_UNAVAILABLE, INPUT_NOT_IN_DELTA, DATA_FILE_MISSING. |
operator_name |
Plangerelateerde informatie. Instellen voor kwesties wanneer het probleemtype de PLAN_NOT_DETERMINISTIC of PLAN_NOT_INCREMENTALIZABLE operator of expressie is die het niet-determinisme of de niet-incrementeerbaarheid veroorzaakt. |
expression_name |
De expressienaam. |
join_type |
Hulpinformatie wanneer de operator een join is. Een voorbeeld hiervan is JOIN_TYPE_LEFT_OUTER of JOIN_TYPE_INNER. |
plan_not_incrementalizable_sub_type |
Gedetailleerde categorie wanneer het probleemtype is PLAN_NOT_INCREMENTALIZABLE. Zie het object PlanNotIncrementalizableSubType voor meer informatie. |
plan_not_deterministic_sub_type |
Gedetailleerde categorie wanneer het probleemtype is PLAN_NOT_DETERMINISTIC. Zie PlanNotDeterministicSubType object voor meer informatie. |
fingerprint_diff_before |
Het verschil van de vingerafdruk van tevoren. |
fingerprint_diff_current |
De verschillen van de huidige vingerafdruk. |
cost_model_rejection_subtype |
Gedetailleerde categorie wanneer het probleemtype is INCREMENTAL_PLAN_REJECTED_BY_COST_MODEL. Zie het object CostModelRejectionSubType voor meer informatie. |
IssueType-object
Een opsomming van probleemtypen die een volledige vernieuwing kunnen veroorzaken.
| Waarde | Description |
|---|---|
CDF_UNAVAILABLE |
CDF (Change Data Feed) is niet ingeschakeld voor sommige basistabellen. Het table_information veld bevat informatie over de tabel waarvoor CDF niet is ingeschakeld. Gebruik ALTER TABLE <table-name> SET TBLPROPERTIES ( 'delta.enableChangeDataFeed' = true) dit om CDF in te schakelen voor de basistabel. Als de brontabel een gerealiseerde weergave is, moet CDF standaard worden ingesteld op ON . |
DELTA_PROTOCOL_CHANGED |
Volledig vernieuwen omdat sommige basistabellen (details in het veld) een wijziging in het table_information Delta-protocol hadden. |
DATA_SCHEMA_CHANGED |
Volledig vernieuwen omdat sommige basistabellen (details in het table_information veld) een gegevensschemawijziging hadden in de kolommen die door de gerealiseerde weergavedefinitie worden gebruikt. Niet relevant als een kolom die de gerealiseerde weergave niet gebruikt, is gewijzigd of toegevoegd aan de basistabel. |
PARTITION_SCHEMA_CHANGED |
Volledig vernieuwen omdat sommige basistabellen (details in het table_information veld) een partitieschemawijziging hadden. |
INPUT_NOT_IN_DELTA |
Volledig vernieuwen omdat de gerealiseerde weergavedefinitie enige niet-Delta-invoer omvat. |
DATA_FILE_MISSING |
Volledig vernieuwen omdat sommige basistabelbestanden al zijn leeggezogen vanwege de bewaarperiode. |
PLAN_NOT_DETERMINISTIC |
Volledig vernieuwen omdat sommige operators of expressies in de gerealiseerde weergavedefinitie niet deterministisch zijn. De operator_name velden en expression_name velden geven informatie over welke operator of expressie het probleem heeft veroorzaakt. |
PLAN_NOT_INCREMENTALIZABLE |
Volledig vernieuwen omdat sommige operators of expressies in de gerealiseerde weergavedefinitie niet incrementeel kunnen worden uitgevoerd. |
SERIALIZATION_VERSION_CHANGED |
Volledige vernieuwing vanwege een significante wijziging in de query fingerprinting logica. |
QUERY_FINGERPRINT_CHANGED |
Volledig vernieuwen omdat de definitie van de gematerialiseerde weergave is gewijzigd, of omdat declaratieve pijplijnen van Lakeflow Spark een wijziging in de query-evaluatieplannen hebben veroorzaakt. |
CONFIGURATION_CHANGED |
Volledig vernieuwen omdat sleutelconfiguraties (bijvoorbeeld spark.sql.ansi.enabled) die van invloed kunnen zijn op de evaluatie van query's zijn gewijzigd. Volledige recomputing is vereist om inconsistente statussen in de gerealiseerde weergave te voorkomen. |
CHANGE_SET_MISSING |
Volledig vernieuwen omdat dit de eerste berekening is van de gerealiseerde weergave. Dit is het verwachte gedrag voor de aanvankelijke materialized view-berekening. |
EXPECTATIONS_NOT_SUPPORTED |
Volledig vernieuwen omdat de gerealiseerde weergavedefinitie verwachtingen bevat, die niet worden ondersteund voor incrementele updates. Verwijder verwachtingen of verwerk ze buiten de gerealiseerde weergavedefinitie als incrementele ondersteuning nodig is. |
TOO_MANY_FILE_ACTIONS |
Volledig vernieuwen omdat het aantal bestandsacties de drempelwaarde voor incrementele verwerking heeft overschreden. Overweeg het reduceren van veranderingen in bestanden in basistabellen of het verhogen van de drempelwaarden. |
INCREMENTAL_PLAN_REJECTED_BY_COST_MODEL |
Volledig vernieuwen omdat het kostenmodel heeft vastgesteld dat een volledige vernieuwing efficiënter is dan incrementeel onderhoud. Bekijk het gedrag van het kostenmodel of de complexiteit van het queryplan om incrementele updates mogelijk te maken. |
ROW_TRACKING_NOT_ENABLED |
Volledig vernieuwen omdat het bijhouden van rijen niet is ingeschakeld voor een of meer basistabellen. Rijvolgsysteem inschakelen met behulp van ALTER TABLE <table-name> SET TBLPROPERTIES ('delta.enableRowTracking' = true). |
TOO_MANY_PARTITIONS_CHANGED |
Volledig vernieuwen omdat er te veel partities zijn gewijzigd in de basistabellen. Probeer het aantal partitiewijzigingen te beperken om binnen incrementele verwerkingslimieten te blijven. |
MAP_TYPE_NOT_SUPPORTED |
Volledig vernieuwen omdat de gerealiseerde weergavedefinitie een kaarttype bevat, dat niet wordt ondersteund voor incrementele updates. Overweeg de gegevens te herstructureren om kaarttypen in de gerealiseerde weergave te voorkomen. |
TIME_ZONE_CHANGED |
Volledig vernieuwen omdat de instelling voor de sessie of systeemtijdzone is gewijzigd. |
DATA_HAS_CHANGED |
Volledig vernieuwen omdat de gegevens die relevant zijn voor de gerealiseerde weergave zijn gewijzigd op een manier die incrementele updates voorkomt. Evalueer de gegevenswijzigingen en structuur van de weergavedefinitie om compatibiliteit met incrementele logica te garanderen. |
PRIOR_TIMESTAMP_MISSING |
Volledig vernieuwen omdat de tijdstempel van de laatste geslaagde uitvoering ontbreekt. Dit kan gebeuren na verlies van metagegevens of handmatige interventie. |
MaintenanceType-object
Een opsomming van onderhoudstypen die tijdens een planning_information gebeurtenis kunnen worden gekozen. Als het type niet MAINTENANCE_TYPE_COMPLETE_RECOMPUTE is of MAINTENANCE_TYPE_NO_OP, is het type een incrementele vernieuwing.
| Waarde | Description |
|---|---|
MAINTENANCE_TYPE_COMPLETE_RECOMPUTE |
Volledige hercomputing; altijd weergegeven. |
MAINTENANCE_TYPE_NO_OP |
Wanneer basistabellen niet worden gewijzigd. |
MAINTENANCE_TYPE_PARTITION_OVERWRITE |
Incrementeel verfrissen van betrokken partities wanneer de materialized view samen gepartitioneerd is met een van de brontabellen. |
MAINTENANCE_TYPE_ROW_BASED |
Incrementeel vernieuwen door modulaire wijzigingensets te maken voor verschillende bewerkingen, zoals JOIN, FILTERen UNION ALL, ze op te stellen om complexe query's te berekenen. Gebruikt wanneer het bijhouden van rijen voor de brontabellen is ingeschakeld, en er een beperkt aantal joins voor de query is. |
MAINTENANCE_TYPE_APPEND_ONLY |
Incrementeel bijwerken door alleen nieuwe rijen te berekenen omdat er geen updates, invoegingen of verwijderingen in de brontabellen zijn geweest. |
MAINTENANCE_TYPE_GROUP_AGGREGATE |
Incrementeel vernieuwen door wijzigingen voor elke geaggregeerde waarde te berekenen. Wordt gebruikt bij associatieve aggregaties, zoals count, sum, meanen stddev, bevinden zich op het hoogste niveau van de query. |
MAINTENANCE_TYPE_GENERIC_AGGREGATE |
Incrementeel vernieuwen door alleen de betrokken statistische groepen te berekenen. Wordt gebruikt wanneer aggregaties zoals median (niet alleen associatieve) zich op het hoogste niveau van de query bevinden. |
MAINTENANCE_TYPE_WINDOW_FUNCTION |
Incrementieel vernieuwen van query's met vensterfuncties zoals PARTITION BY door alleen de gewijzigde partities opnieuw te berekenen. Wordt gebruikt wanneer alle vensterfuncties een PARTITION BY of JOIN component hebben en zich op het hoogste niveau van de query bevinden. |
Oorsprongobject
Waar de gebeurtenis vandaan komt.
| Veld | Description |
|---|---|
cloud |
De cloudprovider. Mogelijke waarden zijn:
|
region |
De cloudregio. |
org_id |
De organisatie-id of werkruimte-id van de gebruiker. Uniek binnen een cloud. Handig om de werkruimte te identificeren of samen te voegen met andere tabellen, zoals systeemfactureringstabellen. |
pipeline_id |
De ID van de pijplijn. Een unieke id voor de pijplijn. Handig om de pijplijn te identificeren of om samen te voegen met andere tabellen, zoals systeemfactureringstabellen. |
pipeline_type |
Het type pijplijn om weer te geven waar de pijplijn is gemaakt. Mogelijke waarden zijn:
|
pipeline_name |
De naam van de pijplijn. |
cluster_id |
De id van het cluster waar een uitvoering plaatsvindt. Wereldwijd uniek. |
update_id |
De ID van één uitvoering van de pijplijn. Dit komt overeen met de run-ID. |
table_name |
De naam van de (Delta)-tabel waarnaar wordt geschreven. |
dataset_name |
De volledig gekwalificeerde naam van een gegevensset. |
sink_name |
De naam van een sink. |
flow_id |
De id van de stroom. Hiermee wordt de status bijgehouden van de stroom die wordt gebruikt voor meerdere updates. Zolang de flow_id flow hetzelfde is, wordt de flow incrementeel ververst. De gematerialiseerde weergave flow_id verandert wanneer de gematerialiseerde weergave volledig wordt vernieuwd, het controlepunt reset of er een volledige hercomputatie plaatsvindt binnen de gematerialiseerde weergave. |
flow_name |
De naam van de stroom. |
batch_id |
De id van een microbatch. Uniek binnen een stroom. |
request_id |
De id van de aanvraag die een update heeft veroorzaakt. |
PlanNotDeterministicSubType-object
Een opsomming van niet-deterministische gevallen voor een planning_information gebeurtenis.
| Waarde | Description |
|---|---|
STREAMING_SOURCE |
Volledig vernieuwen omdat de gerealiseerde weergavedefinitie een streamingbron bevat, die niet wordt ondersteund. |
USER_DEFINED_FUNCTION |
Volledig vernieuwen omdat de gerealiseerde weergave een niet-ondersteunde door de gebruiker gedefinieerde functie bevat. Alleen deterministische Python UDF's worden ondersteund. Andere UDFs kunnen incrementele updates voorkomen. |
TIME_FUNCTION |
Volledig vernieuwen omdat de gerealiseerde weergave een functie op basis van tijd bevat, zoals CURRENT_DATE of CURRENT_TIMESTAMP. De expression_name eigenschap bevat de naam van de niet-ondersteunde functie. |
NON_DETERMINISTIC_EXPRESSION |
Volledig vernieuwen omdat de query een niet-deterministische expressie bevat, zoals RANDOM(). De expression_name eigenschap geeft de niet-deterministische functie aan die incrementeel onderhoud voorkomt. |
PlanNotIncrementalizableSubType-object
Een opsomming van de redenen waarom een updateplan mogelijk niet incrementeel kan worden uitgevoerd.
| Waarde | Description |
|---|---|
OPERATOR_NOT_SUPPORTED |
Volledig vernieuwen omdat het queryplan een niet-ondersteunde operator bevat. De operator_name eigenschap bevat de naam van de niet-ondersteunde operator. |
AGGREGATE_NOT_TOP_NODE |
Volledig herladen omdat een aggregatieoperator (GROUP BY) zich niet op het hoogste niveau van het queryplan bevindt. Incrementeel onderhoud ondersteunt alleen aggregaties op het hoogste niveau. Overweeg twee gerealiseerde weergaven te definiëren om de aggregatie te scheiden. |
AGGREGATE_WITH_DISTINCT |
Volledig vernieuwen omdat de aggregatie een DISTINCT component bevat, die niet wordt ondersteund voor incrementele updates. |
AGGREGATE_WITH_UNSUPPORTED_EXPRESSION |
Volledig vernieuwen omdat de aggregatie niet-ondersteunde expressies bevat. De expression_name eigenschap geeft de problematische expressie aan. |
SUBQUERY_EXPRESSION |
Volledig vernieuwen omdat de gerealiseerde weergavedefinitie een subquery-expressie bevat, die niet wordt ondersteund. |
WINDOW_FUNCTION_NOT_TOP_LEVEL |
Volledig vernieuwen omdat een vensterfunctie zich niet op het hoogste niveau van het queryplan bevindt. |
WINDOW_FUNCTION_WITHOUT_PARTITION_BY |
Volledig vernieuwen omdat een vensterfunctie is gedefinieerd zonder een PARTITION BY component. |
TableInformation-object
Vertegenwoordigt details van een tabel die tijdens een planning_information gebeurtenis wordt overwogen.
| Veld | Description |
|---|---|
table_name |
Tabelnaam die wordt gebruikt in de query uit Unity Catalog of Hive-metastore. Mogelijk niet beschikbaar bij padgebaseerde toegang. |
table_id |
Verplicht. Tabel-id uit het Delta-logboek. |
catalog_table_type |
Type van de tabel zoals opgegeven in de catalogus. |
partition_columns |
Partitiekolommen van de tabel. |
table_change_type |
Wijzig het type in de tabel. Een van: TABLE_CHANGE_TYPE_UNKNOWN, TABLE_CHANGE_TYPE_APPEND_ONLY, TABLE_CHANGE_TYPE_GENERAL_CHANGE. |
full_size |
De volledige grootte van de tabel in het aantal bytes. |
change_size |
De grootte van de gewijzigde rijen in gewijzigde bestanden. Het wordt berekend met behulp van change_file_read_size * num_changed_rows / num_rows_in_changed_files. |
num_changed_partitions |
Aantal gewijzigde partities. |
is_size_after_pruning |
Worden full_size en change_size als gegevens na het verwijderen van statische bestanden beschouwd? |
is_row_id_enabled |
Of rij-id is ingeschakeld in de tabel. |
is_cdf_enabled |
Of CDF is ingeschakeld voor de tabel. |
is_deletion_vector_enabled |
Of de verwijderingsvector is ingeschakeld in de tabel. |
is_change_from_legacy_cdf |
Of de tabelwijziging afkomstig is van legacy CDF of van rij-ID-gebaseerde CDF. |
TaskSlotMetrics-object
De metrics van de taakslot voor een cluster. Alleen van toepassing op pijplijnupdates die worden uitgevoerd op klassieke berekeningen.
| Veld | Description |
|---|---|
summary_duration_ms |
De duur in milliseconden waarover de samengestelde metrische maten (bijvoorbeeld avg_num_task_slots) worden berekend. |
num_task_slots |
Het aantal Spark-taakslots op het moment van rapportage. |
avg_num_task_slots |
Het gemiddelde aantal Spark-taakslots gedurende de samenvattingsduur. |
avg_task_slot_utilization |
Het gemiddelde gebruik van de taaksite (aantal actieve taken gedeeld door het aantal taaksites) gedurende de samenvattingsduur. |
num_executors |
Het aantal Spark-uitvoerders op het moment van rapportage. |
avg_num_queued_tasks |
De gemiddelde grootte van de taakwachtrij (het aantal totale taken minus het aantal actieve taken) gedurende de samenvattingsduur. |
TechniqueInformationobject
Informatie over methodologie vernieuwen voor een planningsevenement.
| Veld | Description |
|---|---|
maintenance_type |
Onderhoudstype met betrekking tot dit stukje informatie. Als het type niet MAINTENANCE_TYPE_COMPLETE_RECOMPUTE of MAINTENANCE_TYPE_NO_OP is, wordt de stroom geleidelijk vernieuwd.Zie het MaintenanceType-object voor meer informatie. |
is_chosen |
Waar voor de techniek die is gekozen voor de vernieuwing. |
is_applicable |
Of het onderhoudstype van toepassing is. |
incrementalization_issues |
Problemen met incrementalisatie die ertoe kunnen leiden dat een update volledig opnieuw wordt uitgevoerd. Zie het object IncrementalizationIssue voor meer informatie. |
change_set_information |
Informatie over de uiteindelijke geproduceerde wijzigingsset. Waarden zijn een van de volgende:
|