Delen via


Incrementeel vernieuwen voor Data Lake Storage-gegevensbronnen

Incrementeel vernieuwen voor gegevensbronnen op basis van Azure Data Lake Storage biedt de volgende voordelen:

  • Sneller vernieuwingen: alleen gewijzigde gegevens worden vernieuwd. U kunt bijvoorbeeld alleen de gegevens van de afgelopen vijf dagen van een historische gegevensset vernieuwen.
  • Verhoogde betrouwbaarheid: met kleinere vernieuwingen hoeft u niet zo lang verbindingen met vluchtige bronsystemen te onderhouden, waardoor het risico op verbindingsproblemen afneemt.
  • Verminderd verbruik van resources: door slechts een subset van uw totale gegevens te vernieuwen, worden uw computerresources efficiënter gebruikt en wordt de ecologische voetafdruk kleiner.

Incrementeel vernieuwen configureren voor Azure Data Lake Storage-gegevensbronnen

Microsoft raadt de Delta Lake-indeling aan om de beste prestaties en resultaten te verkrijgen bij het werken met grote gegevenssets. Customer Insights - Data biedt een connector die is geoptimaliseerd voor gegevens in Delta Lake-indeling. Interne processen zoals unificatie zijn geoptimaliseerd om alleen de gewijzigde gegevens stapsgewijs te verwerken, wat resulteert in kortere verwerkingstijden.

Als u incrementele opname en vernieuwing voor een Data Lake-tabel wilt gebruiken, configureert u die tabel bij het toevoegen of bewerken van de Azure Data Lake-gegevensbron. De tabelgegevensmap moet de volgende mappen bevatten:

  • FullData: map met gegevensbestanden die initiële records bevatten
  • IncrementalData: map met datum/tijd-hiërarchiemappen in de indeling jjjj/mm/dd/uu die de incrementele updates bevat. De mappen voor jaar, maand, dag en uur zullen naar verwachting uit respectievelijk vier en twee cijfers bestaan. uu staat voor het uur (UTC) van de updates en bevat de mappen Upserts en Verwijderde items. Upserts bevat gegevensbestanden met updates van bestaande records of nieuwe records. Verwijderde items bevat gegevensbestanden met records die moeten worden verwijderd.

Volgorde van verwerking van incrementele gegevens

Het systeem verwerkt de bestanden in de map IncrementalDatanadat het opgegeven UTC-uur is verstreken. Als het systeem bijvoorbeeld op 21 januari 2023 om 08:15 uur begint met het verwerken van de incrementele vernieuwing, worden alle bestanden in de map 2023/01/21/07 (die gegevensbestanden vertegenwoordigen die zijn opgeslagen van 07:00 uur tot 08:00 uur) verwerkt. Alle bestanden in de map 2023/01/21/08 (die het huidige uur vertegenwoordigt waarop de bestanden nog steeds worden gegenereerd) worden pas bij de volgende run verwerkt.

Als er twee records zijn voor een primaire sleutel, gebruikt Customer Insights - Data bij upsert en delete de record met de laatste wijzigingsdatum. Als het verwijdertijdstempel bijvoorbeeld 2023-01-21T08:00:00 is en het upsert-tijdstempel 2023-01-21T08:30:00, wordt de upsert-record gebruikt. Als de verwijdering na de upsert heeft plaatsgevonden, gaat het systeem ervan uit dat de record is verwijderd.

De incrementele vernieuwing configureren voor Azure Data Lake-gegevensbronnen

  1. Wanneer u een gegevensbron toevoegt of bewerkt, navigeert u naar het deelvenster Kenmerken voor de tabel.

  2. Bekijk de kenmerken. Zorg ervoor dat een gemaakt of laatst bijgewerkt datumkenmerk is ingesteld met een gegevensindelingdateTime en als semantisch typeCalendar.Date. Bewerk het kenmerke indien nodig en selecteer Gereed.

  3. Bewerk de tabel in het deelvenster Tabellen selecteren. Het selectievakje Incremente opname is ingeschakeld.

    Configureer tabellen in een gegevensbron voor incrementeel vernieuwen.

    1. Blader naar de hoofdmap die de .csv- of .parquet-bestanden bevat voor volledige gegevens, incrementele gegevensupserts en incrementele gegevensverwijderingen.
    2. Voer de extensie in voor de volledige gegevens en beide incrementele bestanden (CSV of PARQUET).
    3. Voor .csv-bestanden selecteert u het kolomscheidingsteken en als u de eerste rij van het bestand als kolomkop wilt.
    4. Selecteer Save.
  4. Selecteer het datum-tijdstempelkenmerk bij Laatst bijgewerkt.

  5. Als de Primaire sleutel niet is geselecteerd, selecteert u de primaire sleutel. De primaire sleutel is een kenmerk dat uniek is voor de tabel. Als een kenmerk een geldige primaire sleutel is, mag het geen dubbele waarden, ontbrekende waarden of null-waarden bevatten. Kenmerken van het gegevenstype string, integer en GUID worden ondersteund als primaire sleutels.

  6. Selecteer Sluiten om het deelvenster op te slaan en te sluiten.

  7. Ga verder met het toevoegen of bewerken van de gegevensbron.

Een eenmalige volledige vernieuwing uitvoeren voor Azure Data Lake-gegevensbronnen

Nadat u een incrementele vernieuwing voor Azure Data Lake-gegevensbronnen hebt geconfigureerd, zijn er momenten waarop gegevens volledig moeten worden vernieuwd. De volledige gegevensmap die is ingesteld voor de incrementele vernieuwing moet de locatie van de volledige gegevens bevatten.

  1. Wanneer u de gegevensbron bewerkt, navigeert u naar het deelvenster Tabellen selecteren en bewerkt u de tabel die u wilt vernieuwen.

  2. Scrol in het deelvenster Tabel bewerken naar het selectievakje Eenmalig volledig vernieuwen uitvoeren en schakel dit in.

    Configureer de tabel in een gegevensbron voor eenmalige vernieuwing.

  3. Geef voor Incrementele bestanden verwerken van de datum en tijd op waarop de incrementele bestanden moeten worden bewaard. De volledige gegevens plus de incrementele gegevens worden pas verwerkt na de opgegeven datum en tijd. Als u bijvoorbeeld tot eind november een gedeeltelijke vernieuwing/invulling achteraf van gegevens wilt uitvoeren terwijl de incrementele gegevens van begin december tot vandaag (30 december) bewaard blijven, voert u 1 december in. Geef een toekomstige datum op om alle gegevens te vervangen en de gegevens in de incrementele map te negeren.

  4. Selecteer Sluiten om het deelvenster op te slaan en te sluiten.

  5. Selecteer Opslaan om uw wijzigingen toe te passen en terug te keren naar de pagina Gegevensbronnen. De gegevensbron heeft de status Vernieuwen en voert een volledige vernieuwing uit.