Historische gegevens opnemen in Azure Data Explorer

Een veelvoorkomend scenario bij onboarding naar Azure Data Explorer is het opnemen van historische gegevens, ook wel backfill genoemd. Het proces omvat het opnemen van gegevens uit een bestaand opslagsysteem in een tabel, een verzameling extensies.

U kunt historische gegevens opnemen met behulp van de creationTime-opname-eigenschap om de aanmaaktijd van extents in te stellen op de tijd waarop de gegevens zijn gemaakt. Als u de aanmaaktijd gebruikt als het criterium voor opnamepartitionering, kunt u uw gegevens in overeenstemming met uw cache - en bewaarbeleid verouderen en tijdfilters efficiënter maken.

De aanmaaktijd voor extents wordt standaard ingesteld op het tijdstip waarop u de gegevens opneemt, wat mogelijk niet het gedrag oplevert dat u verwacht. Stel dat u een tabel hebt met een cacheperiode van 30 dagen en een bewaarperiode van twee jaar. In de normale stroom worden gegevens die tijdens de productie worden opgenomen, gedurende 30 dagen in de cache opgeslagen en vervolgens verplaatst naar koude opslag. Na twee jaar, op basis van de aanmaaktijd, worden oudere gegevens één dag tegelijk verwijderd. Als u echter twee jaar aan historische gegevens inbrengt, waarbij de gegevens standaard worden gemarkeerd met de aanmaaktijd op het moment dat ze worden opgenomen. Dit gedrag produceert mogelijk niet het gewenste resultaat omdat:

Alle gegevens worden in de cache geplaatst en blijven er 30 dagen, met meer cache dan verwacht.
Oudere gegevens worden niet één dag tegelijk verwijderd; gegevens worden daarom langer dan nodig bewaard in het cluster en worden na twee jaar allemaal tegelijk verwijderd.
Gegevens, die eerder zijn gegroepeerd op datum in het bronsysteem, kunnen nu samen worden gebatcheerd in dezelfde mate die leidt tot inefficiënte query's.

Diagram met het verwachte versus werkelijke resultaat van het opnemen van historische gegevens met behulp van de standaard aanmaaktijd.

In dit artikel leert u hoe u historische gegevens partitioneren:

creationTime De opname-eigenschap gebruiken tijdens opname (aanbevolen)

Neem waar mogelijk historische gegevens op met behulp van de creationTime opname-eigenschap, waarmee u de aanmaaktijd van de extents kunt instellen door deze uit het bestandspad of blobpad te extraheren. Als uw mapstructuur geen patroon van de aanmaakdatum gebruikt, herstructureer uw bestand- of blobpad om de aanmaaktijd te reflecteren. Met deze methode worden de gegevens opgenomen in de tabel met de juiste aanmaaktijd en worden de cache- en bewaarperioden correct toegepast.

Opmerking

Standaard worden gebieden gepartitioneerd op het moment van maken (opname) en in de meeste gevallen hoeft u geen beleid voor gegevenspartitionering in te stellen.
Een partitioneringsbeleid na data-invoer gebruiken

Als u de creationTime opnameeigenschap niet kunt gebruiken, bijvoorbeeld als u gegevens opneemt met behulp van de Azure Cosmos DB-connector , waar u de aanmaaktijd niet kunt beheren of als u de mapstructuur niet kunt herstructureren, kunt u de tabel na opname opnieuw partitioneren om hetzelfde effect te bereiken met behulp van het partitiebeleid. Deze methode vereist echter mogelijk enige trial-and-error om beleidseigenschappen te optimaliseren en is minder efficiënt dan het gebruik van de creationTime opname-eigenschap. Gebruik deze methode alleen wanneer het gebruik van de creationTime opnameeigenschap niet mogelijk is.

Vereiste voorwaarden

Een Microsoft-account of een Microsoft Entra-gebruikersidentiteit. U hebt geen Azure-abonnement nodig.
Een Azure Data Explorer-cluster en -database. Een cluster en database maken.
Een opslagaccount.
Installeer creationTime voor de aanbevolen methode voor het gebruik van de opname-eigenschap tijdens de opname.

Historische gegevens opnemen

Partitioneer historische gegevens met behulp van de creationTime opname-eigenschap tijdens opname. Als u deze methode niet kunt gebruiken, kunt u de tabel opnieuw partitioneren na opname met behulp van een partitioneringsbeleid.

Tijdens inname (aanbevolen)
Na gegevensopname

LightIngest is handig om historische gegevens van een bestaand opslagsysteem naar Azure Data Explorer te laden. Hoewel u uw eigen opdracht kunt maken met behulp van de lijst met opdrachtregelargumenten, ziet u in dit artikel hoe u deze opdracht automatisch kunt genereren via een opnamewizard. Naast het maken van de opdracht kunt u dit proces gebruiken om een nieuwe tabel te maken en schematoewijzing te maken. Met dit hulpprogramma wordt schematoewijzing afgeleid van uw gegevensset.

Bestemming

Selecteer Query in het linkermenu in de webgebruikersinterface van Azure Data Explorer.
Klik met de rechtermuisknop op de database waar u de gegevens wilt opnemen en selecteer LightIngest.

Het venster Gegevens opnemen wordt geopend met het tabblad Doel geselecteerd. De velden Cluster en Database worden automatisch ingevuld.
Selecteer een beoogde tabel. Als u gegevens wilt opnemen in een nieuwe tabel, selecteert u Nieuwe tabel en voert u een tabelnaam in.

Opmerking

Tabelnamen kunnen maximaal 1024 tekens zijn, waaronder spaties, alfanumerieke tekens, afbreekstreepjes en onderstrepingstekens. Speciale tekens worden niet ondersteund.
Kies Volgende: Bron.

Bron

Selecteer onder Bron selecteren de optie URL toevoegen of Container selecteren.
- Wanneer u een URL toevoegt, geeft u onder Koppeling naar bron de accountsleutel of SAS-URL op voor een container. U kunt de SAS-URL handmatig of automatisch maken.
- Wanneer u een container in uw opslagaccount selecteert, selecteert u uw Opslagabonnement, Opslagaccount en Container in de vervolgkeuzelijsten.
Opmerking

Invoer ondersteunt een maximale bestandsgrootte van 6 GB. Het wordt aanbevolen bestanden op te nemen tussen 100 MB en 1 GB.
Selecteer Geavanceerde instellingen om aanvullende instellingen voor het opnameproces te definiëren met behulp van LightIngest.

Definieer in het deelvenster Geavanceerde configuratie de LightIngest-instellingen volgens de volgende tabel.

Schermopname van het deelvenster Geavanceerde configuratie met de aanvullende instellingen voor de data-invoer verwerking waarbij gebruik wordt gemaakt van het hulpprogramma LightIngest.

Vastgoed	Description
Aanmaaktijdpatroon	Geef op om de eigenschap opnametijd van de gemaakte extent te overschrijven door een patroon, bijvoorbeeld om een datum toe te passen op basis van de mapstructuur van de container. Zie ook het Aanmaaktijdpatroon.
Blob-naampatroon	Geef het patroon op dat wordt gebruikt om de bestanden te identificeren die moeten worden opgenomen. Alle bestanden opnemen die overeenkomen met het blobnaampatroon in de opgegeven container. Ondersteunt jokertekens. We raden u aan dubbele aanhalingstekens te plaatsen.
Label	Een tag die is toegewezen aan de opgenomen gegevens. De tag kan elke tekenreeks zijn.
Aantal bestanden beperken	Geef het aantal bestanden op dat moet worden opgenomen. Neemt de eerste `n` bestanden op die overeenkomen met het blob-naam patroon, tot het gespecificeerde aantal.
Wacht niet totdat de opname is voltooid	Indien ingesteld, worden de blobs in de wachtrij geplaatst voor opname zonder het opnameproces te bewaken. Als deze niet is ingesteld, blijft LightIngest de opnamestatus peilen totdat de opname is voltooid.
Alleen geselecteerde items weergeven	Vermeld de bestanden in de container, maar neemt ze niet op.

Selecteer Gereed om terug te keren naar het tabblad Bron .
1. Selecteer desgewenst Bestandsfilters om de gegevens te filteren om alleen bestanden op te nemen in een specifiek mappad of met een bepaalde bestandsextensie.
  
  Standaard wordt een van de bestanden in de container willekeurig geselecteerd en gebruikt om het schema voor de tabel te genereren.
2. Geef desgewenst onder Schema definiëren het bestand op dat u wilt gebruiken.
Selecteer Volgende: Schema om de configuratie van de tabelkolom weer te geven en te bewerken.

Schema

Het schematabblad biedt een voorbeeld van de gegevens.

Selecteer Volgende om de LightIngest-opdracht te genereren : Opname starten.

Optioneel:

Wijzig de automatisch uitgestelde gegevensindeling door de gewenste indeling te selecteren in de vervolgkeuzelijst.
Wijzig de automatisch afgeleide mappingnaam. U kunt alfanumerieke tekens en onderstrepingstekens gebruiken. Spaties, speciale tekens en afbreekstreepjes worden niet ondersteund.
Wanneer u een bestaande tabel gebruikt, kunt u het huidige tabelschema behouden als het tabelschema overeenkomt met de geselecteerde indeling.
Selecteer Opdrachtviewer om de automatische opdrachten weer te geven en te kopiëren die zijn gegenereerd op basis van uw invoer.
Kolommen bewerken. Selecteer onder Gedeeltelijk gegevensvoorbeeld de vervolgkeuzemenu's voor kolommen om verschillende aspecten van de tabel te wijzigen.

De wijzigingen die u in een tabel kunt aanbrengen, zijn afhankelijk van de volgende parameters:

Het type tabel is nieuw of bestaand
Het mappingtype is nieuw of bestaand

Tabeltype	Koppelingstype	Beschikbare aanpassingen
Nieuwe tabel	Nieuwe kaart	Gegevenstype wijzigen, Kolomnaam wijzigen, Nieuwe kolom, Kolom verwijderen, Kolom bijwerken, Oplopend sorteren, Aflopend sorteren
Bestaande tabel	Nieuwe kaart	Nieuwe kolom (waarop u vervolgens het gegevenstype, de naam kunt wijzigen en bijwerken), Kolom bijwerken, Oplopend sorteren, Aflopend sorteren
	Bestaande koppeling	Oplopend sorteren, aflopend sorteren

Opmerking

Wanneer u een nieuwe kolom toevoegt of een kolom bijwerkt, kunt u toewijzingstransformaties wijzigen. Zie Toewijzingstransformaties voor meer informatie

Invoer

Wanneer in de tabel, toewijzing en LightIngest groene vinkjes worden weergegeven, selecteert u het kopieerpictogram rechtsboven in het vak Gegenereerde opdracht om de gegenereerde LightIngest-opdracht te kopiëren.

Opmerking

Indien nodig kunt u het LightIngest-hulpprogramma downloaden door LightIngest downloaden te selecteren.
Als u het opnameproces wilt voltooien, moet u LightIngest uitvoeren met behulp van de gekopieerde opdracht.

Stap 1: Voorbereiden op opnieuw partitioneren

Pas het bewaarbeleid aan om oude gegevens te bewaren. In het volgende voorbeeld stelt u het bewaarbeleid voor de tabel MyTable in op 10 jaar.
```
.alter-merge table MyTable policy retention softdelete = 3650d recoverability = enabled
```
Pas het cachebeleid aan zodat alle gegevens zich in de hot-cache bevinden voor de herpartitionering, omdat alleen dynamische gegevens na opname opnieuw kunnen worden gepartitioneerd. In het volgende voorbeeld stelt u de cache voor tabel MyTable in op 10 jaar.
```
.alter table MyTable policy caching hot = 3650d
```
Belangrijk

Het verhogen van het cachebeleid kan aanzienlijk meer hot cache gebruiken dan bij normale bewerkingen en kan leiden tot hogere kosten.

Stap 2: Opnieuw partitioneren initiëren

Maak een partitioneringsbeleid waarmee de gegevens worden gepartitioneerd op basis van de kolom met de naam Timestamp. In het volgende voorbeeld stelt u het partitioneringsbeleid voor tabel MyTable in op partitie door de kolom met de naam Timestamp.
```
.alter table MyTable policy partitioning
```
{
  "EffectiveDateTime" : "1970-01-01T00:00:00",
  "PartitionKeys": [
    {
      "ColumnName": "Timestamp",
      "Kind": "UniformRange",
      "Properties": {
        "Reference": "1970-01-01T00:00:00",
        "RangeSize": "1.00:00:00",
        "OverrideCreationTime": true
      }
    }
  ]
}
```
```
Zie partitie-eigenschappen voor informatie over de eigenschappen van het partitioneringsbeleid. Voor historische opname is de wijze waarop u de volgende eigenschappen instelt belangrijk:
- Stel de eigenschap EffectiveDateTime in op een datum eerder dan het begin van de invoer om de herpartitionering te starten.
- Stel de RangeSize in op één dag, zodat de gegevens opnieuw worden gepartitioneerd in buckets van één dag. U moet deze waarde echter zo instellen dat deze overeenkomt met uw gegevens. Als u bijvoorbeeld minder dan meerdere GB aan gegevens per dag hebt, kunt u overwegen om een grotere waarde in te stellen.
- Stel de OverrideCreationTime in op true , zodat na het opnieuw partitioneren van de gegevens in dagbuckets, de gebieden met die dag worden gemarkeerd als de aanmaaktijd.
Stel een samenvoegbeleid in om het samenvoegen van alle gebieden toe te staan, inclusief gebieden die ouder zijn dan 14 dagen. Het instellen van dit beleid is belangrijk omdat het herpartitioneringsproces gebieden maakt die ouder zijn dan 14 dagen, die standaard worden uitgesloten door het samenvoegproces.
```
.alter table MyTable policy merge
```
{
  "Lookback": {
    "Kind": "HotCache"
  }
}
```
```
Bewaak de voortgang van opnieuw partitioneren met behulp van de opdracht .show database extents partitioning statistics . Zoek in de geretourneerde resultaten naar de tabel die u opnieuw partitioneert en bewaak de kolom PartitionedRowPercentage . Wanneer de waarde van de kolom PartitionedRowPercentage is 100, is de herpartitioning voltooid.

Stap 3: Opruimen na het opnieuw partitioneren

Zodra het opnieuw partitioneren is voltooid, kunt u het beleid dat u in de vorige stappen hebt ingesteld, opschonen.

Verwijder het partitioneringsbeleid.

.delete table MyTable policy partitioning

Verwijder het samenvoegbeleid.
```
.delete table MyTable policy merge
```

Verwijder of stel het cachebeleid in.

// Remove the caching policy
.delete table MyTable policy caching
// OR set the caching policy to your desired value
.alter table MyTable policy caching hot = 90d

Verwijder of stel het bewaarbeleid in.

// Remove the retention policy
.delete table MyTable policy retention
// OR set the retention policy to your desired value
.alter-merge table MyTable policy retention softdelete = 30d recoverability = enabled

Query's uitvoeren op gegevens in Azure Data Explorer

Feedback

Is deze pagina nuttig?

Last updated on 2025-11-05