Delen via


Historische gegevens opnemen in Azure Data Explorer

Een veelvoorkomend scenario bij onboarding naar Azure Data Explorer is het opnemen van historische gegevens, ook wel backfill genoemd. Het proces omvat het opnemen van gegevens uit een bestaand opslagsysteem in een tabel, een verzameling extensies.

U kunt historische gegevens opnemen met behulp van de creationTime-opname-eigenschap om de aanmaaktijd van extents in te stellen op de tijd waarop de gegevens zijn gemaakt. Als u de aanmaaktijd gebruikt als het criterium voor opnamepartitionering, kunt u uw gegevens in overeenstemming met uw cache - en bewaarbeleid verouderen en tijdfilters efficiënter maken.

De aanmaaktijd voor extents wordt standaard ingesteld op het tijdstip waarop u de gegevens opneemt, wat mogelijk niet het gedrag oplevert dat u verwacht. Stel dat u een tabel hebt met een cacheperiode van 30 dagen en een bewaarperiode van twee jaar. In de normale stroom worden gegevens die tijdens de productie worden opgenomen, gedurende 30 dagen in de cache opgeslagen en vervolgens verplaatst naar koude opslag. Na twee jaar, op basis van de aanmaaktijd, worden oudere gegevens één dag tegelijk verwijderd. Als u echter twee jaar aan historische gegevens inbrengt, waarbij de gegevens standaard worden gemarkeerd met de aanmaaktijd op het moment dat ze worden opgenomen. Dit gedrag produceert mogelijk niet het gewenste resultaat omdat:

  • Alle gegevens worden in de cache geplaatst en blijven er 30 dagen, met meer cache dan verwacht.
  • Oudere gegevens worden niet één dag tegelijk verwijderd; gegevens worden daarom langer dan nodig bewaard in het cluster en worden na twee jaar allemaal tegelijk verwijderd.
  • Gegevens, die eerder zijn gegroepeerd op datum in het bronsysteem, kunnen nu samen worden gebatcheerd in dezelfde mate die leidt tot inefficiënte query's.

Diagram met het verwachte versus werkelijke resultaat van het opnemen van historische gegevens met behulp van de standaard aanmaaktijd.

In dit artikel leert u hoe u historische gegevens partitioneren:

  • creationTime De opname-eigenschap gebruiken tijdens opname (aanbevolen)

    Neem waar mogelijk historische gegevens op met behulp van de creationTime opname-eigenschap, waarmee u de aanmaaktijd van de extents kunt instellen door deze uit het bestandspad of blobpad te extraheren. Als uw mapstructuur geen patroon van de aanmaakdatum gebruikt, herstructureer uw bestand- of blobpad om de aanmaaktijd te reflecteren. Met deze methode worden de gegevens opgenomen in de tabel met de juiste aanmaaktijd en worden de cache- en bewaarperioden correct toegepast.

    Opmerking

    Standaard worden gebieden gepartitioneerd op het moment van maken (opname) en in de meeste gevallen hoeft u geen beleid voor gegevenspartitionering in te stellen.

  • Een partitioneringsbeleid na data-invoer gebruiken

    Als u de creationTime opnameeigenschap niet kunt gebruiken, bijvoorbeeld als u gegevens opneemt met behulp van de Azure Cosmos DB-connector , waar u de aanmaaktijd niet kunt beheren of als u de mapstructuur niet kunt herstructureren, kunt u de tabel na opname opnieuw partitioneren om hetzelfde effect te bereiken met behulp van het partitiebeleid. Deze methode vereist echter mogelijk enige trial-and-error om beleidseigenschappen te optimaliseren en is minder efficiënt dan het gebruik van de creationTime opname-eigenschap. Gebruik deze methode alleen wanneer het gebruik van de creationTime opnameeigenschap niet mogelijk is.

Vereiste voorwaarden

  • Een Microsoft-account of een Microsoft Entra-gebruikersidentiteit. U hebt geen Azure-abonnement nodig.
  • Een Azure Data Explorer-cluster en -database. Een cluster en database maken.
  • Een opslagaccount.
  • Installeer creationTime voor de aanbevolen methode voor het gebruik van de opname-eigenschap tijdens de opname.

Historische gegevens opnemen

Partitioneer historische gegevens met behulp van de creationTime opname-eigenschap tijdens opname. Als u deze methode niet kunt gebruiken, kunt u de tabel opnieuw partitioneren na opname met behulp van een partitioneringsbeleid.

LightIngest is handig om historische gegevens van een bestaand opslagsysteem naar Azure Data Explorer te laden. Hoewel u uw eigen opdracht kunt maken met behulp van de lijst met opdrachtregelargumenten, ziet u in dit artikel hoe u deze opdracht automatisch kunt genereren via een opnamewizard. Naast het maken van de opdracht kunt u dit proces gebruiken om een nieuwe tabel te maken en schematoewijzing te maken. Met dit hulpprogramma wordt schematoewijzing afgeleid van uw gegevensset.

Bestemming

  1. Selecteer Query in het linkermenu in de webgebruikersinterface van Azure Data Explorer.

  2. Klik met de rechtermuisknop op de database waar u de gegevens wilt opnemen en selecteer LightIngest.

    Schermopname van de webgebruikersinterface van Azure Data Explorer met het menu Meer database.

    Het venster Gegevens opnemen wordt geopend met het tabblad Doel geselecteerd. De velden Cluster en Database worden automatisch ingevuld.

  3. Selecteer een beoogde tabel. Als u gegevens wilt opnemen in een nieuwe tabel, selecteert u Nieuwe tabel en voert u een tabelnaam in.

    Opmerking

    Tabelnamen kunnen maximaal 1024 tekens zijn, waaronder spaties, alfanumerieke tekens, afbreekstreepjes en onderstrepingstekens. Speciale tekens worden niet ondersteund.

    Schermopname van het doeltabblad met de doeldatabase en -tabel.

  4. Kies Volgende: Bron.

Bron

  1. Selecteer onder Bron selecteren de optie URL toevoegen of Container selecteren.

    • Wanneer u een URL toevoegt, geeft u onder Koppeling naar bron de accountsleutel of SAS-URL op voor een container. U kunt de SAS-URL handmatig of automatisch maken.

    • Wanneer u een container in uw opslagaccount selecteert, selecteert u uw Opslagabonnement, Opslagaccount en Container in de vervolgkeuzelijsten.

      Schermopname van het dialoogvenster voor het selecteren van een container in een opslagabonnement en -account.

    Opmerking

    Invoer ondersteunt een maximale bestandsgrootte van 6 GB. Het wordt aanbevolen bestanden op te nemen tussen 100 MB en 1 GB.

  2. Selecteer Geavanceerde instellingen om aanvullende instellingen voor het opnameproces te definiëren met behulp van LightIngest.

    Schermopname van het selecteren van geavanceerde instellingen voor de opnameverwerking met het hulpprogramma LightIngest.

  3. Definieer in het deelvenster Geavanceerde configuratie de LightIngest-instellingen volgens de volgende tabel.

    Schermopname van het deelvenster Geavanceerde configuratie met de aanvullende instellingen voor de data-invoer verwerking waarbij gebruik wordt gemaakt van het hulpprogramma LightIngest.

    Vastgoed Description
    Aanmaaktijdpatroon Geef op om de eigenschap opnametijd van de gemaakte extent te overschrijven door een patroon, bijvoorbeeld om een datum toe te passen op basis van de mapstructuur van de container. Zie ook het Aanmaaktijdpatroon.
    Blob-naampatroon Geef het patroon op dat wordt gebruikt om de bestanden te identificeren die moeten worden opgenomen. Alle bestanden opnemen die overeenkomen met het blobnaampatroon in de opgegeven container. Ondersteunt jokertekens. We raden u aan dubbele aanhalingstekens te plaatsen.
    Label Een tag die is toegewezen aan de opgenomen gegevens. De tag kan elke tekenreeks zijn.
    Aantal bestanden beperken Geef het aantal bestanden op dat moet worden opgenomen. Neemt de eerste n bestanden op die overeenkomen met het blob-naam patroon, tot het gespecificeerde aantal.
    Wacht niet totdat de opname is voltooid Indien ingesteld, worden de blobs in de wachtrij geplaatst voor opname zonder het opnameproces te bewaken. Als deze niet is ingesteld, blijft LightIngest de opnamestatus peilen totdat de opname is voltooid.
    Alleen geselecteerde items weergeven Vermeld de bestanden in de container, maar neemt ze niet op.
  4. Selecteer Gereed om terug te keren naar het tabblad Bron .

    1. Selecteer desgewenst Bestandsfilters om de gegevens te filteren om alleen bestanden op te nemen in een specifiek mappad of met een bepaalde bestandsextensie.

      Schermopname van het filteren van gegevens op het brontabblad van het scherm Nieuwe gegevens opnemen.

      Standaard wordt een van de bestanden in de container willekeurig geselecteerd en gebruikt om het schema voor de tabel te genereren.

    2. Geef desgewenst onder Schema definiëren het bestand op dat u wilt gebruiken.

  5. Selecteer Volgende: Schema om de configuratie van de tabelkolom weer te geven en te bewerken.

Schema

Het schematabblad biedt een voorbeeld van de gegevens.

Selecteer Volgende om de LightIngest-opdracht te genereren : Opname starten.

Optioneel:

  • Wijzig de automatisch uitgestelde gegevensindeling door de gewenste indeling te selecteren in de vervolgkeuzelijst.
  • Wijzig de automatisch afgeleide mappingnaam. U kunt alfanumerieke tekens en onderstrepingstekens gebruiken. Spaties, speciale tekens en afbreekstreepjes worden niet ondersteund.
  • Wanneer u een bestaande tabel gebruikt, kunt u het huidige tabelschema behouden als het tabelschema overeenkomt met de geselecteerde indeling.
  • Selecteer Opdrachtviewer om de automatische opdrachten weer te geven en te kopiëren die zijn gegenereerd op basis van uw invoer.
  • Kolommen bewerken. Selecteer onder Gedeeltelijk gegevensvoorbeeld de vervolgkeuzemenu's voor kolommen om verschillende aspecten van de tabel te wijzigen.

De wijzigingen die u in een tabel kunt aanbrengen, zijn afhankelijk van de volgende parameters:

  • Het type tabel is nieuw of bestaand
  • Het mappingtype is nieuw of bestaand
Tabeltype Koppelingstype Beschikbare aanpassingen
Nieuwe tabel Nieuwe kaart Gegevenstype wijzigen, Kolomnaam wijzigen, Nieuwe kolom, Kolom verwijderen, Kolom bijwerken, Oplopend sorteren, Aflopend sorteren
Bestaande tabel Nieuwe kaart Nieuwe kolom (waarop u vervolgens het gegevenstype, de naam kunt wijzigen en bijwerken),
Kolom bijwerken, Oplopend sorteren, Aflopend sorteren
Bestaande koppeling Oplopend sorteren, aflopend sorteren

Opmerking

Wanneer u een nieuwe kolom toevoegt of een kolom bijwerkt, kunt u toewijzingstransformaties wijzigen. Zie Toewijzingstransformaties voor meer informatie

Invoer

  1. Wanneer in de tabel, toewijzing en LightIngest groene vinkjes worden weergegeven, selecteert u het kopieerpictogram rechtsboven in het vak Gegenereerde opdracht om de gegenereerde LightIngest-opdracht te kopiëren.

    Schermopname van het tabblad Samenvatting met de opdracht gegenereerd. U kunt de opdracht kopiëren met behulp van het kopieerpictogram boven het gegenereerde opdrachtvak.

    Opmerking

    Indien nodig kunt u het LightIngest-hulpprogramma downloaden door LightIngest downloaden te selecteren.

  2. Als u het opnameproces wilt voltooien, moet u LightIngest uitvoeren met behulp van de gekopieerde opdracht.