Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Een veelvoorkomend scenario bij onboarding naar Azure Data Explorer is het opnemen van historische gegevens, ook wel backfill genoemd. Het proces omvat het opnemen van gegevens uit een bestaand opslagsysteem in een tabel, een verzameling extensies.
U kunt historische gegevens opnemen met behulp van de creationTime-opname-eigenschap om de aanmaaktijd van extents in te stellen op de tijd waarop de gegevens zijn gemaakt. Als u de aanmaaktijd gebruikt als het criterium voor opnamepartitionering, kunt u uw gegevens in overeenstemming met uw cache - en bewaarbeleid verouderen en tijdfilters efficiënter maken.
De aanmaaktijd voor extents wordt standaard ingesteld op het tijdstip waarop u de gegevens opneemt, wat mogelijk niet het gedrag oplevert dat u verwacht. Stel dat u een tabel hebt met een cacheperiode van 30 dagen en een bewaarperiode van twee jaar. In de normale stroom worden gegevens die tijdens de productie worden opgenomen, gedurende 30 dagen in de cache opgeslagen en vervolgens verplaatst naar koude opslag. Na twee jaar, op basis van de aanmaaktijd, worden oudere gegevens één dag tegelijk verwijderd. Als u echter twee jaar aan historische gegevens inbrengt, waarbij de gegevens standaard worden gemarkeerd met de aanmaaktijd op het moment dat ze worden opgenomen. Dit gedrag produceert mogelijk niet het gewenste resultaat omdat:
- Alle gegevens worden in de cache geplaatst en blijven er 30 dagen, met meer cache dan verwacht.
- Oudere gegevens worden niet één dag tegelijk verwijderd; gegevens worden daarom langer dan nodig bewaard in het cluster en worden na twee jaar allemaal tegelijk verwijderd.
- Gegevens, die eerder zijn gegroepeerd op datum in het bronsysteem, kunnen nu samen worden gebatcheerd in dezelfde mate die leidt tot inefficiënte query's.
In dit artikel leert u hoe u historische gegevens partitioneren:
creationTimeDe opname-eigenschap gebruiken tijdens opname (aanbevolen)Neem waar mogelijk historische gegevens op met behulp van de
creationTimeopname-eigenschap, waarmee u de aanmaaktijd van de extents kunt instellen door deze uit het bestandspad of blobpad te extraheren. Als uw mapstructuur geen patroon van de aanmaakdatum gebruikt, herstructureer uw bestand- of blobpad om de aanmaaktijd te reflecteren. Met deze methode worden de gegevens opgenomen in de tabel met de juiste aanmaaktijd en worden de cache- en bewaarperioden correct toegepast.Opmerking
Standaard worden gebieden gepartitioneerd op het moment van maken (opname) en in de meeste gevallen hoeft u geen beleid voor gegevenspartitionering in te stellen.
Een partitioneringsbeleid na data-invoer gebruiken
Als u de
creationTimeopnameeigenschap niet kunt gebruiken, bijvoorbeeld als u gegevens opneemt met behulp van de Azure Cosmos DB-connector , waar u de aanmaaktijd niet kunt beheren of als u de mapstructuur niet kunt herstructureren, kunt u de tabel na opname opnieuw partitioneren om hetzelfde effect te bereiken met behulp van het partitiebeleid. Deze methode vereist echter mogelijk enige trial-and-error om beleidseigenschappen te optimaliseren en is minder efficiënt dan het gebruik van decreationTimeopname-eigenschap. Gebruik deze methode alleen wanneer het gebruik van decreationTimeopnameeigenschap niet mogelijk is.
Vereiste voorwaarden
- Een Microsoft-account of een Microsoft Entra-gebruikersidentiteit. U hebt geen Azure-abonnement nodig.
- Een Azure Data Explorer-cluster en -database. Een cluster en database maken.
- Een opslagaccount.
- Installeer
creationTimevoor de aanbevolen methode voor het gebruik van de opname-eigenschap tijdens de opname.
Historische gegevens opnemen
Partitioneer historische gegevens met behulp van de creationTime opname-eigenschap tijdens opname. Als u deze methode niet kunt gebruiken, kunt u de tabel opnieuw partitioneren na opname met behulp van een partitioneringsbeleid.
LightIngest is handig om historische gegevens van een bestaand opslagsysteem naar Azure Data Explorer te laden. Hoewel u uw eigen opdracht kunt maken met behulp van de lijst met opdrachtregelargumenten, ziet u in dit artikel hoe u deze opdracht automatisch kunt genereren via een opnamewizard. Naast het maken van de opdracht kunt u dit proces gebruiken om een nieuwe tabel te maken en schematoewijzing te maken. Met dit hulpprogramma wordt schematoewijzing afgeleid van uw gegevensset.
Bestemming
Selecteer Query in het linkermenu in de webgebruikersinterface van Azure Data Explorer.
Klik met de rechtermuisknop op de database waar u de gegevens wilt opnemen en selecteer LightIngest.
Het venster Gegevens opnemen wordt geopend met het tabblad Doel geselecteerd. De velden Cluster en Database worden automatisch ingevuld.
Selecteer een beoogde tabel. Als u gegevens wilt opnemen in een nieuwe tabel, selecteert u Nieuwe tabel en voert u een tabelnaam in.
Opmerking
Tabelnamen kunnen maximaal 1024 tekens zijn, waaronder spaties, alfanumerieke tekens, afbreekstreepjes en onderstrepingstekens. Speciale tekens worden niet ondersteund.
Kies Volgende: Bron.
Bron
Selecteer onder Bron selecteren de optie URL toevoegen of Container selecteren.
Wanneer u een URL toevoegt, geeft u onder Koppeling naar bron de accountsleutel of SAS-URL op voor een container. U kunt de SAS-URL handmatig of automatisch maken.
Wanneer u een container in uw opslagaccount selecteert, selecteert u uw Opslagabonnement, Opslagaccount en Container in de vervolgkeuzelijsten.
Opmerking
Invoer ondersteunt een maximale bestandsgrootte van 6 GB. Het wordt aanbevolen bestanden op te nemen tussen 100 MB en 1 GB.
Selecteer Geavanceerde instellingen om aanvullende instellingen voor het opnameproces te definiëren met behulp van LightIngest.
Definieer in het deelvenster Geavanceerde configuratie de LightIngest-instellingen volgens de volgende tabel.
Vastgoed Description Aanmaaktijdpatroon Geef op om de eigenschap opnametijd van de gemaakte extent te overschrijven door een patroon, bijvoorbeeld om een datum toe te passen op basis van de mapstructuur van de container. Zie ook het Aanmaaktijdpatroon. Blob-naampatroon Geef het patroon op dat wordt gebruikt om de bestanden te identificeren die moeten worden opgenomen. Alle bestanden opnemen die overeenkomen met het blobnaampatroon in de opgegeven container. Ondersteunt jokertekens. We raden u aan dubbele aanhalingstekens te plaatsen. Label Een tag die is toegewezen aan de opgenomen gegevens. De tag kan elke tekenreeks zijn. Aantal bestanden beperken Geef het aantal bestanden op dat moet worden opgenomen. Neemt de eerste nbestanden op die overeenkomen met het blob-naam patroon, tot het gespecificeerde aantal.Wacht niet totdat de opname is voltooid Indien ingesteld, worden de blobs in de wachtrij geplaatst voor opname zonder het opnameproces te bewaken. Als deze niet is ingesteld, blijft LightIngest de opnamestatus peilen totdat de opname is voltooid. Alleen geselecteerde items weergeven Vermeld de bestanden in de container, maar neemt ze niet op. Selecteer Gereed om terug te keren naar het tabblad Bron .
Selecteer desgewenst Bestandsfilters om de gegevens te filteren om alleen bestanden op te nemen in een specifiek mappad of met een bepaalde bestandsextensie.
Standaard wordt een van de bestanden in de container willekeurig geselecteerd en gebruikt om het schema voor de tabel te genereren.
Geef desgewenst onder Schema definiëren het bestand op dat u wilt gebruiken.
Selecteer Volgende: Schema om de configuratie van de tabelkolom weer te geven en te bewerken.
Schema
Het schematabblad biedt een voorbeeld van de gegevens.
Selecteer Volgende om de LightIngest-opdracht te genereren : Opname starten.
Optioneel:
- Wijzig de automatisch uitgestelde gegevensindeling door de gewenste indeling te selecteren in de vervolgkeuzelijst.
- Wijzig de automatisch afgeleide mappingnaam. U kunt alfanumerieke tekens en onderstrepingstekens gebruiken. Spaties, speciale tekens en afbreekstreepjes worden niet ondersteund.
- Wanneer u een bestaande tabel gebruikt, kunt u het huidige tabelschema behouden als het tabelschema overeenkomt met de geselecteerde indeling.
- Selecteer Opdrachtviewer om de automatische opdrachten weer te geven en te kopiëren die zijn gegenereerd op basis van uw invoer.
- Kolommen bewerken. Selecteer onder Gedeeltelijk gegevensvoorbeeld de vervolgkeuzemenu's voor kolommen om verschillende aspecten van de tabel te wijzigen.
De wijzigingen die u in een tabel kunt aanbrengen, zijn afhankelijk van de volgende parameters:
- Het type tabel is nieuw of bestaand
- Het mappingtype is nieuw of bestaand
| Tabeltype | Koppelingstype | Beschikbare aanpassingen |
|---|---|---|
| Nieuwe tabel | Nieuwe kaart | Gegevenstype wijzigen, Kolomnaam wijzigen, Nieuwe kolom, Kolom verwijderen, Kolom bijwerken, Oplopend sorteren, Aflopend sorteren |
| Bestaande tabel | Nieuwe kaart | Nieuwe kolom (waarop u vervolgens het gegevenstype, de naam kunt wijzigen en bijwerken), Kolom bijwerken, Oplopend sorteren, Aflopend sorteren |
| Bestaande koppeling | Oplopend sorteren, aflopend sorteren |
Opmerking
Wanneer u een nieuwe kolom toevoegt of een kolom bijwerkt, kunt u toewijzingstransformaties wijzigen. Zie Toewijzingstransformaties voor meer informatie
Invoer
Wanneer in de tabel, toewijzing en LightIngest groene vinkjes worden weergegeven, selecteert u het kopieerpictogram rechtsboven in het vak Gegenereerde opdracht om de gegenereerde LightIngest-opdracht te kopiëren.
Opmerking
Indien nodig kunt u het LightIngest-hulpprogramma downloaden door LightIngest downloaden te selecteren.
Als u het opnameproces wilt voltooien, moet u LightIngest uitvoeren met behulp van de gekopieerde opdracht.