Delen via


Overzicht van gegevensopname in Azure Synapse Data Explorer (preview)

Belangrijk

Azure Synapse Analytics Data Explorer (preview) wordt op 7 oktober 2025 buiten gebruik gesteld. Na deze datum worden workloads die worden uitgevoerd in Synapse Data Explorer verwijderd en gaan de bijbehorende toepassingsgegevens verloren. We raden u ten zeerste aan om te migreren naar Eventhouse in Microsoft Fabric.

Het CMF-programma (Microsoft Cloud Migration Factory) is ontworpen om klanten te helpen bij het migreren naar Fabric. Het programma biedt praktische toetsenbordbronnen zonder kosten aan de klant. Deze resources worden gedurende een periode van 6-8 weken toegewezen, met een vooraf gedefinieerd en overeengekomen bereik. Klantnominaties worden geaccepteerd vanuit het Microsoft-accountteam of rechtstreeks door een verzoek om hulp in te dienen bij het CMF-team.

Gegevensopname is het proces dat wordt gebruikt voor het laden van gegevensrecords uit een of meer bronnen om gegevens te importeren in een tabel in een Azure Synapse Data Explorer-pool. Zodra de gegevens zijn opgenomen, zijn de gegevens beschikbaar voor query's.

De Gegevensbeheerservice van Azure Synapse Data Explorer, die verantwoordelijk is voor gegevensopname, implementeert het volgende proces:

  • Haalt gegevens op in batches of streaming vanuit een externe bron en leest aanvragen uit een in behandeling zijnde Azure-wachtrij.
  • Batchgegevens die naar dezelfde database en tabel stromen, zijn geoptimaliseerd voor opnamedoorvoer.
  • De initiële gegevens worden gevalideerd en de indeling wordt waar nodig geconverteerd.
  • Verdere gegevensmanipulatie, waaronder overeenkomend schema, organiseren, indexeren, coderen en comprimeren van de gegevens.
  • Gegevens worden opgeslagen in de opslag volgens het ingestelde bewaarbeleid.
  • Opgenomen gegevens worden doorgevoerd in de engine, waar deze beschikbaar zijn voor query's.

Ondersteunde gegevensindelingen, eigenschappen en machtigingen

Batchverwerking versus streaminggegevensinvoer

  • Batchopname voert batchverwerking van gegevens uit en is geoptimaliseerd voor een hoge opnamedoorvoer. Deze methode is het voorkeurs- en meest efficiënte type data-invoer. Gegevens worden gebatcheerd op basis van opname-eigenschappen. Kleine batches met gegevens worden samengevoegd en geoptimaliseerd voor snelle queryresultaten. Het batchbeleid voor gegevensinvoer kan worden ingesteld op databases of tabellen. Standaard is de maximale batchwaarde 5 minuten, 1000 items of een totale grootte van 1 GB. De gegevensgroottelimiet voor een batchopnameopdracht is 4 GB.

  • Streamingopname is doorlopend gegevensopname van een streamingbron. Streamingopname maakt bijna realtime latentie mogelijk voor kleine gegevenssets per tabel. Gegevens worden in eerste instantie opgeslagen in de rijopslag en vervolgens verplaatst naar de kolomopslag.

Methoden en tools voor opname

Azure Synapse Data Explorer ondersteunt verschillende opnamemethoden, elk met eigen doelscenario's. Deze methoden omvatten opnamehulpprogramma's, connectors en invoegtoepassingen voor diverse services, beheerde pijplijnen, programmatische opname met behulp van SDK's en directe toegang tot opname.

Opname met beheerde pijplijnen

Voor organisaties die het beheer (limieten, nieuwe pogingen, monitoring, waarschuwingen en meer) door een externe service willen laten uitvoeren, is het gebruik van een connector waarschijnlijk de meest geschikte oplossing. Opname in de wachtrij is geschikt voor grote gegevensvolumes. Azure Synapse Data Explorer ondersteunt de volgende Azure Pipelines:

  • Synapse-pijplijnen: Een volledig beheerde gegevensintegratieservice voor analyseworkloads in Synapse-pijplijnen maakt verbinding met meer dan 90 ondersteunde bronnen om efficiënte en flexibele gegevensoverdracht te bieden. Synapse-pijplijnen bereiden voor, transformeren en verrijken gegevens om inzichten te bieden die op verschillende manieren kunnen worden gemonitord. Deze service kan worden gebruikt als een eenmalige oplossing, op een periodieke tijdlijn of geactiveerd door specifieke gebeurtenissen.

Programmatische opname met SDK's

Azure Synapse Data Explorer biedt SDK's die kunnen worden gebruikt voor query- en gegevensopname. Programmatische opname is geoptimaliseerd voor het verminderen van opnamekosten (COG's), door het minimaliseren van opslagtransacties tijdens en na het opnameproces.

Voordat u begint, gebruik de volgende stappen om de eindpunten van de Data Explorer-pool op te halen voor het configureren van programmeerbare gegevensinvoer.

  1. In Synapse Studio, selecteer in het linkerdeelvenster Beheren>Data Explorer-pools.

  2. Selecteer de Data Explorer-pool die u wilt gebruiken om de details ervan weer te geven.

    Schermopname van het scherm Data Explorer-pools met de lijst met bestaande pools.

  3. Noteer de eindpunten voor query- en gegevensopname. Gebruik het query-eindpunt als het cluster bij het configureren van verbindingen met uw Data Explorer-pool. Wanneer u SDK's configureert voor gegevensopname, gebruikt u het eindpunt voor gegevensopname.

    Schermopname van het deelvenster Eigenschappen van Data Explorer-pools met de URI-adressen voor query- en gegevensopname.

Beschikbare SDK's en opensource-projecten

Tools

  • Opname met één klik: hiermee kunt u snel gegevens opnemen door tabellen te maken en aan te passen op basis van een breed scala aan brontypen. Met één klik op de knop worden tabellen en toewijzingsstructuren automatisch voorgesteld op basis van de gegevensbron in Azure Synapse Data Explorer. Opname met één klik kan worden gebruikt voor eenmalige opname of voor het definiëren van continue opname via Event Grid in de container waarnaar de gegevens zijn opgenomen.

Opdrachten voor invoerbeheer voor Kusto-querytaal

Er zijn een aantal methoden waarmee gegevens rechtstreeks naar de engine kunnen worden opgenomen door KQL-opdrachten (Kusto Query Language). Omdat deze methode de Data Management-services omzeilt, is deze alleen geschikt voor verkenning en prototypen. Gebruik deze methode niet in productie- of scenario's met een hoog volume.

  • Inlineopname: een besturingsopdracht .ingest inline wordt verzonden naar de engine, waarbij de gegevens die moeten worden opgenomen deel uitmaken van de opdrachttekst zelf. Deze methode is bedoeld voor geïmproviseerde testdoeleinden.

  • Opnemen uit query: een besturingscommando .set, .append, .set-or-append of .set-or-replace wordt verzonden naar de engine, waarbij de gegevens indirect worden opgegeven als resultaten van een query of opdracht.

  • Opnemen vanuit opslag (pull): er wordt een besturingsopdracht .inbrengen naar de engine verzonden, waarbij de gegevens die in een externe opslag zijn opgeslagen (bijvoorbeeld Azure Blob Storage) toegankelijk zijn voor de engine en waarnaar door de opdracht wordt verwezen.

Voor een voorbeeld van het gebruik van invoersturing, zie Analyseren met Data Explorer.

Opnameproces

Nadat u de meest geschikte opnamemethode voor uw behoeften hebt gekozen, voert u de volgende stappen uit:

  1. Bewaarbeleid instellen

    Gegevens die zijn opgenomen in een tabel in Azure Synapse Data Explorer, zijn onderhevig aan het effectieve bewaarbeleid van de tabel. Tenzij dit expliciet is ingesteld op een tabel, wordt het effectieve bewaarbeleid afgeleid van het bewaarbeleid van de database. Hete retentie is een functie van clustergrootte en uw bewaarbeleid. Als u meer gegevens opneemt dan er beschikbare ruimte is, worden de eerst opgeslagen gegevens naar koude opslag verplaatst.

    Zorg ervoor dat het bewaarbeleid van de database geschikt is voor uw behoeften. Zo niet, overschrijf het dan expliciet op tabelniveau. Zie bewaarbeleid voor meer informatie.

  2. Een tabel maken

    Als u gegevens wilt opnemen, moet er vooraf een tabel worden gemaakt. Gebruik een van de volgende opties:

    Opmerking

    Als een record onvolledig is of een veld niet kan worden geparseerd als het vereiste gegevenstype, worden de bijbehorende tabelkolommen gevuld met null-waarden.

  3. Schematoewijzing maken

    Schematoewijzing helpt bij het binden van brongegevensvelden aan doeltabelkolommen. Met mapping kunt u gegevens uit verschillende bronnen in dezelfde tabel opnemen op basis van de gedefinieerde attributen. Verschillende typen toewijzingen worden ondersteund, zowel rijgeoriënteerd (CSV, JSON en AVRO) als kolomgeoriënteerd (Parquet). In de meeste methoden kunnen toewijzingen ook vooraf in de tabel worden gemaakt en worden vermeld vanuit de opname-opdrachtparameter.

  4. Updatebeleid instellen (optioneel)

    Sommige koppelingen van gegevensindelingen (Parquet, JSON en Avro) ondersteunen eenvoudige en nuttige transformaties tijdens de opname. Als het scenario complexere verwerking op het moment van opnemen vereist, gebruikt u een bijwerkbeleid, waarmee lichtgewicht verwerking mogelijk is met behulp van Kusto Query Language-opdrachten. Het updatebeleid voert automatisch extracties en transformaties uit op opgenomen gegevens in de oorspronkelijke tabel en neemt de resulterende gegevens op in een of meer doeltabellen. Stel uw updatebeleid in.

Volgende stappen