Delen via


Gegevens kopiëren met behulp van kopieeractiviteit

In een pijplijn kunt u de kopieeractiviteit gebruiken om gegevens tussen gegevensarchieven in de cloud te kopiëren. Nadat u de gegevens hebt gekopieerd, kunt u andere activiteiten in uw pijplijn gebruiken om deze te transformeren en analyseren.

De kopieeractiviteit maakt verbinding met uw gegevensbronnen en bestemmingen en verplaatst vervolgens gegevens efficiënt ertussen. Hier ziet u hoe de service het kopieerproces afhandelt:

  1. Maakt verbinding met uw bron: hiermee maakt u een beveiligde verbinding om gegevens te lezen uit uw brongegevensarchief.
  2. Verwerkt de gegevens: verwerkt serialisatie/deserialisatie, compressie/decompressie, kolomtoewijzing en conversies van gegevenstypen op basis van uw configuratie.
  3. Schrijft naar bestemming: Hiermee worden de verwerkte gegevens overgedragen naar uw doeldatastore.
  4. Biedt bewaking: houdt de kopieerbewerking bij en biedt gedetailleerde logboeken en metrische gegevens voor probleemoplossing en optimalisatie.

Tip

Als u alleen uw gegevens hoeft te kopiëren en geen transformaties nodig hebt, is een kopieertaak mogelijk een betere optie voor u. Kopieertaken bieden een vereenvoudigde ervaring voor scenario's voor gegevensverplaatsing waarvoor geen volledige pijplijn hoeft te worden gemaakt. Zie: het overzicht van kopieertaken of gebruik onze beslissingstabel om de kopieeractiviteit en de kopieertaak te vergelijken.

Prerequisites

Om aan de slag te gaan, moet u aan de volgende vereisten voldoet:

  • Een Microsoft Fabric-tenantaccount met een actief abonnement. Gratis een account maken
  • Een werkruimte waarvoor Microsoft Fabric is ingeschakeld.

Een kopieeractiviteit toevoegen met behulp van de kopieerassistent

Volg deze stappen om uw kopieeractiviteit in te stellen met behulp van de kopieerassistent.

Beginnen met de kopieerassistent

  1. Open een bestaande pijplijn of maak een nieuwe pijplijn.

  2. Selecteer Gegevens kopiëren op het canvas om het hulpprogramma Copy Assistant te openen om aan de slag te gaan. Of selecteer Kopieerassistent gebruiken in de vervolgkeuzelijst Gegevens kopiëren onder het tabblad Activiteiten op het lint.

    Schermopname met opties voor het openen van de kopieerassistent.

Uw bron configureren

  1. Selecteer een gegevensbrontype in de categorie. U gebruikt Azure Blob Storage als voorbeeld. Selecteer Azure Blob Storage.

    Schermopname van het scherm Gegevensbron kiezen.

  2. Maak een verbinding met uw gegevensbron door nieuwe verbinding maken te selecteren.

    Schermopname die laat zien waar u Nieuwe verbinding moet selecteren.

    Nadat u Nieuwe verbinding maken hebt geselecteerd, vult u de vereiste verbindingsgegevens in en selecteert u Volgende. Raadpleeg elk connectorartikel voor meer informatie over het maken van een verbinding voor elk type gegevensbron.

    Als u al verbindingen hebt, kunt u Bestaande verbinding selecteren en uw verbinding selecteren in de vervolgkeuzelijst.

    Schermopname van de bestaande verbinding.

  3. Kies het bestand of de map die u wilt kopiëren in deze bronconfiguratiestap en selecteer vervolgens Volgende.

    Schermopname die laat zien waar u de te kopiëren gegevens selecteert.

Uw bestemming configureren

  1. Selecteer een gegevensbrontype in de categorie. U gebruikt Azure Blob Storage als voorbeeld. U kunt een nieuwe verbinding maken die is gekoppeld aan een nieuw Azure Blob Storage-account door de stappen in de vorige sectie te volgen of een bestaande verbinding te gebruiken in de vervolgkeuzelijst voor verbindingen. De mogelijkheden verbinding testen en bewerken zijn beschikbaar voor elke geselecteerde verbinding.

    Schermopname die laat zien hoe u Azure Blob Storage selecteert.

  2. Configureer en wijs uw brongegevens toe aan uw bestemming. Selecteer vervolgens Volgende om de doelconfiguraties te voltooien.

    Schermopname van het scherm Toewijzen aan doel.

    Schermopname van Verbinding maken met gegevensbestemming.

    Note

    U kunt slechts één on-premises gegevensgateway binnen dezelfde Copy-activiteit gebruiken. Als zowel bron- als sink on-premises gegevensbronnen zijn, moeten ze dezelfde gateway gebruiken. Als u gegevens wilt verplaatsen tussen on-premises gegevensbronnen met verschillende gateways, moet u kopiëren met behulp van de eerste gateway naar een tussenliggende cloudbron in één kopieeractiviteit. Vervolgens kunt u een andere Copy-activiteit gebruiken om deze te kopiëren vanuit de tussenliggende cloudbron met behulp van de tweede gateway.

Uw kopieeractiviteit controleren en maken

  1. Controleer de instellingen voor de kopieeractiviteit in de vorige stappen en selecteer OK om te voltooien. U kunt ook teruggaan naar de vorige stappen om uw instellingen zo nodig in het hulpprogramma te bewerken.

    Schermopname van het scherm Controleren en maken.

Na voltooiing wordt de kopieeractiviteit toegevoegd aan uw pijplijncanvas. Alle instellingen, inclusief geavanceerde instellingen voor deze kopieeractiviteit, zijn beschikbaar onder de tabbladen wanneer deze is geselecteerd.

Schermopname van een kopieeractiviteit op het pijplijncanvas.

U kunt nu uw pijplijn opslaan met deze enkele kopieeractiviteit of doorgaan met het ontwerpen van uw pijplijn.

Een kopieeractiviteit rechtstreeks toevoegen

Volg deze stappen om een kopieeractiviteit rechtstreeks toe te voegen.

Een kopieeractiviteit toevoegen

  1. Open een bestaande pijplijn of maak een nieuwe pijplijn.

  2. Voeg een kopieeractiviteit toe door pijplijnactiviteit toevoegen te selecteren Copy-activiteit>

    Schermopname van twee manieren om een kopieeractiviteit toe te voegen.

Uw algemene instellingen configureren op het tabblad Algemeen

Zie Algemeen voor meer informatie over het configureren van uw algemene instellingen.

Uw bron configureren op het tabblad Bron

  1. Selecteer in Verbinding een bestaande verbinding of selecteer Meer om een nieuwe verbinding te maken.

    Schermopname die laat zien waar u Nieuw moet selecteren.

    1. Kies het gegevensbrontype in het pop-upvenster. U gebruikt Azure SQL Database als voorbeeld. Selecteer Azure SQL Database en vervolgens Doorgaan.

      Schermopname die laat zien hoe u de gegevensbron selecteert.

    2. Hiermee gaat u naar de pagina voor het maken van de verbinding. Vul de vereiste verbindingsgegevens in het deelvenster in en selecteer Vervolgens Maken. Raadpleeg elk connectorartikel voor meer informatie over het maken van een verbinding voor elk type gegevensbron.

      Schermopname van de pagina Nieuwe verbinding.

    3. Zodra de verbinding is gemaakt, gaat u terug naar de pijplijnpagina. Selecteer vervolgens Vernieuwen om de verbinding die u hebt gemaakt uit de vervolgkeuzelijst op te halen. U kunt ook een bestaande Azure SQL Database-verbinding in de vervolgkeuzelijst rechtstreeks kiezen als u deze al eerder hebt gemaakt. De mogelijkheden verbinding testen en bewerken zijn beschikbaar voor elke geselecteerde verbinding. Selecteer vervolgens Azure SQL Database in verbindingstype .

  2. Geef een tabel op die moet worden gekopieerd. Selecteer Voorbeeldgegevens om een voorbeeld van uw brontabel te bekijken. U kunt ook de query- en opgeslagen procedure gebruiken om gegevens uit uw bron te lezen.

  3. Vouw Geavanceerd uit voor meer geavanceerde instellingen, zoals query-time-out of partitionering. (Geavanceerde instellingen variëren per connector.)

Uw bestemming configureren op het doeltabblad

  1. Selecteer in Verbinding een bestaande verbinding of selecteer Meer om een nieuwe verbinding te maken. Het kan uw interne eersteklas gegevensarchief zijn vanuit uw werkruimte, zoals Lakehouse of uw externe gegevensarchieven. In dit voorbeeld gebruiken we Lakehouse.

  2. Zodra de verbinding is gemaakt, gaat u terug naar de pijplijnpagina. Selecteer vervolgens Vernieuwen om de verbinding die u hebt gemaakt uit de vervolgkeuzelijst op te halen. U kunt ook een bestaande Lakehouse-verbinding in de vervolgkeuzelijst rechtstreeks kiezen als u deze al eerder hebt gemaakt.

  3. Geef een tabel op of stel het bestandspad in om het bestand of de map als doel te definiëren. Selecteer hier Tabellen en geef een tabel op om gegevens te schrijven.

  4. Vouw Geavanceerd uit voor geavanceerdere instellingen, zoals maximumrijen per bestand of tabelactie. (Geavanceerde instellingen variëren per connector.)

U kunt uw pijplijn nu opslaan met deze kopieeractiviteit of doorgaan met het ontwerpen van uw pijplijn.

Uw toewijzingen configureren op het tabblad Toewijzing

Als de connector die u gebruikt ondersteuning biedt voor toewijzing, gaat u naar het tabblad Toewijzing om uw toewijzing te configureren.

  1. Selecteer Schema's importeren om uw gegevensschema te importeren.

    Schermopname van toewijzingsinstellingen 1.

  2. U kunt zien dat de automatische mapping verschijnt. Geef de kolom Bron en de doelkolom op. Als u een nieuwe tabel in het doel maakt, kunt u hier de naam van de doelkolom aanpassen. Als u gegevens naar de bestaande doeltabel wilt schrijven, kunt u de naam van de bestaande doelkolom niet wijzigen. U kunt ook het type bron- en doelkolommen weergeven.

    Schermopname van toewijzingsinstellingen 2.

U kunt ook + Nieuwe toewijzing selecteren om een nieuwe toewijzing toe te voegen, Wissen selecteren om alle toewijzingsinstellingen te wissen en Opnieuw instellen selecteren om alle bronkolommen voor toewijzing opnieuw in te stellen.

Zie Gegevenstypetoewijzing in een kopieeractiviteit voor meer informatie over toewijzing van gegevenstypen.

Uw andere instellingen configureren op het tabblad Instellingen

Het tabblad Instellingen bevat de instellingen van prestaties, fasering, enzovoort.

Schermopname van het tabblad Instellingen.

Zie de volgende tabel voor de beschrijving van elke instelling.

Setting Description JSON-scripteigenschap
Intelligente doorvoeroptimalisatie Geef op om de doorvoer te optimaliseren. U kunt kiezen uit:
Automatisch
Standaard
Evenwichtig
Maximum

Wanneer u Auto kiest, wordt de optimale instelling dynamisch toegepast op basis van uw bron-doelpaar en gegevenspatroon. U kunt ook uw doorvoer aanpassen en aangepaste waarde kan 2-256 zijn, terwijl een hogere waarde meer winst impliceert.
dataIntegrationUnits
Mate van kopieerparallelisme Geef de mate van parallelle uitvoering op die wordt gebruikt voor het laden van gegevens. parallelCopies
Adaptieve prestaties afstemmen (Preivew) Geef op of de service prestatieoptimalisaties kan toepassen en afstemmen op basis van de aangepaste configuratie. adaptieve prestatie-afstemming
Verificatie van gegevensconsistentie Als u voor deze eigenschap instelt true , controleert de kopieeractiviteit bij het kopiëren van binaire bestanden de bestandsgrootte, lastModifiedDate en de controlesom voor elk binair bestand dat van de bron naar het doelarchief wordt gekopieerd, om ervoor te zorgen dat de gegevensconsistentie tussen bron- en doelopslag wordt gegarandeerd. Wanneer u tabellaire gegevens kopieert, controleert de kopieeractiviteit het totale aantal rijen nadat de taak is voltooid, zodat het totale aantal rijen dat uit de bron is gelezen hetzelfde is als het aantal rijen dat naar het doel is gekopieerd, plus het aantal niet-compatibele rijen dat is overgeslagen. Houd er rekening mee dat de kopieerprestaties worden beïnvloed door deze optie in te schakelen. validateDataConsistency
Fouttolerantie Wanneer u deze optie selecteert, kunt u enkele fouten negeren die zich in het midden van het kopieerproces voordoen. Bijvoorbeeld incompatibele rijen tussen bron- en doelopslag, bestand dat wordt verwijderd tijdens gegevensverplaatsing, enzovoort. • inschakelenOverslaanOnverenigbareRij
• skipErrorFile:
   fileMissing
   fileForbidden
   invalidFileName
Logboekregistratie inschakelen Wanneer u deze optie selecteert, kunt u gekopieerde bestanden, overgeslagen bestanden en rijen loggen. /
Fasering inschakelen Geef op of u gegevens wilt kopiëren via een tussentijdse faseringsopslag. Schakel fasering alleen in voor nuttige scenario's. enableStaging
Voor werkruimte
Workspace Geef op dat u ingebouwde faseringsopslag wilt gebruiken. Zorg ervoor dat aan de laatst gewijzigde gebruiker voor de pijplijn ten minste de rol Inzender is toegewezen in de werkruimte. /
Voor extern
Verbinding met faseringsaccount Geef de verbinding op van een Azure Blob Storage of Azure Data Lake Storage Gen2, die verwijst naar het exemplaar van Storage dat u gebruikt als een tijdelijke faseringsopslag. Maak een faseringsverbinding als u deze niet hebt. verbinding (onder externalReferences)
Opslagpad Geef het pad op dat u de gefaseerde gegevens wilt bevatten. Als u geen pad opgeeft, maakt de service een container voor het opslaan van tijdelijke gegevens. Geef alleen een pad op als u Opslag gebruikt met een handtekening voor gedeelde toegang of als u tijdelijke gegevens op een specifieke locatie wilt plaatsen. path
Compressie inschakelen Hiermee geeft u op of gegevens moeten worden gecomprimeerd voordat ze naar de bestemming worden gekopieerd. Deze instelling vermindert het aantal gegevens dat wordt overgedragen. enableCompression
Preserve Geef op of metagegevens/ACL's moeten worden bewaard tijdens het kopiëren van gegevens. preserve

Note

Als u gefaseerde kopie gebruikt met compressie ingeschakeld, wordt de verificatie van de service-principal voor faseringsblobverbinding niet ondersteund.

Note

Time-out voor staging van werkruimten na 60 minuten. Voor langlopende taken is het raadzaam om externe opslag te gebruiken voor voorbereiding.

Parameters configureren in een kopieeractiviteit

Parameters kunnen worden gebruikt om het gedrag van een pijplijn en de bijbehorende activiteiten te beheren. U kunt dynamische inhoud toevoegen gebruiken om parameters op te geven voor de eigenschappen van de kopieeractiviteit. Laten we lakehouse/datawarehouse als voorbeeld opgeven om te zien hoe u dit kunt gebruiken.

  1. Selecteer Dynamische inhoud gebruiken in de vervolgkeuzelijst verbinding in uw bron of bestemming.

  2. Selecteer in het pop-upvenster Dynamische inhoud toevoegen, onder het tabblad Parameters , de optie +.

    Schermopname van de pagina Dynamische inhoud toevoegen.

  3. Geef de naam voor de parameter op en geef deze desgewenst een standaardwaarde op, of u kunt de waarde voor de parameter opgeven wanneer deze wordt geactiveerd in de pijplijn.

    Schermopname van het maken van een nieuwe parameter.

    De parameterwaarde moet de verbindings-id Lakehouse/Data Warehouse zijn. Als u deze wilt ophalen, opent u uw verbindingen en gateways beheren, kiest u de Lakehouse-/DataWarehouse-verbinding die u wilt gebruiken en opent u Instellingen om uw verbindings-id op te halen. Als u een nieuwe verbinding wilt maken, kunt u + Nieuw op deze pagina selecteren of naar de gegevenspagina gaan via de vervolgkeuzelijst Verbinding .

  4. Selecteer Opslaan om terug te gaan naar het deelvenster Dynamische inhoud toevoegen. Selecteer vervolgens de parameter zodat deze wordt weergegeven in het expressievak. Selecteer vervolgens OK. U gaat terug naar de pijplijnpagina en ziet dat de parameterexpressie is opgegeven na verbinding.

    Schermopname van het selecteren van de parameter.

  5. Geef de id op van uw Lakehouse of Data Warehouse. Als u de id wilt vinden, gaat u naar uw Lakehouse of Data Warehouse in uw werkruimte. De id wordt weergegeven in de URL na /lakehouses/ of /datawarehouses/.

    • Lakehouse-id:

      Schermopname van de object-id van Lakehouse.

    • Magazijn-id:

      Schermopname van de object-id datawarehouse.

  6. Geef de SQL-verbindingsreeks voor uw datawarehouse op.