Delen via


Quickstart: Een oplossing maken voor het verplaatsen en transformeren van gegevens

In deze quickstart leert u hoe gegevensstromen en pijplijnen samenwerken om een krachtige Data Factory-oplossing te maken. U schoont gegevens op met gegevensstromen en verplaatst deze met pijplijnen.

Voorwaarden

Voordat u begint, hebt u het volgende nodig:

Gegevensstromen en pijplijnen vergelijken

Gegevensstroom Gen2 biedt een interface met weinig code met meer dan 300 gegevens en AI-transformaties. U kunt gegevens eenvoudig opschonen, voorbereiden en transformeren met flexibiliteit. Pijplijnen bieden uitgebreide mogelijkheden voor gegevensindeling voor het opstellen van flexibele gegevenswerkstromen die voldoen aan de behoeften van uw bedrijf.

In een pijplijn kunt u logische groeperingen maken van activiteiten die een taak uitvoeren. Dit kan bijvoorbeeld het aanroepen van een gegevensstroom zijn voor het opschonen en voorbereiden van uw gegevens. Hoewel er sprake is van een overlap tussen de twee functies, is uw keuze afhankelijk van of u de volledige mogelijkheden van pijplijnen nodig hebt of de eenvoudigere mogelijkheden van gegevensstromen kunt gebruiken. Zie de Fabric-besluitgids voor meer informatie.

Gegevens transformeren met gegevensstromen

Volg deze stappen om uw gegevensstroom in te stellen.

Een gegevensstroom maken

  1. Selecteer uw Fabric-ingeschakelde werkruimte, vervolgens Nieuw en kies Dataflow Gen2.

    Schermopname van het starten van een Dataflow Gen2.

  2. Selecteer Importeren uit SQL Server in de gegevensstroomeditor.

    Schermopname van de gegevensstroomeditor.

Gegevens ophalen

  1. Voer in het dialoogvenster Verbinding maken met gegevensbron de details van uw Azure SQL-database in en selecteer Volgende. Gebruik de AdventureWorksLT-voorbeelddatabase op basis van de vereisten.

    Schermopname van het maken van verbinding met een Azure SQL-database.

  2. Selecteer de gegevens die u wilt transformeren, zoals SalesLT.Customer, en gebruik Gerelateerde tabellen selecteren om gerelateerde tabellen op te nemen. Selecteer vervolgens Maken.

    Schermopname van het selecteren van gegevens die u wilt transformeren.

Uw gegevens transformeren

  1. Selecteer de diagramweergave op de statusbalk of het menu Beeld in de Power Query-editor.

    Schermopname van het selecteren van de diagramweergave.

  2. Selecteer met de rechtermuisknop uw SalesLT Customer-query of selecteer het verticale beletselteken rechts van de query en selecteer vervolgens Queries samenvoegen.

    Schermopname van de optie Query's samenvoegen.

  3. Configureer de samenvoeging met SalesLTOrderHeader als de rechtertabel, CustomerID als de joinkolom en Left outer als het jointype. Kies OK.

    Schermopname van het Samenvoegen-configuratiescherm.

  4. Voeg een gegevensbestemming toe door het databasesymbool met een pijl te selecteren. Kies Azure SQL-database als doeltype.

    Schermopname van de knop Gegevensbestemming toevoegen.

  5. Geef de details op voor uw Azure SQL-databaseverbinding waar de samenvoegquery moet worden gepubliceerd. In dit voorbeeld gebruiken we ook de AdventureWorksLT-database die we als gegevensbron voor de bestemming hebben gebruikt.

    Schermopname van het dialoogvenster Verbinding maken met gegevensbestemming.

  6. Kies een database om de gegevens op te slaan en geef een tabelnaam op en selecteer vervolgens Volgende.

    Schermopname van het venster Doeldoel kiezen.

  7. Accepteer de standaardinstellingen in het dialoogvenster Doelinstellingen kiezen en selecteer Instellingen opslaan.

    Schermopname van het dialoogvenster Doelinstellingen kiezen.

  8. Selecteer Publiceren in de gegevensstroomeditor om de gegevensstroom te publiceren.

    Schermafbeelding met de knop Publiceren gemarkeerd in de gegevensstroom Gen2-editor.

Gegevens verplaatsen met pijplijnen

Nu u een Gegevensstroom Gen2 hebt gemaakt, kunt u ermee werken in een pijplijn. In dit voorbeeld kopieert u de gegevens die zijn gegenereerd op basis van de gegevensstroom in tekstindeling in een Azure Blob Storage-account.

Een nieuwe pipeline maken

  1. Selecteer Nieuw in uw werkruimte en vervolgens Pijplijn.

    Schermopname van het maken van een nieuwe pijplijn.

  2. Geef uw pijplijn een naam en selecteer Maken.

    Schermopname van de prompt voor het maken van een nieuwe pijplijn met een voorbeeldpijplijnnaam.

Uw gegevensstroom configureren

  1. Voeg een gegevensstroomactiviteit toe aan uw pijplijn door Gegevensstroom te selecteren op het tabblad Activiteiten .

    Schermopname van het toevoegen van een gegevensstroomactiviteit.

  2. Selecteer de gegevensstroom op het pijplijncanvas, ga naar het tabblad Instellingen en kies de gegevensstroom die u eerder hebt gemaakt.

    Schermopname van het selecteren van een gegevensstroom.

  3. Selecteer Opslaan en voer vervolgens uit om de samengevoegde querytabel te vullen.

    schermopname waarin wordt weergegeven waar u Uitvoeren kunt selecteren.

Een kopieeractiviteit toevoegen

  1. Selecteer Gegevens kopiëren op het canvas of gebruik de Kopieerassistent op het tabblad Activiteiten .

    Schermopname van de twee manieren om toegang te krijgen tot de kopieerassistent.

  2. Kies Azure SQL Database als gegevensbron en selecteer Volgende.

    schermopname waarin wordt weergegeven waar u een gegevensbron kunt kiezen.

  3. Maak een verbinding met uw gegevensbron door Nieuwe verbinding makente selecteren. Vul de vereiste verbindingsgegevens in het deelvenster in en voer AdventureWorksLT in voor de database, waar we de samenvoegquery in de gegevensstroom hebben gegenereerd. Selecteer vervolgens Volgende.

    schermopname waarin wordt weergegeven waar u een nieuwe verbinding maakt.

  4. Selecteer de tabel die u eerder hebt gegenereerd in de gegevensstroomstap en selecteer vervolgens Volgende.

    schermopname waarin wordt getoond hoe u een selectie kunt maken uit beschikbare tabellen.

  5. Kies voor uw bestemming Azure Blob Storage- en selecteer vervolgens Volgende.

    schermopname van de Azure Blob Storage-gegevensbestemming.

  6. Maak een verbinding met uw bestemming door Nieuwe verbinding makente selecteren. Geef de details voor uw verbinding op en selecteer vervolgens Volgende.

    schermopname waarin wordt getoond hoe u een verbinding maakt.

  7. Selecteer uw mappad en geef een bestandsnaam open selecteer vervolgens Volgende.

    Schermopname die laat zien hoe u de maplocatie en de bestandsnaam selecteert.

  8. Selecteer Volgende opnieuw om de standaardbestandsindeling, kolomscheidingsteken, rijscheidingsteken en compressietype te accepteren, eventueel inclusief een koptekst.

    schermopname met de configuratieopties voor het bestand in Azure Blob Storage.

  9. Voltooi uw instellingen. Controleer en selecteer vervolgens Opslaan en uitvoeren om het proces te voltooien.

    Schermopname waarin wordt getoond hoe u de instellingen voor het kopiëren van gegevens controleert.

Uw pijplijn ontwerpen en opslaan om gegevens uit te voeren en te laden

  1. Als u de activiteit Kopiëren wilt uitvoeren na de activiteit Gegevensstroom, sleept u vanuit Geslaagd bij de activiteit Gegevensstroom naar de activiteit Kopiëren. De activiteit Kopiëren wordt alleen uitgevoerd nadat de activiteit Gegevensstroom is geslaagd.

    Schermopname die laat zien hoe de gegevensstroomuitvoering plaatsvindt na de kopieeractiviteit.

  2. Selecteer Opslaan om uw pijplijn op te slaan. Selecteer Vervolgens Uitvoeren om uw pijplijn uit te voeren en uw gegevens te laden.

    schermopname waarin wordt weergegeven waar u Opslaan en Uitvoeren kunt selecteren.

Pijplijnuitvoering plannen

Zodra u klaar bent met het ontwikkelen en testen van uw pijplijn, kunt u plannen dat deze automatisch wordt uitgevoerd.

  1. Selecteer op het tabblad Home van het venster pijplijneditor de optie Schema.

    Schermopname van de knop Planning in het menu van het tabblad Start in de pijplijneditor.

  2. Configureer de planning naar behoefte. In het voorbeeld wordt de pijplijn dagelijks om 20:00 uur uitgevoerd tot het einde van het jaar.

    Schermopname van de planningsconfiguratie voor een pijplijn die dagelijks om 18:00 uur wordt uitgevoerd tot het einde van het jaar.

In dit voorbeeld ziet u hoe u een Gegevensstroom Gen2 maakt en configureert om een samenvoegquery te maken en op te slaan in een Azure SQL-database en vervolgens gegevens uit de database kopieert naar een tekstbestand in Azure Blob Storage. U hebt geleerd hoe u het volgende kunt doen:

  • Maak een gegevensstroom.
  • Gegevens transformeren met de gegevensstroom.
  • Maak een pijplijn met behulp van de gegevensstroom.
  • Orden de uitvoering van stappen in de pijplijn.
  • Gegevens kopiëren met de Copy Assistant.
  • Voer uw pijplijn uit en plan deze in.

Ga vervolgens verder om meer te leren over het monitoren van uw pijplijnruns.