Delen via


Beslissingshandleiding voor Microsoft Fabric: Een strategie voor gegevensintegratie kiezen

Microsoft Fabric heeft een uitgebreide reeks hulpprogramma's voor het efficiënt verwerken van gegevens- en analyseworkloads. Met zoveel beschikbare opties, waaronder batch-, pijplijn- en realtime streamingmogelijkheden, kan het lastig zijn om het juiste hulpprogramma te kiezen voor uw specifieke behoeften. Deze handleiding bevat een roadmap om u te helpen de juiste strategie te selecteren.

Schermopname van het werkstroomdiagram voor gegevensintegratie met kolommen voor gegevensverplaatsing, indeling en transformatie.

Als u de juiste service voor gegevensintegratie in Microsoft Fabric wilt kiezen, kunt u de volgende vragen overwegen:

  • Wat is uw primaire doel? Wilt u gegevens opnemen, transformeren, repliceren, gegevensverplaatsing organiseren of gegevens streamen en in realtime verwerken?

  • Wat is uw technische vaardigheidsniveau? Hebt u liever geen code of oplossingen met weinig code, of bent u vertrouwd met code?

  • Met welk type gegevensworkload werkt u? Is het batch, bulk, incrementeel, doorlopend streamen of bijna realtime?

  • Wat voor soort gegevenstransformatie hebt u nodig? Doet u lichte transformaties of complexe transformaties?

Zie het overzicht van de connector voor de lijst met ondersteunde connectors in de kopieertaak, de kopieeractiviteit en de gegevensstroom gen 2. Zie de lijst met bronnen voor de lijst met ondersteunde Eventstream-bronnen.

Strategieën voor gegevensverplaatsing

Mirroring Taak kopiëren Kopieeractiviteit (pijplijn) Eventstreams
Gebruikssituatie Replicatie van gegevens Gegevensopname en replicatie Gegevensopname Opname en verwerking van streaminggegevens
Vlaggenschipscenario's Bijna realtime synchroniseren met turn-key setup. Replication Incrementeel kopiëren/replicatie (watermarkering + systeemeigen CDC), Data Lake/ Storage-gegevensmigratie,Medalopname, out-of-the-box kopie met meerdere tabellen. Data Lake / Storage Data Migration, Medallion Ingestie, Incrementeel kopiëren via pijplijnexpressies en besturingstabellen (alleen watermerk) Incrementele verwerking, gebeurtenisgestuurde en realtime AI-toepassingen
bron 6+ connectoren 50+ connectoren 50+ connectoren 25+ bronnen
Destination Gespiegelde database (opgeslagen als alleen-lezen Delta-tabel in Fabric OneLake) 40+ connectoren 40+ connectoren 4+ bestemmingen
Type binnenkomende gegevens Bijna realtime Batch/Incrementele kopie (gegevensopname op basis van watermarkering en wijziging) / Bijna realtime Incrementele kopie op basis van batch/bulk/handmatig op watermerk gebaseerde incrementele kopie Realtime streaminggegevens, Gegevens vastleggen/feeds wijzigen
Persona Bedrijfsanalist, databasebeheerder Bedrijfsanalist, gegevensintegrator, data engineer Gegevensintegrator, bedrijfsanalist, data engineer Data Engineer & Integrator, gegevensanalist
Vaardighedenset Geen ETL, SQL ETL, SQL ETL, SQL, KQL
Coderingsniveau Geen code Geen code/lage code Geen code/lage code Geen code/lage code
Ondersteuning voor transformatie Geen Low Low Gemiddeld (streamanalyse)

Zie de strategie voor gegevensverplaatsing voor meer informatie.

Indelingsstrategieën

Pijpleiding Apache Airflow-taak
Gebruikssituatie Indeling met weinig code Code-eerst Orchestratie
Vlaggenschipscenario's Logische groepering van verschillende activiteiten samen om een taak uit te voeren. Python Code-Centric Ontwerpen
bron Alle fabric-compatibele bronnen (afhankelijk van geselecteerde pijplijnactiviteiten) Meer dan 100 connectors
Destination Alle fabric-compatibele bronnen (afhankelijk van geselecteerde pijplijnactiviteiten) Meer dan 100 connectors
Type binnenkomende gegevens Alle typen Alle typen
Persona Gegevensintegrator, bedrijfsanalist, data engineer Apache Airflow-gebruikers
Vaardighedenset ETL, SQL, Spark (Scala, Py, SQL, R) Python
Coderingsniveau Geen code/lage code Code-first
Ondersteuning voor transformatie Geen Geen

Transformatiestrategieën

Notebooks Gegevensstroom Gen 2 Eventstreams
Gebruikssituatie Code-first Data Prep/Transform Codevrije gegevensvoorbereiding/transformatie Transformatie zonder code/Stream Analytics op basis van SQL
Vlaggenschipscenario's Complexe transformaties Transformatie en profilering Stroomverwerking & Analyse
bron 100+ Spark-bibliotheken 170+ ingebouwde connectors + Aangepaste SDK 25+ bronnen
Destination 100+ Spark-bibliotheken 7+ connectoren 4+ bestemmingen
Type binnenkomende gegevens Alle typen Alle typen Alle typen inclusief JSON, AVRO, CSV, XML, TXT, enzovoort.
Persona Data Scientist, Ontwikkelaar Data Engineer, Data Integrator, Bedrijfsanalist Data Engineer & Analist
Vaardighedenset Spark (Scala, Py, SQL, R) ETL, M, SQL SQL, KQL
Coderingsniveau Code-first Geen code/lage code Geen code/lage code
Ondersteuning voor transformatie High Hoog (400+ activiteiten) Gemiddeld

Scenariën

Bekijk deze scenario's om u te helpen kiezen welke strategie voor gegevensintegratie u wilt gebruiken in Microsoft Fabric.

Scenario 1

Hanna is een databasebeheerder voor een financiële dienstverlener. Ze beheert meerdere kritieke SQL Server-databases die de handelstoepassingen van de organisatie mogelijk maken. Het bedrijf heeft bijna realtime toegang nodig tot deze transactionele gegevens voor regelgevingsrapportage en risicoanalyse. Hanna moet echter voorkomen dat de prestaties van de productiesystemen worden beïnvloed.

Hanna's uitdaging is het bieden van analyseteams met up-to-datumgegevens zonder extra belasting te creëren voor de operationele databases. Ze wil geen complexe ETL-pijplijnen bouwen of processen voor gegevensverplaatsing beheren. De gegevensvolumes zijn aanzienlijk en het bedrijf heeft de gegevens nodig die beschikbaar zijn voor analyse binnen enkele minuten na transacties in de bronsystemen.

Hanna beoordeelt de opties en kiest Spiegeling als de ideale oplossing. Met spiegeling kan ze bijna realtime gegevensreplicatie van haar SQL Server-databases naar Microsoft Fabric instellen met minimale configuratie. De gespiegelde gegevens worden beschikbaar in OneLake als Delta-tabellen, waardoor downstreamanalyses worden ingeschakeld zonder dat dit van invloed is op de prestaties van het bronsysteem. Mirroring biedt de kant-en-klare configuratie die ze nodig heeft, waarbij de complexiteit van gegevensreplicatie automatisch wordt beheerd en tegelijkertijd bedrijfscontinuïteit wordt gewaarborgd.

Scenario 2

Charlie is een gegevensanalist bij een retailbedrijf. Hij is verantwoordelijk voor het consolideren van verkoopgegevens van meerdere regionale databases in een centraal datawarehouse. Het bedrijf werkt in verschillende tijdzones en de database van elke regio maakt gebruik van change data capture (CDC) om voorraad- en verkooptransacties bij te houden. Charlie heeft een oplossing nodig die de eerste volledige belasting van historische gegevens kan verwerken en vervolgens kan overschakelen naar incrementele updates op basis van CDC.

Charlie wil een no-code, wizardgestuurde benadering waarmee hij meerdere tabellen uit verschillende regionale SQL Server-exemplaren kan selecteren, de eerste bulkmigratie uitvoert en vervolgens automatisch up-to-datumgegevens onderhoudt via incrementele laadbewerkingen op basis van CDC. De oplossing moet zowel invoegingen als updates afhandelen en wijzigingen in de bestemming samenvoegen zonder handmatige tussenkomst.

Charlie evalueert de opties en selecteert Copy Job als voorkeursbenadering. Copy Job biedt de mogelijkheid om meerdere tabellen te selecteren die hij nodig heeft, ondersteunt zowel incrementeel kopiëren op basis van watermerk als systeemeigen CDC en biedt een intuïtieve wizardinterface. Met de out-of-the-box-functionaliteit kan hij het hele proces voor gegevensreplicatie configureren zonder code te schrijven en de automatische detectie van cdc-tabellen vereenvoudigt het installatieproces.

Scenario 3

Rukmina is een data engineer bij een productiebedrijf. Ze moet grote hoeveelheden historische productiegegevens migreren van een on-premises Oracle-database naar een nieuw fabricwarehouse. De migratie omvat het kopiëren van honderden tabellen met miljoenen records, en ze moet een medaille-architectuur met brons,zilver en gouden lagen implementeren. Rukmina heeft ervaring met SQL, maar geeft indien mogelijk de voorkeur aan oplossingen met weinig code.

Het project vereist dat ze onbewerkte gegevens naar de bronslaag kopieert, en vervolgens lichtgewicht transformaties toepast, zoals conversies van gegevenstypen en kolomtoewijzing wanneer de gegevens door de medaillelaag worden verplaatst. Rukmina moet ervoor zorgen dat de oplossing de grote gegevensvolumes efficiënt kan verwerken en kan worden gepland om incrementeel te worden uitgevoerd voor lopende bewerkingen. De belanghebbenden willen een oplossing die kan worden geschaald van gigabytes tot petabytes aan gegevens naarmate het bedrijf groeit.

Rukmina controleert de beschikbare opties en kiest kopieeractiviteit in pijplijnen. Deze methode biedt haar de interface voor slepen en neerzetten die ze liever gebruikt, terwijl ze de schaalbaarheid biedt die nodig is voor grote gegevensvolumes. Copy Activity ondersteunt de meer dan 50 connectors die ze nodig heeft voor verschillende bronsystemen. Met het pijplijnframework kan ze de beweging tussen medalworks-lagen organiseren. Met kopieeractiviteit kan ze zowel historische als incrementele vernieuwingspatronen voor gegevens implementeren en tegelijkertijd de prestaties behouden die nodig zijn voor petabyte-schaalbewerkingen.

Scenario 4

Julian is een bedrijfsanalist met sterke SQL-vaardigheden. Hij moet een complexe werkstroom voor gegevensverwerking organiseren die meerdere stappen omvat: het extraheren van gegevens uit verschillende systemen, het uitvoeren van gegevenskwaliteitscontroles, het uitvoeren van transformaties, het laden van gegevens in meerdere bestemmingen en het verzenden van meldingen naar belanghebbenden. De werkstroom moet volgens een planning worden uitgevoerd en afhankelijkheden tussen verschillende activiteiten verwerken.

Julian's organisatie maakt gebruik van een combinatie van Azure-services en on-premises systemen en de werkstroom vereist zowel logica voor gegevensverplaatsing als indeling. Hij moet activiteiten coördineren, zoals het uitvoeren van opgeslagen procedures, het aanroepen van web-API's, het verplaatsen van bestanden en het uitvoeren van andere pijplijnen. Hoewel Julian vertrouwd is met SQL en eenvoudige scripting, geeft hij de voorkeur aan een visuele benadering met weinig code voor het bouwen en onderhouden van deze complexe werkstromen.

Julian evalueert de opties en selecteert Pipelines als de beste oplossing voor zijn vereisten. Pijplijnen bieden het visuele canvas en activiteiten voor slepen en neerzetten die hij nodig heeft om complexe indelingswerkstromen te bouwen. De oplossing biedt ondersteuning voor logische groepering van activiteiten, afhankelijkheidsbeheer en planningsmogelijkheden. Met meer dan 50 connectors en verschillende activiteitstypen (kopiëren, opzoeken, opgeslagen procedure, web, enzovoort), bieden pijplijnen hem de flexibiliteit om diverse taken te coördineren terwijl hij de voorkeur geeft aan de benadering met weinig code.

Scenario 5

Darshan is een data scientist met uitgebreide Python-ervaring. Hij moet complexe werkstromen voor gegevensverwerking bouwen en onderhouden die machine learning-modellen, aangepaste algoritmen en verschillende externe API's integreren. Het data science-team van zijn organisatie geeft de voorkeur aan code-first benaderingen en wil gebruikmaken van hun bestaande Python-expertise, waaronder aangepaste bibliotheken en geavanceerde indelingspatronen.

Darshan heeft een oplossing nodig die op Python gebaseerde acyclische grafieken (DAG's) ondersteunt, complexe afhankelijkheden tussen taken kan verwerken en kan worden geïntegreerd met de bestaande DevOps-processen van het team. De werkstromen omvatten gegevensopname uit meerdere bronnen, functie-engineering, modeltraining, batchscore en aangepaste bedrijfslogica die de flexibiliteit van volledige Python-programmering vereist. Het team waardeert het ecosysteem van Apache Airflow en wil compatibiliteit met hun bestaande werkstromen behouden.

Darshan beoordeelt de opties en kiest Apache Airflow Jobs als de ideale oplossing. Met deze code-first aanpak kan zijn team hun Python-expertise gebruiken bij het bouwen van geavanceerde werkstromen voor gegevensverwerking. Apache Airflow-taken bieden de op DAG gebaseerde indeling waarmee ze bekend zijn, ondersteunen 100+ connectors via het Airflow-ecosysteem en kunnen ze aangepaste bedrijfslogica implementeren met behulp van Python. De benadering van de beheerde service elimineert infrastructuurproblemen terwijl de flexibiliteit en kracht van Apache Airflow behouden blijven.

Scenario 6

René is data scientist aan een onderzoeksuniversiteit. Ze moet complexe gegevensanalyse- en transformatietaken uitvoeren op grote gegevenssets die zijn opgeslagen in meerdere indelingen en bronnen. Haar werk omvat statistische analyse, machine learning-modelontwikkeling en aangepaste gegevensverwerkingsalgoritmen waarvoor de volledige kracht van gedistribueerde computing is vereist.

René werkt met gestructureerde en ongestructureerde gegevens, waaronder CSV-bestanden, JSON-documenten, Parquet-bestanden en realtime streams. Voor haar analyse zijn complexe transformaties vereist, zoals joins in meerdere grote gegevenssets, aggregaties, statistische berekeningen en aangepaste algoritmen die zijn geïmplementeerd in Python en Scala. Ze heeft de flexibiliteit nodig om interactief te werken tijdens verkenningsfasen en haar code vervolgens operationeel te maken voor productieworkloads.

René evalueert haar opties en kiest Notebooks als haar primaire hulpmiddel. Notebooks bieden de code-eerste omgeving die ze nodig heeft met volledige toegang tot de gedistribueerde computingmogelijkheden van Spark. Ze kan werken met honderden Spark-bibliotheken, complexe transformaties implementeren met behulp van meerdere talen (Python, Scala, SQL, R) en de interactieve ontwikkelomgeving gebruiken voor gegevensverkenning. Met de notebookinterface kan ze code, visualisaties en documentatie combineren en tegelijkertijd de krachtige rekenkracht bieden die nodig is voor de grootschalige vereisten voor gegevensverwerking.

Scenario 7

Ako is een bedrijfsanalist bij een gezondheidszorgorganisatie. Ze moet gegevens uit meerdere bronnen integreren, waaronder databases, webservices en bestandssystemen om schone, zakelijke gegevenssets te maken. Ako heeft veel ervaring met Power Query uit haar werk in Excel en Power BI en ze geeft de voorkeur aan visuele, no-code interfaces voor gegevensvoorbereidingstaken.

De verantwoordelijkheden van Ako omvatten het opschonen van gezondheidszorggegevens, het toepassen van bedrijfsregels, het valideren van de gegevenskwaliteit en het maken van gestandaardiseerde gegevenssets die worden ingevoerd in regelgevingsrapportagesystemen. De gegevensbronnen omvatten systemen voor patiëntbeheer, laboratoriuminformatiesystemen en externe API-services. Ze moet complexe transformaties uitvoeren, zoals gegevensprofilering, dubbele verwijdering, standaardisatie van medische codes en het maken van berekende velden op basis van bedrijfslogica.

Ako beoordeelt de beschikbare opties en selecteert Dataflow Gen 2 als voorkeursoplossing. Gegevensstroom Gen 2 biedt de vertrouwde Power Query-ervaring die ze kent van andere Microsoft-hulpprogramma's, terwijl ze verbeterde prestaties en mogelijkheden biedt. Met 170+ ingebouwde connectors kan ze verbinding maken met al haar verschillende gegevensbronnen, 300 transformatiefuncties toepassen via de visuele interface en gebruikmaken van hulpprogramma's voor gegevensprofilering om gegevenskwaliteit te garanderen. Met de no-code-benadering kan ze zich richten op de bedrijfslogica in plaats van op technische implementatiedetails.

Scenario 8

Ash is een productmanager bij een telecombedrijf. Haar team moet metrische gegevens van de klantondersteuning bewaken, zoals oproepvolumes, wachttijden en agentprestaties, in realtime om ervoor te zorgen dat aan serviceovereenkomsten (SLA's) wordt voldaan. De gegevens zijn afkomstig van meerdere operationele systemen, waaronder CRM, callcenterlogboeken en agenttoewijzingsdatabases.

Ash wil realtime dashboards bouwen en geautomatiseerde werkstromen activeren wanneer drempelwaarden worden overschreden (bijvoorbeeld wanneer wachttijden de SLA-limieten overschrijden). Ze wil ook voorkomen dat complexe ETL-pijplijnen worden gebouwd of infrastructuur wordt beheerd.

Ash evalueert de opties en selecteert Fabric Eventstreams. Met Eventstreams kan ze gegevens uit meerdere bronnen opnemen met behulp van streamingconnectors, lichtgewicht transformaties toepassen en gebeurtenissen routeren naar bestemmingen zoals Eventhouse en Data Activator. Ze stelt waarschuwingen en dashboards in die binnen enkele seconden worden bijgewerkt, zodat haar team snel kan reageren op operationele problemen.

Fabric Eventstreams en Real-Time Intelligence biedt de ervaring met lage latentie en weinig code die Ash nodig heeft om gebeurtenisgestuurde toepassingen te bouwen zonder bestaande systemen te verstoren.

Get started

Nu u weet welke service u moet gebruiken, kunt u beginnen met het bouwen van uw oplossingen voor gegevensintegratie in Microsoft Fabric.