Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Pipelines in Microsoft Fabric Data Factory helfen Ihnen, Ihre Datenworkflows zu koordinieren und zu automatisieren. Eine Pipeline ist eine logische Gruppierung von Aktivitäten, die gemeinsam eine Aufgabe ausführen. Beispielsweise könnte eine Pipeline eine Reihe von Aktivitäten enthalten, die Daten aufnehmen und bereinigen und dann einen Datenfluss starten, um die Protokolldaten zu analysieren.
Mit der Pipeline können Sie die Aktivitäten als Satz statt einzeln verwalten. Sie stellen die Pipeline bereit und planen sie zusammen mit den Aktivitäten, anstatt sie unabhängig davon zu tun.
Wann verwendet man Pipelines?
Pipelines lösen häufige Datenprobleme, indem sie sich wiederholende Aufgaben automatisieren und eine konsistente Datenverarbeitung sicherstellen.
Angenommen, Sie sind ein Einzelhandelsunternehmen, das tägliche Verkaufsdaten aus mehreren Geschäften verarbeiten muss. Jeden Tag müssen Sie:
- Sammeln von Daten aus Point-of-Sale-Systemen, Onlinebestellungen und Bestandsdatenbanken
- Überprüfen und Bereinigen der Daten zur Gewährleistung der Genauigkeit
- Transformieren Sie die Daten, indem Sie tägliche Summen berechnen, Geschäftsregeln anwenden und mit Kundeninformationen bereichern
- Laden der verarbeiteten Daten in Ihr Data Warehouse zur Berichterstellung
- Benachrichtigen Sie Ihr Business Intelligence-Team, wenn die Daten bereit sind
Eine Pipeline automatisiert diesen gesamten Workflow. Sie wird im Zeitplan ausgeführt, behandelt Fehler ordnungsgemäß und bietet Einblicke in die einzelnen Schritte. Sie erhalten eine konsistente und zeitnahe Datenverarbeitung ohne manuelle Eingriffe.
Wichtige Pipelinekomponenten
Pipelines bestehen aus mehreren wichtigen Komponenten, die zusammenarbeiten, um leistungsstarke Datenworkflows zu erstellen. Die Hauptkomponenten umfassen Aktivitäten , die die Arbeit ausführen und Ihrer Pipeline Logik hinzufügen, Zeitpläne oder Trigger , die bestimmen, wann Pipelines ausgeführt werden, und Parameter , die Ihre Pipelines flexibel und wiederverwendbar machen.
Activities
Aktivitäten sind die Bausteine Ihrer Pipeline. Jede Aktivität führt eine bestimmte Aufgabe aus, und es gibt drei Hauptaktivitäten:
- Datenverschiebungsaktivitäten: Kopieren von Daten zwischen verschiedenen Quellen und Zielen
- Datentransformationsaktivitäten: Bereinigen, Aggregieren und Ändern ihrer Daten
- Ablaufsteuerungsaktivitäten: Hinzufügen von Logik wie Bedingungen, Schleifen und Fehlerbehandlung
Sie können Aktivitäten miteinander verketten, um komplexe Workflows zu erstellen. Wenn eine Aktivität abgeschlossen ist, kann sie die nächste Aktivität basierend auf Erfolg, Fehler oder Abschlussstatus auslösen.
Eine vollständige Liste der verfügbaren Aktivitäten und weitere Informationen finden Sie in der Aktivitätsübersicht.
Pipelineausführung und -planung
Eine Pipelineausführung erfolgt, wenn eine Pipeline läuft. Während eines Durchlaufs werden alle Aktivitäten in Ihrer Pipeline verarbeitet und abgeschlossen. Jede Pipelineausführung erhält eine eigene eindeutige Ausführungs-ID, die Sie zum Nachverfolgen und Überwachen verwenden können.
Sie können Pipeline-Ausführungen auf drei verschiedenen Wegen starten:
On-Demand-Ausführung: Wählen Sie " Ausführen " im Pipeline-Editor aus, um eine sofortige Ausführung auszulösen. Sie müssen alle Änderungen speichern, bevor die Pipeline gestartet wird.
Geplante Ausführung: Richten Sie automatische Ausführungen basierend auf Zeit und Häufigkeit ein. Wenn Sie einen Zeitplan erstellen, geben Sie Anfangs- und Enddaten, Häufigkeit und Zeitzone an.
Ereignisbasierte Ausführung: Verwenden Sie Ereignistrigger, um Die Pipeline zu starten, wenn bestimmte Ereignisse auftreten, z. B. neue Dateien, die in einem Datensee ankommen, oder Änderungen in einer Datenbank.
Weitere Informationen finden Sie unter Ausführen, Planen oder Auslösen einer Pipeline.
Parameter und Variablen
Parameter machen Ihre Pipelines flexibel. Sie können beim Ausführen der Pipeline unterschiedliche Werte übergeben, sodass dieselbe Pipeline unterschiedliche Datasets verarbeitet oder unterschiedliche Konfigurationen verwendet.
Variablen speichern temporäre Werte während der Pipelineausführung. Sie können diese verwenden, um Daten zwischen Aktivitäten zu übergeben oder Entscheidungen basierend auf Laufzeitbedingungen zu treffen.
Weitere Informationen finden Sie unter Verwenden von Parametern, Ausdrücken und Funktionen in Pipelines.
Pipelineüberwachung und -verwaltung
Fabric bietet umfassende Überwachung für Ihre Pipelines:
- Echtzeitüberwachung: Überwachen Des Pipelinefortschritts während der Ausführung mit visuellen Indikatoren für den Status der einzelnen Aktivitäten
- Ausführungsverlauf: Überprüfen früherer Ausführungen, um Muster zu identifizieren und Probleme zu beheben
- Leistungsmetriken: Analysieren von Ausführungszeiten und Ressourcennutzung zur Optimierung Ihrer Pipelines
- Überwachungspfad: Nachverfolgen, wer welche Pipelines ausgeführt hat, mit detaillierten Protokollen der Startzeiten, Endzeiten, Aktivitätsdauer, Fehlermeldungen und Datenlinie
Weitere Informationen finden Sie unter Überwachung von Pipeline-Läufen.
Bewährte Methoden
Berücksichtigen Sie beim Entwerfen von Pipelines die folgenden Empfehlungen:
- Beginnen Sie einfach: Beginnen Sie mit der einfachen Datenbewegung und fügen Sie schrittweise Komplexität hinzu
- Verwenden von Parametern: Machen Sie Ihre Pipelines wiederverwendbar, indem Sie Verbindungen und Dateipfade parametrisieren.
- Behandeln von Fehlern: Planen von Fehlern mit Wiederholungslogik und alternativen Verarbeitungspfaden
- Überwachen der Leistung: Regelmäßige Überprüfung der Ausführungszeiten und Optimieren langsam ausgeführter Aktivitäten
- Testen Sie gründlich: Überprüfen Sie Ihre Pipelines mit Beispieldaten vor der Verarbeitung von Produktionsworkloads