Partager via


Dataflow Gen2 avec intégration CI/CD et Git

Dataflow Gen2 prend en charge l’intégration continue/déploiement continu (CI/CD) et l’intégration Git. Vous pouvez créer, modifier et gérer des flux de données dans un référentiel Git connecté à votre espace de travail Fabric. Utilisez des pipelines de déploiement pour automatiser le déplacement de flux de données entre les espaces de travail. Cet article explique comment utiliser ces fonctionnalités dans Fabric Data Factory.

Fonctionnalités

Dataflow Gen2 avec intégration CI/CD et Git offre une gamme de fonctionnalités pour simplifier votre flux de travail. Voici ce que vous pouvez faire avec ces fonctionnalités :

  • Intégrez Git à Dataflow Gen2.
  • Automatisez le déploiement de flux de données entre les espaces de travail à l’aide de pipelines de déploiement.
  • Actualisez et modifiez les paramètres Dataflow Gen2 avec les outils Fabric.
  • Créez Dataflow Gen2 directement dans un dossier d’espace de travail.
  • Utilisez les API publiques (préversion) pour gérer Dataflow Gen2 avec l’intégration CI/CD et Git.

Prérequis

Avant de commencer, assurez-vous de :

Créer un dataflow Gen2 avec intégration CI/CD et Git

La création d’un dataflow Gen2 avec INTÉGRATION CI/CD et Git vous permet de gérer efficacement vos dataflows dans un référentiel Git connecté. Pour commencer, procédez comme suit :

  1. Dans l’espace de travail Fabric, sélectionnez Créer un élément, puis Dataflow Gen2.

    Capture d’écran de la fenêtre Nouvel élément avec l’élément Dataflow Gen2 mis en évidence.

  2. Nommez votre dataflow, activez l’intégration Git, puis sélectionnez Créer.

    Capture d’écran de la fenêtre Nouveau Dataflow Gen2 avec le nom du flux de données défini et l’intégration Git mise en évidence et sélectionnée.

    Le flux de données s’ouvre dans l'espace de création, où vous pouvez commencer à créer votre flux de données.

  3. Lorsque vous avez terminé, sélectionnez Enregistrer et exécuter.

  4. Après la publication, le flux de données affiche un état « non engagé ».

    Capture d’écran du Dataflow Gen2 enregistré avec l’état indiqué comme non validé.

  5. Pour valider le flux de données sur Git, sélectionnez l’icône de contrôle de code source dans le coin supérieur droit.

    Capture d’écran du bouton Contrôle de code source.

  6. Sélectionnez les modifications à valider, puis sélectionnez Valider.

    Capture d’écran de la fenêtre Contrôle de code source avec le flux de données sélectionné et le bouton Valider mis en évidence.

Votre Dataflow Gen2 avec INTÉGRATION CI/CD et Git est prêt. Pour obtenir les meilleures pratiques, consultez le scénario 2 - Développer à l’aide d’un autre didacticiel sur l’espace de travail .

Actualiser un flux de données Gen2

L’actualisation d’un Dataflow Gen2 garantit que vos données sont up-to-date. Vous pouvez actualiser manuellement ou configurer une planification pour automatiser le processus.

Actualiser maintenant

  1. Dans l’espace de travail Fabric, sélectionnez les points de suspension en regard du flux de données.

  2. Sélectionnez Actualiser maintenant.

    Capture d’écran du menu déroulant Options supplémentaires avec l’option Actualiser maintenant mise en évidence.

Programmer une actualisation

  1. Dans l’espace de travail Fabric, sélectionnez les points de suspension en regard du flux de données.

  2. Sélectionnez Planifier.

    Capture d’écran du menu déroulant des options supplémentaires avec l’option Planifier mise en évidence.

  3. Dans la page de planification, définissez la fréquence d’actualisation, l’heure de début et l’heure de fin. Appliquez les modifications.

    Capture d’écran de l’écran des paramètres du flux de données avec l’onglet Planifier sélectionné et le bouton Actualiser mis en évidence.

  4. Pour actualiser immédiatement, sélectionnez Actualiser.

Afficher l’historique et les paramètres d’actualisation

Comprendre l’historique des actualisations et les paramètres de gestion vous permet de surveiller et de contrôler votre Dataflow Gen2. Voici comment accéder à ces options.

Pour afficher l’historique des actualisations, sélectionnez l’onglet Exécutions récentes dans le menu déroulant ou accédez au hub de surveillance et sélectionnez le flux de données.

Accédez aux paramètres de dataflow en sélectionnant les points de suspension en regard du flux de données et en choisissant Paramètres.

Sauvegarde remplace publier

L’opération d’enregistrement dans Dataflow Gen2 avec l’intégration CI/CD et Git publie automatiquement les modifications, ce qui simplifie le flux de travail.

L’enregistrement d’un Dataflow Gen2 publie automatiquement les modifications. Si vous souhaitez ignorer les modifications, sélectionnez Ignorer les modifications lors de la fermeture de l’éditeur.

Vérification

Lors de l’enregistrement, le système vérifie si le flux de données est valide. Si ce n’est pas le cas, une erreur s’affiche dans l’affichage de l’espace de travail. La validation exécute une évaluation « zéro ligne », qui vérifie les schémas de requête sans retourner de lignes. Si le schéma d’une requête ne peut pas être déterminé dans les 10 minutes, l’évaluation échoue. En cas d’échec de la validation, le système utilise la dernière version enregistrée pour les actualisations.

Publication juste-à-temps

La publication juste-à-temps garantit que vos modifications sont disponibles si nécessaire. Cette section explique comment le système gère la publication pendant les actualisations et d’autres opérations.

Dataflow Gen2 utilise un modèle de publication « juste-à-temps » automatisé. Lorsque vous enregistrez un dataflow, les modifications sont immédiatement disponibles pour l’actualisation ou l’exécution suivante. La synchronisation des modifications de Git ou l’utilisation de pipelines de déploiement enregistre le flux de données mis à jour dans votre espace de travail. L’actualisation suivante tente de publier la dernière version enregistrée. Si la publication échoue, l’erreur apparaît dans l’historique d’actualisation.

Lorsque vous actualisez un dataflow, il existe une option dans l’API REST Jobs en arrière-plan (Run On Demand Execute) qui contrôle si la publication est tentée. La valeur par défaut de cette option ApplyChangesIfNeeded est true, ce qui déclenche une publication uniquement si la source a changé depuis la dernière publication. Cela traite des scénarios dans lesquels les utilisateurs ont besoin de déclencher manuellement une publication lors de modifications via CI/CD ou l’API.

Dans certains cas, le back-end republie automatiquement des flux de données pendant les actualisations pour garantir la compatibilité avec les mises à jour.

Auparavant, si la publication échoue, l’actualisation s’exécute à l’aide de la dernière version publiée du flux de données. En cas de publication juste-à-temps, l’actualisation échouera si :

  • Le flux de données a été sauvegardé pour la dernière fois après le 1er février 2026 et
  • La publication échoue (même s’il y a eu une publication réussie dans le passé).

Cela empêche les scénarios où les clients exécutent inconsciemment des versions obsolètes d’un dataflow. Il garantit que ce qui est affiché dans l’éditeur correspond à ce qui est exécuté.

Les API sont également disponibles pour actualiser un dataflow sans publication ni déclencher manuellement la publication.

Limitations et problèmes connus

Bien que Dataflow Gen2 avec l’intégration CI/CD et Git soit puissante, il existe des limitations et des problèmes connus à connaître. Voici ce que vous devez savoir.

  • Lorsque vous supprimez le dernier Dataflow Gen2 avec prise en charge de CI/CD et de Git, les éléments intermédiaires deviennent visibles dans l’espace de travail et peuvent être supprimés en toute sécurité par l’utilisateur.
  • La vue Espace de travail n’affiche pas les informations suivantes : indication d’actualisation en cours, dernière actualisation, actualisation suivante et indication d’échec d’actualisation.
  • Lorsque votre dataflow ne parvient pas à s’actualiser, nous ne prenons pas en charge l’envoi automatique d’une notification d’échec. Pour contourner ce problème, vous pouvez tirer parti des fonctionnalités d’orchestration des pipelines.
  • Lors de la création de branche vers un autre espace de travail, une actualisation d’un Dataflow Gen2 peut échouer avec le message indiquant que le lakehouse intermédiaire n’a pas pu être trouvé. Lorsque cela se produit, créez un Flux de données Gen2 avec CI/CD et une prise en charge Git dans l’espace de travail pour déclencher la création du lakehouse intermédiaire. Après cela, tous les autres flux de données de l’espace de travail devraient recommencer à fonctionner.
  • Lorsque vous synchronisez les modifications de GIT dans l’espace de travail ou utilisez des pipelines de déploiement, vous devez ouvrir le flux de données nouveau ou mis à jour et enregistrer manuellement les modifications avec l’éditeur. Cela déclenche une action de publication en arrière-plan pour permettre l’utilisation des modifications lors de l’actualisation de votre dataflow. Vous pouvez également utiliser l'appel d'API de publication à la demande Dataflow pour automatiser l'opération de publication.
  • Le connecteur Power Automate pour dataflows ne fonctionne pas avec le nouveau Dataflow Gen2, avec prise en charge de CI/CD et Git.