Partager via


Qu'est-ce qu'un gestionnaire du flux de travail ?

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Important

Le 1er janvier 2026, vous ne pourrez plus créer de nouvelles instances Airflow à l’aide du Gestionnaire d’orchestration de flux de travail d’ADF. Nous vous recommandons de migrer toutes les charges de travail Apache Airflow (Apache Airflow dans Azure Data Factory) vers des travaux Apache Airflow dans Microsoft Fabric avant le 31 décembre 2025.

Pour plus d’informations ou pour obtenir du support pendant votre migration vers Apache Airflow dans Microsoft Fabric, contactez le support Microsoft.

Azure Data Factory offre des pipelines serverless pour l’orchestration des processus de données, le déplacement des données avec plus de 100 connecteurs managés et des transformations visuelles avec le flux de données de mappage.

Le service de gestionnaire du flux de travail d'Azure Data Factory est un moyen simple et efficace de créer et de gérer des environnements Apache Airflow, ce qui vous permet d'exécuter facilement des pipelines de données à grande échelle. Apache Airflow est une plateforme open source utilisée pour créer, planifier et superviser par programmation des workflows de données complexes. Elle vous permet de définir un ensemble de tâches, appelées opérateurs, qui peuvent être combinées en graphes orientés acyclique (DAG) pour représenter des pipelines de données. Airflow vous permet d’exécuter ces graphes DAG selon une planification ou en réponse à un événement, de superviser la progression des workflows et de fournir une visibilité sur l’état de chaque tâche. Il est largement utilisé dans l’engineering données et la science des données pour orchestrer des pipelines de données, tout en étant connu pour sa flexibilité, son extensibilité et sa facilité d’utilisation.

Capture d’écran montrant l’intégration des données.

Quand utiliser le gestionnaire du flux de travail ?

Azure Data Factory offre des pipelines pour orchestrer visuellement les processus de données (création basée sur l’interface utilisateur). À l'inverse, le gestionnaire du flux de travail propose des DAG Python basés sur Airflow (création basée sur du code Python) pour définir le processus d'orchestration des données. Si vous connaissez déjà Airflow, ou si vous utilisez actuellement Apache Airflow, vous préférerez peut-être utiliser le gestionnaire du flux de travail au lieu des pipelines. Au contraire, si vous ne souhaitez pas écrire/gérer des DAG basés sur Python pour l'orchestration des processus de données, vous préférerez peut-être utiliser des pipelines.

Avec le gestionnaire du flux de travail, Azure Data Factory offre désormais des fonctionnalités de multi-orchestration couvrant les exigences d'une orchestration OSS visuelle et centrée sur le code.

Fonctionnalités

Le gestionnaire du flux de travail dans Azure Data Factory propose un ensemble de fonctionnalités puissantes, notamment :

  • Déploiement simple et rapide : vous pouvez configurer rapidement et facilement Apache Airflow en sélectionnant une version d'Apache Airflow lors de la création de l'environnement du gestionnaire du flux de travail.
  • Mise à l'échelle du cloud : le gestionnaire du flux de travail met automatiquement à l'échelle les nœuds Apache Airflow si nécessaire, en fonction des plages définies (min, max).
  • Intégration Microsoft Entra : vous pouvez activer le contrôle d'accès basé sur le rôle (RBAC) Microsoft Entra sur votre environnement Airflow, pour une expérience d'authentification unique sécurisée par Microsoft Entra ID.
  • Chiffrement des métadonnées : le gestionnaire du flux de travail chiffre automatiquement les métadonnées à l'aide de clés gérées par Azure pour garantir un environnement sécurisé par défaut. Il prend également en charge le chiffrement double avec une clé gérée par le client (CMK).
  • Surveillance et alertes Azure : tous les journaux générés par le gestionnaire du flux de travail sont exportés vers Azure Monitor. Il fournit également des métriques pour suivre les conditions critiques et vous aider à émettre une notification si nécessaire.

Architecture

Capture d'écran montrant l'architecture dans le gestionnaire du flux de travail.

Disponibilité régionale (préversion publique)

  • USA Est
  • USA Centre Sud
  • USA Ouest
  • Brésil Sud
  • Sud du Royaume-Uni
  • Europe Nord
  • Europe Ouest
  • Asie Sud-Est

Remarque

La région de l'environnement Airflow est définie par défaut sur la région Data Factory et n'est pas configurable : veillez donc à utiliser une instance Data Factory dans l'une des régions prises en charge ci-dessus pour pouvoir accéder à la préversion du gestionnaire du flux de travail.

Versions d’Apache Airflow prises en charge

  • 2.6.3

Remarque

La modification de la version d'Airflow dans un runtime d'intégration existant n'est pas prise en charge. La solution recommandée consiste à créer un nouveau runtime d'intégration Airflow avec la version souhaitée

Intégrations

Apache Airflow s’intègre aux services Microsoft Azure via le fournisseur microsoft.azure.

Vous pouvez installer n’importe quel package de fournisseur en modifiant l’environnement Airflow depuis l’interface utilisateur Azure Data Factory. L’installation du package prend environ deux minutes.

Capture d’écran montrant l’intégration d’Airflow.

Limites

  • Le gestionnaire du flux de travail est disponible en disponibilité générale dans d'autres régions.
  • Les sources de données utilisées par Airflow doivent être accessibles via un point de terminaison public (réseau).
  • Les DAG se trouvant dans un stockage Blob dans un réseau virtuel/derrière un pare-feu ne sont actuellement pas pris en charge. À la place, nous vous recommandons d'utiliser la fonctionnalité de synchronisation Git du gestionnaire du flux de travail. Consultez Synchroniser un dépôt GitHub dans le gestionnaire du flux de travail
  • L'importation de DAG depuis Azure Key Vault n'est pas prise en charge dans LinkedServices.