Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Data Factory dans Microsoft Fabric vous aide à résoudre l’un des défis les plus difficiles de l’entreprise : transformer des données dispersées en insights utiles.
Les données de votre organisation se trouvent à de nombreux endroits différents : bases de données, fichiers, services cloud et systèmes hérités. Cela rend difficile d’obtenir une image complète de votre entreprise. Data Factory se connecte à plus de 170 sources de données, notamment des environnements multiclouds et des configurations hybrides avec des passerelles locales. Il vous permet de déplacer et de transformer vos données à grande échelle, de les transformer en formats qui fonctionnent bien pour l’analytique et la prise de décision.
Diagramme de Data Factory dans Microsoft Fabric qui montre une sélection de connecteurs liés à des outils d’analyse et de développement de données dans Fabric via le déplacement, l’orchestration et la transformation des données. Tout cela repose sur Fabric OneLake, et toute la pile est imprégnée d'une intelligence animée par l'intelligence artificielle.
Que vous soyez un utilisateur professionnel qui crée votre première stratégie d’analytique des données ou un développeur qui crée des flux de travail complexes, vous trouverez les bons outils pour :
- Rassembler vos données
- Nettoyez-le
- Faites-le prêt pour l'analyse dans votre Lakehouse ou votre entrepôt de données.
- Automatiser vos flux de travail de données
Qu’est-ce que l’intégration des données ?
L’intégration des données est le processus de regroupement de vos données stratégiques afin de pouvoir y accéder et les analyser. Il s’agit d’une partie clé de toute entreprise qui souhaite prendre des décisions pilotées par les données.
Il existe de nombreuses façons d’intégrer vos données, mais l’une des stratégies les plus courantes est ETL. ETL signifie Extract, Transform, Load. Il prend des informations provenant de nombreuses sources différentes, les transforme en un format que vous pouvez analyser et les charger dans un système de destination commun pour l’analyse ou la création de rapports. Lorsque vous implémentez un processus ETL dans la plateforme de données de votre entreprise, il améliore la cohérence des données, la qualité et l’accessibilité.
Voici ce que fait chaque phase :
- Extraire : lit les données de vos sources et les déplace vers un emplacement de stockage central. Les sources peuvent être des bases de données, des fichiers, des API, des sites web, etc.
- Transformation : nettoie, enrichit et transforme vos données dans un format facile à analyser. Par exemple, vous pouvez comparer les données de vente d’une base de données SQL avec des documents de ventes historiques analysés. Après avoir extrait les données, vous devez transformer les données de chaque source afin qu’elles soient au même format, rechercher des altérations ou des doublons et combiner les données en un seul jeu de données.
- Charge : écrit les données transformées dans un système de destination, comme un entrepôt de données ou un lac de données. Le système de destination est l’endroit où vous pouvez exécuter des requêtes et des rapports sur vos données.
ETL ou ELT ?
Lorsque vous travaillez avec des données, la façon dont vous les déplacez et les transformez est importante; chaque organisation aura des besoins différents. Par exemple : ETL (Extraire, Transformer, Charger) et ELT (Extraire, Charger, Transformer). Chacun a des forces, en fonction de vos besoins en termes de performances, d’extensibilité et de coût.
ETL : Transformez vos données avant de les charger dans leur destination. Cela fonctionne bien lorsque vous avez besoin de nettoyer, de normaliser ou d’enrichir des données au fur et à mesure qu’elles se déplacent. Par exemple, utilisez dataflow Gen2 de Data Factory pour appliquer des transformations à grande échelle avant de charger des données dans un entrepôt ou Lakehouse.
ELT : chargez d’abord les données brutes, puis transformez-les là où elles sont stockées. Cette approche utilise la puissance des moteurs d’analytique tels que OneLake, Spark Notebooks ou outils SQL de Fabric. ELT fonctionne bien pour gérer des jeux de données volumineux avec un calcul moderne à l’échelle du cloud.
Fabric Data Factory prend en charge les deux. Vous pouvez:
- Créer des pipelines ETL classiques pour la qualité et la préparation immédiates des données
- Utiliser des flux de travail ELT pour tirer parti du calcul et du stockage intégrés pour les transformations à grande échelle
- Combiner les deux approches dans la même solution pour la flexibilité
Data Factory est une solution d’intégration de données puissante
Data Factory se connecte à vos données, les déplace, les transforme et orchestre vos tâches de déplacement et de transformation de données à partir d’un emplacement unique. Vous décidez de la stratégie qui convient le mieux à votre entreprise, et Data Factory fournit les outils nécessaires pour le faire.
Connectez-vous à vos données : que ce soit localement, dans le cloud ou dans des environnements multiclouds, Data Factory se connecte à vos sources de données et destinations. Il prend en charge un large éventail de sources de données, notamment les bases de données, les lacs de données, les systèmes de fichiers, les API, etc. Consultez les connecteurs disponibles pour obtenir la liste complète des sources et destinations de données prises en charge.
Déplacer des données : Data Factory fournit plusieurs méthodes pour déplacer des données de la source vers la destination, ou fournir un accès facile aux données existantes, en fonction de vos besoins.
- Travail de copie : solution préférée pour le déplacement simplifié des données avec prise en charge native de plusieurs styles de remise, notamment la copie en bloc, la copie incrémentielle et la réplication de capture de données modifiées (CDC). Il offre également la flexibilité nécessaire pour gérer un large éventail de scénarios allant de nombreuses sources à de nombreuses destinations, tout au long d’une expérience intuitive et facile à utiliser.
- Activité de copie : déplace les données d’un emplacement à une autre à n’importe quelle échelle, avec une personnalisation étendue, la prise en charge d’un large éventail de sources et de destinations, ainsi que le contrôle manuel de la copie parallèle pour améliorer les performances.
- Mise en miroir : créez un réplica quasi en temps réel de votre base de données opérationnelle dans OneLake dans Microsoft Fabric pour faciliter vos analyses et rapports.
Consultez notre guide de décision de déplacement des données pour vous aider à choisir la méthode de déplacement de données appropriée pour votre scénario.
Transformation : Data Factory fournit des activités pour vous connecter à vos scripts de transformation personnalisés ou au concepteur de dataflows puissant.
- Activités de pipeline : notebook Fabric, activité HDInsight, définition de travail Spark, procédure stockée, scripts SQL, etc. Ces activités vous permettent d’exécuter du code ou des scripts personnalisés pour transformer vos données.
- Dataflow Gen 2 : transformez vos données à l’aide d’une interface à faible code avec plus de 300 transformations. Vous pouvez effectuer des jointures, des agrégations, un nettoyage des données, des transformations personnalisées et bien plus encore.
- travail dbt : travail dbt dans Microsoft Fabric permet des transformations de données sql directement dans Fabric. Ils fournissent une configuration simple et sans code pour générer, tester et déployer des modèles dbt sur votre entrepôt de données Fabric.
Orchestrer : Data Factory vous permet de créer des pipelines qui peuvent exécuter plusieurs mouvements de données, transformations et autres activités dans un seul flux de travail.
- Planifiez les pipelines à exécuter à des moments spécifiques ou déclenchez-les en fonction d’événements.
- Les pipelines peuvent inclure une logique de flux de contrôle, telle que des boucles et des conditions, pour gérer des flux de travail complexes et orchestrer tout votre traitement de données à l’aide d’une interface utilisateur simple du concepteur de pipelines à faible code.
- Si vous préférez exprimer vos processus d’orchestration dans le code, Fabric Data Factory s’intègre à Apache Airflow pour générer des DAGs pour l’orchestration à l’aide de Python.
Intégration des données alimentées par l’IA
L'IA est intégrée tout au long de Data Factory pour vous aider à en faire plus avec moins d'effort. Copilot pour Data Factory vous permet de concevoir, de modifier et de gérer des pipelines et des flux de données à l’aide du langage naturel. Vous pouvez taper des invites en anglais simple et Copilot les transforme en étapes ETL fonctionnelles.
Copilot récapitule également vos requêtes et pipelines de flux de données existants, ce qui vous permet de comprendre rapidement ce qu’ils font. Si vous rencontrez des erreurs, Copilot explique ce qui s’est passé et suggère des moyens de le corriger.
Pour plus d’informations, consultez Copilot dans Fabric dans la charge de travail Data Factory.
De quoi avez-vous besoin pour commencer ?
- Un compte de locataire Microsoft Fabric avec un abonnement actif. Si vous n’en avez pas, vous pouvez créer un compte gratuit.
- Un espace de travail compatible avec Microsoft Fabric. Découvrez comment créer un espace de travail.
Que se passe-t-il si nous utilisons déjà Azure Data Factory ?
Data Factory dans Microsoft Fabric est la prochaine génération d’Azure Data Factory, conçue pour gérer vos défis d’intégration de données les plus complexes avec une approche plus simple.
Consultez notre guide de comparaison pour connaître les principales différences entre ces deux services, afin de pouvoir faire le bon choix pour votre entreprise.
Lorsque vous êtes prêt à migrer, suivez notre guide de migration.
Contenu connexe
Pour plus d’informations et pour commencer à utiliser Microsoft Fabric, suivez ces guides :
- Laboratoire de fabrique de données guidée - démonstration de Data Factory dans Fabric
- À quoi pouvez-vous vous connecter ? - toutes les sources et destinations disponibles pour Data Factory
- Tutoriel Data Factory de bout en bout : nous allons vous guider tout au long du processus ETL, de l’ingestion des données à la transformation et au chargement dans un système de destination