Analytique de bout en bout avec Microsoft Fabric

Microsoft Fabric

Azure Cosmos DB

Analytique en temps réel

Azure Databricks

Azure Event Hubs

La solution de cet article combine une gamme de services Microsoft qui ingèrent, stockent, traitent, enrichissent et servent des données et des insights provenant de différentes sources. Ces sources incluent des formats structurés, semi-structurés, non structurés et de diffusion en continu.

Architecture

Amazon Simple Storage Service (AWS S3), Amazon Web Services (AWS), AWS Clusters, Google Cloud Storage, Google Cloud, Google Cloud Pub/Sub et Snowflake sont des marques déposées ou des marques de leurs propriétaires respectifs. Apache et Apache® Kafka sont des marques déposées ou des marques de la Fondation Apache Software aux États-Unis et/ou dans d’autres pays. Aucune approbation par les propriétaires respectifs des marques n’est implicite par l’utilisation de ces marques.

Téléchargez un fichier Visio de cette architecture.

Flux de données

Les sections suivantes décrivent comment OneLake sert de base pour les données à travers différentes étapes du cycle de vie des données. OneLake est le lac de données unifié de niveau entreprise intégré à Microsoft Fabric qui sert de couche de stockage centralisée pour toutes les charges de travail de données, notamment Fabric Data Engineer, Fabric Data Factory, Fabric Data Science, Fabric Data Warehouse, Fabric Real-Time Intelligence, Bases de données Fabric et Power BI.

Lakehouse

Utilisez un lakehouse lorsque vous avez besoin d’une plateforme unifiée, évolutive et flexible. Il est idéal pour gérer les données structurées, semi-structurées et non structurées pour prendre en charge l’analytique, le Machine Learning et la création de rapports. Organisez les données avec l’architecture de médaillon et utilisez des couches Bronze (brut), Silver (validé) et Gold (prêts pour l’entreprise) entre les dossiers et les fichiers, les bases de données et les tables.

Entrepôt

Utilisez Data Warehouse lorsque vous avez besoin d'une solution analytique performante, entièrement gérée, basée sur SQL, pour gérer des données structurées et semi-structurées en les organisant dans des bases de données, des schémas et des tables. Il offre une prise en charge complète de T-SQL, notamment la création de procédures stockées, de vues et de jointures.

Eventhouse

Utilisez un eventhouse pour gérer et analyser les données d’événements en temps réel et en volume élevé. Il prend en charge les données structurées, semi-structurées et non structurées, telles que les journaux et les données de télémétrie, en les organisant dans des bases de données, des schémas et des tables.

Base de données SQL dans Fabric

Utilisez la base de données SQL dans Fabric lorsque vous devez unifier les charges de travail transactionnelles et analytiques. Il s’exécute sur le même moteur qu’Azure SQL Database, fournit une prise en charge complète de T-SQL et permet l’intégration à l’écosystème Fabric plus large.

Bases de données Azure, sources de données externes et bases de données relationnelles

Cette section explique comment importer des données à partir de bases de données et de plateformes Azure telles qu’Azure Databricks, ainsi que des plateformes non-Microsoft telles que Snowflake, dans Fabric.

Ingest

Fabric fournit plusieurs approches pour l’ingestion de données à partir de bases de données relationnelles. Utilisez la mise en miroir pour répliquer votre patrimoine de données existant dans OneLake en quasi-temps réel sans processus d’extraction, de transformation et de chargement complexes (ETL). Pour plus d’informations, consultez Sources de données de mise en miroir prises en charge.

Vous pouvez également utiliser des pipelines Data Factory pour ingérer des données à partir d’un large éventail de bases de données, locales et dans le cloud. Pour ingérer les données, vous pouvez utiliser différentes approches comme une activité de copie, un travail de copie ou Dataflow Gen2. Ces options fournissent également des fonctionnalités d’orchestration, de transformation et de planification. Pour plus d’informations, consultez Connecteurs pris en charge.

Pour l’ingestion basée sur SQL, utilisez des fonctionnalités T-SQL pour charger des données à grande échelle à partir de vos lakehouses et entrepôts existants. Vous pouvez créer de nouvelles versions de table qui ont des données agrégées, des sous-ensembles filtrés ou des résultats à partir de requêtes complexes.

Store

Utilisez la mise en miroir pour créer un réplica en lecture seule de votre base de données source et la synchroniser en continu avec le système source via une réplication en quasi temps réel. La mise en miroir stocke les données au format Delta Lake dans OneLake.

Vous pouvez également utiliser une activité de copie de données ou un travail de copie à partir du pipeline Data Factory pour mettre en scène les données copiées à partir de bases de données relationnelles dans un lakehouse ou un entrepôt de données. L’architecture OneLake utilise le format Delta Lake, qui offre la flexibilité d’implémenter des lakehouses en utilisant un medallion framework ou d’employer un modèle de data warehouse qui correspond à vos besoins organisationnels.

Process

Chaque base de données mise en miroir inclut un point de terminaison SQL généré automatiquement pour l’interrogation. Le point de terminaison d'analytique SQL en lecture seule prend en charge l'accès via SQL Server Management Studio, Open Database Connectivity (ODBC), tout outil de requête avec chaîne de connexion SQL ou l'extension MSSQL avec Visual Studio Code (VS Code). Exécutez des agrégations complexes à l’aide de T-SQL ou explorez des données à l’aide de notebooks Apache Spark. Les requêtes inter-bases de données vous permettent d’accéder aux données à partir de bases de données mises en miroir et de les combiner avec d’autres sources de données Fabric telles que lakehouses et entrepôts. Les procédures stockées automatisent la logique SQL pour les transformations et agrégations de données, ce qui améliore la réutilisation et centralise la logique pour les tâches répétitives.

La mise en miroir crée un instantané complet des tables sélectionnées à partir de la base de données source. Après la charge initiale, Fabric utilise la capture de données modifiées (CDC) de la base de données source pour suivre les insertions, les mises à jour et les suppressions. Il réplique en permanence ces modifications dans OneLake avec une faible latence et une synchronisation en temps quasi réel. Vous pouvez créer des raccourcis vers des tables mises en miroir dans un "lakehouse" (architecture hybride entre un data lake et un entrepôt de données) et les interroger via des notebooks Spark.

Dataflow Gen2 nettoie et analyse les données analysées tout en détectant les incohérences de schéma, les valeurs null ou les valeurs hors norme. Après avoir profilé et transformé les données, enregistrez les données traitées dans les tables Data Warehouse.

Les notebooks Spark enrichissent les données en les chargeant à partir de lakehouses ou d’entrepôts. Entraîner ou charger des modèles Machine Learning à l’aide de bibliothèques telles que scikit-learn, XGBoost ou SynapseML. Utilisez MLflow pour suivre les expériences et inscrire des modèles. Évaluer les données avec des prédictions de lots évolutives et des prédictions en temps réel.

Serve

Une base de données mise en miroir génère un élément de base de données SQL mis en miroir et un point de terminaison d’analyse SQL que vous pouvez utiliser pour exécuter des requêtes en lecture seule. Affichez les données via l’aperçu des données ou explorez directement dans OneLake. L’éditeur de requête SQL vous permet de créer des requêtes T-SQL sur des données de l’élément de base de données mis en miroir. Vous pouvez accéder aux données mises en miroir à l’aide d’un raccourci lakehouse et de requêtes Spark pour traiter les données.

En règle générale, vous souhaiterez que ces données soient disponibles dans Power BI. Pour ce faire, créez des modèles sémantiques pour simplifier l’analyse des données et des relations métier. Les analystes d’entreprise utilisent des rapports et des tableaux de bord Power BI pour analyser les données et dériver des insights métier à l’aide du mode Direct Lake pour un lakehouse ou du point de terminaison SQL pour Data Warehouse. Utilisez l’activateur de données pour configurer des alertes sur des visuels Power BI pour surveiller les métriques fréquemment modifiées, définir des conditions d’alerte et recevoir des e-mails ou des notifications Microsoft Teams.

Le partage de données externes dans Fabric permet à un utilisateur d’un locataire Fabric (le fournisseur) de partager des données avec un utilisateur d’un autre locataire Fabric (le consommateur). Cette fonctionnalité prend en charge la collaboration entre organisations tout en conservant les limites de gouvernance et de sécurité. Les consommateurs de données accèdent aux données en lecture seule via des raccourcis OneLake dans leurs propres lakehouses et entrepôts de données, ainsi que dans les bases de données SQL et mises en miroir. L’API Fabric pour GraphQL expose les données des sources de données Fabric prises en charge via un point de terminaison d’API unique et flexible. Cette fonctionnalité est idéale pour créer des applications modernes qui nécessitent un accès efficace et en temps réel aux données structurées.

Les modèles Machine Learning servent des prédictions en temps réel à partir de n’importe quel modèle Machine Learning inscrit à l’aide de points de terminaison en ligne Machine Learning sécurisés et évolutifs qui sont automatiquement configurés. Pour un déploiement en temps réel natif de Fabric, ces points de terminaison sont des propriétés intégrées de la plupart des modèles Fabric. Vous pouvez les appeler à partir d’autres moteurs Fabric ou d’applications externes pour une utilisation plus large et fiable. Un agent de données Fabric permet une interface conversationnelle avec des données d’un lakehouse ou d’un entrepôt en convertissant des requêtes en langage naturel en requêtes pertinentes. Copilot dans Fabric transforme les questions formulées en langage naturel en SQL, corrige les erreurs, fournit des explications pour les requêtes SQL et offre une assistance à la saisie semi-automatique du code.

Plateforme de données basée sur le cloud pour Dataverse

Cette section explique comment apporter des données de Dataverse à Fabric.

Ingest

Dataverse Link to Fabric rend les données Dynamics 365 et Dataverse disponibles en quasi temps réel dans Fabric, sans nécessiter de copie ETL ou de données. Avec Dataverse Link to Fabric, les ingénieurs données peuvent interroger des données à l’aide de SQL, appliquer l’IA, combiner des jeux de données, remodeler des informations et générer des résumés directement dans Fabric.

Store

Lorsque vous utilisez Dataverse Link to Fabric, Dataverse crée un lakehouse dans OneLake qui a des raccourcis vers les tables Dataverse, sans nécessiter de déplacement physique de données.

Process

Affichez le lakehouse généré par Dataverse pour explorer les tables liées à partir de votre environnement Dataverse. Interrogez le lakehouse généré par Dataverse à l’aide du point de terminaison SQL, explorez les données à l’aide de notebooks Spark et accédez aux données via SQL Server Management Studio ou l’éditeur SQL. Faites référence aux données Dataverse sur d'autres lakehouses en utilisant des raccourcis pour réutiliser les mêmes données sans les copier ou les dupliquer.

Enrichissez les données à l’aide de Data Wrangler, d’un outil à faible code et sans code dans les notebooks Fabric. Il vous permet d’explorer, de préparer et de mettre en forme des données pour une analyse exploratoire. Les opérations génèrent du code dans pandas ou PySpark, et vous pouvez enregistrer le code dans le notebook en tant que fonction réutilisable.

Serve

Les raccourcis vers les tables Dataverse créées dans OneLake prennent en charge le format Delta Lake. Vous pouvez remplir ces données dans un rapport Power BI à partir du jeu de données par défaut généré par Dataverse dans l’espace de travail Fabric.

Vous pouvez également utiliser l’activateur de données pour configurer des alertes sur des visuels Power BI, surveiller les métriques fréquemment modifiées, définir des conditions d’alerte et recevoir des notifications par e-mail ou Teams.

Sources de données semi-structurées et non structurées

Cette section explique comment ingérer des données semi-structurées et non structurées dans Fabric.

Ingest

Utilisez des pipelines Data Factory pour extraire des données à partir d’un large éventail de sources semi-structurées locales et dans le cloud. Pour extraire les données, vous pouvez utiliser différentes approches comme une activité de copie, un travail de copie, Dataflow Gen2, des notebooks Spark ou un chargement de fichiers lakehouse. Tenez compte des sources prises en charge suivantes :

Données ingérées à partir de sources basées sur des fichiers qui contiennent des fichiers CSV ou JSON
Fichiers XML à partir de systèmes hérités
Fichiers Parquet provenant de comptes de stockage
PDF, MP3, images, journaux d’activité, documents et autres fichiers binaires
API REST Fabric en tant que source de données pour le pipeline

Utilisez l’instruction COPY INTO pour ingérer des données à partir d’un compte de stockage externe pour les charges de travail SQL à haut débit. L’instruction prend en charge les formats de fichiers Parquet et CSV. Créez des raccourcis dans OneLake vers des sources externes, notamment Azure Data Lake Storage, les comptes de stockage Amazon Simple Storage Service (AWS S3), les comptes Google Cloud Storage et d’autres options de stockage externes prises en charge pour activer l’accès sans copie et éviter la duplication. Chargez des fichiers par programmation ou manuellement dans le dossier lakehouse. Déclencher des pipelines lorsque des nouveaux fichiers arrivent à l'aide de l'orchestration par événement de Fabric.

Store

Organisez vos données dans le lac de données unifié Fabric OneLake. Suivez les meilleures pratiques pour les couches à créer, les structures de dossiers à utiliser dans chaque couche et les formats de fichiers à utiliser pour chaque scénario d’analyse. Stockez des données non structurées dans la zone Bronze pour conserver les données non traitées dans son format d’origine. Utilisez un eventhouse pour stocker les données de télémétrie, de logs ou de séries temporelles.

Process

Les notebooks Spark analysent et transforment des données semi-structurées. Par exemple, vous pouvez aplatir des structures JSON imbriquées, convertir du code XML au format tabulaire ou extraire des champs clés à partir de fichiers journaux. Les notebooks Spark extraient également du contenu et transforment des données non structurées via des DataFrames Spark.

L’ingestion T-SQL charge des données à partir de tables existantes dans les lakehouses ou les entrepôts Fabric. Dataflow Gen2 nettoie et analyse les données analysées pendant qu’elle détecte les incohérences de schéma, les valeurs null ou les valeurs hors norme. Après avoir profilé et transformé les données, enregistrez-les dans des tables lakehouse. Raccourcis internes dans les données de référence Fabric stockées dans un Lakehouse.

Les notebooks Spark enrichissent les données au fur et à mesure que vous les traitez. Chargez des données à partir de lakehouses ou d’entrepôts de données, puis entraînez ou chargez des modèles de Machine Learning en utilisant des bibliothèques telles que scikit-learn, XGBoost ou SynapseML. MLflow effectue le suivi des expériences et inscrit des modèles. Évaluer les données à l’aide de prédictions de lots évolutives ou de prédictions en temps réel.

Serve

T-SQL interroge des tables lakehouse par le biais du point de terminaison d’analytique Sql Fabric. Le point de terminaison d’analytique SQL prend en charge les modèles sémantiques et les rapports Power BI. Le mode Direct Lake offre des analyses hautes performances. Vous pouvez également configurer des alertes sur des visuels Power BI à l’aide de l’activateur de données pour surveiller les métriques fréquemment modifiées, définir des conditions d’alerte et recevoir des notifications par e-mail ou Teams.

L’API Fabric pour GraphQL expose les données des sources de données Fabric prises en charge via un point de terminaison d’API unique et flexible. Cette approche est idéale pour créer des applications modernes qui ont besoin d’un accès efficace et en temps réel aux données structurées.

Servez des prédictions en temps réel à partir de n’importe quel modèle Machine Learning inscrit à l’aide de points de terminaison en ligne Machine Learning sécurisés et évolutifs qui sont automatiquement configurés. Pour le déploiement en temps réel natif de Fabric, utilisez ces points de terminaison en tant que propriétés intégrées de la plupart des modèles Fabric. Appelez-les à partir d’autres moteurs Fabric ou d’applications externes pour une consommation fiable et étendue. Créez un modèle sémantique à partir de données de prédiction et visualisez les résultats dans un rapport Power BI.

Un agent de données Fabric est une interface conversationnelle basée sur l’IA personnalisable qui traduit les requêtes en langage naturel en insights actionnables pour vos données OneLake. Copilot simplifie l’analyse des données et les tâches de visualisation. Posez vos questions sur les tables lakehouse, les pandas et les Spark DataFrames directement dans les notebooks. Copilot répond avec des explications en langage naturel. Les utilisateurs professionnels peuvent utiliser le volet Copilot pour poser des questions sur le contenu du rapport et résumer rapidement les informations clés. Ils peuvent également utiliser la section Copilot pour découvrir les informations auxquelles ils ont déjà accès.

Streaming

Cette section explique comment intégrer des données de diffusion en continu de séries chronologiques à volume élevé dans Fabric.

Ingest

Utilisez Real-Time Intelligence pour collecter des données pour l’ingestion en temps réel via un flux d’événements. Obtenez les données à partir d’un large éventail de sources de données telles que les appareils IoT (Internet des objets), les applications, les hubs d’événements externes et les événements Fabric tels que les événements d’élément d’espace de travail, les événements OneLake et les événements de travail. Si vous devez référencer une base de données Kusto Query Language (KQL) source comme une base de données Azure Data Explorer existante dans Real-Time Intelligence, vous pouvez créer un raccourci de base de données pour accéder aux données sans la dupliquer ou la réutiliser.

Store

Eventstream prend en charge le routage des données vers différentes destinations. Stockez de grands volumes de données dans un eventhouse, qui est une solution de stockage évolutive, optimisée et hautes performances. Vous pouvez créer une base de données KQL au sein d’un eventhouse qui est une base de données spécialisée conçue pour l’analyse des données pilotées par les événements à l’aide de KQL.

Process

Utilisez un ensemble de requêtes KQL pour écrire, exécuter et gérer des requêtes KQL sur différentes sources de données en temps réel. Un jeu de requêtes KQL est un outil central dans l’expérience Real-Time Intelligence. Il permet aux utilisateurs d’explorer, d’analyser et de visualiser les données de diffusion en continu ou de série chronologique. Vous pouvez utiliser T-SQL dans Real-Time Intelligence pour interroger les données de streaming stockées dans des bases de données KQL. KQL est le langage principal pour l’analytique en temps réel, mais Fabric prend également en charge T-SQL pour les utilisateurs familiarisés avec l’analytique basée sur SQL.

Pour le traitement entre moteurs, activez la disponibilité de OneLake pour créer une copie logique des données de base de données KQL. Vous pouvez interroger les données au format Delta Lake à partir d'autres moteurs Fabric, comme le mode Lake Direct dans Power BI, les entrepôts de données, les lakehouses et les notebooks.

Serve

Les analystes métier peuvent créer un tableau de bord Real-Time Intelligence, qui est une collection de vignettes pilotées par des requêtes KQL. Vous pouvez organiser des vignettes en pages et les connecter à des sources de données. Le tableau de bord est mis à jour automatiquement, ce qui offre une visibilité quasi instantanée des données au fur et à mesure qu’il transite par le système. Vous pouvez également ajouter l’activateur de données à une vignette de tableau de bord pour surveiller les métriques fréquemment modifiées, définir des conditions d’alerte et recevoir des notifications par e-mail ou Teams. Créez un rapport Power BI pour générer des rapports à partir de modèles sémantiques générés à partir de la base de données KQL en tant que source.

Le partage de données externes Fabric permet à un utilisateur d’un locataire Fabric (le fournisseur) de partager des données avec un utilisateur d’un autre locataire Fabric (le consommateur). Il prend en charge la collaboration entre organisations tout en conservant les limites de gouvernance et de sécurité. Les consommateurs de données accèdent aux données en lecture seule via des raccourcis OneLake dans leurs propres bases de données KQL.

Un agent de données Fabric peut utiliser des bases de données KQL pour permettre aux utilisateurs de poser des questions, ce qui facilite l’utilisation des données en temps réel pour les utilisateurs non techniques. Copilot peut traduire des requêtes en langage naturel en KQL que vous pouvez exécuter.

Components

Cette architecture utilise les services Fabric et Azure suivants :

Copilot dans Fabric est un assistant IA génératif incorporé dans la plateforme Fabric. Dans cette architecture, il permet de créer des pipelines de données évolutifs, de créer du code Spark pour les transformations de données, de générer sql optimisé pour Data Warehouse, d’écrire des requêtes KQL pour Real-Time Intelligence et de créer des modèles sémantiques et des mesures DAX (Data Analysis Expressions) pour la création de rapports.
Un agent de données Fabric est une fonctionnalité basée sur l’IA qui permet aux utilisateurs d’interagir avec les données organisationnelles à l’aide du langage naturel. Dans cette architecture, les agents de données servent d’interface conversationnelle pour traduire des questions en langage naturel en requêtes structurées, telles que SQL, DAX ou KQL.
Microsoft Purview est une plateforme unifiée pour la gouvernance, la sécurité et la conformité des données. Dans cette architecture, Microsoft Purview gère l’ensemble de votre patrimoine de données et sa traçabilité, de la source de données au rapport Power BI.
Le partage de données externes Fabric est une fonctionnalité qui permet une collaboration sécurisée entre locataires en permettant aux utilisateurs de partager des données à partir de leur environnement Fabric avec des utilisateurs d’un autre locataire Fabric. Dans cette architecture, les organisations peuvent collaborer au-delà des frontières des locataires sans dupliquer les données.
L’API Fabric pour GraphQL est une fonctionnalité qui permet aux développeurs d’exposer et d’interagir avec les données à l’aide du langage de requête GraphQL. Dans cette architecture, elle permet aux utilisateurs de développer des applications de données.
Real-Time Intelligence est une solution d’analytique basée sur les événements conçue pour traiter, analyser et agir sur les données de streaming. Dans cette architecture, il traite des données de streaming en volume élevé et fournit des tableaux de bord en temps réel composés de vignettes qui visualisent les requêtes sous-jacentes.
Power BI est une plateforme décisionnel (BI) et de visualisation des données. Dans cette architecture, elle se connecte à OneLake pour créer des tableaux de bord et des rapports.
Microsoft Foundry est une plateforme unifiée en tant que service (PaaS) pour la création, le déploiement et la gestion d’applications et d’agents IA à l’échelle de l’entreprise. Dans cette architecture, les agents Foundry enrichissent et activent des systèmes à plusieurs agents, et les agents de données Fabric servent d’experts de domaine en même temps que d’autres agents.
Azure Machine Learning est un service cloud de niveau entreprise permettant de gérer l’ensemble du cycle de vie du Machine Learning, de la préparation et de l’expérimentation des données à la formation, au déploiement et à la supervision des modèles. Dans cette architecture, vous pouvez permettre aux utilisateurs d’exécuter des modèles Machine Learning à l’aide de points de terminaison de traitement par lots. Les raccourcis OneLake permettent à Machine Learning et Fabric de partager la même instance Data Lake Storage sous-jacente, afin que les deux services puissent lire et écrire sans dupliquer des données.
Microsoft Cost Management est un service qui vous permet de suivre, d’analyser et d’optimiser vos factures de ressources Microsoft Azure. Dans cette architecture, votre analyse des coûts et votre facture dans Cost Management affichent plusieurs compteurs associés à votre ressource de capacité Fabric.
Azure Key Vault est un service cloud permettant de stocker et de gérer en toute sécurité des informations sensibles telles que les secrets, les clés et les certificats. Dans cette architecture, elle gère les informations d’identification utilisées dans les connexions et les passerelles Fabric.
Azure Policy est un outil de gouvernance qui applique des règles de gouvernance sur les ressources Azure. Dans cette architecture, elle garantit la conformité, la gouvernance des données et le contrôle des coûts sur la plateforme de données Fabric.
Microsoft Entra ID est une solution de gestion des identités et des accès basée sur le cloud qui garantit un accès sécurisé pour les utilisateurs, les appareils et les charges de travail. Dans cette architecture, elle permet aux utilisateurs de se connecter à Fabric à l’aide de leurs informations d’identification Microsoft Entra tout en appliquant des contrôles d’accès Confiance Zéro.
Azure DevOps est une suite d’outils et de services de développement fournis par Microsoft pour prendre en charge l’ensemble du cycle de vie du développement logiciel. Dans cette architecture, Azure DevOps s’intègre aux espaces de travail Fabric pour gérer le cycle de vie et fournir un contrôle de code source.
GitHub est une plateforme cloud pour le contrôle de version et la collaboration qui permet aux développeurs de stocker, de gérer et de suivre les modifications apportées à leur code. Dans cette architecture, GitHub s’intègre aux espaces de travail Fabric pour prendre en charge la gestion du cycle de vie et le contrôle de code source.
La fonctionnalité de supervision de l’espace de travail dans Fabric vous permet de collecter, d’analyser, de visualiser les journaux et les métriques à partir d’éléments Fabric au sein d’un espace de travail. Dans cette architecture, il permet d’effectuer un diagnostic de requête dans votre environnement Fabric, d’identifier les problèmes, de créer des tableaux de bord de surveillance personnalisés et de définir des alertes.

Alternatives

Fabric fournit un ensemble d’outils pour gérer efficacement les charges de travail de données et d’analytique. Avec autant d’options disponibles, la sélection de l’outil approprié peut être difficile. Ces guides de décision fournissent une feuille de route pour vous aider à évaluer les choix et à déterminer la stratégie la plus efficace.

Pour obtenir des comparaisons d’autres alternatives, consultez les ressources suivantes :

Détails du scénario

Cet exemple de scénario montre comment Fabric facilite les entreprises dans la création d’une plateforme de données unifiée et moderne qui simplifie l’intégration, accélère les insights et réduit la complexité opérationnelle. Elle aide les organisations à surmonter les défis courants liés aux données tout en conduisant à l’extensibilité, à la gouvernance et à l’efficacité des coûts.

Cas d’usage potentiels

Moderniser la plateforme de données d’entreprise en remplaçant les outils fragmentés par une solution unifiée.
Établissez une architecture de lac de médaillon à l’aide de Fabric lakehouses, avec une couche Bronze pour l’ingestion de données brutes, une couche Argent pour les données nettoyées et transformées, ainsi qu’une couche Or pour les données prêtes pour l'exploitation stratégique utilisées dans l’analyse et l’IA. Créez des entrepôts en tant que solutions spécifiques à l’objet ou au domaine conçues pour les rubriques nécessitant une analytique personnalisée.
Intégrez des sources de données relationnelles à des jeux de données non structurés à l’aide de moteurs de calcul Fabric.
Fournir des analyses opérationnelles en temps réel pour surveiller et agir sur les données de streaming avec l’intelligence en temps réel.
Générez des insights clients basés sur l’IA pour enrichir les données et stimuler la valeur métier.
Fournissez des rapports d’entreprise et bi en libre-service via la modélisation sémantique et les outils de visualisation avancés.
Activez le partage de données entre locataires via les raccourcis OneLake et le partage de données externe.
Intégrez des agents de données Fabric à Azure AI Foundry ou Microsoft Copilot Studio pour créer des solutions IA intelligentes, conversationnelles et contextuelles pour les utilisateurs professionnels et les applications.

Recommendations

Tenez compte des recommandations suivantes.

Découvrir et régir

La gouvernance des données est un défi courant dans les environnements d’entreprise de grande taille. Les analystes métier doivent découvrir et comprendre les ressources de données pour résoudre les problèmes métier, tandis que les responsables des données recherchent des insights sur la confidentialité et la sécurité des données métier.

Microsoft Purview

La gouvernance des données Microsoft Purview se compose de deux solutions. Le catalogue unifié et la carte de données offrent une expérience de gouvernance moderne en consolidant les métadonnées provenant de catalogues et de sources variés. Cette intégration permet une visibilité, renforce la confiance des données et prend en charge l’innovation responsable au sein de l’entreprise.

Conservez les termes du glossaire avec la terminologie métier spécifique que les utilisateurs doivent comprendre pour saisir la sémantique des jeux de données et leur utilisation au sein de l’organisation. Inscrivez des sources de données et organisez-les dans des collections, qui servent également de limites de sécurité pour les métadonnées. Configurez des analyses régulières pour cataloguer et mettre à jour automatiquement les métadonnées pertinentes sur les ressources de données organisationnelles. Lorsqu’un locataire Fabric est analysé, les métadonnées et la traçabilité des ressources, y compris celles de Fabric et de Power BI, sont automatiquement ingérées dans le catalogue de données unifié de Microsoft Purview. Affectez automatiquement des étiquettes de classification des données et de confidentialité des données aux ressources de données en fonction de règles préconfigurées ou personnalisées pendant les analyses.

Utilisez la gestion unifiée de l’intégrité du catalogue pour surveiller l’intégrité globale du paysage des données et protéger l’organisation contre les risques de sécurité et de confidentialité. Un hub Microsoft Purview intégré dans Fabric fournit des insights sur l’inventaire des données, les étiquettes de confidentialité et les approbations. Il sert de passerelle pour se connecter à des fonctionnalités Microsoft Purview plus larges.

Services de plateforme

Fabric prend en charge plusieurs modèles de déploiement qui aident les organisations à aligner leur architecture de données avec les besoins métier, les modèles de gouvernance et les exigences de performances. Ces modèles sont définis au niveau du locataire, de la capacité, de l’espace de travail et des éléments du déploiement. Chaque modèle offre des compromis différents en matière d’extensibilité, d’isolation, de coût et de complexité opérationnelle.

La conception intègre plusieurs services Azure fondamentaux. Microsoft Entra ID fournit des services d’identité, l’authentification unique (SSO) et l’authentification multifacteur entre les charges de travail Azure. Cost Management fournit une gouvernance financière pour vos charges de travail Azure. Key Vault gère les informations d’identification et les certificats en toute sécurité. Lorsque vous configurez un coffre de clés dans Fabric, vous pouvez récupérer des informations d’identification et des certificats à partir du service Key Vault. Utilisez ces informations d’identification pour accéder aux magasins de données qui ne prennent pas en charge l’authentification intégrée, comme les sources locales ou externes.

Azure Monitor collecte, analyse et agit sur les données de télémétrie des ressources Azure pour identifier de manière proactive les problèmes et optimiser les performances et la fiabilité. Azure DevOps et GitHub Enterprise implémentent des opérations de développement (DevOps) pour appliquer l’automatisation et la conformité dans les pipelines de développement et de déploiement des charges de travail Fabric. Cette approche permet le contrôle de version, la collaboration et la gestion du cycle de vie. Azure Policy applique les normes et la gouvernance organisationnelles pour garantir la cohérence des ressources, la conformité réglementaire, la sécurité, le contrôle des coûts et la gestion.

Considerations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework, un ensemble de principes directeurs que vous pouvez utiliser pour améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Well-Architected Framework.

Optimisation des coûts

L’optimisation des coûts se concentre sur les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez la liste de contrôle de révision de conception pour l’optimisation des coûts.

Pour estimer les coûts, consultez Tarification. Le niveau tarifaire idéal et le coût total de chaque service dans l’architecture dépendent de la quantité de données traitées et stockées et du niveau de performances attendu. Utilisez le guide suivant pour explorer les principales stratégies d’optimisation des coûts pour Fabric :

La capacité Fabric est un pool partagé qui alimente toutes les fonctionnalités Fabric, de l’ingénierie des données et de l’entreposage de données à la modélisation des données, aux expériences BI et IA. Microsoft tarife les unités de capacité (CUs) à l'heure avec des options de paiement à l'usage ou de réservation. Le paiement à l’utilisation offre une flexibilité de paiement uniquement pour les heures que vous utilisez la capacité Fabric. Vous pouvez suspendre les capacités lorsqu’elles ne sont pas utilisées pour gérer les coûts, sans avoir besoin d’un engagement mensuel ou annuel. Les réservations fournissent une facturation prévisible et offrent généralement des économies pour les charges de travail stables. Le stockage OneLake fournit une copie unique des données sur tous les moteurs analytiques sans avoir à déplacer ou à dupliquer des données.
L’outil d’estimateur de capacité Fabric permet d’estimer les besoins de capacité et de déterminer les besoins de référence SKU et de stockage appropriés en fonction des caractéristiques de la charge de travail. Surveillez l’utilisation et la consommation à l’aide de l’application Fabric Capacity Metrics pour afficher l’utilisation de la capacité. Cost Management suit l’utilisation et définit des alertes budgétaires. Pour plus d’informations, consultez Comprendre votre facture Azure pour une capacité Fabric. Les guides de résolution des problèmes de capacité Fabric fournissent des ressources pour surveiller et optimiser de manière proactive l’utilisation de la capacité.
L’application Fabric Chargeback (préversion) permet aux organisations de suivre, d’analyser et d’allouer des coûts d’utilisation de la capacité entre les unités commerciales, les utilisateurs et les charges de travail qui utilisent Fabric. Il prend en charge les modèles de rétrofacturation et de présentation des coûts pour permettre une distribution transparente et équitable des coûts basée sur la consommation réelle. La tarification de Microsoft Purview dépend du nombre de ressources de données dans le catalogue et de la puissance de calcul requise pour les analyser.

Excellence opérationnelle

L’excellence opérationnelle couvre les processus opérationnels qui déploient une application et la maintiennent en production. Pour plus d’informations, consultez la Liste de contrôle de l'examen de la conception pour l'excellence opérationnelle.

Adoptez une méthodologie d’infrastructure cohérente en tant que code (IaC) pour provisionner des capacités Fabric à l’aide de Bicep, de modèles Azure Resource Manager (modèles ARM) et de Terraform. Intégrez les espaces de travail Fabric avec Git pour la gestion du cycle de vie des applications Fabric et utilisez des pipelines de déploiement pour l'intégration continue et le déploiement continu (CI/CD).
Utilisez le hub de surveillance pour surveiller les activités de Fabric. L’espace de travail de supervision d’administrateur fournit un espace de travail dédié aux administrateurs Fabric pour superviser et gérer les opérations du locataire. Il fournit des rapports intégrés pour la vue d’ensemble de l’activité, les détails de l’activité et la gouvernance, ce qui permet aux administrateurs de surveiller efficacement les charges de travail et l’utilisation. Envoyez des messages Teams dans des conversations de groupe ou des canaux pour notifier l’état du pipeline. Pour les notifications par e-mail, utilisez l’activité Office 365 Outlook.
Appliquez des stratégies de gouvernance via Microsoft Purview. Planifiez des revues Well-Architected régulières et des sprints d'optimisation. Pour plus d’informations sur les nouvelles fonctionnalités dans Fabric et quand les attendre, consultez la feuille de route Fabric. Implémentez une architecture similaire dans les environnements de préproduction où vous développez et testez votre plateforme. Tenez compte des exigences spécifiques de votre plateforme et des fonctionnalités de chaque service pour créer un environnement de préproduction économique.

Contributors

Microsoft gère cet article. Les contributeurs suivants ont écrit cet article.

Auteurs principaux :

Kevin Lee | Architecture de solution cloud
Lavanya Sreedhar | Architecte de solution cloud senior

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes

Commentaires

Cette page a-t-elle été utile ?

Partager via

Analytique de bout en bout avec Microsoft Fabric

Architecture

Flux de données

Lakehouse

Entrepôt

Eventhouse

Base de données SQL dans Fabric

Bases de données Azure, sources de données externes et bases de données relationnelles

Ingest

Store

Process

Serve

Plateforme de données basée sur le cloud pour Dataverse

Ingest

Store

Process

Serve

Sources de données semi-structurées et non structurées

Ingest

Store

Process

Serve

Streaming

Ingest

Store

Process

Serve

Components

Alternatives

Détails du scénario

Cas d’usage potentiels

Recommendations

Découvrir et régir

Microsoft Purview

Services de plateforme

Considerations

Optimisation des coûts

Excellence opérationnelle

Contributors

Étapes suivantes

Commentaires