Entreposage et analytique des données

Azure Data Lake Storage

Azure Cosmos DB

Azure Data Factory

Azure SQL Database

Azure Table Storage

Cet exemple de scénario illustre un pipeline de données qui intègre de grandes quantités de données provenant de plusieurs sources en une plateforme d’analyse unifiée dans Azure. Ce scénario particulier repose sur une solution de vente et de marketing, mais les modèles de conception sont appropriés à de nombreux secteurs nécessitant une analyse avancée des jeux de données volumineux comme ceux de l’e-commerce, de la vente au détail et de la santé.

Architecture

Architecture d’un scénario d’entreposage et d’analyse de données dans Azure

Téléchargez un fichier Visio de cette architecture.

Flux de données

Les données circulent dans la solution comme suit :

Pour chaque source de données, des mises à jour sont exportées régulièrement dans une zone de transit dans Azure Data Lake Storage.
Azure Data Factory charge de façon incrémentielle les données d’Azure Data Lake Storage dans des tables intermédiaires dans Azure Synapse Analytics. Les données sont nettoyées et transformées pendant ce processus. La technologie PolyBase peut paralléliser le processus pour des jeux de données volumineux.
À l’issue du chargement d’un nouveau lot de données dans l’entrepôt, un modèle tabulaire Azure Analysis Services créé précédemment est actualisé. Ce modèle sémantique simplifie l’analyse des données d’entreprise et des relations.
Les analystes d’entreprise utilisent Microsoft Power BI pour analyser les données en entrepôt via le modèle sémantique Analysis Services.

Composants

L’entreprise dispose de sources de données sur différentes plateformes :

Instance SQL Server locale
Instance Oracle locale
Azure SQL Database
Stockage de table Azure
Base de données Azure Cosmos DB

Les données sont chargées à partir de ces différentes sources de données à l’aide de plusieurs composants Azure :

Data Lake Storage est un service de stockage de données évolutif pour les données structurées et non structurées. Dans cette architecture, elle étape les données sources avant qu’Azure Synapse Analytics charge les données. Il sert de zone d’atterrissage initiale pour les données brutes.
Azure Data Factory est un service d’intégration de données basé sur le cloud. Dans cette architecture, elle orchestre la transformation des données intermédiaires en une structure commune dans Azure Synapse Analytics. Azure Data Factory utilise PolyBase lorsqu’il charge des données dans Azure Synapse Analytics pour optimiser le débit.
Azure Synapse Analytics est un système d’analytique distribuée qui combine le Big Data et l’entreposage de données. Dans cette architecture. il stocke et analyse des jeux de données volumineux à l’aide d’un traitement parallèle massif (MPP). Il sert de moteur analytique principal. Azure Synapse Analytics peut utiliser PolyBase pour charger rapidement des données à partir de Data Lake Storage.
Analysis Services est une plateforme entièrement managée pour créer des modèles de données sémantiques. Dans cette architecture, elle fournit un modèle sémantique tabulaire qui simplifie l’analyse des données et améliore les performances des requêtes. Il peut être configuré pour s’actualiser après chaque chargement de données dans Azure Synapse Analytics pour garantir up-to-date insights.
Power BI est une suite d’outils d’analytique métier pour analyser les données et partager des insights. Dans cette architecture, Power BI permet aux analystes métier d’explorer et de visualiser les données. Il se connecte à Analysis Services pour l’interrogation sémantique ou directement à Azure Synapse Analytics pour l’accès aux données brutes.
Microsoft Entra ID est un service de gestion des identités et des accès basé sur le cloud. Dans cette architecture, elle authentifie les utilisateurs qui se connectent au serveur Analysis Services via Power BI. Azure Data Factory peut également utiliser l’ID Microsoft Entra pour s’authentifier auprès d’Azure Synapse Analytics via un principal de service ou une identité managée pour les ressources Azure.

Autres solutions

L’exemple de pipeline inclut plusieurs types de sources de données. Cette architecture peut gérer un large éventail de sources de données relationnelles et non relationnelles.
Data Factory orchestre les flux de travail pour votre pipeline de données. Si vous souhaitez charger des données une seule fois ou à la demande, vous pouvez utiliser des outils tels que la copie en bloc (bcp) et AzCopy de SQL Server pour copier les données dans Azure Data Lake Storage. Vous pouvez alors charger les données dans Azure Synapse à l’aide de PolyBase
Si vous avez des jeux de données à grande échelle, envisagez d’utiliser Data Lake Storage, qui fournit un stockage illimité pour les données d’analyse.
Azure Synapse n’est pas adapté aux charges de travail OLTP ou aux jeux de données inférieurs à 250 Go. Pour ces cas, vous devez utiliser Azure SQL Database ou SQL Server.
Pour procéder à des comparaisons avec d’autres solutions, consultez les articles suivants :

Détails du scénario

Cet exemple présente une entreprise de ventes et de marketing qui crée des programmes d’offres incitatives. Ces programmes récompensent les clients, les fournisseurs, les vendeurs et les employés. Les données sont essentielles pour ces programmes, et l’entreprise souhaite améliorer les informations obtenues via l’analyse des données à l’aide d’Azure.

L’entreprise a besoin d’une approche moderne pour analyser les données, afin que les décisions soient prises à l’aide des données appropriées au bon moment. Les objectifs de l’entreprise sont les suivants :

combinaison de différents types de sources de données en une plateforme à l’échelle du cloud ;
transformation des données sources en une structure et une taxonomie communes afin de rendre les données cohérentes et facilement comparables ;
chargement des données à l’aide d’une approche hautement parallélisée pouvant prendre en charge des milliers de programmes d’offres incitatives, sans les coûts élevés de déploiement et de gestion d’une infrastructure locale ;
réduction considérable du temps nécessaire pour collecter et transformer des données afin que vous puissiez vous concentrer sur l’analyse des données.

Cas d’usage potentiels

Cette approche peut également servir à :

établir un entrepôt de données pour qu’il soit une source unique et fiable de vos données ;
intégrer des sources de données relationnelles à d’autres jeux de données non structurées ;
Utiliser de puissants outils de visualisation et de modélisation sémantique pour simplifier l’analyse des données.

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework, un ensemble de principes directeurs que vous pouvez utiliser pour améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Well-Architected Framework.

Les technologies appliquées dans cette architecture ont été choisies, car elles remplissent les exigences de l’entreprise en matière d’extensibilité et de disponibilité tout en les aidant à maîtriser les coûts.

L’architecture de traitement massivement parallèle d’Azure Synapse offre une scalabilité et des performances élevées.
Azure Synapse a garanti des contrats de niveau de service (SLA) et des pratiques recommandées pour obtenir une haute disponibilité.
Lorsque l’activité d’analyse est faible, l’entreprise peut mettre à l’échelle Azure Synapse à la demande, réduire ou même suspendre le calcul pour réduire les coûts.
Azure Analysis Services peut être mis à l’échelle pour réduire les temps de réponse pendant les charges de travail de requête élevées. Vous pouvez aussi séparer le traitement du pool de requêtes afin que les requêtes des clients ne soient pas ralenties par les opérations de traitement.
Azure Analysis Services a également garanti des contrats SLA et des pratiques recommandées pour atteindre la haute disponibilité.
Le modèle de sécurité Azure Synapse fournit la sécurité, l’authentification et l’autorisation de connexion via l’authentification Microsoft Entra ID ou SQL Server et le chiffrement. Azure Analysis Services utilise l’ID Microsoft Entra pour la gestion des identités et l’authentification des utilisateurs.

Optimisation des coûts

L’optimisation des coûts se concentre sur les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez la liste de contrôle de révision de conception pour l’optimisation des coûts.

Passez en revue un exemple de tarification pour un scénario d’entreposage de données via la calculatrice de prix Azure. Ajustez les valeurs pour déterminer l’incidence de vos besoins sur vos coûts.

Azure Synapse vous permet de mettre à l’échelle vos niveaux de calcul et de stockage indépendamment. Les ressources de calcul sont facturées à l’heure, et vous pouvez mettre ces ressources à l’échelle ou en pause à la demande. Les ressources de stockage sont facturées au téraoctet. Vos coûts augmentent donc en fonction du volume de données ingéré.
Les coûts de Data Factory sont basés sur le nombre d’opérations de lecture/écriture, d’opérations de supervision et d’orchestration effectuées dans une charge de travail. Vos coûts de fabrique de données augmentent avec chaque flux de données supplémentaire et la quantité de données traitées par chacun d’eux.
Analysis Services est disponible dans les niveaux Développeur, De base et Standard. La tarification des instances est établie en fonction des unités de traitement des requêtes (QPU) et de la mémoire disponible. Pour diminuer vos coûts, réduisez le nombre de requêtes exécutées, la quantité de données traitées et leur fréquence d’exécution.
Power BI propose différentes options de produit pour différentes exigences. Power BI Embedded fournit une option basée sur Azure pour incorporer des fonctionnalités Power BI à l’intérieur de vos applications. L’exemple de tarification ci-dessus comprend une instance Power BI Embedded.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Alex Buck | Développeur de contenu senior

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes

Passez en revue la conception de l’architecture des bases de données.
Découvrez plus en détail les services utilisés dans ce scénario :

Commentaires

Cette page a-t-elle été utile ?