Partager via


Architecture d’entreposage de données

L’entrepôt de données fait référence à la collecte et au stockage de données à partir de plusieurs sources afin qu’elles soient rapidement accessibles pour la création de rapports et des insights métier. Cet article contient des concepts clés pour la création d’un entrepôt de données dans votre data lakehouse.

Entreposage de données dans votre lakehouse

Databricks SQL et l’architecture de lakehouse apportent des capacités d’entrepôt de données cloud dans vos lacs de données. À l’aide de structures de données, de relations et d’outils de gestion familiers, vous pouvez modéliser un entrepôt de données hautement performant et rentable qui s’exécute directement sur votre lac de données. Pour plus d’informations, consultez Qu’est-ce qu’une maison sur un lac ?

Architecture Lakehouse avec une couche supérieure qui inclut l’entreposage de données, l’ingénierie des données, le streaming de données et la science des données et ML

Comme avec un entrepôt de données traditionnel, vous modélisez les données en fonction des besoins métier, puis servez-les à vos utilisateurs finaux pour l’analytique et les rapports. Contrairement à un entrepôt de données traditionnel, vous pouvez éviter de compartimenter vos données d'analyse de données commerciales ou de créer des copies redondantes qui deviennent rapidement obsolètes.

La création d’un entrepôt de données à l’intérieur de votre lakehouse vous permet d’intégrer toutes vos données dans un système unique et de tirer parti des fonctionnalités telles que Unity Catalog et Delta Lake.

Unity Catalog ajoute un modèle de gouvernance unifié pour vous permettre de sécuriser et d’auditer l’accès aux données et de fournir des informations de traçabilité sur les tables en aval. Delta Lake ajoute des transactions ACID et une évolution de schéma, entre autres outils puissants pour maintenir vos données fiables, évolutives et de haute qualité.

Qu’est-ce que Databricks SQL ?

Remarque

Databricks SQL Serverless n’est pas disponible dans Azure Chine. Databricks SQL n’est pas disponible dans les régions Azure Government.

Databricks SQL est une collection de services qui apporte des capacités d’entrepôt de données et des performances dans vos lacs de données. Databricks SQL prend en charge les formats ouverts et ANSI SQL standard. Un éditeur SQL intégré et des outils de tableau de bord permettent aux membres de l’équipe de collaborer avec d’autres utilisateurs Azure Databricks directement dans l’espace de travail. Databricks SQL s’intègre également à divers outils afin que les analystes puissent créer des requêtes et des tableaux de bord dans leurs environnements favoris sans s’ajuster à une nouvelle plateforme.

Databricks SQL fournit des ressources de calcul générales qui s'exécutent sur les tables du lakehouse. Databricks SQL est alimenté par des entrepôts SQL, anciennement appelés points de terminaison SQL, offrant des ressources de calcul SQL évolutives découplées du stockage.

Consultez SQL warehouses pour plus d’informations sur les valeurs et options par défaut de SQL Warehouse.

Databricks SQL s’intègre à Unity Catalog, ce qui vous permet de découvrir, d’auditer et de régir les ressources de données à partir d’un emplacement unique. Pour plus d’informations, consultez Qu’est-ce que le catalogue Unity ?

Modélisation des données sur Azure Databricks

Une lakehouse prend en charge divers styles de modélisation. L’image suivante montre comment les données sont organisées et modélisées à mesure qu’elles se déplacent dans différentes couches d’un lac.

Schéma montrant différents modèles de données à chaque niveau de l’architecture de lakehouse en médaillon.

Architecture de médaillon

L’architecture en médaillon est un modèle de conception de données qui décrit une série de couches de données progressivement affinées, fournissant une structure de base dans la lakehouse. Les couches bronze, argent et or signent des niveaux croissants de qualité des données, avec de l’or représentant la plus haute qualité. Pour plus d’informations, consultez Qu’est-ce que l’architecture de lakehouse en médaillon ?.

À l’intérieur d’un *lakehouse*, chaque couche peut contenir une ou plusieurs tables. L’entrepôt de données est modélisé dans la couche argent et alimente des data marts spécialisés dans la couche or.

Couche bronze

Les données peuvent entrer dans votre lakehouse dans n’importe quel format et via n’importe quelle combinaison de transactions de traitement par lots ou de diffusion en continu. La couche bronze fournit l’espace d’atterrissage pour toutes vos données brutes dans son format d’origine. Ces données sont converties en tables Delta.

Couche argent

La couche Argent regroupe les données provenant de différentes sources. Pour la partie de l’entreprise qui se concentre sur les applications de science des données et de Machine Learning, c’est là que vous commencez à organiser des ressources de données significatives. Ce processus est souvent marqué par un focus sur la vitesse et l’agilité.

La couche argent est également l’endroit où vous pouvez intégrer soigneusement des données provenant de sources disparates pour créer un entrepôt de données en alignement avec vos processus métier existants. Souvent, ces données suivent un troisième formulaire normal (3NF) ou un modèle Data Vault. La spécification des contraintes de clé primaire et étrangère permet aux utilisateurs finaux de comprendre les relations de table lors de l’utilisation du catalogue Unity. Votre entrepôt de données doit servir de source unique de vérité pour vos data marts.

L’entrepôt de données lui-même est de type schéma à l’écriture et atomique. Il est optimisé pour les modifications, ce qui vous permet de modifier rapidement l’entrepôt de données en fonction de vos besoins actuels lorsque vos processus métier changent ou évoluent.

Couche or

La couche or est la couche de présentation, qui peut contenir un ou plusieurs data marts. Fréquemment, les data marts sont des modèles dimensionnels sous la forme d’un ensemble de tables associées qui capturent une perspective métier spécifique.

La couche or abrite également des bacs à sable départementaux et de science des données pour permettre l’analytique en libre-service et la science des données sur l’ensemble de l’entreprise. Fournir ces bacs à sable et leurs propres clusters de calcul distincts empêche les équipes métier de créer des copies de données en dehors de la lakehouse.

Étapes suivantes

Pour en savoir plus sur les principes et les meilleures pratiques pour l’implémentation et l’exploitation d’une lakehouse à l’aide d’Azure Databricks, consultez l’architecture de Lakehouse.