Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article fournit des conseils architecturaux pour le lakehouse. Il couvre les sources de données, l’ingestion, la transformation, l’interrogation et le traitement, l’inférence, l’analyse et le stockage.
Chaque architecture de référence est accompagnée d’un PDF téléchargeable au format 11 x 17 (A3).
Bien que le lakehouse sur Databricks soit une plateforme ouverte qui s’intègre à un vaste écosystème d’outils partenaires, les architectures de référence se concentrent uniquement sur les services Azure et le lac Databricks. Les services de fournisseur de cloud présentés sont sélectionnés pour illustrer les concepts et ne sont pas exhaustifs.
Télécharger : Architecture de référence pour Azure Databricks Lakehouse
L’architecture de référence Azure montre les services spécifiques à Azure suivants pour l’ingestion, le stockage, le service et l’analyse :
- Azure Synapse et SQL Server en tant que systèmes sources pour la fédération Lakehouse
- Azure IoT Hub et Azure Event Hubs pour l’ingestion par diffusion en continu
- Azure Data Factory pour l’ingestion par lots
- Azure Data Lake Storage Gen 2 (ADLS) comme stockage d’objets pour les ressources de données et d’IA
- Azure SQL DB et Azure Cosmos DB en tant que bases de données opérationnelles
- Azure Purview en tant que catalogue d’entreprise vers lequel l’UC exporte des informations de schéma et de traçabilité
- Power BI en tant qu’outil décisionnel
- Azure OpenAI peut être utilisé par Model Serve en tant que LLM externe
Organisation des architectures de référence
L’architecture de référence est structurée le long des voies de nage Source, Ingérer, Transformer, Requête/Processus, Servir, Analyseet Stockage:
Source
Il existe trois façons d’intégrer des données externes dans la plateforme Data Intelligence :
- ETL : La plateforme permet l’intégration à des systèmes qui fournissent des données semi-structurées et non structurées (telles que des capteurs, des appareils IoT, des médias, des fichiers et des journaux), ainsi que des données structurées à partir de bases de données relationnelles ou d’applications métier.
- Lakehouse Federation : les sources SQL, telles que les bases de données relationnelles, peuvent être intégrées dans le catalogue Lakehouse et Unity sans ETL. Dans ce cas, les données système sources sont régies par le catalogue Unity et les requêtes sont envoyées au système source.
- Fédération de catalogue : les catalogues de metastore Hive peuvent également être intégrés dans le catalogue Unity par le biais de la fédération de catalogue, ce qui permet au catalogue Unity de contrôler les tables stockées dans le metastore Hive.
Ingest
Ingérer des données dans la lakehouse par traitement par lots ou en diffusion en continu :
- Databricks Lakeflow Connect offre des connecteurs intégrés pour l’ingestion à partir d’applications et de bases de données d’entreprise. Le pipeline d’ingestion résultant est régi par Unity Catalog et est alimenté par une informatique sans serveur et par Pipelines.
- Les fichiers remis au stockage cloud peuvent être chargés directement à l’aide du chargement automatique Databricks.
- Pour l’ingestion par lots de données provenant d’applications d’entreprise dans Delta Lake, le lakehouse Databricks s’appuie sur des outils d’ingestion partenaires dotés d’adaptateurs spécifiques pour ces systèmes d’enregistrement.
- Les événements diffusés en continu peuvent être ingérés directement à partir de systèmes de diffusion d’événements tels que Kafka à l’aide du Structured Streaming de Databricks. Les sources de diffusion en continu peuvent être des capteurs, des IoT ou des processus decapture de données modifiées.
Storage
- Les données sont généralement stockées dans le système de stockage cloud où les pipelines ETL utilisent l’architecture de médaillon pour stocker les données de manière organisée en tant que tables/fichiers Delta ou Apache Iceberg.
Transformation et requête / traitement
Le lakehouse Databricks utilise ses moteurs Apache Spark et Photon pour toutes les transformations et requêtes.
Pipelines est une infrastructure déclarative permettant de simplifier et d’optimiser les pipelines de traitement de données fiables, gérables et testables.
Alimentée par Apache Spark et Photon, la Databricks Data Intelligence Platform prend en charge les deux types de charges de travail : Les requêtes SQL via les entrepôts SQL, et les charges de travail SQL, Python et Scala via les clusters d’espace de travail .
Pour la science des données (Modélisation ML et Gen AI), la plateforme Databricks IA et Machine Learning fournit des runtimes ML spécialisés pour AutoML et pour le codage des tâches ML. Tous les flux de travail d’opérations d’apprentissage automatique (MLOps) et de science des données sont les mieux pris en charge par MLflow.
Serving
Pour les cas d’usage d’entreposage de données (DWH) et BI, le Databricks lakehouse fournit Databricks SQL, l’entrepôt de données alimenté par des entrepôts SQL et des entrepôts SQL sans serveur.
Pour l'apprentissage automatique, Mosaic AI Model Serving est une fonction évolutive de service de modèles en temps réel de niveau entreprise, hébergée dans le plan de contrôle Databricks. Mosaïque AI Gateway est la solution de Databricks pour régir et surveiller l’accès aux modèles IA génératifs pris en charge et à leur modèle associé servant des points de terminaison.
Bases de données opérationnelles :
- Lakebase est une base de données OLTP (Online Transaction Processing) basée sur Postgres et entièrement intégrée à databricks Data Intelligence Platform. Il vous permet de créer des bases de données OLTP sur Databricks et d’intégrer des charges de travail OLTP à votre Lakehouse.
- Les systèmes externes, tels que les bases de données opérationnelles, peuvent être utilisés pour stocker et fournir des produits de données finaux aux applications utilisateur.
Collaboration:
Les partenaires commerciaux obtiennent un accès sécurisé aux données dont ils ont besoin via le partage Delta.
Basé sur le partage Delta, la Place de marché Databricks est un forum ouvert pour échanger des produits de données.
Les salles propres sont des environnements sécurisés et de protection de la confidentialité où plusieurs utilisateurs peuvent travailler ensemble sur des données d’entreprise sensibles sans accès direct aux données des uns des autres.
Analysis
Les dernières applications de gestion se trouvent dans ce couloir. les exemples incluent des clients personnalisés tels que des applications ia connectées au service de modèles ia mosaic pour l’inférence en temps réel ou les applications qui accèdent aux données envoyées à partir du lakehouse vers une base de données opérationnelle.
Pour les cas d’usage décisionnels (BI), les analystes utilisent généralement outils décisionnels pour accéder à l’entrepôt de données. Par ailleurs, les développeurs SQL peuvent utiliser l’éditeur SQL de Databricks (non illustré dans le diagramme) pour les requêtes et les tableaux de bord.
La plateforme Data Intelligence propose également des tableaux de bord qui permettent de créer des visualisations de données et de partager des insights.
Integrate
- la plateforme databricks s’intègre aux fournisseurs d’identité standard pour la gestion des utilisateurs et l’authentification unique (sso).
Des services IA externes tels que OpenAI, LangChain ou HuggingFace peuvent être utilisés directement à partir de la plateforme Databricks Intelligence.
Les orchestrateurs externes peuvent utiliser l’API REST complète ou des connecteurs dédiés à des outils d’orchestration externes comme Apache Airflow.
Unity Catalog est utilisé pour la gouvernance de toutes les données et de l’IA dans Databricks Intelligence Platform et peut intégrer d’autres bases de données dans sa gouvernance via Lakehouse Federation.
De plus, Unity Catalog peut être intégré à d’autres catalogues d’entreprise, par exemple Purview. Pour plus d’informations, contactez le fournisseur du catalogue d’entreprise.
Fonctionnalités courantes pour toutes les charges de travail
De plus, le lakehouse de Databricks est doté de capacités de gestion qui prennent en charge toutes les charges de travail :
Gouvernance des données et de l’IA
Le système central de gouvernance des données et de l’IA sur la plateforme Databricks Data Intelligence est le Unity Catalog. Unity Catalog fournit un emplacement unique pour gérer les stratégies d’accès aux données qui s’appliquent à tous les espaces de travail et prend en charge toutes les ressources créées ou utilisées dans le lakehouse, telles que les tables, les volumes, les fonctionnalités (magasin de fonctionnalités) et les modèles (registre de modèles). Unity Catalog peut également être utilisé pour capturer le lignage des données en temps réel dans les requêtes exécutées sur Databricks.
Databricks Data Quality Monitoring vous permet de surveiller la qualité des données de toutes les tables de votre compte. Il détecte les anomalies dans toutes vos tables et fournit un profil de données complet pour chaque table.
Pour l’observabilité, les tables système sont un magasin analytique hébergé par Databricks constitué des données opérationnelles de votre compte. Les tables système peuvent être utilisées pour l’observabilité historique de votre compte.
Moteur d'intelligence des données
La plateforme Databricks Data Intelligence permet à l'ensemble de votre organisation d'exploiter les données et l'IA, en combinant l'IA générative avec les avantages d'un data lake unifié pour comprendre la sémantique unique de vos données. Consultez les fonctionnalités d’assistance d’IA Databricks.
L’Assistant Databricks est disponible dans les notebooks Databricks, l’éditeur SQL, l’éditeur de fichiers et ailleurs en tant qu’assistant IA prenant en charge le contexte pour les utilisateurs.
Automatisation & Orchestration
Les travaux Lakeflow orchestrent le traitement des données, l’apprentissage automatique et les pipelines d’analyse des données sur la plateforme Databricks Data Intelligence. Les pipelines déclaratifs Spark Lakeflow vous permettent de créer des pipelines ETL fiables et gérables avec une syntaxe déclarative. La plateforme prend également en charge CI/CD et MLOps
Cas d’usage généraux pour la plateforme Data Intelligence sur Azure
Ingestion intégrée à partir d’applications et de bases de données SaaS avec Lakeflow Connect
Télécharger : Architecture de référence Lakeflow Connect pour Azure Databricks.
Databricks Lakeflow Connect offre des connecteurs intégrés pour l’ingestion à partir d’applications et de bases de données d’entreprise. Le pipeline d'ingestion résultant est régi par Unity Catalog et est alimenté par le calcul serverless et des Lakeflow Spark Declarative Pipelines.
Lakeflow Connect tire parti de lectures et d’écritures incrémentielles efficaces pour rendre l’ingestion de données plus rapide, évolutive et plus économique, vos données restant à jour pour une consommation en aval.
Ingestion par lots et ETL
Télécharger : Architecture de référence ETL par lots pour Azure Databricks
Les outils d’ingestion utilisent des adaptateurs spécifiques à la source pour lire des données à partir de la source, puis les stocker dans le stockage cloud à partir duquel le chargeur automatique peut le lire, ou appeler Databricks directement (par exemple, avec des outils d’ingestion partenaires intégrés dans databricks lakehouse). Pour charger les données, le moteur ETL Databricks et le moteur de traitement exécutent les requêtes via Pipelines. Orchestrez des tâches uniques ou multitâches à l’aide de Travaux Lakeflow et régissez-les à l’aide du catalogue Unity (contrôle d’accès, audit, traçabilité, etc.). Pour fournir l’accès à des tables d’or spécifiques pour les systèmes opérationnels à faible latence, exportez les tables vers une base de données opérationnelle telle qu’un SGBDR ou un magasin clé-valeur à la fin du pipeline ETL.
Diffusion en continu et capture des changements de données (CDC)
Télécharger : Architecture de diffusion en continu structurée Spark pour Azure Databricks
Le moteur DATAbricks ETL utilise Spark Structured Streaming pour lire des files d’attente d’événements telles qu’Apache Kafka ou Azure Event Hub. Les étapes en aval suivent l’approche du cas d’usage Batch ci-dessus.
La capture de données de changement en temps réel stocke généralement les événements extraits dans une file d’attente d’événements. À partir de là, le cas d’usage suit celui de la diffusion en continu.
Si la CDC (capture de données modifiées) est effectuée par lots, avec les enregistrements extraits sont d'abord stockés dans le cloud, Databricks Autoloader peut les lire et le cas d'usage suit le processus Batch ETL.
Machine Learning et IA (traditionnelle)
Pour l’apprentissage automatique, la plateforme de Data Intelligence de Databricks fournit Mosaic AI, qui comprend des bibliothèques de Machine Learning et de Deep Learning à la pointe de la technologie. Il fournit des fonctionnalités telles que le Magasin de fonctionnalités et le Registre de modèles (à la fois intégrés dans le catalogue Unity), les fonctionnalités à faible code avec AutoML et l’intégration MLflow au cycle de vie de la science des données.
Unity Catalog régit toutes les ressources liées à la science des données (tables, fonctionnalités et modèles), et les scientifiques des données peuvent utiliser lakeflow Jobs pour orchestrer leurs travaux.
Pour déployer des modèles de manière évolutive et professionnelle, utilisez les fonctionnalités MLOps pour publier les modèles dans le service de modèle.
Applications de l’agent IA (Gen AI)
Télécharger : Architecture de référence des applications Gen AI pour Azure Databricks
Pour déployer des modèles de manière évolutive et à l’échelle de l’entreprise, utilisez les capacités des MLOps pour publier les modèles dans le service de modèles.
Analytique BI et SQL
Télécharger : Architecture de référence pour la décision et l’analytique SQL pour Azure Databricks
Pour les cas d’usage décisionnels, les analystes métier peuvent utiliser des tableaux de bord, l’éditeur SQL Databricks ou les outils BI tels que Tableau ou Power BI. Dans tous les cas, le moteur est Databricks SQL (serverless ou non serverless), et Unity Catalog fournit la découverte, l’exploration et le contrôle d’accès des données.
Applications métier
Téléchargement : Applications commerciales pour Databricks pour Azure Databricks
Databricks Apps permet aux développeurs de créer et de déployer des applications ia et de données sécurisées directement sur la plateforme Databricks, ce qui élimine le besoin d’une infrastructure distincte. Les applications sont hébergées sur la plateforme serverless Databricks et s’intègrent aux services de plateforme clés. Utilisez Lakebase si l’application a besoin de données OLTP synchronisées à partir de Lakehouse.
Fédération Lakehouse
Architecture de référence pour la fédération Lakehouse dans Azure Databricks. 
Télécharger : Architecture de référence de la fédération Lakehouse pour Azure Databricks
Lakehouse Federation permet aux bases de données SQL externes (telles que MySQL, Postgres, SQL Server ou Azure Synapse) d’être intégrées à Databricks.
Toutes les charges de travail (IA, DWH et BI) peuvent en bénéficier sans qu’il soit nécessaire de procéder au préalable à l’ETL des données dans le stockage objet. Le catalogue source externe est mappé dans le catalogue Unity et le contrôle d’accès affiné peut être appliqué pour accéder via la plateforme Databricks.
Fédération de catalogues
Télécharger : Architecture de référence de fédération de catalogue pour Azure Databricks
La fédération de catalogue permet aux metastores Hive externes (tels que MySQL, Postgres, SQL Server ou Azure Synapse) d’être intégrés à Databricks.
Toutes les charges de travail (IA, DWH et BI) peuvent en bénéficier sans qu’il soit nécessaire de procéder au préalable à l’ETL des données dans le stockage objet. Le catalogue source externe est ajouté au catalogue Unity où le contrôle d’accès affiné est appliqué via la plateforme Databricks.
Partager des données avec des outils tiers
Le partage de données de niveau entreprise avec les tiers est fourni par Delta Sharing. Il permet un accès direct aux données dans le magasin d’objets sécurisé par Unity Catalog. Cette fonctionnalité est également utilisée dans la Place de marché Databricks, un forum ouvert pour l’échange de produits de données.
Consommer des données partagées à partir de Databricks
Le protocole Delta Sharing de Databricks à Databricks permet aux utilisateurs de partager des données en toute sécurité avec tout utilisateur Databricks, quel que soit le compte ou l'hôte cloud, à condition que cet utilisateur ait accès à un espace de travail activé pour le Unity Catalog.