Présentation

Terminé

Azure Databricks est une plateforme de données basée sur le cloud qui regroupe le meilleur de l’ingénierie des données, de la science des données et du Machine Learning dans un espace de travail unifié unique. Basée sur Apache Spark, elle permet aux organisations de traiter, d’analyser et de visualiser facilement des quantités massives de données en temps réel.

Diagramme montrant une vue d’ensemble d’Azure Databricks.

En vous connectant à un large éventail de sources de données, des fournisseurs de cloud comme Azure SQL Database, Amazon S3 et Google Cloud Storage, aux systèmes d’entreprise tels que SAP et Oracle, Azure Databricks facilite l’intégration et la transformation des données n’importe où.

Une fois que les données sont ingérées, les équipes des ventes, du marketing, des opérations, des finances, des ressources humaines et de la durabilité peuvent utiliser Databricks pour l’analytique avancée, le Machine Learning, le décisionnel et les insights basés sur l’IA.

À son cœur, Azure Databricks aide les organisations :

  • Intégrer des données à partir de plusieurs sources
  • Créer et transformer des données brutes en formats utilisables
  • Stocker et gérer efficacement les données avec la gouvernance et la sécurité
  • Appliquer des modèles d’analytique en temps réel, de Machine Learning et d’IA
  • Améliorer les décisions et les résultats de l’entreprise

Data Lakehouse

Un data lakehouse est une approche de gestion des données qui combine les forces des lacs de données et des entrepôts de données. Il offre un stockage et un traitement évolutifs, ce qui permet aux organisations de gérer diverses charges de travail, telles que le Machine Learning et l’intelligence décisionnelle, sans compter sur des systèmes distincts et déconnectés. En centralisant les données, un lakehouse soutient une seule source de vérité, réduit les coûts liés aux doublons et garantit que les informations restent à jour.

De nombreux systèmes de stockage de données en couches, également appelés "lakehouses", suivent un modèle de conception où les données sont progressivement améliorées, enrichies et affinées à mesure qu'elles passent par différentes étapes de traitement. Cette approche en couches, communément appelée architecture de médaillon, organise les données en phases qui s’appuient les unes sur les autres, ce qui facilite la gestion et l’utilisation efficaces.

Databricks lakehouse utilise deux technologies clés :

  • Delta Lake : couche de stockage optimisée qui prend en charge les transactions ACID et l’application du schéma.
  • Catalogue Unity : solution de gouvernance unifiée et affinée pour les données et l’IA.