Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Lakeflow Connect offre des connecteurs simples et efficaces pour ingérer des données à partir de fichiers locaux, d’applications d’entreprise populaires, de bases de données, de stockage cloud, de bus de messages, etc. Cette page présente certaines des façons dont Lakeflow Connect peut améliorer les performances ETL. Il couvre également les cas d’usage courants et la gamme d’outils d’ingestion pris en charge, des connecteurs entièrement managés aux infrastructures entièrement personnalisables.
Modèles de service flexibles
Lakeflow Connect offre un large éventail de connecteurs pour les applications d’entreprise, le stockage cloud, les bases de données, les bus de messages, etc. Il vous offre également la possibilité de choisir entre les éléments suivants :
| Choix | Descriptif |
|---|---|
| Un service entièrement managé | Connecteurs prêts à l'emploi qui démocratisent l'accès aux données avec des interfaces utilisateur simples et des API puissantes. Cela vous permet de créer rapidement des pipelines d’ingestion robustes tout en réduisant les coûts de maintenance à long terme. |
| Un pipeline personnalisé | Si vous avez besoin d’une personnalisation supplémentaire, vous pouvez utiliser des pipelines déclaratifs Spark Lakeflow ou une diffusion en continu structurée. En fin de compte, cette polyvalence permet à Lakeflow Connect de répondre aux besoins spécifiques de votre organisation. |
Unification avec les outils Databricks de base
Lakeflow Connect utilise des fonctionnalités Databricks principales pour fournir une gestion complète des données. Par exemple, il offre une gouvernance à l’aide d’Unity Catalog, de l’orchestration à l’aide de Jobs Lakeflow et de la supervision holistique de vos pipelines. Cela permet à votre organisation de gérer la sécurité, la qualité et le coût des données tout en unifiant vos processus d’ingestion avec vos autres outils d’ingénierie des données. Lakeflow Connect repose sur une plateforme d’intelligence des données ouverte, avec une flexibilité totale pour incorporer vos outils tiers préférés. Cela garantit une solution personnalisée qui s’aligne sur votre infrastructure existante et les stratégies de données futures.
Une ingestion rapide et évolutive
Lakeflow Connect utilise des lectures et des écritures incrémentielles pour permettre une ingestion efficace. En cas de combinaison avec des transformations incrémentielles en aval, cela peut améliorer considérablement les performances ETL.
Cas d’utilisation courants
Les clients ingèrent des données pour résoudre les problèmes les plus difficiles de leurs organisations. Voici quelques exemples de cas d’usage :
| Cas d’utilisation | Descriptif |
|---|---|
| Client 360 | Mesurer la performance des campagnes et l'évaluation des prospects |
| Gestion de portefeuille | Optimisation du retour sur investissement avec des modèles historiques et de prévision |
| Analyse des consommateurs | Personnaliser les expériences d’achat de vos clients |
| Ressources humaines centralisées | Soutien de la main-d’œuvre de votre organisation |
| Digital Twins | Augmentation de l’efficacité de fabrication |
| Chatbots RAG | Création de chatbots pour aider les utilisateurs à comprendre les stratégies, les produits et bien plus encore |
Couches de la pile ETL
Certains connecteurs fonctionnent à un niveau de l'architecture ETL. Par exemple, Databricks offre des connecteurs entièrement managés pour les applications d’entreprise telles que Salesforce et les bases de données comme SQL Server. D’autres connecteurs fonctionnent sur plusieurs couches de la pile ETL. Par exemple, vous pouvez utiliser des connecteurs standard dans Structured Streaming pour une personnalisation complète ou des pipelines déclaratifs Spark Lakeflow pour une expérience plus managée. Vous pouvez également choisir votre niveau de personnalisation pour la diffusion en continu de données à partir d’Apache Kafka, d’Amazon Kinesis, de Google Pub/Sub et d’Apache Pulsar.
Databricks recommande de commencer par la couche la plus managée. S’il ne répond pas à vos besoins (par exemple, s’il ne prend pas en charge votre source de données), passez à la couche suivante. Databricks prévoit d’étendre la prise en charge d’autres connecteurs sur les trois couches.
Le tableau suivant décrit les trois couches de produits d’ingestion, classées de la plupart personnalisables à la plupart des produits gérés :
| Couche | Descriptif |
|---|---|
| Diffusion en continu structurée | Structured Streaming est une API pour le traitement de flux incrémentiel en quasi temps réel. Il offre des performances, une scalabilité et une tolérance de panne fortes. |
| Pipelines déclaratifs Spark Lakeflow | Lakeflow Spark Declarative Pipelines s’appuie sur Structured Streaming, offrant une infrastructure déclarative pour la création de pipelines de données. Vous pouvez définir les transformations à effectuer sur vos données, et Les pipelines déclaratifs Spark Lakeflow gèrent l’orchestration, la supervision, la qualité des données, les erreurs, etc. Par conséquent, il offre plus d’automatisation et moins de surcharge que Structured Streaming. |
| Connecteurs complètement managés | Les connecteurs entièrement gérés s’appuient sur les pipelines déclaratifs de Lakeflow Spark, offrant encore plus d’automatisation pour les sources de données les plus populaires. Ils étendent les fonctionnalités de pipelines déclaratifs Lakeflow Spark pour inclure également l’authentification spécifique à la source, la capture de données modifiées, la gestion des cas de périphérie, la maintenance des API à long terme, les nouvelles tentatives automatisées, l’évolution du schéma automatisé, et ainsi de suite. Par conséquent, ils offrent une automatisation encore plus grande pour toutes les sources de données prises en charge. |
Connecteurs managés
Vous pouvez utiliser des connecteurs entièrement managés pour ingérer à partir d’applications et de bases de données d’entreprise.
Les connecteurs pris en charge sont les suivants :
Les interfaces prises en charge sont les suivantes :
- Interface utilisateur Databricks
- Packs de ressources Databricks
- API Databricks
- Kits SDK Databricks
- Interface CLI de Databricks
Connecteurs standard
Outre les connecteurs managés, Databricks offre des connecteurs personnalisables pour le stockage d’objets cloud et les bus de messages. Consultez les connecteurs Standard dans Lakeflow Connect.
Chargement et téléchargement de fichiers
Vous pouvez ingérer des fichiers qui résident sur votre réseau local, des fichiers qui ont été chargés sur un volume ou des fichiers téléchargés à partir d’un emplacement Internet. Voir Fichiers.
Partenaires d'ingestion
De nombreux outils tiers prennent en charge l’ingestion par lots ou en streaming dans Databricks. Databricks valide diverses intégrations tierces, bien que les étapes de configuration de l'accès aux systèmes sources et d'ingestion de données varient selon l'outil. Consultez les partenaires d'ingestion pour obtenir une liste des outils validés. Certains partenaires technologiques sont également proposés dans Databricks Partner Connect, qui a une interface utilisateur qui simplifie la connexion d’outils tiers aux données Lakehouse.
Consommation DIY
Databricks fournit une plate-forme de calcul générale. Par conséquent, vous pouvez créer vos propres connecteurs d’ingestion en utilisant n’importe quel langage de programmation pris en charge par Databricks, comme Python ou Java. Vous pouvez également importer et utiliser des bibliothèques de connecteurs open source populaires telles que l’outil de chargement de données, Airbyte et Debezium.
Alternatives à l'ingestion
Databricks recommande l'ingestion pour la plupart des cas d'utilisation, car elle s'adapte aux volumes de données élevés, aux requêtes à faible latence et aux limites des API tierces. L’ingestion copie les données de vos systèmes sources vers Azure Databricks, ce qui génère des données en double qui peuvent devenir obsolètes au fil du temps. Si vous ne souhaitez pas copier de données, vous pouvez utiliser les outils suivants :
| Outil | Descriptif |
|---|---|
| Fédération de Lakehouse | Vous permet d’interroger des sources de données externes sans déplacer vos données. |
| Partage Delta | Vous permet de partager en toute sécurité des données entre plateformes, clouds et régions. |