Connecteurs standard dans Lakeflow Connect

Cette page décrit les connecteurs standard dans Databricks Lakeflow Connect, qui offrent des niveaux plus élevés de personnalisation du pipeline d’ingestion par rapport aux connecteurs managés.

Couches de la pile ETL

Certains connecteurs fonctionnent à un niveau de la pile ETL. Par exemple, Databricks offre des connecteurs entièrement managés pour les applications d’entreprise telles que Salesforce et les bases de données comme SQL Server. D’autres connecteurs fonctionnent à plusieurs couches de la pile ETL. Par exemple, vous pouvez utiliser des connecteurs standard dans Structured Streaming pour une personnalisation complète ou des pipelines déclaratifs Spark Lakeflow pour une expérience plus managée.

Diagramme de pile ETL

Databricks recommande de commencer par la couche la plus managée. S’il ne répond pas à vos besoins (par exemple, s’il ne prend pas en charge votre source de données), passez à la couche suivante.

Le tableau suivant décrit les trois couches de produits d’ingestion, classées de la plupart personnalisables à la plupart des produits gérés :

Couche	Descriptif
Diffusion en continu structurée	Apache Spark Structured Streaming est un moteur de streaming qui offre une tolérance aux pannes de bout en bout avec des garanties de traitement exactement une fois via les API Spark.
Pipelines déclaratifs Spark Lakeflow	Lakeflow Spark Declarative Pipelines s’appuie sur Structured Streaming, offrant une infrastructure déclarative pour la création de pipelines de données. Vous pouvez définir les transformations à effectuer sur vos données, et Les pipelines déclaratifs Spark Lakeflow gèrent l’orchestration, la supervision, la qualité des données, les erreurs, etc. Par conséquent, il offre plus d’automatisation et moins de surcharge que Structured Streaming.
Connecteurs gérés	Les connecteurs entièrement gérés s’appuient sur les pipelines déclaratifs de Lakeflow Spark, offrant encore plus d’automatisation pour les sources de données les plus populaires. Ils étendent les fonctionnalités de pipelines déclaratifs Lakeflow Spark pour inclure également l’authentification spécifique à la source, la capture de données modifiées, la gestion des cas de périphérie, la maintenance des API à long terme, les nouvelles tentatives automatisées, l’évolution du schéma automatisé, et ainsi de suite. Par conséquent, ils offrent une automatisation encore plus grande pour toutes les sources de données prises en charge.

Choisir un connecteur

Le tableau suivant répertorie les connecteurs d’ingestion standard par source de données et le niveau de personnalisation du pipeline. Pour une expérience d’ingestion entièrement automatisée, utilisez plutôt des connecteurs managés .

Exemples SQL pour l’ingestion incrémentielle à partir d’un stockage d’objets cloud utilisent la syntaxe CREATE STREAMING TABLE. Il offre aux utilisateurs SQL une expérience d’ingestion évolutive et robuste. Il s’agit donc de l’alternative recommandée à COPY INTO.

Origine	Plus de personnalisation	Certaines personnalisations	Plus d’automatisation
Stockage d’objets cloud	Auto Loader avec Structured Streaming (Python, Scala)	Chargeur automatique avec des pipelines déclaratifs Spark Lakeflow (Python, SQL)	Chargeur automatique avec Databricks SQL (SQL)
Serveurs SFTP	Ingérer des fichiers à partir de serveurs SFTP (Python, SQL)	N/A	N/A
Apache Kafka	Structured Streaming avec la source Kafka (Python, Scala)	Pipelines déclaratifs Lakeflow Spark avec Kafka comme source (Python, SQL)	Databricks SQL avec la source Kafka (SQL)
Google Pub/Sub	Diffusion en continu structurée avec source Pub/Sub (Python, Scala)	Pipelines déclaratifs de Lakeflow Spark avec source Pub/Sub (Python, SQL)	Databricks SQL avec source Pub/Sub (SQL)
Apache Pulsar	Diffusion en continu structurée avec la source Pulsar (Python, Scala)	Pipelines déclaratifs Lakeflow Spark avec source Pulsar (Python, SQL)	Databricks SQL utilisant la source Pulsar (SQL)

Horaires d'ingestion

Vous pouvez configurer des pipelines d’ingestion pour qu’ils s’exécutent selon une planification périodique ou en continu.

Cas d’utilisation	Mode de pipeline
Ingestion par lots	Déclenché : traite les nouvelles données selon une planification ou lorsqu’elles sont déclenchées manuellement.
Ingestion de streaming	Continu : traite les nouvelles données à mesure qu’elles arrivent dans la source.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-11-13