Partager via


Connecteurs standard dans Lakeflow Connect

Cette page décrit les connecteurs standard dans Databricks Lakeflow Connect, qui offrent des niveaux plus élevés de personnalisation du pipeline d’ingestion par rapport aux connecteurs managés.

Couches de la pile ETL

Certains connecteurs fonctionnent à un niveau de la pile ETL. Par exemple, Databricks offre des connecteurs entièrement managés pour les applications d’entreprise telles que Salesforce et les bases de données comme SQL Server. D’autres connecteurs fonctionnent à plusieurs couches de la pile ETL. Par exemple, vous pouvez utiliser des connecteurs standard dans Structured Streaming pour une personnalisation complète ou des pipelines déclaratifs Spark Lakeflow pour une expérience plus managée.

Diagramme de pile ETL

Databricks recommande de commencer par la couche la plus managée. S’il ne répond pas à vos besoins (par exemple, s’il ne prend pas en charge votre source de données), passez à la couche suivante.

Le tableau suivant décrit les trois couches de produits d’ingestion, classées de la plupart personnalisables à la plupart des produits gérés :

Couche Descriptif
Diffusion en continu structurée Apache Spark Structured Streaming est un moteur de streaming qui offre une tolérance aux pannes de bout en bout avec des garanties de traitement exactement une fois via les API Spark.
Pipelines déclaratifs Spark Lakeflow Lakeflow Spark Declarative Pipelines s’appuie sur Structured Streaming, offrant une infrastructure déclarative pour la création de pipelines de données. Vous pouvez définir les transformations à effectuer sur vos données, et Les pipelines déclaratifs Spark Lakeflow gèrent l’orchestration, la supervision, la qualité des données, les erreurs, etc. Par conséquent, il offre plus d’automatisation et moins de surcharge que Structured Streaming.
Connecteurs gérés Les connecteurs entièrement gérés s’appuient sur les pipelines déclaratifs de Lakeflow Spark, offrant encore plus d’automatisation pour les sources de données les plus populaires. Ils étendent les fonctionnalités de pipelines déclaratifs Lakeflow Spark pour inclure également l’authentification spécifique à la source, la capture de données modifiées, la gestion des cas de périphérie, la maintenance des API à long terme, les nouvelles tentatives automatisées, l’évolution du schéma automatisé, et ainsi de suite. Par conséquent, ils offrent une automatisation encore plus grande pour toutes les sources de données prises en charge.

Choisir un connecteur

Le tableau suivant répertorie les connecteurs d’ingestion standard par source de données et le niveau de personnalisation du pipeline. Pour une expérience d’ingestion entièrement automatisée, utilisez plutôt des connecteurs managés .

Exemples SQL pour l’ingestion incrémentielle à partir d’un stockage d’objets cloud utilisent la syntaxe CREATE STREAMING TABLE. Il offre aux utilisateurs SQL une expérience d’ingestion évolutive et robuste. Il s’agit donc de l’alternative recommandée à COPY INTO.

Origine Plus de personnalisation Certaines personnalisations Plus d’automatisation
Stockage d’objets cloud Auto Loader avec Structured Streaming
(Python, Scala)
Chargeur automatique avec des pipelines déclaratifs Spark Lakeflow
(Python, SQL)
Chargeur automatique avec Databricks SQL
(SQL)
Serveurs SFTP Ingérer des fichiers à partir de serveurs SFTP
(Python, SQL)
N/A N/A
Apache Kafka Structured Streaming avec la source Kafka
(Python, Scala)
Pipelines déclaratifs Lakeflow Spark avec Kafka comme source
(Python, SQL)
Databricks SQL avec la source Kafka
(SQL)
Google Pub/Sub Diffusion en continu structurée avec source Pub/Sub
(Python, Scala)
Pipelines déclaratifs de Lakeflow Spark avec source Pub/Sub
(Python, SQL)
Databricks SQL avec source Pub/Sub
(SQL)
Apache Pulsar Diffusion en continu structurée avec la source Pulsar
(Python, Scala)
Pipelines déclaratifs Lakeflow Spark avec source Pulsar
(Python, SQL)
Databricks SQL utilisant la source Pulsar
(SQL)

Horaires d'ingestion

Vous pouvez configurer des pipelines d’ingestion pour qu’ils s’exécutent selon une planification périodique ou en continu.

Cas d’utilisation Mode de pipeline
Ingestion par lots Déclenché : traite les nouvelles données selon une planification ou lorsqu’elles sont déclenchées manuellement.
Ingestion de streaming Continu : traite les nouvelles données à mesure qu’elles arrivent dans la source.