Standaard connectors in Lakeflow Connect

Op deze pagina worden de standaardconnectors in Databricks Lakeflow Connect beschreven, die hogere niveaus van opnamepijplijnaanpassing bieden in vergelijking met de beheerde connectors.

Lagen van de ETL-stack

Sommige connectors werken op één niveau van de ETL-stack. Databricks biedt bijvoorbeeld volledig beheerde connectors voor bedrijfstoepassingen zoals Salesforce en databases zoals SQL Server. Andere connectors werken op meerdere lagen van de ETL-stack. U kunt bijvoorbeeld standaardconnectors in Structured Streaming gebruiken voor volledige aanpassing of declaratieve Pijplijnen van Lakeflow Spark voor een meer beheerde ervaring.

ETL-stackdiagram

Databricks raadt aan om te beginnen met de meest beheerde laag. Als deze niet voldoet aan uw vereisten (bijvoorbeeld als deze geen ondersteuning biedt voor uw gegevensbron), gaat u naar de volgende laag.

In de volgende tabel worden de drie lagen van opnameproducten beschreven, gesorteerd van meest aanpasbaar tot meest beheerd:

Laag	Beschrijving
Gestructureerd streamen	Apache Spark Structured Streaming is een streaming-engine die end-to-end fouttolerantie biedt met exactly-once verwerkingsgaranties met behulp van Spark-API's.
Declaratieve Pijplijnen van Lakeflow Spark	Lakeflow Spark-declaratieve pijplijnen bouwt voort op Structured Streaming en biedt een declaratief framework voor het maken van gegevenspijplijnen. U kunt de transformaties definiëren die moeten worden uitgevoerd op uw gegevens en Lakeflow Spark-declaratieve pijplijnen beheert indeling, bewaking, gegevenskwaliteit, fouten en meer. Daarom biedt het meer automatisering en minder overhead dan Structured Streaming.
Beheerde connectors	Volledig beheerde connectors bouwen voort op declaratieve Pijplijnen van Lakeflow Spark, wat nog meer automatisering biedt voor de populairste gegevensbronnen. Ze breiden de functionaliteit van Lakeflow Spark-declaratieve pijplijnen uit om ook bronspecifieke verificatie, CDC, verwerking van edge-cases, onderhoud van api's op lange termijn, geautomatiseerde pogingen, geautomatiseerde schemaontwikkeling, enzovoort, toe te voegen. Daarom bieden ze nog meer automatisering voor ondersteunde gegevensbronnen.

Connector kiezen

De volgende tabel bevat standaardopnameconnectors per gegevensbron en het niveau van pijplijnaanpassing. Voor een volledig geautomatiseerde opname-ervaring gebruikt u in plaats daarvan beheerde connectors .

SQL-voorbeelden voor incrementele opname van opslag in cloudobjecten gebruiken CREATE STREAMING TABLE syntaxis. Het biedt SQL-gebruikers een schaalbare en robuuste opname-ervaring, daarom is het het aanbevolen alternatief voor COPY INTO.

Bron	Meer aanpassingen	Sommige aanpassingen	Meer automatisering
Cloudopslag van objecten	Automatisch laden met gestructureerd streamen (Python, Scala)	Automatisch laden met Lakeflow Spark-declaratieve pijplijnen (Python, SQL)	Automatisch laden met Databricks SQL (SQL)
SFTP-servers	Bestanden opnemen van SFTP-servers (Python, SQL)	N/A	N/A
Apache Kafka	Gestructureerd streamen met Kafka-bron (Python, Scala)	Declaratieve Pijplijnen van Lakeflow Spark met Kafka-bron (Python, SQL)	Databricks SQL met Kafka-bron (SQL)
Google Pub/Sub (een berichten- en gebeurtenissenservice van Google)	Gestructureerd streamen met pub/subbron (Python, Scala)	Lakeflow Spark-declaratieve pijplijnen met Pub/Sub-bron (Python, SQL)	Databricks SQL met Pub/Sub-bron (SQL)
Apache Pulsar	Gestructureerd streamen met Pulsar-bron (Python, Scala)	Declaratieve pijplijnen van Lakeflow Spark met Pulsar-bron (Python, SQL)	Databricks SQL met Pulsar-bron (SQL)

opnameschema's

U kunt opnamepijplijnen zo configureren dat ze worden uitgevoerd volgens een terugkerend schema of continu.

Gebruiksituatie	Pijplijnmodus
Batchinvoer	Geactiveerd: verwerkt nieuwe gegevens volgens een schema of wanneer deze handmatig worden geactiveerd.
Streaming-ingestie	Doorlopend: hiermee worden nieuwe gegevens verwerkt wanneer deze binnenkomen in de bron.

Feedback

Is deze pagina nuttig?

Last updated on 2025-11-15