Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Op deze pagina worden de standaardconnectors in Databricks Lakeflow Connect beschreven, die hogere niveaus van opnamepijplijnaanpassing bieden in vergelijking met de beheerde connectors.
Lagen van de ETL-stack
Sommige connectors werken op één niveau van de ETL-stack. Databricks biedt bijvoorbeeld volledig beheerde connectors voor bedrijfstoepassingen zoals Salesforce en databases zoals SQL Server. Andere connectors werken op meerdere lagen van de ETL-stack. U kunt bijvoorbeeld standaardconnectors in Structured Streaming gebruiken voor volledige aanpassing of declaratieve Pijplijnen van Lakeflow Spark voor een meer beheerde ervaring.
Databricks raadt aan om te beginnen met de meest beheerde laag. Als deze niet voldoet aan uw vereisten (bijvoorbeeld als deze geen ondersteuning biedt voor uw gegevensbron), gaat u naar de volgende laag.
In de volgende tabel worden de drie lagen van opnameproducten beschreven, gesorteerd van meest aanpasbaar tot meest beheerd:
| Laag | Beschrijving |
|---|---|
| Gestructureerd streamen | Apache Spark Structured Streaming is een streaming-engine die end-to-end fouttolerantie biedt met exactly-once verwerkingsgaranties met behulp van Spark-API's. |
| Declaratieve Pijplijnen van Lakeflow Spark | Lakeflow Spark-declaratieve pijplijnen bouwt voort op Structured Streaming en biedt een declaratief framework voor het maken van gegevenspijplijnen. U kunt de transformaties definiëren die moeten worden uitgevoerd op uw gegevens en Lakeflow Spark-declaratieve pijplijnen beheert indeling, bewaking, gegevenskwaliteit, fouten en meer. Daarom biedt het meer automatisering en minder overhead dan Structured Streaming. |
| Beheerde connectors | Volledig beheerde connectors bouwen voort op declaratieve Pijplijnen van Lakeflow Spark, wat nog meer automatisering biedt voor de populairste gegevensbronnen. Ze breiden de functionaliteit van Lakeflow Spark-declaratieve pijplijnen uit om ook bronspecifieke verificatie, CDC, verwerking van edge-cases, onderhoud van api's op lange termijn, geautomatiseerde pogingen, geautomatiseerde schemaontwikkeling, enzovoort, toe te voegen. Daarom bieden ze nog meer automatisering voor ondersteunde gegevensbronnen. |
Connector kiezen
De volgende tabel bevat standaardopnameconnectors per gegevensbron en het niveau van pijplijnaanpassing. Voor een volledig geautomatiseerde opname-ervaring gebruikt u in plaats daarvan beheerde connectors .
SQL-voorbeelden voor incrementele opname van opslag in cloudobjecten gebruiken CREATE STREAMING TABLE syntaxis. Het biedt SQL-gebruikers een schaalbare en robuuste opname-ervaring, daarom is het het aanbevolen alternatief voor COPY INTO.
| Bron | Meer aanpassingen | Sommige aanpassingen | Meer automatisering |
|---|---|---|---|
| Cloudopslag van objecten |
Automatisch laden met gestructureerd streamen (Python, Scala) |
Automatisch laden met Lakeflow Spark-declaratieve pijplijnen (Python, SQL) |
Automatisch laden met Databricks SQL (SQL) |
| SFTP-servers |
Bestanden opnemen van SFTP-servers (Python, SQL) |
N/A | N/A |
| Apache Kafka |
Gestructureerd streamen met Kafka-bron (Python, Scala) |
Declaratieve Pijplijnen van Lakeflow Spark met Kafka-bron (Python, SQL) |
Databricks SQL met Kafka-bron (SQL) |
| Google Pub/Sub (een berichten- en gebeurtenissenservice van Google) |
Gestructureerd streamen met pub/subbron (Python, Scala) |
Lakeflow Spark-declaratieve pijplijnen met Pub/Sub-bron (Python, SQL) |
Databricks SQL met Pub/Sub-bron (SQL) |
| Apache Pulsar |
Gestructureerd streamen met Pulsar-bron (Python, Scala) |
Declaratieve pijplijnen van Lakeflow Spark met Pulsar-bron (Python, SQL) |
Databricks SQL met Pulsar-bron (SQL) |
opnameschema's
U kunt opnamepijplijnen zo configureren dat ze worden uitgevoerd volgens een terugkerend schema of continu.
| Gebruiksituatie | Pijplijnmodus |
|---|---|
| Batchinvoer | Geactiveerd: verwerkt nieuwe gegevens volgens een schema of wanneer deze handmatig worden geactiveerd. |
| Streaming-ingestie | Doorlopend: hiermee worden nieuwe gegevens verwerkt wanneer deze binnenkomen in de bron. |