Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Lakeflow Connect biedt eenvoudige en efficiënte connectors voor het opnemen van gegevens uit lokale bestanden, populaire bedrijfstoepassingen, databases, cloudopslag, berichtenbussen en meer. Op deze pagina vindt u een overzicht van een aantal manieren waarop Lakeflow Connect ETL-prestaties kan verbeteren. Het behandelt ook veelvoorkomende gebruikssituaties en het scala aan ondersteunde invoertools, van volledig beheerde verbindingen tot volledig aanpasbare frameworks.
Flexibele servicemodellen
Lakeflow Connect biedt een breed scala aan connectors voor bedrijfstoepassingen, cloudopslag, databases, berichtenbussen en meer. Het biedt u ook de flexibiliteit om te kiezen tussen het volgende:
| Optie | Beschrijving |
|---|---|
| Een volledig beheerde service | Out-of-the-box connectors die gegevenstoegang democratiseren met eenvoudige UI's en krachtige API's. Hierdoor kunt u snel robuuste opnamepijplijnen maken en tegelijkertijd de onderhoudskosten op de lange termijn minimaliseren. |
| Een aangepaste pijplijn | Als u meer aanpassingen nodig hebt, kunt u declaratieve Pijplijnen van Lakeflow Spark of Structured Streaming gebruiken. Dankzij deze veelzijdigheid kan Lakeflow Connect uiteindelijk voldoen aan de specifieke behoeften van uw organisatie. |
Eenwording met kernhulpprogramma's van Databricks
Lakeflow Connect maakt gebruik van de kernfuncties van Databricks om uitgebreid gegevensbeheer te bieden. Het biedt bijvoorbeeld governance met behulp van Unity Catalog, orkestratie van Lakeflow-banen en holistische bewaking van uw pijplijnen. Dit helpt uw organisatie bij het beheren van gegevensbeveiliging, -kwaliteit en -kosten, terwijl u uw opnameprocessen samenvoegt met uw andere hulpprogramma's voor data engineering. Lakeflow Connect is gebouwd op een open Data Intelligence Platform, met volledige flexibiliteit om uw favoriete hulpprogramma's van derden op te nemen. Dit zorgt voor een op maat gemaakte oplossing die overeenkomt met uw bestaande infrastructuur en toekomstige gegevensstrategieën.
Snelle, schaalbare opname
Lakeflow Connect maakt gebruik van incrementele lees- en schrijfbewerkingen om efficiënte opname mogelijk te maken. In combinatie met incrementele transformaties downstream kan dit de ETL-prestaties aanzienlijk verbeteren.
Veelvoorkomende gebruiksvoorbeelden
Klanten nemen gegevens op om de meest uitdagende problemen van hun organisatie op te lossen. Voorbeelden van gebruiksmogelijkheden zijn:
| Gebruiksituatie | Beschrijving |
|---|---|
| Klant 360 | De prestaties van de campagne en het scoren van leads van klanten meten |
| Portfoliobeheer | Roi maximaliseren met historische en prognosemodellen |
| Consumentenanalyse | De aankoopervaringen van uw klanten aanpassen |
| Gecentraliseerd personeelszaken | Het personeel van uw organisatie ondersteunen |
| Digital twins (Digitale tweelingen) | Productie-efficiëntie verhogen |
| RAG-chatbots | Chatbots bouwen om gebruikers inzicht te geven in beleid, producten en meer |
Lagen van de ETL-stack
Sommige connectors werken op één niveau van de ETL-stack. Databricks biedt bijvoorbeeld volledig beheerde connectors voor bedrijfstoepassingen zoals Salesforce en databases zoals SQL Server. Andere connectors werken op meerdere lagen van de ETL-stack. U kunt bijvoorbeeld standaardconnectors in Structured Streaming gebruiken voor volledige aanpassing of declaratieve Pijplijnen van Lakeflow Spark voor een meer beheerde ervaring. U kunt ook uw aanpassingsniveau kiezen voor streaminggegevens van Apache Kafka, Amazon Kinesis, Google Pub/Sub en Apache Pulsar.
Databricks raadt aan om te beginnen met de meest beheerde laag. Als deze niet voldoet aan uw vereisten (bijvoorbeeld als deze geen ondersteuning biedt voor uw gegevensbron), gaat u naar de volgende laag. Databricks is van plan om ondersteuning voor meer connectors in alle drie de lagen uit te breiden.
In de volgende tabel worden de drie lagen van opnameproducten beschreven, gesorteerd van meest aanpasbaar tot meest beheerd:
| Laag | Beschrijving |
|---|---|
| Gestructureerd streamen | Structured Streaming is een API voor incrementele stroomverwerking in bijna realtime. Het biedt sterke prestaties, schaalbaarheid en fouttolerantie. |
| Declaratieve Pijplijnen van Lakeflow Spark | Lakeflow Spark-declaratieve pijplijnen bouwt voort op Structured Streaming en biedt een declaratief framework voor het maken van gegevenspijplijnen. U kunt de transformaties definiëren die moeten worden uitgevoerd op uw gegevens en Lakeflow Spark-declaratieve pijplijnen beheert indeling, bewaking, gegevenskwaliteit, fouten en meer. Daarom biedt het meer automatisering en minder overhead dan Structured Streaming. |
| Volledig beheerde connectors | Volledig beheerde connectors bouwen voort op declaratieve Pijplijnen van Lakeflow Spark, wat nog meer automatisering biedt voor de populairste gegevensbronnen. Ze breiden de functionaliteit van Lakeflow Spark-declaratieve pijplijnen uit om ook bronspecifieke verificatie, CDC, verwerking van edge-cases, onderhoud van api's op lange termijn, geautomatiseerde pogingen, geautomatiseerde schemaontwikkeling, enzovoort, toe te voegen. Daarom bieden ze nog meer automatisering voor ondersteunde gegevensbronnen. |
Beheerde connectors
U kunt volledig beheerde connectors gebruiken om gegevens op te nemen uit bedrijfstoepassingen en -databases.
Ondersteunde connectors zijn onder andere:
Ondersteunde interfaces zijn:
- Databricks-gebruikersinterface
- Databricks Asset Pakketten
- Databricks API's
- Databricks SDK's
- Databricks-CLI
Standaardconnectors
Naast de beheerde connectors biedt Databricks aanpasbare connectors voor cloudobjectopslag en berichtenbussen. Zie standardconnectoren in Lakeflow Connect.
Bestand uploaden en downloaden
U kunt bestanden opnemen die zich in uw lokale netwerk bevinden, bestanden die zijn geüpload naar een volume of bestanden die zijn gedownload van een internetlocatie. Zie Bestanden.
integratie- of verwerkingspartners
Veel hulpprogramma's van derden ondersteunen batch- of streamingopname in Databricks. Databricks valideert verschillende integraties van derden, hoewel de stappen voor het configureren van toegang tot bronsystemen en opnamegegevens per hulpprogramma verschillen. Zie invoerpartners voor een lijst met gevalideerde tools. Sommige technologiepartners zijn ook beschikbaar in Databricks Partner Connect, met een gebruikersinterface die het verbinden van hulpprogramma's van derden met Lakehouse-gegevens vereenvoudigt.
DIY-Invoer
Databricks biedt een algemeen rekenplatform. Als gevolg hiervan kunt u uw eigen opnameconnectors maken met behulp van elke programmeertaal die wordt ondersteund door Databricks, zoals Python of Java. U kunt ook populaire opensource-connectorbibliotheken importeren en gebruiken, zoals het hulpprogramma voor het laden van gegevens, Airbyte en Debezium.
alternatieven voor inname
Databricks raadt de opname aan voor de meeste gebruiksvoorbeelden, omdat deze wordt geschaald voor grote gegevensvolumes, query's met lage latentie en API-limieten van derden. Het opnameproces kopieert gegevens van uw bronsystemen naar Azure Databricks, wat resulteert in dubbele gegevens die na verloop van tijd verouderd kunnen raken. Als u geen gegevens wilt kopiëren, kunt u de volgende hulpprogramma's gebruiken:
| Werktuig | Beschrijving |
|---|---|
| Lakehouse Federation | Hiermee kunt u query's uitvoeren op externe gegevensbronnen zonder uw gegevens te verplaatsen. |
| Delta Delen | Hiermee kunt u veilig gegevens delen tussen platforms, clouds en regio's. |