Partilhar via


O que é Lakeflow Connect?

O Lakeflow Connect oferece conectores simples e eficientes para ingerir dados de arquivos locais, aplicativos empresariais populares, bancos de dados, armazenamento em nuvem, barramentos de mensagens e muito mais. Esta página descreve algumas das maneiras pelas quais o Lakeflow Connect pode melhorar o desempenho do ETL. Ele também abrange casos de uso comuns e a gama de ferramentas de ingestão suportadas, desde conectores totalmente gerenciados até estruturas totalmente personalizáveis.

Modelos de serviço flexíveis

O Lakeflow Connect oferece uma ampla gama de conectores para aplicativos corporativos, armazenamento em nuvem, bancos de dados, barramentos de mensagens e muito mais. Também lhe dá a flexibilidade de escolher entre os seguintes:

Opção Descrição
Um serviço totalmente gerenciado Conectores prontos para uso que democratizam o acesso aos dados com interfaces de usuário simples e APIs poderosas. Isso permite que se criem rapidamente pipelines de ingestão robustos enquanto minimiza os custos de manutenção de longo prazo.
Um pipeline personalizado Se precisar de mais personalização, você pode usar Lakeflow Spark Declarative Pipelines ou Structured Streaming. Em última análise, essa versatilidade permite que o Lakeflow Connect atenda às necessidades específicas da sua organização.

Unificação com as principais ferramentas Databricks

O Lakeflow Connect usa os principais recursos do Databricks para fornecer gerenciamento de dados abrangente. Por exemplo, ele oferece governança usando o Unity Catalog, orquestração usando Lakeflow Jobs e monitoramento holístico em todos os seus pipelines. Isso ajuda sua organização a gerenciar a segurança, a qualidade e o custo dos dados, ao mesmo tempo em que unifica seus processos de ingestão com outras ferramentas de engenharia de dados. O Lakeflow Connect foi construído em uma plataforma aberta de inteligência de dados, com total flexibilidade para incorporar suas ferramentas preferidas de terceiros. Isso garante uma solução personalizada que se alinha com sua infraestrutura existente e estratégias de dados futuras.

Ingestão rápida e escalável

O Lakeflow Connect usa leituras e gravações incrementais para permitir uma ingestão eficiente. Quando combinado com transformações incrementais a jusante, isso pode melhorar significativamente o desempenho do ETL.

Casos comuns de utilização

Os clientes ingerem dados para resolver os problemas mais desafiadores de suas organizações. Exemplos de casos de uso incluem o seguinte:

Caso de uso Descrição
Cliente 360 Medir o desempenho da campanha e a pontuação de clientes potenciais
Gestão de carteiras Maximização do ROI com modelos históricos e de previsão
Análise do consumidor Personalizar as experiências de compra dos seus clientes
Recursos humanos centralizados Apoiar a força de trabalho da sua organização
Gêmeos digitais Aumentar a eficiência de fabricação
Chatbots RAG Criação de chatbots para ajudar os usuários a entender políticas, produtos e muito mais

Camadas do stack ETL

Alguns conectores operam em um nível da pilha ETL. Por exemplo, o Databricks oferece conectores totalmente gerenciados para aplicativos corporativos, como Salesforce, e bancos de dados, como o SQL Server. Outros conectores operam em várias camadas da tecnologia de ETL. Por exemplo, você pode usar conectores padrão no Structured Streaming para personalização completa ou Lakeflow Spark Declarative Pipelines para uma experiência mais gerenciada. Da mesma forma, você pode escolher seu nível de personalização para streaming de dados do Apache Kafka, Amazon Kinesis, Google Pub/Sub e Apache Pulsar.

Diagrama de camada ETL

A Databricks recomenda começar com a camada mais gerenciada. Se ele não atender aos seus requisitos (por exemplo, se não oferecer suporte à sua fonte de dados), desça para a próxima camada. A Databricks planeja expandir o suporte para mais conectores em todas as três camadas.

A tabela a seguir descreve as três camadas de produtos de ingestão, ordenados do mais personalizável para o mais gerenciado:

Camada Descrição
Transmissão em Fluxo Estruturada O Structured Streaming é uma API para processamento incremental de fluxo quase em tempo real. Ele fornece forte desempenho, escalabilidade e tolerância a falhas.
Oleodutos declarativos Lakeflow Spark O Lakeflow Spark Declarative Pipelines baseia-se no Structured Streaming, oferecendo uma estrutura declarativa para a criação de pipelines de dados. Você pode definir as transformações a serem executadas em seus dados, e o Lakeflow Spark Declarative Pipelines gerencia orquestração, monitoramento, qualidade de dados, erros e muito mais. Portanto, ele oferece mais automação e menos sobrecarga do que o Structured Streaming.
Conectores totalmente gerenciados Os conectores totalmente gerenciados se baseiam nos Lakeflow Spark Declarative Pipelines, oferecendo ainda mais automação para as fontes de dados mais populares. Eles estendem a funcionalidade Lakeflow Spark Declarative Pipelines para também incluir autenticação específica da fonte, CDC, manipulação de casos de borda, manutenção de API de longo prazo, tentativas automatizadas, evolução automatizada do esquema e assim por diante. Portanto, eles oferecem ainda mais automação para quaisquer fontes de dados suportadas.

Conectores gerenciados

Você pode usar conectores totalmente gerenciados para ingerir a partir de aplicativos corporativos e bancos de dados.

Os conectores suportados incluem:

As interfaces suportadas incluem:

  • Interface do usuário do Databricks
  • Pacotes de Ativos da Databricks
  • Databricks APIs
  • Databricks SDKs
  • CLI do Databricks

Conectores padrão

Além dos conectores gerenciados, o Databricks oferece conectores personalizáveis para armazenamento de objetos em nuvem e barramentos de mensagens. Consulte Conectores padrão no Lakeflow Connect.

Upload e download de arquivos

Pode ingerir ficheiros que residem na sua rede local, ficheiros que foram carregados para um volume ou ficheiros que são transferidos a partir de uma localização na Internet. Consulte Ficheiros.

Parceiros de Ingestão

Muitas ferramentas de terceiros suportam ingestão em lote ou streaming no Databricks. O Databricks valida várias integrações de terceiros, embora as etapas para configurar o acesso a sistemas de origem e ingerir dados variem de acordo com a ferramenta. Consulte parceiros de ingestão para obter uma lista de ferramentas validadas. Alguns parceiros de tecnologia também são apresentados no Databricks Partner Connect, que tem uma interface do usuário que simplifica a conexão de ferramentas de terceiros aos dados da Lakehouse.

incorporação de bricolage

Databricks fornece uma plataforma de computação geral. Como resultado, você pode criar seus próprios conectores de ingestão usando qualquer linguagem de programação suportada pelo Databricks, como Python ou Java. Você também pode importar e usar bibliotecas de conectores de código aberto populares, como a ferramenta de carregamento de dados, Airbyte e Debezium.

Alternativas de ingestão

O Databricks recomenda a ingestão para a maioria dos casos de uso porque é dimensionado para acomodar grandes volumes de dados, consultas de baixa latência e limites de API de terceiros. A ingestão copia dados dos seus sistemas de origem para o Azure Databricks, o que resulta em dados duplicados que podem ficar obsoletos com o tempo. Se não quiser copiar dados, pode utilizar as seguintes ferramentas:

Ferramenta Descrição
Federação Lakehouse Permite consultar fontes de dados externas sem mover os dados.
Compartilhação Delta Permite que você compartilhe dados com segurança entre plataformas, nuvens e regiões.