Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Importante
Os conectores gerenciados no Lakeflow Connect estão em vários estados de versão.
Esta página fornece uma visão geral dos conectores geridos no Databricks Lakeflow Connect para a ingestão de dados de aplicações e bases de dados SaaS. O pipeline de ingestão resultante é governado pelo Unity Catalog e é alimentado por computação sem servidor e Lakeflow Spark Declarative Pipelines. Os conectores gerenciados aproveitam leituras e gravações incrementais eficientes para tornar a ingestão de dados mais rápida, escalável e econômica, enquanto seus dados permanecem atualizados para consumo downstream.
Componentes do conector SaaS
Um conector SaaS tem os seguintes componentes:
| Componente | Descrição |
|---|---|
| Conexão | Um objeto protegível do Unity Catalog que armazena detalhes de autenticação para o aplicativo. |
| Conduta de ingestão | Um pipeline que copia os dados da aplicação para as tabelas de destino. O canal de ingestão é executado em computação sem servidor. |
| Tabelas de destino | As tabelas onde o canal de ingestão escreve os dados. Estas são tabelas de streaming, que são tabelas Delta com suporte extra para processamento incremental de dados. |
Componentes do conector de banco de dados
Um conector de banco de dados tem os seguintes componentes:
| Componente | Descrição |
|---|---|
| Conexão | Um objeto protegível do Unity Catalog que armazena detalhes de autenticação para o banco de dados. |
| Gateway de ingestão | Um pipeline que extrai instantâneos, registos de alterações e metadados do banco de dados de origem. O gateway opera com computação clássica e funciona continuamente para capturar alterações antes que os registos de mudanças possam ser eliminados na origem. |
| Armazenamento temporário | Um volume do Catálogo Unity que armazena temporariamente os dados extraídos antes de serem aplicados à tabela de destino. Isso permite que você execute seu pipeline de ingestão em qualquer horário que desejar, mesmo quando o gateway captura continuamente as alterações. Também ajuda na recuperação de falhas. Você cria automaticamente um volume de armazenamento temporário ao implantar o gateway e pode personalizar o catálogo e o esquema onde está localizado. Os dados são automaticamente removidos do preparo após 30 dias. |
| Conduta de ingestão | Um pipeline que move os dados do armazenamento temporário para as tabelas de destino. O pipeline funciona em computação sem servidor. |
| Tabelas de destino | As tabelas onde o canal de ingestão escreve os dados. Estas são tabelas de streaming, que são tabelas Delta com suporte extra para processamento incremental de dados. |
Orquestração
Você pode executar o seu pipeline de ingestão em um ou mais horários personalizados. Para cada agenda que adicionar a um pipeline, o Lakeflow Connect cria automaticamente uma tarefa para o mesmo. O fluxo de ingestão é uma tarefa dentro da função. Opcionalmente, você pode adicionar mais tarefas ao trabalho.
Para conectores de banco de dados, o gateway de ingestão é executado em seu próprio trabalho como uma tarefa contínua.
Ingestão incremental
Lakeflow Connect usa ingestão incremental para melhorar a eficiência do pipeline. Na primeira execução do pipeline, ele ingere todos os dados selecionados da fonte. Em paralelo, ele rastreia as alterações nos dados de origem. Em cada execução subsequente do pipeline, ele usa esse rastreamento de alterações para processar apenas os dados que foram alterados da execução anterior, quando possível.
A abordagem exata depende do que está disponível na sua fonte de dados. Por exemplo, você pode usar o controle de alterações e a captura de dados de alteração (CDC) com o SQL Server. Por outro lado, o conector do Salesforce seleciona uma coluna de cursor de uma lista definida de opções.
Algumas fontes ou tabelas específicas não suportam ingestão incremental no momento. A Databricks planeja expandir a cobertura para suporte incremental.
Rede
Há várias opções para se conectar a um aplicativo ou banco de dados SaaS.
- Os conectores para aplicativos SaaS alcançam as APIs de origem. Eles também são automaticamente compatíveis com controles de saída sem servidor.
- Conectores para bancos de dados em nuvem podem se conectar à fonte via Private Link. Como alternativa, se seu espaço de trabalho tiver uma Rede Virtual (VNet) ou Virtual Private Cloud (VPC) emparelhada com a VNet ou VPC que hospeda seu banco de dados, você poderá implantar o gateway de ingestão dentro dele.
- Os conectores para bancos de dados locais podem se conectar usando serviços como o AWS Direct Connect e o Azure ExpressRoute.
Implantação
Você pode implantar pipelines de ingestão usando Databricks Asset Bundles, que permitem práticas recomendadas como controle do código-fonte, revisão de código, teste e integração e entrega contínuas (CI/CD). Os pacotes são gerenciados usando a CLI do Databricks e podem ser executados em diferentes espaços de trabalho de destino, como desenvolvimento, preparação e produção.
Recuperação de falhas
Como um serviço totalmente gerenciado, o Lakeflow Connect visa se recuperar automaticamente de problemas quando possível. Por exemplo, quando um conector falha, ele tenta novamente automaticamente com recuo exponencial.
No entanto, é possível que um erro exija sua intervenção (por exemplo, quando as credenciais expiram). Nesses casos, o conector tenta evitar a falta de dados armazenando a última posição do cursor. Ele pode então pegar de volta a partir dessa posição na próxima corrida do gasoduto, quando possível.
Monitorização
O Lakeflow Connect fornece alertas e monitoramento robustos para ajudá-lo a manter seus oleodutos. Isso inclui registos de eventos, registos do cluster, métricas de integridade do pipeline e métricas de qualidade de dados.
Estados de lançamento
| Connector | Estado de lançamento |
|---|---|
| Dynamics 365 | Pré-visualização Pública |
| Google Analytics | Disponibilidade geral |
| MySQL | Pré-visualização Pública |
| NetSuite | Pré-visualização Pública |
| PostgreSQL | Pré-visualização Pública |
| Salesforce | Disponibilidade geral |
| ServiceNow | Disponibilidade geral |
| SharePoint | Beta |
| SQL Server | Disponibilidade geral |
| Workday | Disponibilidade geral |
Disponibilidade de funcionalidades
As tabelas seguintes resumem a disponibilidade de funcionalidades para cada conector de ingestão gerida. Para recursos e limitações adicionais, consulte a documentação do seu conector específico.
Google Analytics
| Característica | Disponibilidade |
|---|---|
| Criação de pipelines com base na interface de utilizador | Sim |
| Criação de pipeline baseada em API | Sim |
| Pacotes de Ativos da Databricks | Sim |
| Ingestão incremental | Sim |
| Governança do Catálogo Unity | Sim |
| Orquestração usando fluxos de trabalho Databricks | Sim |
| SCD tipo 2 | Sim |
| Seleção e desseleção de colunas baseadas em API | Sim |
| Filtragem de linhas baseada em API | Sim |
| Evolução automatizada do esquema: colunas novas e excluídas | Sim |
| Evolução automatizada do esquema: alterações no tipo de dados | Não |
| Evolução automatizada do esquema: renomeações de colunas | Sim - Tratada como uma nova coluna (novo nome) e coluna eliminada (nome antigo). |
| Evolução automatizada do esquema: Novas tabelas | Sim - Se você ingerir todo o esquema. Veja as limitações no número de tabelas por pipeline. |
| Número máximo de tabelas por pipeline | 250 |
MySQL
| Característica | Disponibilidade |
|---|---|
| Criação de pipelines com base na interface de utilizador | Sim |
| Criação de pipeline baseada em API |
|
| Pacotes de Ativos da Databricks |
|
| Ingestão incremental |
|
| Governança do Catálogo Unity |
|
| Orquestração usando fluxos de trabalho Databricks |
|
| SCD tipo 2 |
|
| Seleção e desseleção de colunas baseadas em API |
|
| Filtragem de linhas baseada em API | Não |
| Evolução automatizada do esquema: colunas novas e excluídas |
|
| Evolução automatizada do esquema: alterações no tipo de dados |
|
| Evolução automatizada do esquema: renomeações de colunas |
Tratado como uma coluna nova (nome novo) e coluna eliminada (nome antigo). |
| Evolução automatizada do esquema: Novas tabelas |
Se ingerires todo o esquema. Veja as limitações no número de tabelas por pipeline. |
| Número máximo de tabelas por pipeline | 250 |
NetSuite
| Característica | Disponibilidade |
|---|---|
| Criação de pipelines com base na interface de utilizador | Sim |
| Criação de pipeline baseada em API | Sim |
| Pacotes de Ativos da Databricks | Sim |
| Ingestão incremental | Sim |
| Governança do Catálogo Unity | Sim |
| Orquestração usando fluxos de trabalho Databricks | Sim |
| SCD tipo 2 | Sim |
| Seleção e desseleção de colunas baseadas em API | Sim |
| Filtragem de linhas baseada em API | Não |
| Evolução automatizada do esquema: colunas novas e excluídas | Sim |
| Evolução automatizada do esquema: alterações no tipo de dados | Não |
| Evolução automatizada do esquema: renomeações de colunas | Sim - Tratada como uma nova coluna (novo nome) e coluna eliminada (nome antigo). |
| Evolução automatizada do esquema: Novas tabelas | Sim - Se você ingerir todo o esquema. Veja as limitações no número de tabelas por pipeline. |
| Número máximo de tabelas por pipeline | 200 |
Salesforce
| Característica | Disponibilidade |
|---|---|
| Criação de pipelines com base na interface de utilizador |
|
| Criação de pipeline baseada em API | Sim |
| Pacotes de Ativos da Databricks | Sim |
| Ingestão incremental | Sim - Por defeito, os campos de fórmulas requerem snapshots completos. Para permitir a ingestão incremental de campos de fórmulas, consulte Ingerir campos de fórmulas do Salesforce de forma incremental. |
| Governança do Catálogo Unity | Sim |
| Orquestração usando fluxos de trabalho Databricks | Sim |
| SCD tipo 2 | Sim |
| Seleção e desseleção de colunas baseadas em API | Sim |
| Filtragem de linhas baseada em API | Sim |
| Evolução automatizada do esquema: colunas novas e excluídas | Sim |
| Evolução automatizada do esquema: alterações no tipo de dados | Não |
| Evolução automatizada do esquema: renomeações de colunas | Sim - Tratada como uma nova coluna (novo nome) e coluna eliminada (nome antigo). |
| Evolução automatizada do esquema: Novas tabelas | N/A |
| Número máximo de tabelas por pipeline | 250 |
Workday
| Característica | Disponibilidade |
|---|---|
| Criação de pipelines com base na interface de utilizador | Sim |
| Criação de pipeline baseada em API | Sim |
| Pacotes de Ativos da Databricks | Sim |
| Ingestão incremental | Não |
| Governança do Catálogo Unity | Sim |
| Orquestração usando fluxos de trabalho Databricks | Sim |
| SCD tipo 2 | Sim |
| Seleção e desseleção de colunas baseadas em API | Sim |
| Filtragem de linhas baseada em API | Não |
| Evolução automatizada do esquema: colunas novas e excluídas | Sim |
| Evolução automatizada do esquema: alterações no tipo de dados | Não |
| Evolução automatizada do esquema: renomeações de colunas | Não - Quando os objetos DDL estão ativados, o conector pode renomear a coluna. Quando os objetos DDL não estão habilitados, o conector trata isso como uma nova coluna (novo nome) e uma coluna excluída (nome antigo). Em ambos os casos, requer uma atualização completa. |
| Evolução automatizada do esquema: Novas tabelas | Sim - Se você ingerir todo o esquema. Veja as limitações no número de tabelas por pipeline. |
| Número máximo de tabelas por pipeline | 250 |
SQL Server
| Característica | Disponibilidade |
|---|---|
| Criação de pipelines com base na interface de utilizador | Sim |
| Criação de pipeline baseada em API | Sim |
| Pacotes de Ativos da Databricks | Sim |
| Ingestão incremental | Sim |
| Governança do Catálogo Unity | Sim |
| Orquestração usando fluxos de trabalho Databricks | Sim |
| SCD tipo 2 | Sim |
| Seleção e desseleção de colunas baseadas em API | Sim |
| Filtragem de linhas baseada em API | Não |
| Evolução automatizada do esquema: colunas novas e excluídas | Sim |
| Evolução automatizada do esquema: alterações no tipo de dados | Não |
| Evolução automatizada do esquema: renomeações de colunas | Não - Quando os objetos DDL estão ativados, o conector pode renomear a coluna. Quando os objetos DDL não estão habilitados, o conector trata isso como uma nova coluna (novo nome) e uma coluna excluída (nome antigo). Em ambos os casos, requer uma atualização completa. |
| Evolução automatizada do esquema: Novas tabelas |
Se ingerires todo o esquema. Veja as limitações no número de tabelas por pipeline. |
| Número máximo de tabelas por pipeline | 250 |
PostgreSQL
| Característica | Disponibilidade |
|---|---|
| Criação de pipelines com base na interface de utilizador | Sim |
| Criação de pipeline baseada em API |
|
| Pacotes de Ativos da Databricks |
|
| Ingestão incremental |
|
| Governança do Catálogo Unity |
|
| Orquestração usando fluxos de trabalho Databricks |
|
| SCD tipo 2 |
|
| Seleção e desseleção de colunas baseadas em API |
|
| Filtragem de linhas baseada em API | Não |
| Evolução automatizada do esquema: colunas novas e excluídas |
|
| Evolução automatizada do esquema: alterações no tipo de dados |
|
| Evolução automatizada do esquema: renomeações de colunas | Sim - Tratada como uma nova coluna (novo nome) e coluna eliminada (nome antigo). |
| Evolução automatizada do esquema: Novas tabelas | Sim - Se você ingerir todo o esquema. Veja as limitações no número de tabelas por pipeline. |
| Número máximo de tabelas por pipeline | 250 |
ServiceNow
| Característica | Disponibilidade |
|---|---|
| Criação de pipelines com base na interface de utilizador | Sim |
| Criação de pipeline baseada em API | Sim |
| Pacotes de Ativos da Databricks | Sim |
| Ingestão incremental | Sim - Com exceções quando a tabela não tem um campo de cursor. |
| Governança do Catálogo Unity | Sim |
| Orquestração usando fluxos de trabalho Databricks | Sim |
| SCD tipo 2 | Sim |
| Seleção e desseleção de colunas baseadas em API | Sim |
| Filtragem de linhas baseada em API | Sim |
| Evolução automatizada do esquema: colunas novas e excluídas | Sim |
| Evolução automatizada do esquema: alterações no tipo de dados | Não |
| Evolução automatizada do esquema: renomeações de colunas | Sim - Tratada como uma nova coluna (novo nome) e coluna eliminada (nome antigo). |
| Evolução automatizada do esquema: Novas tabelas | Sim - Se você ingerir todo o esquema. Veja as limitações no número de tabelas por pipeline. |
| Número máximo de tabelas por pipeline | 250 |
SharePoint
| Característica | Disponibilidade |
|---|---|
| Criação de pipelines com base na interface de utilizador |
|
| Criação de pipeline baseada em API | Sim |
| Pacotes de Ativos da Databricks | Sim |
| Ingestão incremental | Sim |
| Governança do Catálogo Unity | Sim |
| Orquestração usando fluxos de trabalho Databricks | Sim |
| SCD tipo 2 | Sim |
| Seleção e desseleção de colunas baseadas em API | Sim |
| Filtragem de linhas baseada em API | Não |
| Evolução automatizada do esquema: colunas novas e excluídas | Sim |
| Evolução automatizada do esquema: alterações no tipo de dados | Não |
| Evolução automatizada do esquema: renomeações de colunas | Não - Requer uma atualização completa. |
| Evolução automatizada do esquema: Novas tabelas | Sim - Se você ingerir todo o esquema. Veja as limitações no número de tabelas por pipeline. |
| Número máximo de tabelas por pipeline | 250 |
Dynamics 365
| Característica | Disponibilidade |
|---|---|
| Criação de pipelines com base na interface de utilizador | Sim |
| Criação de pipeline baseada em API | Sim |
| Pacotes de Ativos da Databricks | Sim |
| Ingestão incremental | Sim - Via Número de Versão do Azure Synapse Link |
| Governança do Catálogo Unity | Sim |
| Orquestração usando fluxos de trabalho Databricks | Sim |
| SCD tipo 2 | Sim |
| Seleção e desseleção de colunas baseadas em API | Sim |
| Filtragem de linhas baseada em API | Não |
| Evolução automatizada do esquema: colunas novas e excluídas | Sim |
| Evolução automatizada do esquema: alterações no tipo de dados | Não |
| Evolução automatizada do esquema: renomeações de colunas | Não - Requer uma atualização completa. |
| Evolução automatizada do esquema: Novas tabelas | Sim - Se você ingerir todo o esquema. Veja as limitações no número de tabelas por pipeline. |
| Número máximo de tabelas por pipeline | 250 |
Métodos de autenticação
A tabela a seguir lista os métodos de autenticação suportados para cada conector de ingestão gerenciado. A Databricks recomenda o uso de OAuth U2M ou OAuth M2M quando possível. Se o seu conector suportar OAuth, a autenticação básica é considerada um método legado.
Dynamics 365
| Método de autenticação | Disponibilidade |
|---|---|
| OAuth U2M |
|
| OAuth M2M |
|
| OAuth (token de atualização manual) |
|
| Autenticação básica (nome de utilizador/palavra-passe) |
|
| Autenticação básica (chave API) |
|
| Autenticação básica (chave JSON da conta de serviço) |
|
Google Analytics
| Método de autenticação | Disponibilidade |
|---|---|
| OAuth U2M |
|
| OAuth M2M |
|
| OAuth (token de atualização manual) |
|
| Autenticação básica (nome de utilizador/palavra-passe) |
|
| Autenticação básica (chave API) |
|
| Autenticação básica (chave JSON da conta de serviço) |
|
MySQL
| Método de autenticação | Disponibilidade |
|---|---|
| OAuth U2M |
|
| OAuth M2M |
|
| OAuth (token de atualização manual) |
|
| Autenticação básica (nome de utilizador/palavra-passe) |
|
| Autenticação básica (chave API) |
|
| Autenticação básica (chave JSON da conta de serviço) |
|
NetSuite
| Método de autenticação | Disponibilidade |
|---|---|
| OAuth U2M |
|
| OAuth M2M |
|
| OAuth (token de atualização manual) |
|
| Autenticação básica (nome de utilizador/palavra-passe) |
|
| Autenticação básica (chave API) |
|
| Autenticação básica (chave JSON da conta de serviço) |
|
Salesforce
| Método de autenticação | Disponibilidade |
|---|---|
| OAuth U2M |
|
| OAuth M2M |
|
| OAuth (token de atualização manual) |
|
| Autenticação básica (nome de utilizador/palavra-passe) |
|
| Autenticação básica (chave API) |
|
| Autenticação básica (chave JSON da conta de serviço) |
|
ServiceNow
| Método de autenticação | Disponibilidade |
|---|---|
| OAuth U2M |
|
| OAuth M2M |
|
| OAuth (token de atualização manual) |
|
| Autenticação básica (nome de utilizador/palavra-passe) |
|
| Autenticação básica (chave API) |
|
| Autenticação básica (chave JSON da conta de serviço) |
|
SharePoint
| Método de autenticação | Disponibilidade |
|---|---|
| OAuth U2M |
|
| OAuth M2M |
|
| OAuth (token de atualização manual) |
|
| Autenticação básica (nome de utilizador/palavra-passe) |
|
| Autenticação básica (chave API) |
|
| Autenticação básica (chave JSON da conta de serviço) |
|
SQL Server
| Método de autenticação | Disponibilidade |
|---|---|
| OAuth U2M |
|
| OAuth M2M |
|
| OAuth (token de atualização manual) |
|
| Autenticação básica (nome de utilizador/palavra-passe) |
|
| Autenticação básica (chave API) |
|
| Autenticação básica (chave JSON da conta de serviço) |
|
Workday
| Método de autenticação | Disponibilidade |
|---|---|
| OAuth U2M |
|
| OAuth M2M |
|
| OAuth (token de atualização manual) |
|
| Autenticação básica (nome de utilizador/palavra-passe) |
|
| Autenticação básica (chave API) |
|
| Autenticação básica (chave JSON da conta de serviço) |
|
Dependência de serviços externos
Databricks SaaS, banco de dados e outros conectores totalmente gerenciados dependem da acessibilidade, compatibilidade e estabilidade do aplicativo, banco de dados ou serviço externo ao qual eles se conectam. O Databricks não controla esses serviços externos e, portanto, tem influência limitada (se houver) sobre suas alterações, atualizações e manutenção.
Se alterações, interrupções ou circunstâncias relacionadas a um serviço externo impedirem ou tornarem impraticável a operação de um conector, o Databricks poderá descontinuar ou cessar a manutenção desse conector. A Databricks envidará todos os esforços razoáveis para notificar os clientes da descontinuação ou cessação da manutenção, incluindo atualizações da documentação aplicável.