Compartilhar via


Engenharia de dados com Databricks

O Databricks fornece o Lakeflow, uma solução de engenharia de dados de ponta a ponta que capacita engenheiros de dados, desenvolvedores de software, desenvolvedores de SQL, analistas e cientistas de dados a fornecer dados de alta qualidade para análise downstream, IA e aplicativos operacionais. O Lakeflow é uma solução unificada para ingestão, transformação e orquestração de seus dados e inclui Lakeflow Connect, Lakeflow Spark Declarative Pipelines e Lakeflow Jobs.

Lakeflow Connect

O Lakeflow Connect simplifica a ingestão de dados com conectores para aplicativos empresariais populares, bancos de dados, armazenamento em nuvem, barramentos de mensagens e arquivos locais. Confira LakeFlow Connect.

Característica Descrição
Conectores gerenciados Os conectores gerenciados fornecem uma interface do usuário simples e um serviço de ingestão baseado em configuração com sobrecarga operacional mínima, sem exigir que você use as APIs de pipeline subjacentes e a infraestrutura.
Conectores padrão Conectores padrão fornecem a capacidade de acessar dados de uma gama mais ampla de fontes de dados a partir de seus pipelines ou de outras consultas.

Pipelines Declarativos do Lakeflow Spark (SDP)

O Lakeflow Spark Declarative Pipelines, ou SDP, é uma estrutura declarativa que reduz a complexidade de construir e gerenciar pipelines de dados eficientes em lote e de streaming. O Lakeflow SDP se estende e é interoperável com os Apache Spark Declarative Pipelines, executando no Databricks Runtime otimizado para desempenho. O SDP orquestra automaticamente a execução de fluxos, coletores, tabelas de streaming e exibições materializadas encapsulando-as e executando-as como um pipeline. Consulte Pipelines Declarativos do Lakeflow Spark.

Característica Descrição
Fluxos Fluxos processam dados em tubulações. A API de fluxos usa a mesma API DataFrame que o Apache Spark e o Streaming Estruturado. Um fluxo pode fazer gravações em tabelas e coletores de streaming, como um tópico do Kafka, usando a semântica de streaming ou pode fazer gravações em uma exibição materializada usando a semântica em lote.
Tabelas de streaming Uma tabela de streaming é uma tabela Delta com suporte adicional para streaming ou processamento de dados incrementais. Atua como um destino para um ou mais fluxos em pipelines.
Exibições materializadas Uma exibição materializada é uma exibição com resultados armazenados em cache para acesso mais rápido. Uma visualização materializada atua como um destino para pipelines.
Coletores Os pipelines dão suporte a coletores de dados externos como destinos. Esses coletores podem incluir serviços de streaming de eventos, como Apache Kafka ou Hubs de Eventos do Azure, tabelas externas gerenciadas pelo Catálogo do Unity ou coletores personalizados definidos em Python.

Trabalhos do Lakeflow

Lakeflow Jobs fornece orquestração confiável e monitoramento de produção para qualquer carga de trabalho de dados e Inteligência Artificial. Um trabalho pode consistir em uma ou mais tarefas que executam notebooks, pipelines, conectores gerenciados, consultas SQL, treinamento de machine learning e implantação e inferência de modelo. Os trabalhos também dão suporte à lógica do fluxo de controle personalizado, como ramificação com instruções if/else e loop com instruções For Each. Consulte Trabalhos do Lakeflow.

Característica Descrição
Trabalhos Trabalhos são o principal recurso para orquestração. Eles representam um processo que você deseja executar em uma base agendada.
Tarefas Uma unidade de trabalho específica dentro de um trabalho. Há uma variedade de tipos de tarefas que oferecem uma variedade de opções que podem ser executadas em um trabalho.
Fluxo de controle em processos As tarefas de fluxo de controle permitem que você controle se deve executar outras tarefas ou a ordem das tarefas a serem executadas.

Databricks Runtime para Apache Spark

O Databricks Runtime é um ambiente de computação confiável e com otimização de desempenho para executar cargas de trabalho do Spark, incluindo lote e streaming. O Databricks Runtime fornece o Photon, um mecanismo de consulta vetorizado nativo do Databricks de alto desempenho e várias otimizações de infraestrutura, como dimensionamento automático. Você pode executar suas cargas de trabalho do Spark e de streaming estruturado no Databricks Runtime criando programas do Spark como notebooks, JARs ou Python wheels. Consulte o Databricks Runtime para Apache Spark.

Característica Descrição
Apache Spark no Databricks O Spark está no centro da Plataforma de Inteligência de Dados do Databricks.
Streaming estruturado O Streaming Estruturado é o mecanismo de processamento quase em tempo real do Spark para dados de streaming.

O que aconteceu com o DLT (Delta Live Tables)?

Se você estiver familiarizado com As Tabelas Dinâmicas Delta (DLT), confira o que aconteceu com o DLT (Delta Live Tables)?.

Recursos adicionais