Compartilhar via


Visão geral do pipeline

Os pipelines no Microsoft Fabric Data Factory ajudam você a orquestrar e automatizar seus fluxos de trabalho de dados. Um pipeline é um agrupamento lógico de atividades que juntas executam uma tarefa. Por exemplo, um pipeline pode conter um conjunto de atividades que ingerem e limpam dados de log e, em seguida, iniciar um fluxo de dados para analisar os dados de log.

O pipeline permite que você gerencie as atividades como um conjunto em vez de cada uma individualmente. Você implanta e agenda o pipeline em vez das atividades de maneira independente.

Quando usar pipelines

Os pipelines resolvem desafios comuns de dados automatizando tarefas repetitivas e garantindo o processamento de dados consistente.

Digamos que você seja uma empresa de varejo que precisa processar dados diários de vendas de várias lojas. Todos os dias, você precisa:

  1. Coletar dados de sistemas de ponto de venda, pedidos online e bancos de dados de inventário
  2. Validar e limpar os dados para garantir a precisão
  3. Transformar os dados calculando totais diários, aplicando regras de negócios e enriquecendo com informações do cliente
  4. Carregar os dados processados em seu data warehouse para relatórios
  5. Notificar sua equipe de business intelligence quando os dados estiverem prontos

Um pipeline automatiza todo esse fluxo de trabalho. Ele é executado conforme o cronograma, lida com erros de forma eficiente e fornece visibilidade de cada etapa. Você obtém processamento de dados consistente e oportuno sem intervenção manual.

Principais componentes do pipeline

Os pipelines consistem em vários componentes principais que trabalham juntos para criar fluxos de trabalho de dados poderosos. Os principais componentes incluem atividades que executam o trabalho e adicionam lógica ao pipeline, agendas ou gatilhos que determinam quando os pipelines são executados e parâmetros que tornam seus pipelines flexíveis e reutilizáveis.

Activities

As atividades são os blocos fundamentais do seu pipeline. Cada atividade executa uma tarefa específica e há três tipos principais de atividades:

Você pode encadear atividades em conjunto para criar fluxos de trabalho complexos. Quando uma atividade é concluída, ela pode disparar a próxima atividade com base no êxito, falha ou status de conclusão.

Para obter uma lista completa das atividades disponíveis e mais informações, consulte a visão geral da atividade.

Execuções de pipeline e agendamento

Uma execução de pipeline ocorre quando um pipeline é executado. Durante uma execução, todas as atividades em seu pipeline são processadas e concluídas. Cada execução de pipeline obtém sua própria ID de execução exclusiva que você pode usar para acompanhamento e monitoramento.

Você pode iniciar execuções de pipeline de três maneiras:

  • Execuções sob demanda: selecione Executar no editor de pipeline para disparar uma execução imediata. Você precisará salvar as alterações antes do início do pipeline.

    Captura de tela mostrando onde selecionar Executar na guia Início.

  • Execuções agendadas: configurar execuções automáticas com base no tempo e na frequência. Ao criar uma agenda, especifique datas de início e término, frequência e fuso horário.

    Captura de tela mostrando onde selecionar Agendar na guia Página Inicial.

  • Execuções baseadas em eventos: use gatilhos de evento para iniciar o pipeline quando ocorrerem eventos específicos, como novos arquivos chegando em um data lake ou alterações em um banco de dados.

    Captura de tela que mostra onde selecionar Gatilho para adicionar gatilhos de execução baseados em evento na guia principal.

Para obter mais informações, consulte Executar, agendar ou disparar um pipeline.

Parâmetros e variáveis

Os parâmetros tornam seus pipelines flexíveis. Você pode passar valores diferentes ao executar o pipeline, permitindo que o mesmo pipeline processe diferentes conjuntos de dados ou use configurações diferentes.

As variáveis armazenam valores temporários durante a execução do pipeline. Você pode usá-los para passar dados entre atividades ou tomar decisões com base em condições de runtime.

Para obter mais informações, consulte Como usar parâmetros, expressões e funções em pipelines.

Monitoramento e gerenciamento de dutos

O Fabric fornece monitoramento abrangente para seus pipelines:

  • Monitoramento em tempo real: observe o progresso do pipeline à medida que ele é executado, com indicadores visuais para o status de cada atividade
  • Histórico de Execuções: Revise execuções passadas para identificar padrões e solucionar problemas
  • Métricas de desempenho: analisar os tempos de execução e o uso de recursos para otimizar seus pipelines
  • Trilha de auditoria: rastrear quem executou quais pipelines e quando, com logs detalhados de horários de início, horários de término, duração da atividade, mensagens de erro e proveniência dos dados

Para obter mais informações, consulte Executar monitoramento de pipelines.

Práticas recomendadas

Ao projetar pipelines, considere estas recomendações:

  • Inicie simples: comece com a movimentação básica de dados e adicione gradualmente a complexidade
  • Usar parâmetros: tornar seus pipelines reutilizáveis parametrizando conexões e caminhos de arquivo
  • Manipular erros: Planejar falhas com lógica de repetição e caminhos de processamento alternativos
  • Monitorar o desempenho: revisar regularmente os tempos de execução e otimizar atividades de execução lenta
  • Teste minuciosamente: valide seus pipelines com dados de exemplo antes de processar cargas de trabalho de produção

Próximas etapas