Partilhar via


Guia de início rápido: criar uma solução para mover e transformar dados

Neste guia de início rápido, você aprenderá como fluxos de dados e pipelines trabalham juntos para criar uma solução poderosa de Data Factory. Você limpará dados com fluxos de dados e os moverá com pipelines.

Pré-requisitos

Antes de começar, você precisa:

Comparar fluxos de dados e pipelines

O Dataflow Gen2 fornece uma interface low-code com 300+ dados e transformações baseadas em IA. Você pode facilmente limpar, preparar e transformar dados com flexibilidade. Os pipelines oferecem recursos avançados de orquestração de dados para compor fluxos de trabalho de dados flexíveis que atendam às necessidades da sua empresa.

Em um pipeline, você pode criar agrupamentos lógicos de atividades que executam uma tarefa. Isso pode incluir chamar um fluxo de dados para limpar e preparar seus dados. Embora haja alguma sobreposição de funcionalidades entre os dois, sua escolha depende se você precisa de todos os recursos de pipelines ou pode usar os recursos mais simples de fluxos de dados. Para obter mais informações, consulte o Guia de decisão do Fabric.

Transforme dados com fluxos de dados

Siga estas etapas para configurar seu fluxo de dados.

Criar um fluxo de dados

  1. Selecione seu espaço de trabalho habilitado para malha, depois Novo e escolha Dataflow Gen2.

    Captura de tela do início de um Dataflow Gen2.

  2. No editor de fluxo de dados, selecione Importar do SQL Server.

    Captura de tela do editor de fluxo de dados.

Obter dados

  1. Na caixa de diálogo Conectar à fonte de dados , insira os detalhes do banco de dados SQL do Azure e selecione Avançar. Use o banco de dados de exemplo AdventureWorksLT indicado nos pré-requisitos.

    Captura de ecrã a mostrar a ligação a uma base de dados SQL do Azure.

  2. Selecione os dados a serem transformados, como SalesLT.Customer, e use Selecionar tabelas relacionadas para incluir tabelas relacionadas. Em seguida, selecione Criar.

    Captura de ecrã a mostrar a seleção de dados a transformar.

Transforme seus dados

  1. Selecione Vista de diagrama na barra de estado ou no menu Ver no editor do Power Query.

    Captura de ecrã a mostrar a seleção da vista de diagrama.

  2. Selecione com o botão direito do mouse a consulta SalesLT Customer ou selecione as reticências verticais à direita da consulta e, em seguida, selecione Mesclar consultas.

    Captura de tela da opção Mesclar consultas.

  3. Configure a mesclagem com SalesLTOrderHeader como a tabela direita, CustomerID como a coluna de junção e Left outer como o tipo de junção. Selecione OK.

    Captura de ecrã do ecrã de configuração de Mesclagem.

  4. Adicione um destino de dados selecionando o símbolo do banco de dados com uma seta. Escolha o banco de dados SQL do Azure como o tipo de destino.

    Captura de ecrã do botão Adicionar destino de dados.

  5. Forneça os detalhes para sua conexão de banco de dados SQL do Azure onde a consulta de mesclagem deve ser publicada. Neste exemplo, também usamos o banco de dados AdventureWorksLT que usamos como fonte de dados para o destino.

    Captura de ecrã da caixa de diálogo Ligar ao destino de dados.

  6. Escolha um banco de dados para armazenar os dados e forneça um nome de tabela e, em seguida, selecione Avançar.

    Captura de ecrã da janela Escolher destino de destino.

  7. Aceite as configurações padrão na caixa de diálogo Escolher configurações de destino e selecione Salvar configurações.

    Captura de tela da caixa de diálogo Escolher configurações de destino.

  8. Selecione Publicar no editor de fluxo de dados para publicar o fluxo de dados.

    Captura de tela destacando o botão Publicar no editor gen2 de fluxo de dados.

Mover dados utilizando pipelines

Agora que você criou um Dataflow Gen2, pode operá-lo num pipeline. Neste exemplo, você copia os dados gerados do fluxo de dados para o formato de texto em uma conta de Armazenamento de Blob do Azure.

Criar um novo pipeline

  1. No espaço de trabalho, selecione Novo e, em seguida, Pipeline.

    Captura de ecrã da criação de um novo pipeline.

  2. Nomeie seu pipeline e selecione Criar.

    Captura de tela mostrando o novo prompt de criação de pipeline com um nome de pipeline de exemplo.

Configure seu fluxo de dados

  1. Adicione uma atividade de fluxo de dados ao seu pipeline selecionando Fluxo de dados na guia Atividades .

    Captura de tela da adição de uma atividade de fluxo de dados.

  2. Selecione o fluxo de dados na tela do pipeline, vá para a guia Configurações e escolha o fluxo de dados criado anteriormente.

    Captura de tela mostrando a seleção de um fluxo de dados.

  3. Selecione Salvar e, em seguida, Executar para preencher a tabela de consulta mesclada.

    Captura de tela mostrando onde selecionar Executar.

Adicionar uma atividade de cópia

  1. Selecione Copiar dados na tela ou use o Assistente de cópia na guia Atividades .

    Captura de tela mostrando as duas maneiras de acessar o assistente de cópia.

  2. Escolha Banco de Dados SQL do Azure como a fonte de dados e selecione Avançar.

    Captura de tela mostrando onde escolher uma fonte de dados.

  3. Crie uma conexão com sua fonte de dados selecionando Criar nova conexão. Preencha as informações de conexão necessárias no painel e insira o AdventureWorksLT para o banco de dados, onde geramos a consulta de mesclagem no fluxo de dados. Em seguida, selecione Avançar.

    Captura de tela mostrando onde criar uma nova conexão.

  4. Selecione a tabela gerada na etapa de fluxo de dados anterior e, em seguida, selecione Avançar.

    Captura de tela mostrando como selecionar entre as tabelas disponíveis.

  5. Para o seu destino, escolha Armazenamento de Blobs do Azure e selecione Avançar.

    Captura de tela mostrando o destino de dados do Armazenamento de Blobs do Azure.

  6. Crie uma conexão com seu destino selecionando Criar nova conexão. Forneça os detalhes da sua ligação e, em seguida, selecione Seguinte.

    Captura de tela mostrando como criar uma conexão.

  7. Selecione o caminho da pasta e forneça um nome de arquivo e, em seguida, selecione Avançar.

    Captura de tela mostrando como selecionar o caminho da pasta e o nome do arquivo.

  8. Selecione Avançar novamente para aceitar o formato de arquivo padrão, o delimitador de coluna, o delimitador de linha e o tipo de compactação, incluindo opcionalmente um cabeçalho.

    Captura de tela mostrando as opções de configuração para o arquivo no Armazenamento de Blobs do Azure.

  9. Finalize suas configurações. Em seguida, revise e selecione Salvar + Executar para concluir o processo.

    Captura de ecrã a mostrar como rever as definições de cópia de dados.

Projete seu pipeline e salve para executar e carregar dados

  1. Para executar a atividade Copy após a atividade Dataflow , arraste de Succeeded na atividade Dataflow para a atividade Copy . A atividade Copy só é executada depois que a atividade Dataflow tiver sucesso.

    Captura de tela mostrando como fazer o fluxo de dados ser executado após a atividade de cópia.

  2. Selecione Salvar para salvar seu pipeline. Em seguida, selecione Executar para executar o pipeline e carregar os dados.

    Captura de tela mostrando onde selecionar Salvar e Executar.

Programar a execução do pipeline

Depois de concluir o desenvolvimento e o teste do pipeline, você pode programá-lo para ser executado automaticamente.

  1. Na guia Home da janela do editor de pipeline, selecione Agenda.

    Captura de ecrã do botão Agendar no menu do separador Página Principal no editor de pipeline.

  2. Configure a agenda conforme necessário. O exemplo aqui mostra que o pipeline funcione diariamente às 20:00 até o final do ano.

    Captura de tela mostrando a configuração de programação para um pipeline ser executado diariamente às 20:00 até o final do ano.

Este exemplo mostra como criar e configurar um Dataflow Gen2 para criar uma consulta de mesclagem e armazená-la em um banco de dados SQL do Azure e, em seguida, copiar dados do banco de dados para um arquivo de texto no Armazenamento de Blobs do Azure. Você aprendeu a:

  • Crie um fluxo de dados.
  • Transforme dados com o fluxo de dados.
  • Crie um pipeline usando o fluxo de dados.
  • Ordenar a execução das etapas no pipeline.
  • Copie dados com o Assistente de Cópia.
  • Execute e agende seu pipeline.

Em seguida, avance para saber mais sobre como monitorizar as suas execuções de pipelines.