Partilhar via


Módulo 2: Transformar dados com um fluxo de dados no Data Factory

Este módulo leva cerca de 25 minutos para ser concluído. Você cria um fluxo de dados, aplica transformações e move os dados brutos da tabela de camada de dados bronze para uma tabela de camada de dados dourada .

Com os dados brutos carregados em sua mesa Lakehouse de bronze do último módulo, agora você pode enriquecê-los. Vais combiná-lo com outra tabela que contém descontos para cada vendedor e as suas viagens num determinado dia. De seguida, esta tabela final Lakehouse em ouro é carregada e está pronta para consumo.

As etapas de alto nível no fluxo de dados são:

Pré-requisitos

Módulo 1 desta série de tutoriais: Criar um pipeline com o Data Factory

Obter dados de uma tabela Lakehouse

  1. Na barra lateral, selecione seu espaço de trabalho, selecione Novo iteme, em seguida, Dataflow Gen2 para criar um novo Dataflow Gen2.

    Captura de tela mostrando a página Criar malha com o botão Dataflow Gen2 realçado.

  2. No menu novo fluxo de dados, selecione Obter dadose, em seguida, Mais....

    Captura de ecrã mostrando o menu Fluxo de Dados com o botão Obter dados realçado e a opção Mais... realçada no menu.

  3. Procure e selecione o conector Lakehouse.

    Captura de tela mostrando a seleção da fonte de dados Lakehouse no menu Escolher fonte de dados.

  4. A caixa de diálogo Conectar à fonte de dados é exibida e uma nova conexão é criada automaticamente para você com base no usuário conectado no momento. Selecione Avançar.

    Captura de tela mostrando a configuração das configurações da fonte de dados para seu novo Lakehouse com seu usuário conectado atual e o botão Avançar selecionado.

  5. A caixa de diálogo Escolher dados é exibida. Usa o painel de navegação para encontrar a Casa do Lago que criaste para o destino no módulo anterior. Pode estar na pasta Meu espaço de trabalho . Selecione a tabela de dados Bronze . Depois, selecione Criar.

    Captura de tela mostrando o navegador Lakehouse com o espaço de trabalho, lakehouse e tabela criados com a atividade Copiar no módulo 1.

  6. (Opcional) Depois de a tela estar preenchida com os dados, pode definir as informações de perfil de coluna , pois isto é útil para a criação de perfis de dados. Você pode aplicar a transformação correta e direcionar os valores de dados corretos com base nela.

    Para fazer isso, selecione Opções na faixa de opções, selecione as três primeiras opções em Perfil de Colunae, em seguida, selecione OK.

    Captura de ecrã a mostrar a seleção de opções de coluna para os seus dados.

Transforme os dados importados do Lakehouse

  1. Selecione o ícone de tipo de dados no cabeçalho da segunda coluna, IpepPickupDatetime, para exibir um menu suspenso e escolha o tipo de dados no menu para converter a coluna do tipo Data/Hora para o tipo Data.

    Captura de tela mostrando a seleção do tipo de dados Data para a coluna IpepPickupDatetime.

  2. (Opcional) No separador Base da faixa de opções, selecione a opção Escolher Colunas no grupo Gerir Colunas.

    Captura de tela mostrando o botão Escolher colunas na guia Página Inicial do editor de fluxo de dados.

  3. (Opcional) Na caixa de diálogo Escolher colunas desselecione algumas das colunas listadas abaixo e selecione OK.

    • ID do fornecedor
    • lpepPickupDatahora
    • número de passageiros
    • tripDistância
    • picukupLongitude
    • LatitudeDeEntrega
    • storeAndFwdFlag
    • Montante Total

    Captura de tela mostrando a caixa de diálogo Escolher colunas com as colunas identificadas desmarcadas.

  4. Selecione o filtro e o menu suspenso de classificação da coluna storeAndFwdFlag. (Se vir um aviso Lista pode estar incompleta, selecione Carregar mais para ver todos os dados.)

    Captura de tela mostrando a caixa de diálogo de filtro e classificação da coluna.

  5. Selecione 'Y' para mostrar apenas as linhas onde um desconto foi aplicado e, em seguida, selecione OK.

    Captura de tela mostrando o filtro de valores com apenas 'Y' selecionado.

  6. Espere até que os dados sejam filtrados.

  7. Selecione o menu suspenso de ordenação e filtro da coluna IpepPickupDatetime e, em seguida, selecione Filtros de Datae escolha o filtro Entre... fornecido para os tipos Data e Data/Hora.

    Captura de tela mostrando a seleção da opção Filtros de data no menu suspenso de ordenação e formatação de colunas.

  8. Na caixa de diálogo Filtrar linhas, selecione datas entre 1 de janeiro de 2015 e 31 de janeiro de 2015 e, em seguida, selecione OK.

    Captura de tela mostrando a seleção das datas em janeiro de 2015.

  9. Espere até que os dados sejam filtrados.

Conectar-se a um arquivo CSV contendo dados de desconto

Com os dados das viagens disponíveis, queremos carregar os dados que contêm os respetivos descontos para cada dia e identificação do fornecedor, e preparar esses dados antes de os combinar com os das viagens.

  1. Na guia Página Inicial do no menu do editor de fluxo de dados, selecione a opção Obter de dados e escolha Texto/CSV .

    Captura de ecrã que mostra a seleção do menu Obter Dados no separador Base, com Texto/CSV realçado.

  2. Na caixa de diálogo Conectar à fonte de dados, forneça os seguintes detalhes:

    • Caminho do arquivo ou URL - https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
    • Tipo de autenticação - Anónimo

    Em seguida, selecione Avançar.

    Captura de tela mostrando as configurações de texto/CSV para a conexão.

  3. Na caixa de diálogo Dados de pré-visualização do arquivo, selecione Criar.

    Captura de ecrã mostrando a caixa de diálogo Pré-visualizar dados do ficheiro com o botão Criar destacado.

Transformar os dados de desconto

  1. Analisando os dados, vemos que os cabeçalhos parecem estar na primeira linha. Promova-os para cabeçalhos selecionando o menu de contexto da tabela no canto superior esquerdo da área da grade de visualização para selecionar Usar a primeira linha como cabeçalhos.

    Captura de tela mostrando a seleção da opção Usar primeira linha como cabeçalhos no menu de contexto da tabela.

    Observação

    Depois de promover os cabeçalhos, você pode ver uma nova etapa adicionada ao painel Etapas aplicadas na parte superior do editor de fluxo de dados para os tipos de dados de suas colunas.

  2. Clique com o botão direito do mouse na coluna VendorID e, no menu de contexto exibido, selecione a opção Despivotar outras colunas. Isso permite transformar colunas em pares atributo-valor, onde as colunas se tornam linhas.

    Captura de tela mostrando o menu de contexto da coluna ID do fornecedor com a seleção Despivotar outras colunas realçada.

  3. Com a tabela não pivotada, renomeie as colunas Atributo e Valor clicando duas vezes nelas e alterando Atributo para Data e Valor para Desconto.

    Captura de tela mostrando as colunas da tabela depois de renomear Atributo para Data e Valor para Desconto.

  4. Altere o tipo de dados da coluna Data selecionando o menu de tipo de dados à esquerda do nome da coluna e escolhendo Data.

    Captura de ecrã que mostra a seleção do tipo de dados Data para a coluna Data.

  5. Selecione a coluna de Desconto e, em seguida, selecione a guia Transformar no menu. Na secção Coluna Número, selecione as transformações numéricas standard no submenu e escolha Dividir.

    Captura de tela mostrando a seleção da opção Dividir para transformar dados na coluna Desconto.

  6. Na caixa de diálogo Dividir, insira o valor 100.

    Captura de tela mostrando a caixa de diálogo Dividir com o valor 100 inserido e o botão OK realçado.

Combine dados de viagens e descontos

O próximo passo é combinar as duas tabelas em uma única tabela que tenha o desconto a aplicar à viagem, e o total ajustado.

  1. Primeiro, alterne o botão Visualização de diagrama no canto inferior direito da janela, para que você possa ver ambas as consultas.

    Captura de tela mostrando o botão de alternância Modo de exibição de diagrama com ambas as consultas criadas neste tutorial exibidas.

  2. Selecione a sua consulta de dados original (no nosso exemplo, chama-se Bronze) e, no separador Home, no menu Combinar, escolha Unir consultas, depois Unir consultas como novas.

    Captura de ecrã que mostra a opção Mesclar consultas como nova seleção para a consulta nyc_taxi.

  3. No diálogo Merge, selecione uma fusão Left outer, depois selecione Generated-NYC-Taxi-Green-Discounts na tabela para a fusão do lado direito, e depois selecione o ícone de "lâmpada" no canto superior direito da caixa de diálogo para ver o mapeamento sugerido das colunas entre as duas tabelas.

    Captura de ecrã mostrando a configuração da caixa de diálogo Mesclar com mapeamentos de coluna sugeridos exibidos.

    Escolha o mapeamento sugerido para mapear as colunas VendorID e date de ambas as tabelas. Quando ambos os mapeamentos são adicionados, os cabeçalhos de coluna correspondentes são realçados em cada tabela.

  4. É exibida uma mensagem solicitando que você permita a combinação de dados de várias fontes de dados para exibir os resultados. Selecione OK na caixa de diálogo Mesclar .

    Captura de tela mostrando a solicitação para aprovar a combinação de dados de várias fontes de dados, com o botão OK realçado.

  5. Na área da tabela, você verá inicialmente um aviso de que "Informações são necessárias sobre privacidade de dados". Selecione Continuar para endereçar o aviso.

    Captura de tela mostrando o aviso sobre a combinação de dados de várias fontes de dados com o botão Continuar realçado.

  6. Para este tutorial, selecione Ignorar verificações de níveis de privacidade para este documento, pois são dados de exemplo que não têm informações confidenciais. Para suas próprias fontes de dados, defina níveis de privacidade apropriados para proteger seus dados confidenciais.

    Captura de tela mostrando a caixa de diálogo de nível de privacidade com a opção Ignorar níveis de privacidade selecionada.

  7. Selecione Guardar.

  8. Observe como uma nova consulta foi criada no modo Diagrama mostrando a relação da nova consulta Mesclar com as duas consultas criadas anteriormente. Observando o painel de tabela do editor, role para a direita da lista de colunas da consulta de mesclagem para ver que uma nova coluna com valores de tabela está presente. Esta é a coluna "Descontos Gerados NYC Taxi-Green-Discounts", e seu tipo é [Tabela]. No cabeçalho da coluna há um ícone com duas setas indo em direções opostas, permitindo que você selecione colunas da tabela. Desmarque todas as colunas, exceto Descontoe, em seguida, selecione OK.

    Captura de tela mostrando a consulta mesclada com o menu de seleção de coluna exibido para a coluna recém-gerada Generated-NYC-Taxi-Green-Discounts.

  9. Com o valor do desconto agora no nível da linha, podemos criar uma nova coluna para calcular o valor total após o desconto. Para fazer isso, selecione a guia Adicionar coluna na parte superior do editor e escolha de coluna Personalizada no grupo Geral.

    Captura de ecrã a mostrar o botão Adicionar coluna personalizada realçado na secção Geral do separador Adicionar coluna.

  10. Na caixa de diálogo coluna Personalizada, pode utilizar a linguagem de fórmula Power Query (também conhecida como M) para definir como a sua nova coluna deve ser calculada. Insira TotalAfterDiscount para o Nova nome da coluna, selecione Moeda para o Tipo de dadose forneça a seguinte expressão M para a fórmula de coluna personalizada :

    se [totalAmount] > 0 então [totalAmount] * ( 1 -[Desconto] ) senão [totalAmount]

    Em seguida, selecione OK.

    Captura de ecrã a mostrar o ecrã de configuração da Coluna Personalizada com o Novo nome da coluna, Tipo de dados e a fórmula da Coluna Personalizada realçados.

  11. Selecione a nova coluna TotalAfterDiscount e depois selecione o separador Transformar no topo da janela do editor. No grupo coluna Número, selecione a lista suspensa Arredondamento e, em seguida, escolha Arredondar....

    Captura de ecrã mostrando a opção Arredondar... na guia Transformar da janela do editor.

  12. Na de diálogoRodada , digite 2 para o número de casas decimais e selecione OK.

    Captura de tela mostrando a caixa de diálogo Rodada com 2 para o número de casas decimais e o botão OK realçado.

  13. Altere o tipo de dados do IpepPickupDatetime de Date para Date/Time.

    Captura de tela mostrando a seleção do tipo de dados Data/Hora para a coluna IpepPickupDatetime.

  14. Por fim, expanda o painel configurações de Consulta do lado direito do editor, se ainda não estiver expandido, e renomeie a consulta de Mesclagem para Saída.

    Captura de tela mostrando a renomeação da consulta de Mesclar para Saída.

Carregue a consulta de saída para uma tabela no Lakehouse

Com a consulta de saída agora totalmente preparada e com os dados prontos para a saída, podemos definir o destino de saída para a consulta.

  1. Selecione a consulta de mesclagem Saída criada anteriormente. Em seguida, selecione a guia Página Inicial no editor e Adicionar de destino de dados do agrupamento Consulta para selecionar um destino Lakehouse.

    Captura de tela mostrando o botão Adicionar destino de dados com Lakehouse realçado.

  2. Na caixa de diálogo Conectar ao destino de dados, a sua conexão já deve estar selecionada. Selecione Avançar para continuar.

  3. Na caixa de diálogo Escolher destino, navegue até a Lakehouse onde deseja importar os dados e nomeie a nova tabela nyc_taxi_with_discounts, e selecione Avançar novamente.

    Captura de tela mostrando a caixa de diálogo Escolher destino de destino com Nome da tabela nyc_taxi_with_discounts.

  4. Na caixa de diálogo Escolher configurações de destino , você pode usar as configurações automáticas ou desmarcar as configurações automáticas e deixar o método padrão Substituir atualização, verificar se as colunas estão mapeadas corretamente e selecionar Salvar configurações.

    Captura de tela mostrando a caixa de diálogo Escolher configurações de destino com o botão Salvar configurações realçado.

  5. Na janela principal do editor, confirma que vês o destino de saída no painel de Definições de Consulta para a tabela de Saída em Destino de Dados, e depois seleciona Guardar e executar.

    Importante

    Quando o primeiro Dataflow Gen2 é criado num espaço de trabalho, os itens Lakehouse e Warehouse são provisionados juntamente com seus endpoints de análises SQL e modelos semânticos relacionados. Esses itens são compartilhados por todos os fluxos de dados no espaço de trabalho e são necessários para que o Dataflow Gen2 funcione, não devem ser excluídos e não se destinam a ser usados diretamente pelos usuários. Os itens são um detalhe de implementação do Dataflow Gen2. Os itens não são visíveis no espaço de trabalho, mas podem ser acessíveis em outras experiências, como as experiências Notebook, SQL-endpoint, Lakehouse e Warehouse. Você pode reconhecer os itens por seu prefixo no nome. O prefixo dos itens é 'DataflowsStaging'.

  6. (Opcional) Na página do espaço de trabalho, você pode renomear seu fluxo de dados selecionando as reticências à direita do nome do fluxo de dados que aparece depois de selecionar a linha e escolhendo Configurações. Neste exemplo, renomeamos para nyc_taxi_with_discounts.

    Captura de tela mostrando a opção Propriedades selecionada no menu para um fluxo de dados onde ele pode ser renomeado.

  7. Selecione o ícone de atualização para o fluxo de dados sob as reticências de Mais opções e, quando terminar, verá a nova tabela Lakehouse criada conforme configurado nas definições de Destino de dados.

    Captura de tela mostrando a seleção do botão de atualização para atualizar o fluxo de dados.

  8. Verifique a sua Lakehouse para ver a nova tabela carregada lá.

Próximo passo

Continue para a próxima secção para integrar o seu pipeline.