Compartilhar via


Tutorial: Transformar dados usando fluxos de dados de mapeamento

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

Neste tutorial, você usa a UX (interface do usuário) do Azure Data Factory para criar um pipeline que copia e transforma dados de uma fonte do ADLS (Azure Data Lake Storage) Gen2 em um coletor do ADLS Gen2 usando o fluxo de dados de mapeamento. O padrão de configuração neste tutorial pode ser expandido após a transformação de dados usando o fluxo de dados de mapeamento

Este tutorial destina-se a mapear fluxos de dados em geral. Os fluxos de dados estão disponíveis nos pipelines Azure Data Factory e Synapse. Se você for novo nos fluxos de dados no Azure Synapse Pipelines, siga Fluxo de Dados usando Pipelines do Azure Synapse.

Neste tutorial, você executa as seguintes etapas:

  • Crie uma fábrica de dados.
  • Criar um pipeline com uma atividade de fluxo de dados.
  • Crie um fluxo de dados de mapeamento com quatro transformações.
  • Executar teste do pipeline.
  • Monitore uma atividade Data Flow.

Pré-requisitos

  • Assinatura do Azure. Caso você não tenha uma assinatura do Azure, crie uma conta gratuita do Azure antes de começar.
  • Conta do Azure Data Lake Storage Gen2. Você usa o armazenamento do ADLS como um armazenamento de dados de origem e do coletor. Se você não tiver uma conta de armazenamento, confira Criar uma conta de armazenamento do Azure a fim de conhecer as etapas para criar uma.
  • Baixe MoviesDB.csv aqui. Para acessar o arquivo no GitHub, copie o conteúdo para um editor de texto da sua escolha para salvá-lo localmente como um arquivo. csv. Carregue o arquivo em sua conta de armazenamento em um contêiner chamado "sample-data".

Criar uma fábrica de dados

Nesta etapa, você cria uma fábrica de dados e abre a interface de usuário da Fábrica de Dados para criar um pipeline na fábrica de dados.

  1. Abra o Microsoft Edge ou Google Chrome. Atualmente, a interface do usuário do Data Factory tem suporte apenas nos navegadores da Web Microsoft Edge e Google Chrome.

  2. No menu superior, selecione Criar um recurso>Analytics>Data Factory:

    Seleção do Data Factory no painel "Novo"

  3. Na página Novo data factory, em Nome, insira ADFTutorialDataFactory.

    O nome do Azure Data Factory deve ser globalmente exclusivo. Se você receber uma mensagem de erro sobre o valor do nome, insira um nome diferente para o data factory. (por exemplo, yournameADFTutorialDataFactory). Para ver as regras de nomenclatura para artefatos do Data Factory, confira Data Factory – Regras de nomenclatura.

    Nova mensagem de erro do data factory para o nome duplicado.

  4. Selecione a assinatura do Azure na qual deseja criar o data factory.

  5. Em Grupo de Recursos, use uma das seguintes etapas:

    1. Selecione Usar existente e selecione um grupo de recursos existente na lista suspensa.

    2. Selecione Criar novoe insira o nome de um grupo de recursos.

    Para saber mais sobre grupos de recursos, confira Usar grupos de recursos para gerenciar recursos do Azure.

  6. Em Versão, selecione V2.

  7. Em Região, escolha uma localização para o data factory. Apenas os locais com suporte são exibidos na lista suspensa. Os armazenamentos de dados (por exemplo, Armazenamento do Microsoft Azure e Banco de Dados SQL) e os serviços de computação (por exemplo, Azure HDInsight) usados pelo data factory podem estar em outras regiões.

  8. Selecione Examinar + Criar e Criar.

  9. Depois que a criação for concluída, você verá o aviso no centro de notificações. Selecione Ir para o recurso para navegar até a página do Data Factory.

  10. Selecione Iniciar estúdio para iniciar o estúdio do Data Factory em uma guia separada.

Criar um pipeline com uma atividade de Fluxo de dados

Nesta etapa, você cria um pipeline que contém uma atividade de Fluxo de Dados.

  1. Na página inicial do Azure Data Factory, selecione Orquestrar.

    Captura de tela que mostra a home page do Azure Data Factory.

  2. Agora, uma janela está aberta para um novo pipeline. Na guia Geral para as propriedades do pipeline, insira TransformMovies para Nome do pipeline.

  3. No painel Atividades, expanda o acordeão Mover e Transformar. Arraste e solte a atividade de Fluxo de Dados do painel para a tela do pipeline.

    Captura de tela que mostra as telas de pipeline em que é possível descartar a atividade de Fluxo de dados.

  4. Nomeie sua atividade de fluxo de dados como DataFlow1.

  5. Na barra superior da tela do pipeline, deslize o controle deslizante Depurar fluxo de dados. O modo de depuração permite o teste interativo da lógica de transformação em um cluster Spark em tempo real. Os clusters de Fluxo de Dados levam de 5 a 7 minutos para serem ativados e recomendamos que os usuários ativem a depuração primeiro, caso planejem realizar o desenvolvimento de Fluxo de Dados. Para saber mais, consulte Modo de depuração.

    Captura de tela que mostra a opção para ativar a depuração do fluxo de dados.

Criar lógica de transformação na tela de fluxo de dados

Nesta etapa, você cria um fluxo de dados que usa o moviesDB.csv no armazenamento do ADLS e agrega a classificação média de vírgulas de 1910 a 2000. Em seguida, você grava esse arquivo de volta no armazenamento do ADLS.

  1. No painel abaixo da tela, vá para Configurações da atividade de fluxo de dados e selecione Novo, localizado ao lado do campo de fluxo de dados. Isso abre a tela de fluxo de dados.

    Captura de tela mostrando como abrir o editor de fluxos de dados do editor de pipeline.

  2. No painel Propriedades, em Geral, nomeie seu fluxo de dados: TransformMovies.

  3. Na tela fluxo de dados, adicione uma origem clicando na caixa Adicionar origem.

    Captura de tela que mostra a caixa Adicionar Fonte.

  4. Nomeie sua fonte MoviesDB. Selecione Novo para criar um conjunto de dados de origem.

    Captura de tela que mostra onde você seleciona Novo depois de nomear sua fonte.

  5. Escolha Azure Data Lake Storage Gen2. Selecione Continuar.

    Captura de tela que mostra a posição do bloco do Azure Data Lake Storage Gen2.

  6. Escolha DelimitedText. Selecione Continuar.

    Captura de tela que mostra o tile do DelimitedText.

  7. Dê um nome ao conjunto de dados MovieDB. Na lista suspensa de serviço vinculado, escolha Novo.

    Captura de tela que mostra a lista suspensa serviço vinculado.

  8. Na tela de criação de serviço vinculado, nomeie o serviço vinculado ADLS Gen2 ADLSGen2 e especifique o método de autenticação. Em seguida, insira suas credenciais de conexão. Neste tutorial, estamos usando a chave de conta para se conectar à nossa conta de armazenamento. Você pode selecionar Testar conexão para verificar se suas credenciais foram inseridas corretamente. Selecione Criar quando terminar.

    Captura de tela do painel para criar um novo serviço vinculado para Azure Data Lake Storage.

  9. Depois de voltar à tela de criação do conjunto de arquivos, insira onde o arquivo está localizado no campo caminho do arquivo. Neste tutorial, o arquivo moviesDB.csv está localizado em contêiner de dados de exemplo. Como o arquivo tem cabeçalhos, marque a Primeira linha como cabeçalho. Selecione Do repositório/conexão para importar o esquema de cabeçalho diretamente do arquivo no armazenamento. Selecione OK quando terminar.

    Captura de tela do painel para criar um conjunto de dados.

  10. Se o cluster de depuração for iniciado, vá para a guia Visualização de Dados da transformação de origem e selecione Atualizar para obter um instantâneo dos dados. Você pode usar a visualização de dados para verificar se a transformação está configurada corretamente.

    Captura de tela que mostra onde você pode visualizar seus dados para verificar se a transformação está configurada corretamente.

  11. Ao lado do nó de origem na tela fluxo de dados, selecione o ícone de adição para adicionar uma nova transformação. A primeira transformação que você está adicionando é um Filtro.

    Captura de tela da tela de fluxo de dados.

  12. Nomeie sua transformação de filtro FilterYears. Selecione a caixa de expressão ao lado de Filtrar em e, em seguida, Abrir construtor de expressões. Aqui você especifica sua condição de filtragem.

    Captura de tela que mostra o Filtro na caixa da expressão.

  13. O construtor de expressões de fluxo de dados permite criar expressões de forma interativa para uso em várias transformações. As expressões podem incluir funções internas, colunas do esquema de entrada e parâmetros definidos pelo usuário. Para obter mais informações sobre como criar expressões, consulte Construtor de expressões de Fluxo de Dados.

    Neste tutorial, você deseja filtrar filmes de gênero comédia que se passaram entre os anos 1910 e 2000. "O ano atualmente é uma string, então você precisa convertê-lo para um inteiro usando a função toInteger()." Use os operadores superior ou igual a (>=) e inferior ou igual a (<=) para comparar com os valores de ano literais 1910 e 2000. Una essas expressões com o operador e (&&). A expressão é exibida como:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Para descobrir quais filmes são comedies, você pode usar a rlike() função para localizar o padrão ' Comédia ' nos gêneros de coluna. Una a expressão rlike à comparação de anos para obter:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Se você tiver um cluster de depuração ativo, poderá verificar sua lógica selecionando Atualizar para ver a saída da expressão em comparação com as entradas usadas. Há mais de uma resposta certa sobre como você pode realizar essa lógica usando a linguagem de expressão de fluxo de dados.

    Captura de tela do construtor de expressões de filtro.

    Selecione Salvar e concluir quando terminar sua expressão.

  14. Obtenha uma Visualização de Dados para verificar se o filtro está funcionando corretamente.

    Captura de tela que mostra a Visualização de Dados que você buscou.

  15. A próxima transformação que você adicionará é uma transformação de Agregação em Modificador de Esquema.

    Captura de tela que mostra o modificador de esquema de agregação.

  16. Nomeie sua transformação de agregação como AggregateComedyRatings. Na guia Agrupar por, selecione ano na lista suspensa para agrupar as agregações pelo ano em que o filme foi lançado.

    Captura de tela que mostra a opção de ano na guia Agrupar por, em Configurações de agregação.

  17. Vá para a guia Agregações. Na caixa de texto à esquerda, nomeie a coluna de agregação AverageComedyRating. Selecione a caixa de expressão à direita para inserir a expressão de agregação por meio do construtor de expressões.

    Captura de tela que mostra a opção de ano na guia Agregar, em Configurações de agregação.

  18. Para obter a média da coluna Classificação, use a função de agregação avg(). Como a Classificação é uma cadeia de caracteres e avg() usa uma entrada numérica, devemos converter o valor em um número por meio da toInteger() função. Essa expressão é semelhante a:

    avg(toInteger(Rating))

    Selecione Salvar e concluir quando terminar.

    Captura de tela que mostra a expressão salva.

  19. Vá para a guia Visualização de dados para exibir a saída da transformação. Observe que apenas duas colunas estão lá, ano e AverageComedyRating.

    Captura de tela que mostra a visualização agregada.

  20. Em seguida, você deseja adicionar uma transformação de Sink em Destino.

    Captura de tela que mostra onde adicionar uma transformação de coletor em destino.

  21. Dê ao seu coletor o nome Coletor. Selecione Novo para criar o conjunto de dados do coletor.

    Captura de tela que mostra onde você pode nomear o coletor e criar um novo conjunto de coletor.

  22. Escolha Azure Data Lake Storage Gen2. Selecione Continuar.

    Captura de tela que mostra o bloco do Azure Data Lake Storage Gen2 que você pode escolher.

  23. Escolha DelimitedText. Selecione Continuar.

    Captura de tela do painel para selecionar um tipo de conjunto de dados.

  24. Dê o nome MoviesSink ao seu conjunto de dados do coletor. Para o serviço vinculado, escolha o serviço vinculado ADLS gn2 que você criou na etapa 6. Insira uma pasta de saída na qual os dados são gravados. Neste tutorial, estamos gravando na pasta "saída" no contêiner "dados de amostra". A pasta não precisa existir com antecedência e pode ser criada dinamicamente. Defina Primeira linha como cabeçalho como verdadeiro e selecione Nenhum para esquema de importação. Selecione Concluir.

    Captura de tela da página de criação do coletor com a primeira linha como cabeçalho selecionada.

Agora você concluiu a criação do fluxo de dados. Seu pipeline está pronto para ser executado.

Execução e monitoramento do Fluxo de Dados

Você pode depurar um pipeline antes de publicá-lo. Nesta etapa, você vai disparar uma execução de depuração do pipeline de fluxo de dados. Embora a visualização de dados não grave dados, uma execução de depuração grava dados no destino do coletor.

  1. Acesse a tela do pipeline. Clique em Depurar para disparar uma execução de depuração.

    Captura de tela que mostra as telas de pipeline com Depuração realçada.

  2. A depuração de pipeline de atividades de Fluxo de dados usa o cluster de depuração ativo, mas ainda levará pelo menos um minuto para ser inicializado. Você pode acompanhar o progresso por meio da guia Saída. Depois que a execução for bem-sucedida, passe o mouse sobre a execução e selecione o ícone de óculos para abrir o painel de monitoramento.

    Captura de tela do status do pipeline concluído, com as ações de saída realçadas.

  3. No painel de monitoramento, selecione o botão Estágios para ver o número de linhas e o tempo gasto em cada etapa de transformação.

    Captura de tela que mostra o painel de monitoramento com o botão Estágios realçado.

    Captura de tela do painel de monitoramento em que você pode ver o número de linhas e o tempo gasto em cada etapa de transformação.

  4. Selecione uma transformação para obter informações detalhadas sobre as colunas e o particionamento dos dados.

    Captura de tela do painel de transformação de monitoramento.

Se este tutorial foi seguido corretamente, devem ter sido gravadas 83 linhas e 2 colunas na pasta do coletor. Você pode confirmar que os dados estão corretos ao checar seu armazenamento de blobs.

O pipeline neste tutorial executa um fluxo de dados que agrega a classificação média de comedies de 1910 a 2000 e grava os dados em ADLS. Você aprendeu a:

  • Crie uma fábrica de dados.
  • Criar um pipeline com uma atividade de fluxo de dados.
  • Crie um fluxo de dados de mapeamento com quatro transformações.
  • Executar teste do pipeline.
  • Monitore uma atividade Data Flow.

Saiba mais sobre a linguagem de expressão do fluxo de dados.