Compartilhar via


Tutorial do Lakehouse: Ingerir dados no Lakehouse

Neste tutorial, você ingere mais tabelas de fatos e dimensionais da Wide World Importers (WWI) no lakehouse.

Pré-requisitos

  • Caso você não tenha um lakehouse, crie um.

Ingestão de dados

Nesta seção, utilize a atividade Copiar dados do pipeline do Data Factory para ingerir dados de amostra de uma conta de armazenamento do Azure para a seção Arquivos do lakehouse criado anteriormente.

  1. Selecione Espaços de Trabalho no painel de navegação esquerdo e, em seguida, selecione o novo espaço de trabalho no menu Espaços de Trabalho. A exibição de itens do seu espaço de trabalho é exibida.

  2. Na opção Novo item na faixa de opções do workspace, selecione Pipeline.

  3. Na caixa de diálogo Novo pipeline, especifique o nome como IngestDataFromSourceToLakehouse e selecione Criar.

  4. No pipeline recém-criado, selecione a atividade pipeline para adicionar uma atividade ao pipeline e selecione Copiar dados. Essa ação adiciona a atividade de cópia de dados à tela do pipeline.

    Captura de tela mostrando onde selecionar a atividade do Pipeline e copiar dados.

  5. Selecione a atividade de dados de cópia recém-adicionada na tela. As propriedades de atividade aparecem em um painel abaixo da tela (talvez seja necessário expandir o painel para cima arrastando a borda superior). Na guia Geral no painel propriedades, digite Cópia de Dados para Lakehouse no campo Nome . Deixe as propriedades restantes para seus valores padrão.

    Captura de tela mostrando onde adicionar o nome da atividade de cópia na guia Geral.

  6. Na guia Origem da atividade de dados de cópia selecionada, abra o campo Conexão e selecione Procurar tudo. Escolha pop-ups da janela da fonte de dados, pesquise e selecione blobs do Azure. Para este tutorial, todos os dados de exemplo estão disponíveis em um contêiner público do armazenamento de blobs do Azure. Você se conecta a esse contêiner para copiar dados dele.

  7. Insira os detalhes a seguir na janela Configurações de conexão e selecione Conectar para criar a conexão com a fonte de dados.

    Propriedade Valor
    Nome da conta ou URL https://fabrictutorialdata.blob.core.windows.net/sampledata/
    Conexão Criar uma nova conexão
    Nome da conexão wwisampledata
    Tipo de autenticação Anônima

    Captura de tela mostrando onde selecionar a conexão de armazenamento de blobs.

  8. Depois que a nova conexão for criada, retorne à guia Origem da atividade de dados de cópia e a conexão recém-criada será selecionada por padrão. Especifique as propriedades a seguir antes de mover para as configurações de destino.

    Propriedade Valor
    Conexão wwisampledata
    Tipo de caminho de arquivo Caminho do arquivo
    Caminho do arquivo Nome do contêiner (primeira caixa de texto): sampledata
    Nome do diretório (segunda caixa de texto): WideWorldImportersDW/parquet
    Recursivamente Verificado
    Formato de arquivo Binary

    Captura de tela mostrando as configurações de conexão do Armazenamento de Blobs.

  9. Na guia Destino da atividade de dados de cópia selecionada, especifique as seguintes propriedades:

    Propriedade Valor
    Conexão wwilakehouse (escolha sua lakehouse se você nomeá-la de forma diferente)
    Pasta raiz Arquivos
    Caminho do arquivo Nome do diretório (primeira caixa de texto): wwi-raw-data
    Formato de arquivo Binary

    Captura de tela da guia de destino, mostrando onde inserir detalhes específicos.

  10. Você configurou a atividade de cópia de dados. Selecione o ícone Salvar na faixa de opções superior (abaixo de Página Inicial) para salvar suas alterações e selecione Executar para executar seu pipeline e sua atividade. Você também pode agendar pipelines para atualizar dados em intervalos definidos para atender aos seus requisitos de negócios. Para este tutorial, executamos o pipeline apenas uma vez selecionando Executar.

  11. Essa ação dispara a cópia de dados da fonte de dados subjacente para o lakehouse especificado e pode levar até um minuto para ser concluída. Você pode monitorar a execução do pipeline e sua atividade na guia Saída . O status da atividade é alterado da fila>em andamento>com êxito.

    Captura de tela mostrando onde selecionar Salvar e Executar o pipeline.

  12. Depois que a atividade de cópia for bem-sucedida, abra o lakehouse (wwilakehouse) para exibir os dados. Atualize a seção Arquivos para ver os dados ingeridos. Uma nova pasta wwi-raw-data aparece na seção de arquivos e os dados das tabelas de Blob do Azure são copiados lá.

    Captura de tela mostrando dados de blob copiados para o

Próxima etapa