Partilhar via


Ingerir dados no Azure Data Lake Storage Gen2

Neste artigo, você aprenderá como ingerir dados de um local para outro em uma conta de armazenamento do Azure Data Lake Gen 2 (Azure Data Lake Gen 2) usando o Azure Synapse Analytics.

Pré-requisitos

  • Assinatura do Azure: se você não tiver uma assinatura do Azure, crie uma conta gratuita do Azure antes de começar.
  • Conta de Armazenamento do Azure: você usa o Azure Data Lake Gen 2 como um armazenamento de dados de origem . Se você não tiver uma conta de armazenamento, consulte Criar uma conta de Armazenamento do Azure para conhecer as etapas para criar uma.

Criar serviços ligados

No Azure Synapse Analytics, um serviço associado é onde se definem as suas informações de conexão com outros serviços. Nesta seção, você adicionará o Azure Synapse Analytics e o Azure Data Lake Gen 2 como serviços vinculados.

  1. Abra o Azure Synapse Analytics UX e vá para a guia Gerenciar .
  2. Em Conexões externas, selecione Serviços vinculados.
  3. Para adicionar um serviço vinculado, selecione Novo.
  4. Selecione o bloco Azure Data Lake Storage Gen2 na lista e selecione Continuar.
  5. Insira suas credenciais de autenticação. Chave de conta, entidade de serviço e identidade gerenciada são tipos de autenticação atualmente suportados. Selecione testar conexão para verificar se suas credenciais estão corretas.
  6. Quando terminar, selecione Criar.

Criar canalização

Um pipeline contém o fluxo lógico para uma execução de um conjunto de atividades. Nesta seção, você criará um pipeline contendo uma atividade de cópia que ingere dados do Azure Data Lake Gen 2 em um pool SQL dedicado.

  1. Vá para a guia Orquestrar. Clique no ícone de adição ao lado do cabeçalho de pipelines e selecione Pipeline.
  2. Em Mover e Transformar no painel de atividades, arraste Copiar dados para o canvas do pipeline.
  3. Selecione a atividade de cópia e vá para a guia Origem . Selecione Novo para criar um novo conjunto de dados de origem.
  4. Selecione Azure Data Lake Storage Gen2 como seu armazenamento de dados e selecione continuar.
  5. Selecione DelimitedText como seu formato e selecione continuar.
  6. No painel de propriedades do conjunto de configurações, selecione o serviço ADLS vinculado que você criou. Especifique o caminho do arquivo dos dados de origem e especifique se a primeira linha tem um cabeçalho. Você pode importar o esquema do armazenamento de arquivos ou de um arquivo de exemplo. Selecione OK quando terminar.
  7. Vá para a guia Sink. Selecione Novo para criar um novo conjunto de dados de sink.
  8. Selecione Azure Data Lake Storage gen2 como seu armazenamento de dados e selecione continuar.
  9. Selecione DelimitedText como seu formato e selecione continuar.
  10. No painel de propriedades do conjunto de configurações, selecione o serviço ADLS vinculado que você criou. Especifique o caminho da pasta onde deseja gravar dados. Selecione OK quando terminar.

Depurar e publicar os pipelines

Depois de concluir a configuração do pipeline, você pode executar uma execução de depuração antes de publicar seus artefatos para verificar se tudo está correto.

  1. Para depurar o pipeline, selecione Depurar na barra de ferramentas. Verá o estado da execução do pipeline no separador Saída, na parte inferior da janela.
  2. Quando o pipeline puder ser executado com êxito, na barra de ferramentas superior, selecione Publicar tudo. Esta ação publica entidades (conjuntos de dados e pipelines) que você criou no serviço Synapse Analytics.
  3. Aguarde até surgir a mensagem Publicação bem-sucedida. Para ver as mensagens de notificação, selecione o botão de sino no canto superior direito.

Acionar e monitorizar o pipeline

Nesta etapa, você aciona manualmente o pipeline publicado na etapa anterior.

  1. Selecione Adicionar gatilho na barra de ferramentas e, em seguida, selecione Gatilho agora. Na página Execução do pipeline, selecione Finalizar.
  2. Vá para a guia Monitor localizada na barra lateral esquerda. Verá uma execução de pipeline que é acionada por um acionador manual. Você pode usar links na coluna Ações para exibir detalhes da atividade e executar novamente o pipeline.
  3. Para ver as execuções de atividade associadas à execução do pipeline, selecione o link Exibir execuções de atividade na coluna Ações . Neste exemplo, há apenas uma atividade, portanto, você vê apenas uma entrada na lista. Para obter detalhes sobre a operação de cópia, selecione o link Detalhes (ícone de óculos) na coluna Ações . Selecione Pipeline Runs na parte superior para voltar à visualização Pipeline Runs. Para atualizar a vista, selecione Atualizar.
  4. Verifique se seus dados estão escritos corretamente no pool SQL dedicado.

Próximos passos

Para obter mais informações sobre a integração de dados para o Azure Synapse Analytics, consulte o artigo Ingerindo dados em um pool SQL dedicado .