Compartilhar via


Ingerir dados do armazenamento de objetos na nuvem

Este artigo lista as maneiras de configurar a ingestão incremental do armazenamento de objetos na nuvem.

Adicionar interface do usuário de dados

Para saber como usar a interface do usuário de adicionar dados para criar uma tabela gerenciada com base em dados no armazenamento de objetos de nuvem, consulte Carregar dados usando um local externo do Catálogo do Unity.

Notebook ou editor SQL

Esta seção descreve as opções para configurar a ingestão incremental do armazenamento de objetos na nuvem usando um notebook ou o editor SQL do Databricks.

Carregador Automático

O Carregador Automático processa de forma incremental e eficiente novos arquivos de dados à medida que chegam ao armazenamento em nuvem sem configuração adicional. O Carregador automático fornece uma fonte de Fluxo estruturado chamada cloudFiles. Dado um caminho de diretório de entrada no armazenamento de arquivos em nuvem, a origem cloudFiles processa automaticamente novos arquivos conforme chegam, com a opção de também processar arquivos existentes nesse diretório.

COPY INTO

Com COPY INTO, os usuários de SQL podem ingerir dados de forma idempotente e incremental do armazenamento de objetos de nuvem em tabelas Delta. Você pode usar COPY INTO no Databricks SQL, notebooks e Trabalhos Lakeflow.

Quando usar COPY INTO e quando usar o Carregador Automático

A seguir estão algumas coisas a analisar ao escolher entre o Carregador automático e o COPY INTO:

  • Se você for ingerir arquivos na ordem de milhares ao longo do tempo, poderá usar COPY INTO. Se estiver esperando milhões ou mais de arquivos ao longo do tempo, use o Carregador automático. O Carregador Automático requer menos operações totais para descobrir arquivos em comparação com COPY INTO e pode dividir o processamento em vários lotes, o que significa que o Carregador Automático é menos caro e mais eficiente em escala.
  • Se o esquema de dados evoluir com frequência, o Carregador automático fornece tipos de dados primitivos melhores para a inferência e a evolução do esquema. Consulte Configurar a inferência e a evolução do esquema no Carregador Automático para obter mais detalhes.
  • A carga de subconjuntos de arquivos recarregados pode ser um pouco mais fácil de gerenciar usando o COPY INTO. Com o Carregador Automático, é mais difícil reprocessar um subconjunto de arquivos selecionado. No entanto, é possível usar o COPY INTO para recarregar os subconjuntos de arquivos enquanto um fluxo do Carregador automático está em execução simultaneamente.
  • Para uma experiência de ingestão de arquivos ainda mais escalonável e robusta, o Carregador Automático permite que os usuários do SQL aproveitem as tabelas de streaming. Consulte Usar tabelas de streaming no Databricks SQL.

Para obter uma breve visão geral e uma demonstração do Carregador Automático e de COPY INTO, assista ao vídeo a seguir no YouTube (dois minutos).

Automatizar ETL com Pipelines Declarativos e Carregador Automático do Lakeflow Spark

Você pode simplificar a implantação da infraestrutura de ingestão escalonável e incremental com o Carregador Automático e os Pipelines Declarativos do Lakeflow Spark. O Lakeflow Spark Declarative Pipelines não usa a execução interativa padrão encontrada em notebooks, em vez disso, enfatiza a implantação da infraestrutura pronta para produção.

Ferramentas de ingestão de terceiros

O Databricks valida integrações de parceiros de tecnologia que permitem a ingestão de várias fontes, incluindo armazenamento de objetos na nuvem. Essas integrações possibilitam uma ingestão de dados com pouco uso de código e escalonável de uma variedade de fontes para o Azure Databricks. Consulte parceiros de tecnologia. Alguns parceiros de tecnologia são apresentados no Que é o Databricks Partner Connect?, que fornece uma interface do usuário que simplifica a conexão de ferramentas de terceiros aos seus dados do Lakehouse.