Visão geral da ingestão de dados no Azure Synapse Data Explorer (Versão Prévia)

Importante

O Azure Synapse Analytics Data Explorer (Visualização) será desativado em 7 de outubro de 2025. Após essa data, as cargas de trabalho em execução no Synapse Data Explorer serão excluídas e os dados do aplicativo associados serão perdidos. É altamente recomendável migrar para o Eventhouse no Microsoft Fabric.

O programa Microsoft Cloud Migration Factory (CMF) foi projetado para ajudar os clientes na migração para o Fabric. O programa oferece recursos práticos de teclado sem nenhum custo para o cliente. Estes recursos são atribuídos por um período de 6-8 semanas, com um âmbito pré-definido e acordado. As nomeações de clientes são aceites pela equipa da conta Microsoft ou diretamente através do envio de um pedido de ajuda à equipa CMF.

A ingestão de dados é o processo utilizado para carregar registos de dados de uma ou mais fontes para importar dados numa tabela no pool Azure Synapse Data Explorer. Uma vez ingeridos, os dados ficam disponíveis para consulta.

O serviço de gestão de dados Azure Synapse Data Explorer, responsável pela ingestão de dados, implementa o seguinte processo:

Recolhe dados em lotes ou em streaming de uma fonte externa e lê pedidos de uma fila pendente do Azure.
Os dados em lote que fluem para a mesma base de dados e tabela são otimizados para a capacidade de processamento de ingestão.
Os dados iniciais são validados e o formato é convertido quando necessário.
Manipulação adicional de dados, incluindo correspondência de esquemas, organização, indexação, codificação e compressão dos dados.
Os dados são mantidos em armazenamento de acordo com a política de retenção estabelecida.
Os dados ingeridos são armazenados no sistema, onde estão disponíveis para consulta.

Formatos de dados suportados, propriedades e permissões

Formatos de dados suportados
Propriedades de ingestão: As propriedades que afetam a forma como os dados serão ingeridos (por exemplo, etiquetagem, mapeamento, tempo de criação).
Permissões: Para ingerir dados, o processo requer permissões ao nível do gestor de base de dados. Outras ações, como a consulta, podem exigir permissões de administrador de base de dados, utilizador de base de dados ou administrador de tabelas.

Ingestões em lote vs transmissão contínua

A ingestão em lotes faz o processamento de dados por lotes e está otimizada para uma alta capacidade de ingestão. Este método é o tipo preferido e mais eficiente de ingestão. Os dados são agrupados de acordo com as propriedades de ingestão. Pequenos lotes de dados são fundidos e otimizados para resultados rápidos de consultas. A política de ingestão em lote pode ser definida em bases de dados ou tabelas. Por defeito, o valor máximo de lote é de 5 minutos, 1000 itens, ou um tamanho total de 1 GB. O limite de tamanho dos dados para um comando de ingestão em lote é de 4 GB.
A ingestão de streaming é a ingestão contínua de dados de uma fonte de streaming. A ingestão de streaming permite uma latência quase em tempo real para pequenos conjuntos de dados por tabela. Os dados são inicialmente ingeridos para o armazenamento de linhas e depois movidos para extensões de armazenamento de colunas.

Métodos e ferramentas de ingestão

O Azure Synapse Data Explorer suporta vários métodos de ingestão, cada um com os seus próprios cenários-alvo. Estes métodos incluem ferramentas de ingestão, conectores e plugins para diversos serviços, pipelines geridos, ingestão programática usando SDKs e acesso direto à ingestão.

Ingestão usando pipelines controlados

Para organizações que desejam que a gestão (throttling, retries, monitorizações, alertas e mais) seja feita por um serviço externo, o uso de um conector é provavelmente a solução mais adequada. A ingestão em fila é adequada para grandes volumes de dados. O Azure Synapse Data Explorer suporta os seguintes Azure Pipelines:

Event Hub: Um pipeline que transfere eventos de serviços para o Azure Synapse Data Explorer. Para mais informações, consulte Ingest data from Event Hub into Azure Synapse Data Explorer.

Pipelines Synapse: Um serviço totalmente gerido de integração de dados para cargas de trabalho analíticas em Pipelines Synapse que se liga a mais de 90 fontes suportadas para proporcionar uma transferência de dados eficiente e resiliente. A Synapse pipelines prepara, transforma e enriquece dados para fornecer insights que podem ser monitorizados de diferentes formas. Este serviço pode ser usado como solução única, numa linha temporal periódica ou desencadeado por eventos específicos.

Ingestão programática usando SDKs

O Azure Synapse Data Explorer fornece SDKs que podem ser usados para consultas e ingestão de dados. A ingestão programática é otimizada para reduzir os custos de ingestão (COGs), minimizando as transações de armazenamento durante e após o processo de ingestão.

Antes de começar, use os passos seguintes para obter os endpoints do pool do Data Explorer para configurar a ingestão programática.

No Synapse Studio, no painel esquerdo, selecione Gerenciar>pools do Data Explorer.
Selecione o pool do Data Explorer que você deseja usar para exibir seus detalhes.
Anote os terminais de Consulta e de Ingestão de Dados. Utilize o ponto de consulta como o cluster ao configurar conexões com o pool do Data Explorer. Ao configurar SDKs para ingestão de dados, utilize o endpoint de ingestão de dados.

SDKs disponíveis e projetos open-source

Tools

Ingestão com um clique: Permite-lhe ingerir rapidamente dados criando e ajustando tabelas de uma vasta gama de tipos de fonte. A ingestão com um clique sugere automaticamente tabelas e estruturas de mapeamento baseadas na fonte de dados do Azure Synapse Data Explorer. A ingestão com um clique pode ser usada para ingestão única, ou para definir a ingestão contínua via Grade de Eventos no contentor para onde os dados foram ingeridos.

Comandos de controlo de ingestão da Linguagem de Consulta Kusto

Existem vários métodos pelos quais os dados podem ser ingeridos diretamente para o motor através de comandos Kusto Query Language (KQL). Como este método contorna os serviços de Gestão de Dados, só é apropriado para exploração e prototipagem. Não use este método em produção ou em cenários de grande volume.

Inline ingestion: Um comando de controlo .ingest inline é enviado para o motor de execução, com os dados a ingerir a fazerem parte do próprio texto do comando. Este método destina-se a ensaios improvisados.
Ingerir da consulta: Um comando de controlo .set, .append, .set-or-append ou .set-or-replace é enviado para o motor, com os dados especificados indiretamente como os resultados de uma consulta ou comando.
Ingerir a partir do armazenamento (pull): Um comando de controlo .ingest into é enviado para o motor, com os dados armazenados num armazenamento externo, como o Azure Blob Storage, que está acessível pelo motor e indicado pelo comando.

Para exemplo do uso dos comandos de controlo de ingestão, consulte Analisar com o Explorador de Dados.

Processo de ingestão

Depois de escolher o método de ingestão mais adequado às suas necessidades, siga os seguintes passos:

Política de retenção definida

Os dados ingeridos numa tabela no Azure Synapse Data Explorer estão sujeitos à política de retenção efetiva da tabela. A menos que seja colocada explicitamente numa tabela, a política de retenção efetiva deriva da política de retenção da base de dados. A retenção em quente é uma função do tamanho do cluster e da sua política de retenção. Carregar mais dados do que o espaço disponível obrigará os primeiros dados a entrar em retenção a frio.

Certifique-se de que a política de retenção da base de dados é adequada às suas necessidades. Caso contrário, sobrepõe-se explicitamente ao nível da tabela. Para mais informações, consulte a política de retenção.
Criar uma tabela

Para ingerir dados, é necessário criar uma tabela antecipadamente. Use uma das seguintes opções:
- Cria uma tabela com um comando. Para um exemplo de utilização do comando criar uma tabela, veja Analisar com o Explorador de Dados.
- Crie uma tabela usando Ingestão com Um Clique.
Observação

Se um registo estiver incompleto ou um campo não puder ser analisado como o tipo de dado necessário, as correspondentes colunas da tabela serão preenchidas com valores nulos.
Criar mapeamento de esquemas

O mapeamento de esquemas ajuda a associar campos de dados de origem às colunas da tabela de destino. O mapeamento permite-lhe reunir dados de diferentes fontes na mesma tabela, com base nos atributos definidos. São suportados diferentes tipos de mapeamentos, tanto orientados a linhas (CSV, JSON e AVRO) como orientados a colunas (Parquet). Na maioria dos métodos, os mapeamentos também podem ser pré-criados na tabela e referenciados a partir do parâmetro de comando de ingest.
Definir política de atualização (opcional)

Alguns dos mapeamentos de formatos de dados (Parquet, JSON e Avro) suportam transformações simples e úteis durante a ingestão. Quando o cenário requer processamento mais complexo no momento da ingestão, use a política de atualização, que permite um processamento leve usando comandos da Linguagem de Consulta Kusto. A política de atualização executa automaticamente extrações e transformações nos dados ingeridos na tabela original, e ingire os dados resultantes numa ou mais tabelas de destino. Defina a sua política de atualizações.

Próximos passos

Last updated on 2025-03-24

Partilhar via