Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
O Azure Synapse Analytics Data Explorer (versão prévia) será desativado em 7 de outubro de 2025. Após essa data, as cargas de trabalho em execução no Synapse Data Explorer serão excluídas e os dados do aplicativo associado serão perdidos. É altamente recomendável migrar para o Eventhouse no Microsoft Fabric.
O programa CMF (Microsoft Cloud Migration Factory) foi projetado para ajudar os clientes na migração para o Fabric. O programa oferece recursos práticos de teclado sem custo para o cliente. Esses recursos são atribuídos por um período de 6 a 8 semanas, com um escopo predefinido e acordado. As nomeações de clientes são aceitas da equipe de conta da Microsoft ou diretamente enviando uma solicitação de ajuda à equipe do CMF.
A ingestão de dados é o processo usado para carregar registros de dados de uma ou mais fontes para importar dados para uma tabela no pool do Azure Synapse Data Explorer. Depois de ingeridos, os dados ficam disponíveis para consulta.
O serviço de gerenciamento de dados do Azure Synapse Data Explorer, responsável pela ingestão de dados, implementa o seguinte processo:
- Extrai dados em lotes ou por transmissão contínua de uma origem externa e processa solicitações de uma fila pendente do Azure.
- Os dados em lote que fluem para o mesmo banco de dados e tabela são otimizados para taxa de transferência de ingestão.
- Os dados iniciais são validados e o formato é convertido quando necessário.
- Mais manipulação de dados, incluindo esquema correspondente, organização, indexação, codificação e compactação dos dados.
- Os dados são mantidos no armazenamento de acordo com a política de retenção definida.
- Os dados ingeridos são consolidados no mecanismo, onde estão disponíveis para consulta.
Formatos de dados, propriedades e permissões com suporte
Propriedades de ingestão: as propriedades que afetam como os dados serão ingeridos (por exemplo, marcação, mapeamento, tempo de criação).
Permissões: para ingerir dados, o processo requer permissões de nível de ingestão de banco de dados. Outras ações, como consulta, podem exigir permissões de administrador de banco de dados, usuário de banco de dados ou administrador de tabela.
Processamento em lote versus streaming
A ingestão em lote faz o envio em lote de dados e é otimizada para alta taxa de transferência de ingestão. Esse método é o tipo preferencial e mais performante de ingestão. Os dados são agrupados em lote de acordo com as propriedades de ingestão. Pequenos lotes de dados são mesclados e otimizados para resultados rápidos de consulta. A política de agrupamento de ingestão pode ser definida em bancos de dados ou tabelas. Por padrão, o valor máximo de envio em lote é de 5 minutos, 1.000 itens ou um tamanho total de 1 GB. O limite de tamanho de dados para um comando de ingestão em lote é de 4 GB.
A ingestão de streaming é a ingestão contínua de dados de uma fonte de streaming. A ingestão de streaming permite latência quase em tempo real para pequenos conjuntos de dados por tabela. Os dados são inicialmente ingeridos no repositório de linhas e movidos para extensões de armazenamento de colunas.
Ferramentas e métodos de ingestão
O Azure Synapse Data Explorer dá suporte a vários métodos de ingestão, cada um com seus próprios cenários de destino. Esses métodos incluem ferramentas de ingestão, conectores e plug-ins para diversos serviços, pipelines gerenciados, ingestão programática usando SDKs e acesso direto à ingestão.
Ingestão usando fluxos de dados gerenciados
Para organizações que desejam ter gerenciamento (limitação, novas tentativas, monitores, alertas e muito mais) feito por um serviço externo, usar um conector provavelmente é a solução mais apropriada. A ingestão em fila é apropriada para grandes volumes de dados. O Azure Synapse Data Explorer dá suporte aos seguintes Pipelines do Azure:
- Hub de Eventos: um pipeline que transfere eventos de serviços para o Azure Synapse Data Explorer. Para obter mais informações, consulte Ingestão de dados do Hub de Eventos no Azure Synapse Data Explorer.
- Pipelines do Synapse: um serviço de integração de dados totalmente gerenciado para cargas de trabalho analíticas em pipelines do Synapse conecta-se com mais de 90 fontes compatíveis para fornecer transferência de dados eficiente e resiliente. Os pipelines do Synapse preparam, transformam e enriquecem dados para fornecer insights que podem ser monitorados de diferentes maneiras. Esse serviço pode ser usado como uma solução única, em uma linha do tempo periódica ou disparado por eventos específicos.
Ingestão programática usando SDKs
O Azure Synapse Data Explorer fornece SDKs que podem ser usados para consulta e ingestão de dados. A ingestão programática é otimizada para reduzir os COGs (custos de ingestão), minimizando as transações de armazenamento durante e seguindo o processo de ingestão.
Antes de começar, siga as etapas a seguir para obter os endpoints do pool do Data Explorer e configurar a ingestão programática.
No Synapse Studio, no painel do lado esquerdo, selecione Gerenciar>Pools do Data Explorer.
Selecione o pool do Data Explorer que você deseja usar para exibir seus detalhes.
Anote os endpoints de Consulta e Ingestão de Dados. Use o endpoint de consulta como cluster ao configurar conexões com o pool do Data Explorer. Ao configurar SDKs para ingestão de dados, use o endpoint de ingestão de dados.
SDKs disponíveis e projetos de software livre
Tools
- Ingestão com um clique: permite que você ingera dados rapidamente criando e ajustando tabelas de uma ampla gama de tipos de origem. Ingestão com um clique sugere automaticamente tabelas e as estruturas de mapeamento com base na fonte de dados no Azure Synapse Data Explorer. A ingestão de um clique pode ser usada para ingestão única ou para definir a ingestão contínua por meio da Grade de Eventos no contêiner ao qual os dados foram ingeridos.
Comandos de controle de ingestão da Linguagem de Consulta Kusto
Há vários métodos pelos quais os dados podem ser ingeridos diretamente no mecanismo por comandos KQL (Linguagem de Consulta Kusto). Como esse método ignora os serviços de Gerenciamento de Dados, ele só é apropriado para exploração e protótipo. Não use esse método em cenários de produção ou de alto volume.
Ingestão embutida: um comando de controle .ingest inline é enviado para o mecanismo, com os dados a serem ingeridos incluídos como parte do próprio texto do comando. Esse método se destina a fins de teste improvisado.
Ingestão de consulta: um comando de controle .set, .append, .set-or-append ou .set-or-replace é enviado para o mecanismo, com os dados especificados indiretamente como resultados de uma consulta ou um comando.
Ingestão a partir do armazenamento (pull): um comando de controle .ingest into é enviado para o mecanismo, com os dados armazenados em algum armazenamento externo (por exemplo, Azure Blob Storage) que são acessíveis pelo mecanismo e indicados pelo comando.
Para obter um exemplo de como usar comandos de controle de ingestão, consulte Analisar com o Data Explorer.
Processo de ingestão
Depois de escolher o método de ingestão mais adequado para suas necessidades, execute as seguintes etapas:
Definir política de retenção
Os dados ingeridos em uma tabela no Azure Synapse Data Explorer estão sujeitos à política de retenção efetiva da tabela. A menos que seja definida em uma tabela explicitamente, a política de retenção efetiva é derivada da política de retenção do banco de dados. A retenção ativa é uma função do tamanho do cluster e da política de retenção. Ingerir mais dados do que o espaço disponível forçará os dados que chegaram primeiro para a retenção a frio.
Verifique se a política de retenção do banco de dados é apropriada para suas necessidades. Caso contrário, substitua-o explicitamente no nível da tabela. Para obter mais informações, consulte a política de retenção.
Criar uma tabela
Para ingerir dados, uma tabela precisa ser criada com antecedência. Use uma das seguintes opções:
Crie uma tabela com um comando. Para obter um exemplo de como usar o comando criar uma tabela, consulte Analisar com o Data Explorer.
Crie uma tabela usando Ingestão com um clique.
Observação
Se um registro estiver incompleto ou um campo não puder ser analisado como o tipo de dados necessário, as colunas de tabela correspondentes serão preenchidas com valores nulos.
Criar mapeamento de esquema
O mapeamento de esquema ajuda a associar campos de dados de origem a colunas de tabela de destino. O mapeamento permite que você leve dados de fontes diferentes para a mesma tabela, com base nos atributos definidos. Há suporte para diferentes tipos de mapeamentos, orientados a linhas (CSV, JSON e AVRO) e orientados para coluna (Parquet). Na maioria dos métodos, os mapeamentos também podem ser pré-criados na tabela e referenciados a partir do parâmetro de comando de ingestão.
Definir a política de atualização (opcional)
Alguns dos mapeamentos de formato de dados (Parquet, JSON e Avro) suportam transformações simples e úteis durante a ingestão. Quando o cenário exigir um processamento mais complexo no tempo de ingestão, use a política de atualização, que permite o processamento leve usando comandos da Linguagem de Consulta Kusto. A política de atualização executa automaticamente extrações e transformações em dados ingeridos na tabela original e ingere os dados resultantes em uma ou mais tabelas de destino. Defina sua política de atualização.