Configuração da ingestão de streaming no pool do Azure Synapse Data Explorer (Versão Prévia)

Importante

O Azure Synapse Analytics Data Explorer (Visualização) será desativado em 7 de outubro de 2025. Após essa data, as cargas de trabalho em execução no Synapse Data Explorer serão excluídas e os dados do aplicativo associados serão perdidos. É altamente recomendável migrar para o Eventhouse no Microsoft Fabric.

O programa Microsoft Cloud Migration Factory (CMF) foi projetado para ajudar os clientes na migração para o Fabric. O programa oferece recursos práticos de teclado sem nenhum custo para o cliente. Estes recursos são atribuídos por um período de 6-8 semanas, com um âmbito pré-definido e acordado. As nomeações de clientes são aceites pela equipa da conta Microsoft ou diretamente através do envio de um pedido de ajuda à equipa CMF.

A ingestão de streaming é útil para carregar dados quando você precisa de baixa latência entre a ingestão e a consulta. Considere o uso da ingestão de streaming nos seguintes cenários:

É necessária uma latência inferior a um segundo.
Para otimizar o processamento operacional de muitas tabelas onde o fluxo de dados em cada tabela é relativamente pequeno (alguns registros por segundo), mas o volume geral de ingestão de dados é alto (milhares de registros por segundo).

Se o fluxo de dados em cada tabela for alto (mais de 4 GB por hora), considere usar a ingestão em lote.

Para saber mais sobre os diferentes métodos de ingestão, consulte Visão geral da ingestão de dados.

Escolha o tipo apropriado de ingestão em streaming

São suportados dois tipos de ingestão de streaming:

Tipo de ingestão	Description
Hub de Eventos ou Hub IoT	Os hubs são configurados como fontes de dados de streaming de tabela. Para obter informações sobre como configurá-los, consulte Hub de Eventos.
Ingestão personalizada	A ingestão personalizada requer que você escreva um aplicativo que use uma das bibliotecas de cliente do Azure Synapse Data Explorer. Use as informações neste tópico para configurar a ingestão personalizada. Você pode também achar útil o aplicativo de exemplo de ingestão de streaming C#.

Use a tabela a seguir para ajudá-lo a escolher o tipo de ingestão apropriado para seu ambiente:

Criterion	Hub de Eventos / Hub IoT	Ingestão Personalizada
Atraso de dados entre o início da ingestão e os dados disponíveis para consulta	Maior atraso	Menor atraso
Despesas gerais de desenvolvimento	Configuração rápida e fácil, sem sobrecarga de desenvolvimento	Alta sobrecarga de desenvolvimento para criar um aplicativo ingerir os dados, manipular erros e garantir a consistência dos dados

Observação

A ingestão de dados de um Hub de Eventos em pools do Data Explorer não funcionará se o seu espaço de trabalho Synapse usar uma rede virtual gerida com proteção contra exfiltração de dados ativada.

Pré-requisitos

Uma assinatura do Azure. Crie uma conta do Azure gratuita.
Criar um pool do Data Explorer usando o Synapse Studio ou o portal do Azure

Crie um banco de dados do Data Explorer.

No Synapse Studio, no painel do lado esquerdo, selecione Dados.

Selecione + (Adicionar novo recurso) >Pool do Data Explorer e use as seguintes informações:

Configuração	Valor sugerido	Description
Nome do grupo	contosodataexplorer	O nome do grupo do Data Explorer a ser usado
Nome	TestDatabase	O nome da base de dados tem de ser exclusivo dentro do cluster.
Período de retenção predefinido	365	O período de tempo (em dias) durante o qual é garantido que os dados são mantidos disponíveis para consulta. O intervalo de tempo é medido desde o momento em que os dados são ingeridos.
Período de cache padrão	31	O período de tempo (em dias) durante o qual manter os dados frequentemente consultados disponíveis no armazenamento SSD ou RAM, em vez de no armazenamento a longo prazo.

Selecione Criar para criar o banco de dados. Normalmente, a criação demora menos de um minuto.

Obtenha os pontos de extremidade de Consulta e de Ingestão de Dados.
1. No Synapse Studio, no painel esquerdo, selecione Gerenciar>pools do Data Explorer.
2. Selecione o pool do Data Explorer que você deseja usar para exibir seus detalhes.
3. Anote os terminais de Consulta e de Ingestão de Dados. Utilize o ponto de consulta como o cluster ao configurar conexões com o pool do Data Explorer. Ao configurar SDKs para ingestão de dados, utilize o endpoint de ingestão de dados.

Considerações operacionais e de desempenho

Os principais contribuintes que podem impactar a ingestão de streaming são:

Especificação de computação: O desempenho e a capacidade de ingestão de streaming são aumentados com o crescimento dos tamanhos dos pools no Data Explorer. O número de solicitações de ingestão simultâneas é limitado a seis por núcleo. Por exemplo, para 16 tipos de carga de trabalho principais, como Computação otimizada (grande) e Armazenamento otimizado (grande), a carga máxima suportada é de 96 solicitações de ingestão simultâneas. Para dois tipos de carga de trabalho principais, como Compute Optimized (Extra Small), a carga máxima suportada é de 12 solicitações de ingestão simultâneas.
Limite de tamanho de dados: o limite de tamanho de dados para uma solicitação de ingestão de streaming é de 4 MB.
Atualizações de esquema: as atualizações de esquema, como a criação e modificação de tabelas e mapeamentos de ingestão, podem levar até cinco minutos para o serviço de ingestão de streaming. Para obter mais informações, consulte Ingestão de streaming e alterações de esquema.
Capacidade SSD: Permitir a ingestão de streaming num pool do Data Explorer, mesmo quando os dados não são ingeridos através de streaming, usa parte do disco SSD local das máquinas do pool do Data Explorer para os dados de ingestão de streaming e reduz o armazenamento disponível para cache quente.

Habilitar a ingestão de streaming no pool do Data Explorer

Antes de poder usar a ingestão de streaming, você deve habilitar o recurso em seu pool do Data Explorer e definir uma política de ingestão de streaming. Você pode habilitar o recurso ao criar o pool do Data Explorer ou adicioná-lo a um pool existente do Data Explorer.

Advertência

Analise as limitações antes de ativar a ingestão de streaming.

Habilitar a ingestão de streaming ao criar um novo pool do Data Explorer

Você pode habilitar a ingestão de streaming ao criar um novo pool do Data Explorer usando o Azure Synapse Studio ou o portal do Azure.

Estúdio
Portal

Ao criar um pool do Data Explorer usando as etapas em Criar um pool do Data Explorer usando o Synapse Studio, na guia Configurações adicionais, selecione Ingestão de> streaminghabilitada.

Habilite a ingestão de streaming ao criar um pool do Data Explorer no Azure Synapse Data Explorer.

Habilitar a ingestão de streaming em um pool existente do Data Explorer

Se você tiver um pool do Data Explorer existente, poderá habilitar a ingestão de streaming usando o portal do Azure.

No portal do Azure, vá para o pool do Data Explorer.
Em Configurações, selecione Configurações.
No painel Configurações , selecione Ativado para ativar a ingestão de streaming.
Selecione Guardar.

Crie uma tabela de destino e defina a política

Crie uma tabela para receber os dados de ingestão de streaming e defina sua política relacionada usando o Azure Synapse Studio ou o portal do Azure.

Estúdio
Portal

No Synapse Studio, no painel esquerdo, selecione Desenvolver.
Em Scripts KQL, Selecione + (Adicionar novo recurso) >Script KQL. No painel do lado direito, você pode nomear seu script.
No menu Conectar a, selecione contosodataexplorer.
No menu Usar banco de dados, selecione TestDatabase.

Cole no comando a seguir e selecione Executar para criar a tabela.

.create table TestTable (TimeStamp: datetime, Name: string, Metric: int, Source:string)

Copie um dos seguintes comandos para o painel Consulta e selecione Executar. Isso define a política de ingestão de streaming na tabela que você criou ou no banco de dados que contém a tabela.

Sugestão

Uma política definida no nível do banco de dados se aplica a todas as tabelas existentes e futuras no banco de dados.
- Para definir a política na tabela que você criou, use:
```
.alter table TestTable policy streamingingestion enable
```
- Para definir a política no banco de dados que contém a tabela que você criou, use:
```
.alter database StreamingTestDb policy streamingingestion enable
```

No portal do Azure Synapse Analytics, navegue até o pool do Data Explorer.
Selecione Consulta.
Para criar a tabela que receberá os dados por ingestão de streaming, copie o seguinte comando no painel Consulta e selecione Executar.
```
.create table TestTable (TimeStamp: datetime, Name: string, Metric: int, Source:string)
```
Copie um dos seguintes comandos para o painel Consulta e selecione Executar. Isso define a política de ingestão de streaming na tabela que você criou ou no banco de dados que contém a tabela.

Sugestão

Uma política definida no nível do banco de dados se aplica a todas as tabelas existentes e futuras no banco de dados.
- Para definir a política na tabela que você criou, use:
```
.alter table TestTable policy streamingingestion enable
```
- Para definir a política no banco de dados que contém a tabela que você criou, use:
```
.alter database StreamingTestDb policy streamingingestion enable
```

Criar um aplicativo de ingestão de streaming para ingerir dados para seu pool do Data Explorer

Crie seu aplicativo para ingerir dados ao pool do Data Explorer usando seu idioma preferido. Para a variável poolPath , use o ponto de extremidade Query que você anotou nos Pré-requisitos.

using Kusto.Data;
using Kusto.Ingest;
using System.IO;
using Kusto.Data.Common;

namespace StreamingIngestion
{
    class Program
    {
        static void Main(string[] args)
        {
            string poolPath = "https://<Poolname>.<WorkspaceName>.kusto.windows.net";
            string appId = "<appId>";
            string appKey = "<appKey>";
            string appTenant = "<appTenant>";
            string dbName = "<dbName>";
            string tableName = "<tableName>";

            // Create Kusto connection string with App Authentication
            var csb =
                new KustoConnectionStringBuilder(poolPath)
                    .WithAadApplicationKeyAuthentication(
                        applicationClientId: appId,
                        applicationKey: appKey,
                        authority: appTenant
                    );

            // Create a disposable client that will execute the ingestion
            using (IKustoIngestClient client = KustoIngestFactory.CreateStreamingIngestClient(csb))
            {
                // Initialize client properties
                var ingestionProperties =
                    new KustoIngestionProperties(
                        databaseName: dbName,
                        tableName: tableName
                    );

                // Ingest from a compressed file
                var fileStream = File.Open("MyFile.gz", FileMode.Open);
                // Create source options
                var sourceOptions = new StreamSourceOptions()
                {
                    CompressionType = DataSourceCompressionType.GZip,
                };
                // Ingest from stream
                var status = client.IngestFromStreamAsync(fileStream, ingestionProperties, sourceOptions).GetAwaiter().GetResult();
            }
        }
    }
}

from Azure Synapse Analytics.kusto.data import KustoConnectionStringBuilder

from Azure Synapse Analytics.kusto.ingest import (
    IngestionProperties,
    DataFormat,
    KustoStreamingIngestClient
)

poolPath = "https://<Poolname>.<WorkspaceName>.kusto.windows.net"
appId = "<appId>"
appKey = "<appKey>"
appTenant = "<appTenant>"
dbName = "<dbName>"
tableName = "<tableName>"

csb = KustoConnectionStringBuilder.with_aad_application_key_authentication(
    poolPath,
    appId,
    appKey,
    appTenant
)
client = KustoStreamingIngestClient(csb)

ingestionProperties = IngestionProperties(
    database=dbName,
    table=tableName,
    data_format=DataFormat.CSV
)

# Ingest from file
# Automatically detects gz format
client.ingest_from_file("MyFile.gz", ingestion_properties=ingestionProperties)

// Load modules using ES6 import statements:
import { DataFormat, IngestionProperties, StreamingIngestClient } from "azure-kusto-ingest";
import { KustoConnectionStringBuilder } from "azure-kusto-data";

// For earlier version, load modules using require statements:
// const IngestionProperties = require("azure-kusto-ingest").IngestionProperties;
// const KustoConnectionStringBuilder = require("azure-kusto-data").KustoConnectionStringBuilder;
// const {DataFormat} = require("azure-kusto-ingest").IngestionPropertiesEnums;
// const StreamingIngestClient = require("azure-kusto-ingest").StreamingIngestClient;

const poolPath = "https://<Poolname>.<WorkspaceName>.kusto.windows.net";
const appId = "<appId>";
const appKey = "<appKey>";
const appTenant = "<appTenant>";
const dbName = "<dbName>";
const tableName = "<tableName>";
const mappingName = "<mappingName>"; // Required for JSON formatted files

const ingestionProperties = new IngestionProperties({
    database: dbName, // Your database
    table: tableName, // Your table
    format: DataFormat.JSON,
    ingestionMappingReference: mappingName
});

// Initialize client with engine endpoint
const client = new StreamingIngestClient(
    KustoConnectionStringBuilder.withAadApplicationKeyAuthentication(
        poolPath,
        appId,
        appKey,
        appTenant
    ),
    ingestionProperties
);

// Automatically detects gz format
await client.ingestFromFile("MyFile.gz", ingestionProperties);

import (
    "context"
    "github.com/Azure Synapse Analytics/azure-kusto-go/kusto"
    "github.com/Azure Synapse Analytics/azure-kusto-go/kusto/ingest"
    "github.com/Azure Synapse Analytics/go-autorest/autorest/Azure Synapse Analytics/auth"
)

func ingest() {
    poolPath := "https://<Poolname>.<WorkspaceName>.kusto.windows.net"
    appId := "<appId>"
    appKey := "<appKey>"
    appTenant := "<appTenant>"
    dbName := "<dbName>"
    tableName := "<tableName>"
    mappingName := "<mappingName>" // Optional, can be nil

    // Creates a Kusto Authorizer using your client identity, secret, and tenant identity.
    // You may also uses other forms of authorization, see GoDoc > Authorization type.
    // auth package is: "github.com/Azure Synapse Analytics/go-autorest/autorest/Azure Synapse Analytics/auth"
    authorizer := kusto.Authorization{
        Config: auth.NewClientCredentialsConfig(appId, appKey, appTenant),
    }

    // Create a client
    client, err := kusto.New(poolPath, authorizer)
    if err != nil {
        panic("add error handling")
    }

    // Create an ingestion instance
    // Pass the client, the name of the database, and the name of table you wish to ingest into.
    in, err := ingest.New(client, dbName, tableName)
    if err != nil {
        panic("add error handling")
    }

    // Go currently only supports streaming from a byte array with a maximum size of 4 MB.
    jsonEncodedData := []byte("{\"a\":  1, \"b\":  10}\n{\"a\":  2, \"b\":  20}")

    // Ingestion from a stream commits blocks of fully formed data encodes (JSON, AVRO, ...) into Kusto:
    if err := in.Stream(context.Background(), jsonEncodedData, ingest.JSON, mappingName); err != nil {
        panic("add error handling")
    }
}

import com.microsoft.Azure Synapse Analytics.kusto.data.auth.ConnectionStringBuilder;
import com.microsoft.Azure Synapse Analytics.kusto.ingest.IngestClient;
import com.microsoft.Azure Synapse Analytics.kusto.ingest.IngestClientFactory;
import com.microsoft.Azure Synapse Analytics.kusto.ingest.IngestionProperties;
import com.microsoft.Azure Synapse Analytics.kusto.ingest.result.OperationStatus;
import com.microsoft.Azure Synapse Analytics.kusto.ingest.source.CompressionType;
import com.microsoft.Azure Synapse Analytics.kusto.ingest.source.StreamSourceInfo;
import java.io.FileInputStream;
import java.io.InputStream;

public class FileIngestion {
    public static void main(String[] args) throws Exception {
        String poolPath = "https://<Poolname>.<WorkspaceName>.kusto.windows.net";
        String appId = "<appId>";
        String appKey = "<appKey>";
        String appTenant = "<appTenant>";
        String dbName = "<dbName>";
        String tableName = "<tableName>";

        // Build connection string and initialize
        ConnectionStringBuilder csb =
            ConnectionStringBuilder.createWithAadApplicationCredentials(
                poolPath,
                appId,
                appKey,
                appTenant
            );

        // Initialize client and its properties
        IngestClient client = IngestClientFactory.createClient(csb);
        IngestionProperties ingestionProperties =
            new IngestionProperties(
                dbName,
                tableName
            );

        // Ingest from a compressed file
        // Create Source info
        InputStream zipInputStream = new FileInputStream("MyFile.gz");
        StreamSourceInfo zipStreamSourceInfo = new StreamSourceInfo(zipInputStream);
        // If the data is compressed
        zipStreamSourceInfo.setCompressionType(CompressionType.gz);
        // Ingest from stream
        OperationStatus status = client.ingestFromStream(zipStreamSourceInfo, ingestionProperties).getIngestionStatusCollection().get(0).status;
    }
}

Desativar a ingestão de streaming no pool do Data Explorer

Advertência

Desativar a ingestão de streaming pode levar algumas horas.

Antes de desativar a ingestão de streaming em seu pool do Data Explorer, remova a política de ingestão de streaming de todas as tabelas e bancos de dados relevantes. A remoção da política de ingestão de streaming aciona a reorganização de dados dentro do pool do Data Explorer. Os dados de ingestão de fluxo contínuo são movidos do armazenamento inicial para o armazenamento permanente na base de dados colunar (extensões ou fragmentos). Esse processo pode levar entre alguns segundos a algumas horas, dependendo da quantidade de dados no armazenamento inicial.

Abandonar a política de ingestão de streaming

Você pode descartar a política de ingestão de streaming usando o Azure Synapse Studio ou o portal do Azure.

Estúdio
Portal

No Synapse Studio, no painel esquerdo, selecione Desenvolver.
Em Scripts KQL, Selecione + (Adicionar novo recurso) >Script KQL. No painel do lado direito, você pode nomear seu script.
No menu Conectar a, selecione contosodataexplorer.
No menu Usar banco de dados, selecione TestDatabase.
Cole no comando a seguir e selecione Executar para criar a tabela.
```
.delete table TestTable policy streamingingestion
```
No portal do Azure, vá para o pool do Data Explorer.
Em Configurações, selecione Configurações.
No painel Configurações , selecione Ativado para ativar a ingestão de streaming.
Selecione Guardar.

No portal do Azure, vá para o pool do Data Explorer e selecione Consulta.
Para soltar a política de ingestão de streaming da tabela, copie o seguinte comando no painel Consulta e selecione Executar.
```
.delete table TestTable policy streamingingestion
```
Em Configurações, selecione Configurações.
No painel Configurações , selecione Desativado para desativar a ingestão de streaming.
Selecione Guardar.

Limitações

Os cursores de banco de dados não são suportados para um banco de dados se o próprio banco de dados ou qualquer uma de suas tabelas tiver a política de ingestão de streaming definida e habilitada.
Os mapeamentos de dados devem ser pré-criados para uso na ingestão de streaming. As solicitações individuais de ingestão de streaming não acomodam mapeamentos de dados embutidos.
As tags de extensão não podem ser definidas nos dados de ingestão de streaming.
Política de atualização. A política de atualização pode fazer referência apenas aos dados recém-ingeridos na tabela de origem e não a quaisquer outros dados ou tabelas no banco de dados.
Se a ingestão de streaming for usada em qualquer uma das tabelas do banco de dados, esse banco de dados não poderá ser usado como líder para bancos de dados de seguidores ou como um provedor de dados para o Compartilhamento de Dados do Azure Synapse Analytics.

Próximos passos

Last updated on 2025-03-24

Partilhar via