Configurer l’ingestion de streaming sur votre cluster Azure Data Explorer

L’ingestion de streaming est utile pour charger des données lorsque vous avez besoin d’une faible latence entre l’ingestion et la requête. Envisagez d’utiliser l’ingestion de streaming dans les scénarios suivants :

La latence de moins d’une seconde est requise.
Pour optimiser le traitement opérationnel d’un grand nombre de tables, lorsque le flux de données de chaque table est relativement faible (quelques enregistrements par seconde), mais que le volume global d’ingestion de données est élevé (des milliers d’enregistrements par seconde).

Si le flux de données dans chaque table est élevé (plus de 4 Go par heure), envisagez d’utiliser l’ingestion par lots.

Pour en savoir plus sur les différentes méthodes d’ingestion, consultez la vue d’ensemble de l’ingestion des données.

Choisir le type d’ingestion de streaming approprié

Deux types d’ingestion de streaming sont pris en charge :

Type d’ingestion	Description
Connexion de données	Les connexions de données Event Hub, IoT Hub et Event Grid peuvent utiliser l’ingestion de streaming, à condition qu’elles soient activées au niveau du cluster. La décision d’utiliser l’ingestion de streaming est effectuée en fonction de la stratégie d’ingestion de streaming configurée sur la table cible. Pour plus d’informations sur la gestion des connexions de données, consultez Event Hub, IoT Hub et Event Grid.
Ingestion personnalisée	L’ingestion personnalisée vous oblige à écrire une application qui utilise l’une des bibliothèques clientes Azure Data Explorer. Utilisez les informations de cette rubrique pour configurer l’ingestion personnalisée. Vous pouvez également trouver l’exemple d’application d’ingestion de streaming C# utile.

Type d’ingestion

Description

Connexion de données

Les connexions de données Event Hub, IoT Hub et Event Grid peuvent utiliser l’ingestion de streaming, à condition qu’elles soient activées au niveau du cluster. La décision d’utiliser l’ingestion de streaming est effectuée en fonction de la stratégie d’ingestion de streaming configurée sur la table cible.
Pour plus d’informations sur la gestion des connexions de données, consultez Event Hub, IoT Hub et Event Grid.

Ingestion personnalisée

L’ingestion personnalisée vous oblige à écrire une application qui utilise l’une des bibliothèques clientes Azure Data Explorer.
Utilisez les informations de cette rubrique pour configurer l’ingestion personnalisée. Vous pouvez également trouver l’exemple d’application d’ingestion de streaming C# utile.

Utilisez le tableau suivant pour vous aider à choisir le type d’ingestion approprié pour votre environnement :

Critère	Connexion de données	Ingestion personnalisée
Délai de données entre l’initiation d’ingestion et les données disponibles pour la requête	Délai plus long	Délai plus court
Surcharge de développement	Configuration rapide et simple, aucune surcharge de développement	Surcharge de développement élevée pour créer une application ingérer les données, gérer les erreurs et garantir la cohérence des données

Remarque

Vous pouvez gérer le processus pour activer et désactiver l’ingestion de streaming sur votre cluster à l’aide du portail Azure ou par programmation en C#. Si vous utilisez C# pour votre application personnalisée, vous pouvez le trouver plus pratique à l’aide de l’approche programmatique.

Conditions préalables

Un abonnement Azure. Créez un compte Azure gratuit.

Considérations relatives aux performances et aux opérations

Les principaux contributeurs qui peuvent avoir un impact sur l’ingestion de streaming sont les suivants :

Taille des machines virtuelles et des clusters : performances d’ingestion de streaming et échelles de capacité avec des tailles de machine virtuelle et de cluster accrues. Le nombre de requêtes d’ingestion simultanées est limité à six par cœur. Par exemple, pour 16 références SKU de base, telles que D14 et L16, la charge maximale prise en charge est de 96 demandes d’ingestion simultanées. Pour deux références SKU principales, telles que D11, la charge maximale prise en charge est de 12 demandes d’ingestion simultanées.
Limite de taille des données : la limite de taille des données pour une demande d’ingestion de streaming est de 4 Mo. Cela inclut toutes les données créées pour les stratégies de mise à jour pendant l’ingestion.
Mises à jour de schéma : les mises à jour de schéma, telles que la création et la modification des tables et des mappages d’ingestion, peuvent prendre jusqu’à cinq minutes pour le service d’ingestion de streaming. Pour plus d’informations, consultez Les modifications apportées à l’ingestion et au schéma de streaming.
Capacité SSD : l'activation de l’ingestion en continu sur un cluster, même si les données ne sont pas ingérées de cette manière, utilise une partie du disque SSD local des machines du cluster pour l'ingestion des données en continu et réduit ainsi le stockage disponible pour le cache chaud.

Activer l’ingestion de streaming sur votre cluster

Avant de pouvoir utiliser l’ingestion de streaming, vous devez activer la fonctionnalité sur votre cluster et définir une stratégie d’ingestion de streaming. Vous pouvez activer la fonctionnalité lors de la création du cluster ou l’ajouter à un cluster existant.

Avertissement

Passez en revue les limitations avant d’activer l’ingestion de streaming.

Activer l’ingestion de streaming lors de la création d’un cluster

Vous pouvez activer l’ingestion de streaming lors de la création d’un cluster à l’aide du portail Azure ou par programmation en C#.

Portail
C#

Lors de la création d’un cluster à l’aide des étapes de création d’un cluster et d’une base de données Azure Data Explorer, sous l’onglet Configurations, sélectionnez Ingestion> de streamingactivée.

Activez l’ingestion de streaming lors de la création d’un cluster dans Azure Data Explorer.

Pour activer l’ingestion de streaming lors de la création d’un cluster Azure Data Explorer, exécutez le code suivant :

using System.Threading.Tasks;
using Microsoft.Azure.Management.Kusto; // Required package Microsoft.Azure.Management.Kusto
using Microsoft.Azure.Management.Kusto.Models;
using Microsoft.IdentityModel.Clients.ActiveDirectory; // Required package Microsoft.IdentityModel.Clients.ActiveDirectory
using Microsoft.Rest;

namespace StreamingIngestion
{
    class Program
    {
        static async Task Main(string[] args)
        {
            string appId = "<appId>";
            string appKey = "<appKey>";
            string appTenant = "<appTenant>";
            string clusterName = "<clusterName>";
            string resourceGroupName = "<resourceGroupName>";
            string subscriptionId = "<subscriptionId>";
            string location = "<location>";
            string skuName = "<skuName>";
            string tier = "<tier>";

            var authenticationContext = new AuthenticationContext($"https://login.windows.net/{appTenant}");
            var credential = new ClientCredential(appId, appKey);
            var result = await authenticationContext.AcquireTokenAsync(resource: "https://management.core.windows.net/", clientCredential: credential);

            var credentials = new TokenCredentials(result.AccessToken, result.AccessTokenType);
            var kustoManagementClient = new KustoManagementClient(credentials)
            {
                SubscriptionId = subscriptionId
            };

            var cluster = new Cluster(location, new AzureSku(skuName, tier), enableStreamingIngest:true);
            await kustoManagementClient.Clusters.CreateOrUpdateAsync(resourceGroupName, clusterName, cluster);
        }
    }
}

Activer l’ingestion de streaming sur un cluster existant

Si vous disposez d’un cluster existant, vous pouvez activer l’ingestion de streaming à l’aide du portail Azure ou par programmation en C#.

Portail
C#

Dans le portail Azure, accédez à votre cluster Azure Data Explorer.
Dans Paramètres, sélectionnez Configurations.
Dans le volet Configurations , sélectionnez Activé pour activer l’ingestion de streaming.
Cliquez sur Enregistrer.

Vous pouvez activer l’ingestion de streaming lors de la création d’un cluster Azure Data Explorer.

using System.Threading.Tasks;
using Microsoft.Azure.Management.Kusto; // Required package Microsoft.Azure.Management.Kusto
using Microsoft.Azure.Management.Kusto.Models;
using Microsoft.IdentityModel.Clients.ActiveDirectory; // Required package Microsoft.IdentityModel.Clients.ActiveDirectory
using Microsoft.Rest;

namespace StreamingIngestion
{
    class Program
    {
        static async Task Main(string[] args)
        {
            string appId = "<appId>";
            string appKey = "<appKey>";
            string appTenant = "<appTenant>";
            string clusterName = "<clusterName>";
            string resourceGroupName = "<resourceGroupName>";
            string subscriptionId = "<subscriptionId>";

            var authenticationContext = new AuthenticationContext($"https://login.windows.net/{appTenant}");
            var credential = new ClientCredential(appId, appKey);
            var result = await authenticationContext.AcquireTokenAsync(resource: "https://management.core.windows.net/", clientCredential: credential);

            var credentials = new TokenCredentials(result.AccessToken, result.AccessTokenType);
            var kustoManagementClient = new KustoManagementClient(credentials)
            {
                SubscriptionId = subscriptionId
            };

            var clusterUpdateParameters = new ClusterUpdate(enableStreamingIngest: true);
            await kustoManagementClient.Clusters.UpdateAsync(resourceGroupName, clusterName, clusterUpdateParameters);
        }
    }
}

Créer une table cible et définir la stratégie

Créez une table pour recevoir les données d’ingestion de streaming et définissez sa stratégie associée à l’aide du portail Azure ou par programmation en C#.

Portail
C#

Dans le portail Azure, accédez à votre cluster.
Sélectionnez la requête .
Pour créer la table qui recevra les données via l’ingestion de streaming, copiez la commande suivante dans le volet Requête et sélectionnez Exécuter.
```
.create table TestTable (TimeStamp: datetime, Name: string, Metric: int, Source:string)
```
Copiez l’une des commandes suivantes dans le volet Requête et sélectionnez Exécuter. Cela définit la stratégie d’ingestion de streaming sur la table que vous avez créée ou sur la base de données qui contient la table.

Conseil / Astuce

Une stratégie définie au niveau de la base de données s’applique à toutes les tables existantes et futures de la base de données. Lorsque vous activez la stratégie au niveau de la base de données, il n’est pas nécessaire de l’activer par table.
- Pour définir la stratégie sur la table que vous avez créée, utilisez :
```
.alter table TestTable policy streamingingestion enable
```
- Pour définir la stratégie sur la base de données contenant la table que vous avez créée, utilisez :
```
.alter database StreamingTestDb policy streamingingestion enable
```

using System.Threading.Tasks;
using Kusto.Data; // Requires Package Microsoft.Azure.Kusto.Data
using Kusto.Data.Common;
using Kusto.Data.Net.Client;

namespace StreamingIngestion;
class Program
{
    static async Task Main(string[] args)
    {
        var clusterPath = "https://<clusterName>.<region>.kusto.windows.net";
        var appId = "<appId>";
        var appKey = "<appKey>";
        var appTenant = "<appTenant>";
        // Create Kusto connection string with App Authentication
        var connectionStringBuilder = new KustoConnectionStringBuilder(clusterPath)
            .WithAadApplicationKeyAuthentication(
                applicationClientId: appId,
                applicationKey: appKey,
                authority: appTenant
            );
        using var client = KustoClientFactory.CreateCslAdminProvider(connectionStringBuilder);
        
        var tableName = "<tableName>";
        var tableSchema = new TableSchema(
            tableName,
            new ColumnSchema[]
            {
                new("TimeStamp", "System.DateTime"),
                new("Name", "System.String"),
                new("Metric", "System.int"),
                new("Source", "System.String"),
            });
        var tableCreateCommand = CslCommandGenerator.GenerateTableCreateCommand(tableSchema);
        var tablePolicyAlterCommand = CslCommandGenerator.GenerateTableAlterStreamingIngestionPolicyCommand(tableName, isEnabled: true);
        
        await client.ExecuteControlCommandAsync(tableCreateCommand);
        await client.ExecuteControlCommandAsync(tablePolicyAlterCommand);
    }
}

Créer une application d’ingestion de streaming pour ingérer des données dans votre cluster

Créez votre application pour ingérer des données sur votre cluster à l’aide de votre langue préférée.

using System.IO;
using System.Threading.Tasks;
using Kusto.Data; // Requires Package Microsoft.Azure.Kusto.Data
using Kusto.Data.Common;
using Kusto.Ingest; // Requires Package Microsoft.Azure.Kusto.Ingest

namespace StreamingIngestion;
class Program
{
    static async Task Main(string[] args)
    {
        var clusterPath = "https://<clusterName>.<region>.kusto.windows.net";
        var appId = "<appId>";
        var appKey = "<appKey>";
        var appTenant = "<appTenant>";
        // Create Kusto connection string with App Authentication
        var connectionStringBuilder = new KustoConnectionStringBuilder(clusterPath)
            .WithAadApplicationKeyAuthentication(
                applicationClientId: appId,
                applicationKey: appKey,
                authority: appTenant
            );
        // Create a disposable client that will execute the ingestion
        using var client = KustoIngestFactory.CreateStreamingIngestClient(connectionStringBuilder);
        // Ingest from a compressed file
        var fileStream = File.Open("MyFile.gz", FileMode.Open);
        // Initialize client properties
        var ingestionProperties = new KustoIngestionProperties(databaseName: "<databaseName>", tableName: "<tableName>");
        // Create source options
        var sourceOptions = new StreamSourceOptions { CompressionType = DataSourceCompressionType.GZip, };
        // Ingest from stream
        await client.IngestFromStreamAsync(fileStream, ingestionProperties, sourceOptions);
    }
}

from azure.kusto.data import KustoConnectionStringBuilder, DataFormat
from azure.kusto.ingest import IngestionProperties, KustoStreamingIngestClient

clusterPath = "https://<clusterName>.<region>.kusto.windows.net"
appId = "<appId>"
appKey = "<appKey>"
appTenant = "<appTenant>"
dbName = "<dbName>"
tableName = "<tableName>"

csb = KustoConnectionStringBuilder.with_aad_application_key_authentication(
    clusterPath,
    appId,
    appKey,
    appTenant
)
client = KustoStreamingIngestClient(csb)

ingestionProperties = IngestionProperties(
    database=dbName,
    table=tableName,
    data_format=DataFormat.CSV
)

# Ingest from file
# Automatically detects gz format
client.ingest_from_file("MyFile.gz", ingestion_properties=ingestionProperties)

// Load modules using ES6 import statements:
import { DataFormat, IngestionProperties, StreamingIngestClient } from "azure-kusto-ingest";
import { KustoConnectionStringBuilder } from "azure-kusto-data";

// For earlier version, load modules using require statements:
// const IngestionProperties = require("azure-kusto-ingest").IngestionProperties;
// const KustoConnectionStringBuilder = require("azure-kusto-data").KustoConnectionStringBuilder;
// const {DataFormat} = require("azure-kusto-ingest").IngestionPropertiesEnums;
// const StreamingIngestClient = require("azure-kusto-ingest").StreamingIngestClient;

const clusterPath = "https://<clusterName>.<region>.kusto.windows.net";
const appId = "<appId>";
const appKey = "<appKey>";
const appTenant = "<appTenant>";
const dbName = "<dbName>";
const tableName = "<tableName>";
const mappingName = "<mappingName>"; // Required for JSON formatted files

const ingestionProperties = new IngestionProperties({
    database: dbName, // Your database
    table: tableName, // Your table
    format: DataFormat.JSON,
    ingestionMappingReference: mappingName
});

// Initialize client with engine endpoint
const client = new StreamingIngestClient(
    KustoConnectionStringBuilder.withAadApplicationKeyAuthentication(
        clusterPath,
        appId,
        appKey,
        appTenant
    ),
    ingestionProperties
);

// Automatically detects gz format
await client.ingestFromFile("MyFile.gz", ingestionProperties);

import (
    "context"
    "github.com/Azure/azure-kusto-go/kusto"
    "github.com/Azure/azure-kusto-go//azure/data-explorer/kusto/ingest"
    "github.com/Azure/go-autorest/autorest/azure/auth"
)

func ingest() {
    clusterPath := "https://<clusterName>.kusto.windows.net"
    appId := "<appId>"
    appKey := "<appKey>"
    appTenant := "<appTenant>"
    dbName := "<dbName>"
    tableName := "<tableName>"
    mappingName := "<mappingName>" // Optional, can be nil

    // Creates a Kusto Authorizer using your client identity, secret, and tenant identity.
    // You may also uses other forms of authorization, see GoDoc > Authorization type.
    // auth package is: "github.com/Azure/go-autorest/autorest/azure/auth"
    authorizer := kusto.Authorization{
        Config: auth.NewClientCredentialsConfig(appId, appKey, appTenant),
    }

    // Create a client
    client, err := kusto.New(clusterPath, authorizer)
    if err != nil {
        panic("add error handling")
    }

    // Create an ingestion instance
    // Pass the client, the name of the database, and the name of table you wish to ingest into.
    in, err := ingest.New(client, dbName, tableName)
    if err != nil {
        panic("add error handling")
    }

    // Go currently only supports streaming from a byte array with a maximum size of 4 MB.
    jsonEncodedData := []byte("{\"a\":  1, \"b\":  10}\n{\"a\":  2, \"b\":  20}")

    // Ingestion from a stream commits blocks of fully formed data encodes (JSON, AVRO, ...) into Kusto:
    if err := in.Stream(context.Background(), jsonEncodedData, ingest.JSON, mappingName); err != nil {
        panic("add error handling")
    }
}

import com.microsoft.azure.kusto.data.auth.ConnectionStringBuilder;
import com.microsoft.azure.kusto.ingest.IngestClient;
import com.microsoft.azure.kusto.ingest.IngestClientFactory;
import com.microsoft.azure.kusto.ingest.IngestionProperties;
import com.microsoft.azure.kusto.ingest.result.OperationStatus;
import com.microsoft.azure.kusto.ingest.source.CompressionType;
import com.microsoft.azure.kusto.ingest.source.StreamSourceInfo;
import java.io.FileInputStream;
import java.io.InputStream;

public class FileIngestion {
    public static void main(String[] args) throws Exception {
        String clusterPath = "https://<clusterName>.<region>.kusto.windows.net";
        String appId = "<appId>";
        String appKey = "<appKey>";
        String appTenant = "<appTenant>";
        String dbName = "<dbName>";
        String tableName = "<tableName>";

        // Build connection string and initialize
        ConnectionStringBuilder csb =
            ConnectionStringBuilder.createWithAadApplicationCredentials(
                clusterPath,
                appId,
                appKey,
                appTenant
            );

        // Initialize client and its properties
        IngestClient client = IngestClientFactory.createClient(csb);
        IngestionProperties ingestionProperties =
            new IngestionProperties(
                dbName,
                tableName
            );

        // Ingest from a compressed file
        // Create Source info
        InputStream zipInputStream = new FileInputStream("MyFile.gz");
        StreamSourceInfo zipStreamSourceInfo = new StreamSourceInfo(zipInputStream);
        // If the data is compressed
        zipStreamSourceInfo.setCompressionType(CompressionType.gz);
        // Ingest from stream
        OperationStatus status = client.ingestFromStream(zipStreamSourceInfo, ingestionProperties).getIngestionStatusCollection().get(0).status;
    }
}

Désactiver l’ingestion de streaming sur votre cluster

Avertissement

La désactivation de l’ingestion de streaming peut prendre quelques heures.

Avant de désactiver l’ingestion de streaming sur votre cluster Azure Data Explorer, supprimez la stratégie d’ingestion de streaming de toutes les tables et bases de données pertinentes. La suppression de la stratégie d’ingestion de diffusion en continu déclenche la réorganisation des données à l’intérieur de votre cluster Azure Data Explorer. Les données d'ingestion en streaming sont déplacées du stockage initial vers le stockage permanent dans l'entrepôt de colonnes (extensions ou partitions). Ce processus peut prendre entre quelques secondes et quelques heures, en fonction de la quantité de données dans le stockage initial.

Supprimer la stratégie d’ingestion de streaming

Vous pouvez supprimer la stratégie d’ingestion de streaming à l’aide du portail Azure ou par programmation en C#.

Portail
C#

Dans le portail Azure, accédez à votre cluster Azure Data Explorer, puis sélectionnez Requête.
Pour supprimer la stratégie d’ingestion de diffusion en continu à partir de la table, copiez la commande suivante dans le volet Requête et sélectionnez Exécuter.
```
.delete table TestTable policy streamingingestion
```
Dans Paramètres, sélectionnez Configurations.
Dans le volet Configurations , sélectionnez Désactivé pour désactiver l’ingestion de streaming.
Cliquez sur Enregistrer.

Pour supprimer la stratégie d’ingestion de streaming à partir de la table, exécutez le code suivant :

using System.Threading.Tasks;
using Kusto.Data; // Requires Package Microsoft.Azure.Kusto.Data
using Kusto.Data.Common;
using Kusto.Data.Net.Client;

namespace StreamingIngestion;
class Program
{
    static async Task Main(string[] args)
    {
        var clusterPath = "https://<clusterName>.<region>.kusto.windows.net";
        var appId = "<appId>";
        var appKey = "<appKey>";
        var appTenant = "<appTenant>";
        // Create Kusto connection string with App Authentication
        var connectionStringBuilder = new KustoConnectionStringBuilder(clusterPath)
            .WithAadApplicationKeyAuthentication(
                applicationClientId: appId,
                applicationKey: appKey,
                authority: appTenant
            );
        using var client = KustoClientFactory.CreateCslAdminProvider(connectionStringBuilder);
        var tablePolicyDropCommand = CslCommandGenerator.GenerateTableStreamingIngestionPolicyDropCommand("<dbName>", "<tableName>");
        await client.ExecuteControlCommandAsync(tablePolicyDropCommand);
    }
}

Pour désactiver l’ingestion de streaming sur votre cluster, exécutez le code suivant :

using System.Threading.Tasks;
using Microsoft.Azure.Management.Kusto; // Required package Microsoft.Azure.Management.Kusto
using Microsoft.Azure.Management.Kusto.Models;
using Microsoft.IdentityModel.Clients.ActiveDirectory; // Required package Microsoft.IdentityModel.Clients.ActiveDirectory
using Microsoft.Rest;

namespace StreamingIngestion
{
    class Program
    {
        static async Task Main(string[] args)
        {
            string appId = "<appId>";
            string appKey = "<appKey>";
            string appTenant = "<appTenant>";
            string clusterName = "<clusterName>";
            string resourceGroupName = "<resourceGroupName>";
            string subscriptionId = "<subscriptionId>";
            
            var authenticationContext = new AuthenticationContext($"https://login.windows.net/{appTenant}");
            var credential = new ClientCredential(appId, appKey);
            var result = await authenticationContext.AcquireTokenAsync(resource: "https://management.core.windows.net/", clientCredential: credential);
            
            var credentials = new TokenCredentials(result.AccessToken, result.AccessTokenType);
            var kustoManagementClient = new KustoManagementClient(credentials)
            {
                SubscriptionId = subscriptionId
        };
        
            var clusterUpdateParameters = new ClusterUpdate(enableStreamingIngest: false);
            await kustoManagementClient.Clusters.UpdateAsync(resourceGroupName, clusterName, clusterUpdateParameters);
        }
    }
}

Limites

Les mappages de données doivent être créés à l'avance pour être utilisés dans l’ingestion de streaming. Les demandes d’ingestion de streaming individuelles ne prennent pas en charge les mappages de données inline.
Les balises d’étendue ne peuvent pas être définies sur les données d’ingestion de streaming.
Mettre à jour la stratégie. La stratégie de mise à jour ne peut référencer que les données nouvellement ingérées dans la table source et non pas d’autres données ou tables de la base de données.
Si l’ingestion de streaming est activée sur un cluster utilisé comme leader pour les bases de données de suivi, l’ingestion de streaming doit également être activée sur les clusters suivants pour suivre les données d’ingestion de streaming. La même chose s’applique si les données du cluster sont partagées via Data Share.

Étapes suivantes

Interroger des données dans Azure Data Explorer

Last updated on 2021-09-01

Partager via