Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Azure Data Explorer est un service d’analytique des données rapide et entièrement géré. Il offre une analyse en temps réel sur de grands volumes de données qui diffusent en continu à partir de nombreuses sources, telles que des applications, des sites web et des appareils IoT.
Pour copier des données d’une base de données dans Oracle Server, Netezza, Teradata ou SQL Server vers Azure Data Explorer, vous devez charger d’énormes quantités de données à partir de plusieurs tables. Généralement, les données doivent être partitionnées dans chaque table pour que vous puissiez charger des lignes avec plusieurs threads en parallèle à partir d’une seule table. Cet article décrit un modèle à utiliser dans ces scénarios.
Les modèles Azure Data Factory sont des pipelines Data Factory prédéfinis. Ces modèles peuvent vous aider à commencer rapidement avec Data Factory et à réduire le temps de développement sur les projets d’intégration de données.
Vous créez le modèle copie en bloc d’une base de données vers Azure Data Explorer à l’aide des activités Lookup et ForEach. Pour accélérer la copie des données, vous pouvez utiliser le modèle pour créer de nombreux pipelines par base de données ou par table.
Important
Veillez à utiliser l’outil approprié pour la quantité de données que vous souhaitez copier.
- Utilisez le modèle De copie en bloc de base de données vers Azure Data Explorer pour copier de grandes quantités de données à partir de bases de données telles que SQL Server et Google BigQuery vers Azure Data Explorer.
- Utilisez l’outil De copie de données Data Factory pour copier quelques tables avec de petites ou moyennes quantités de données dans Azure Data Explorer.
Conditions préalables
- Un abonnement Azure. Créez un compte Azure gratuit.
- Un cluster et une base de données Azure Data Explorer. Créez un cluster et une base de données.
- Une fabrique de données. Créez une fabrique de données.
- Source de données.
Créer ControlTableDataset
ControlTableDataset indique les données qui seront copiées de la source vers la destination dans le pipeline. Le nombre de lignes indique le nombre total de pipelines nécessaires pour copier les données. Vous devez définir ControlTableDataset dans le cadre de la base de données source.
Un exemple de format de table source SQL Server est illustré dans le code suivant :
CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);
Les éléments de code sont décrits dans le tableau suivant :
| Propriété | Descriptif | Exemple : |
|---|---|---|
| Identifiant de Partition | Ordre de copie | 1 |
| SourceQuery | Requête qui indique les données qui seront copiées pendant le runtime du pipeline | select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>
|
| ADXTableName | Nom de la table de destination | MyAdxTable |
Si votre ControlTableDataset est dans un autre format, créez un ControlTableDataset comparable pour votre format.
Utiliser le modèle de copie en masse depuis la base de données vers Azure Data Explorer
Dans le volet Prise en main, sélectionnez Créer un pipeline à partir d’un modèle pour ouvrir le volet Galerie de modèles.
Sélectionnez le modèle Copie en bloc de la base de données vers Azure Data Explorer.
Dans le volet Copie en bloc de la base de données vers Azure Data Explorer , sous Entrées utilisateur, spécifiez vos jeux de données en procédant comme suit :
a) Dans la liste déroulante ControlTableDataset , sélectionnez le service lié à la table de contrôle qui indique quelles données sont copiées de la source vers la destination et où elles seront placées dans la destination.
b. Dans la liste déroulante SourceDataset , sélectionnez le service lié à la base de données source.
v. Dans la liste déroulante AzureDataExplorerTable , sélectionnez la table Azure Data Explorer. Si le jeu de données n’existe pas, créez le service lié Azure Data Explorer pour ajouter le jeu de données.
d. Sélectionnez Utiliser ce modèle.
Sélectionnez une zone du canevas, en dehors des activités, pour accéder au pipeline de modèles. Sélectionnez l’onglet Paramètres pour entrer les paramètres de la table, notamment Nom (nom de la table de contrôle) et valeur par défaut (noms de colonnes).
Sous Recherche, sélectionnez GetPartitionList pour afficher les paramètres par défaut. La requête est créée automatiquement.
Sélectionnez l’activité Commande, ForEachPartition, sélectionnez l’onglet Paramètres , puis procédez comme suit :
a) Dans la zone Nombre de lots , entrez un nombre compris entre 1 et 50. Cette sélection détermine le nombre de pipelines qui s’exécutent en parallèle jusqu’à ce que le nombre de lignes ControlTableDataset soit atteint.
b. Pour vous assurer que les lots du pipeline s’exécutent en parallèle, n’activez pas la case à cocher Séquentiel.
Conseil / Astuce
La meilleure pratique consiste à exécuter de nombreux pipelines en parallèle afin que vos données puissent être copiées plus rapidement. Pour améliorer l’efficacité, partitionnez les données dans la table source et allouez une partition par pipeline, en fonction de la date et de la table.
Sélectionnez Valider tout pour valider le pipeline Azure Data Factory, puis affichez le résultat dans le volet Sortie de validation du pipeline .
Si nécessaire, sélectionnez Déboguer, puis sélectionnez Ajouter un déclencheur pour exécuter le pipeline.
Vous pouvez désormais utiliser le modèle pour copier efficacement de grandes quantités de données à partir de vos bases de données et tables.
Contenu connexe
- Découvrez le connecteur Azure Data Explorer pour Azure Data Factory.
- Modifiez les services liés, les jeux de données et les pipelines dans l’interface utilisateur de Data Factory.
- Interroger des données dans l’interface utilisateur web d’Azure Data Explorer.