Partager via


Choisir une technologie de transfert de données

Cet article décrit plusieurs options que vous pouvez utiliser pour transférer des données vers et depuis Azure, en fonction de vos besoins.

Transfert physique

L’utilisation de matériel physique pour transférer des données vers Azure est une bonne option lorsque les facteurs suivants s’appliquent :

  • Votre réseau est lent ou peu fiable.
  • L’obtention d’une bande passante réseau supplémentaire est trop coûteuse.
  • Les stratégies de sécurité ou d’organisation n’autorisent pas les connexions sortantes lors de la gestion des données sensibles.

Si votre principale préoccupation est la durée nécessaire pour transférer vos données, envisagez de tester si le transfert réseau est plus lent que le transport physique.

Le service Azure Import/Export et Azure Data Box sont les deux principales options pour le transport physique des données vers Azure.

Le service Azure Import/Export

Le service Azure Import/Export vous permet de transférer en toute sécurité de grandes quantités de données vers stockage Blob Azure ou Azure Files en expédiant des disques durs (HDD) ou des disques SSD (Serial Advanced Technology Attachment) internes vers un centre de données Azure. Vous pouvez également utiliser ce service pour transférer des données du stockage Azure vers des disques durs et faire expédier les disques durs pour le chargement local.

Boîte de données

Data Box est une appliance Microsoft qui fonctionne de la même façon que le service Azure Import/Export. Avec Data Box, Microsoft vous fournit une appliance de transfert propriétaire, sécurisée et inviolable et gère la logistique de bout en bout, que vous pouvez suivre via le portail Azure. L’un des avantages du service Data Box est sa facilité d’utilisation. Vous n’avez pas besoin d’acheter plusieurs disques durs, de les préparer et de transférer des fichiers dessus. De nombreux partenaires Azure prennent en charge Data Box, ce qui facilite l’utilisation du transport hors connexion vers le cloud au sein de leurs solutions.

API et outils en ligne de commande

Tenez compte des options suivantes lorsque vous avez besoin d’un script et d’un transfert de données par programmation :

  • Azure CLI est un outil multiplateforme qui vous permet de gérer les services Azure et de charger des données dans le stockage.

  • AzCopy est un utilitaire en ligne de commande qui vous permet de copier des données vers et à partir du stockage Blob, du stockage Azure Files et du stockage Table Azure avec des performances optimales. AzCopy prend en charge la concurrence et le parallélisme, ainsi que la capacité de reprendre les opérations de copie après une interruption. Vous pouvez également utiliser AzCopy pour copier des données d’Amazon Web Services (AWS) vers Azure. Pour l’accès par programmation, la bibliothèque de déplacement des données du stockage Microsoft Azure est l’infrastructure principale qui alimente AzCopy. Elle est fournie en tant que bibliothèque .NET Core.

  • Azure PowerShell est un environnement de script où l’applet Start-AzureStorageBlobCopy de commande fournit une option pour les opérateurs qui connaissent Azure PowerShell.

  • DistCp est un utilitaire utilisé pour copier des données entre le stockage par défaut d’un cluster AZURE HDInsight et d’autres comptes Stockage Blob ou Azure Data Lake Storage.

  • Apache Sqoop est un projet Apache et fait partie de l’écosystème Hadoop. Il est préinstallé sur tous les clusters HDInsight. Sqoop transfère les données entre un cluster HDInsight et des bases de données relationnelles telles que SQL, Oracle et MySQL. Il s’agit d’une collection d’outils connexes, notamment les outils d’importation et d’exportation, et fonctionne avec des clusters HDInsight à l’aide du stockage Blob ou du stockage attaché Data Lake Storage.

  • PolyBase est une technologie qui accède aux données extérieures à la base de données avec le langage T-SQL. Il vous permet d’exécuter des requêtes sur des données externes dans Hadoop ou d’importer et d’exporter des données à partir du stockage Blob.

  • La ligne de commande Hadoop est un outil que vous pouvez utiliser lorsque vos données résident sur un nœud principal de cluster HDInsight. Vous pouvez utiliser la hadoop fs -copyFromLocal commande pour copier ces données dans le stockage attaché de votre cluster, comme Stockage Blob ou Data Lake Storage. Pour utiliser la commande Hadoop, vous devez d’abord vous connecter au nœud principal. Une fois connecté, vous pouvez charger un fichier dans le stockage.

Interface graphique

Tenez compte des options suivantes si vous devez uniquement transférer quelques fichiers ou objets de données et n’avez pas besoin d’automatiser le processus.

  • L’Explorateur Stockage Azure est un outil multiplateforme qui vous permet de gérer le contenu de vos comptes de stockage. Il vous permet de charger, télécharger et gérer des objets blob, des fichiers, des files d’attente, des tables et des entités Azure Cosmos DB. Utilisez l’Explorateur Stockage avec Stockage Blob pour gérer les objets blob et les dossiers, puis chargez et téléchargez des objets blob entre votre système de fichiers local et le Stockage Blob ou entre les comptes de stockage.

  • Le portail Azure est une application web qui fournit une interface unifiée pour créer, gérer et surveiller des ressources Azure. Stockage Blob et Data Lake Storage fournissent une interface web permettant d’explorer et de charger des fichiers. Cette option convient si vous ne souhaitez pas installer d’outils ou exécuter des commandes pour rechercher rapidement vos fichiers, ou si vous n’avez besoin de charger que quelques fichiers.

  • Les dataflows Microsoft Fabric sont des fonctionnalités basées sur le cloud qui vous aident à préparer et transformer des données sans écrire de code. Ils fournissent une interface à faible code pour l’ingestion de données à partir de centaines de sources et transforment vos données à l’aide de transformateurs de données intégrés et chargent les données résultantes dans des destinations prises en charge.

Synchronisation des données et pipelines

  • Azure Data Factory est un service managé conçu pour transférer régulièrement des fichiers entre les services Azure, les systèmes locaux ou une combinaison des deux. À l’aide de Data Factory, vous pouvez créer et planifier des workflows pilotés par les données appelés pipelines qui ingèrent des données à partir de magasins de données disparates. Data Factory peut traiter et transformer les données à l’aide de services de calcul tels qu’Apache Spark et Azure Machine Learning. Vous pouvez créer des workflows pilotés par les données pour orchestrer et automatiser le déplacement et la transformation des données.

  • Fabric Data Factory est une plateforme d’intégration de données qui vous permet d’orchestrer et d’automatiser le déplacement et la transformation des données dans les environnements cloud et hybrides. Il vous permet de créer et de planifier des workflows pilotés par les données (pipelines) qui ingèrent des données à partir de différentes sources, notamment le stockage cloud, les bases de données et les systèmes locaux. Ces pipelines prennent en charge diverses activités telles que le déplacement, la transformation et le flux de contrôle des données, et peuvent utiliser des moteurs de calcul tels que Spark et SQL dans les charges de travail Fabric. Avec l’intégration à OneLake, Fabric garantit l’accès unifié aux données, la gouvernance et la collaboration dans l’ensemble du patrimoine de données.

    Le runtime d’intégration dans Data Factory, la passerelle de données locale dans Fabric et la passerelle de données de réseau virtuel fournissent des fonctionnalités de connectivité et d’intégration de données sécurisées dans les environnements cloud, locaux et de réseau virtuel.

  • Azure Data Box Gateway transfère les données vers et depuis Azure, mais il s’agit d’une appliance virtuelle et non d’un disque dur. Les machines virtuelles qui résident dans votre réseau local écrivent des données dans Data Box Gateway à l’aide des protocoles SMB (Network File System) et Server Message Block (SMB). Ensuite, l’appareil transfère vos données à Azure.

Critères de sélection principaux

Pour les scénarios de transfert de données, choisissez le système approprié pour vos besoins en tenant compte des points suivants :

  • Déterminez si vous devez transférer de grandes quantités de données et transférer les données via une connexion Internet prend trop de temps, n’est pas fiable ou est trop coûteuse. Si oui, optez pour le transfert physique.

  • Déterminez si vous préférez scripter vos tâches de transfert de données afin qu’elles soient réutilisables. Si c’est le cas, sélectionnez l’une des options de ligne de commande ou Data Factory.

  • Déterminez si vous devez transférer une grande quantité de données via une connexion réseau. Si c’est le cas, sélectionnez une option optimisée pour le Big Data.

  • Déterminez si vous devez transférer des données vers ou depuis une base de données relationnelle. Si oui, choisissez une solution qui prend en charge une ou plusieurs bases de données relationnelles. Certaines de ces options nécessitent également un cluster Hadoop.

  • Déterminez si vos données ont besoin d’un pipeline automatisé ou d’une orchestration de flux de travail. Si oui, pensez à Data Factory.

Matrice des fonctionnalités

Les tableaux suivants résument les principales différences entre les fonctionnalités.

Transfert physique

Capacité Le service Azure Import/Export Boîte de données
Facteur de forme Disques durs ou SSD SATA internes Appliance matérielle unique, sécurisée et inviolable
Microsoft gère la logistique d’expédition Non Oui
S’intègre avec les produits partenaires Non Oui
Appliance personnalisée Non Oui

Outils de ligne de commande

Les outils suivants sont compatibles avec Hadoop et HDInsight.

Capacité DistCp Sqoop Interface de ligne de commande Hadoop
Optimisé pour le Big Data Oui Oui Oui
Copie vers une base de données relationnelle Non Oui Non
Copie à partir d’une base de données relationnelle Non Oui Non
Copie vers le Stockage Blob Oui Oui Oui
Copie à partir du Stockage Blob Oui Oui Non
Copie vers Data Lake Storage Oui Oui Oui
Copie à partir de Data Lake Storage Oui Oui Non

Le tableau suivant comprend des outils de transfert de données à usage général.

Capacité L'interface CLI de Azure AzCopy Azure PowerShell PolyBase
Plateformes compatibles Linux, OS X, Windows Linux, Windows Fenêtres SQL Server
Optimisé pour le Big Data Non Oui Non Oui 1
Copie vers une base de données relationnelle Non Non Non Oui
Copie à partir d’une base de données relationnelle Non Non Non Oui
Copie vers le Stockage Blob Oui Oui Oui Oui
Copie à partir du Stockage Blob Oui Oui Oui Oui
Copie vers Data Lake Storage Non Oui Oui Oui
Copie à partir de Data Lake Storage Non Non Oui Oui

1 Performances PolyBase peuvent être améliorées en transmettant le calcul à Hadoop et en utilisant des groupes de scale-out PolyBase pour permettre le transfert de données parallèle entre les instances SQL Server et les nœuds Hadoop.

Interfaces graphiques, synchronisation des données et pipelines de données

Capacité Storage Explorer Le portail Azure 2 Usine de Données Passerelle Data Box Flux de données
Optimisé pour le Big Data Non Non Oui Oui Oui
Copie vers une base de données relationnelle Non Non Oui Non Oui
Copie à partir d’une base de données relationnelle Non Non Oui Non Oui
Copie vers le Stockage Blob Oui Non Oui Oui Oui
Copie à partir du Stockage Blob Oui Non Oui Non Oui
Copie vers Data Lake Storage Non Non Oui Non Oui
Copie à partir de Data Lake Storage Non Non Oui Non Oui
Chargement vers le Stockage Blob Oui Oui Oui Oui Oui
Chargement vers Data Lake Storage Oui Oui Oui Oui Oui
Orchestration des transferts de données Non Non Oui Non Oui
Transformations de données personnalisées Non Non Oui Non Oui
Modèle de tarification Gratuit Gratuit Paiement à l’utilisation Payer par unité Paiement à l’utilisation

2 Le portail Azure dans ce cas représente les outils d’exploration web pour Stockage Blob et Data Lake Storage.

Contributeurs

Microsoft gère cet article. Les contributeurs suivants ont écrit cet article.

Auteur principal :

Autres contributeurs :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étape suivante