Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article décrit plusieurs options que vous pouvez utiliser pour transférer des données vers et depuis Azure, en fonction de vos besoins.
Transfert physique
L’utilisation de matériel physique pour transférer des données vers Azure est une bonne option lorsque les facteurs suivants s’appliquent :
- Votre réseau est lent ou peu fiable.
- L’obtention d’une bande passante réseau supplémentaire est trop coûteuse.
- Les stratégies de sécurité ou d’organisation n’autorisent pas les connexions sortantes lors de la gestion des données sensibles.
Si votre principale préoccupation est la durée nécessaire pour transférer vos données, envisagez de tester si le transfert réseau est plus lent que le transport physique.
Le service Azure Import/Export et Azure Data Box sont les deux principales options pour le transport physique des données vers Azure.
Le service Azure Import/Export
Le service Azure Import/Export vous permet de transférer en toute sécurité de grandes quantités de données vers stockage Blob Azure ou Azure Files en expédiant des disques durs (HDD) ou des disques SSD (Serial Advanced Technology Attachment) internes vers un centre de données Azure. Vous pouvez également utiliser ce service pour transférer des données du stockage Azure vers des disques durs et faire expédier les disques durs pour le chargement local.
Boîte de données
Data Box est une appliance Microsoft qui fonctionne de la même façon que le service Azure Import/Export. Avec Data Box, Microsoft vous fournit une appliance de transfert propriétaire, sécurisée et inviolable et gère la logistique de bout en bout, que vous pouvez suivre via le portail Azure. L’un des avantages du service Data Box est sa facilité d’utilisation. Vous n’avez pas besoin d’acheter plusieurs disques durs, de les préparer et de transférer des fichiers dessus. De nombreux partenaires Azure prennent en charge Data Box, ce qui facilite l’utilisation du transport hors connexion vers le cloud au sein de leurs solutions.
API et outils en ligne de commande
Tenez compte des options suivantes lorsque vous avez besoin d’un script et d’un transfert de données par programmation :
Azure CLI est un outil multiplateforme qui vous permet de gérer les services Azure et de charger des données dans le stockage.
AzCopy est un utilitaire en ligne de commande qui vous permet de copier des données vers et à partir du stockage Blob, du stockage Azure Files et du stockage Table Azure avec des performances optimales. AzCopy prend en charge la concurrence et le parallélisme, ainsi que la capacité de reprendre les opérations de copie après une interruption. Vous pouvez également utiliser AzCopy pour copier des données d’Amazon Web Services (AWS) vers Azure. Pour l’accès par programmation, la bibliothèque de déplacement des données du stockage Microsoft Azure est l’infrastructure principale qui alimente AzCopy. Elle est fournie en tant que bibliothèque .NET Core.
Azure PowerShell est un environnement de script où l’applet
Start-AzureStorageBlobCopyde commande fournit une option pour les opérateurs qui connaissent Azure PowerShell.DistCp est un utilitaire utilisé pour copier des données entre le stockage par défaut d’un cluster AZURE HDInsight et d’autres comptes Stockage Blob ou Azure Data Lake Storage.
Apache Sqoop est un projet Apache et fait partie de l’écosystème Hadoop. Il est préinstallé sur tous les clusters HDInsight. Sqoop transfère les données entre un cluster HDInsight et des bases de données relationnelles telles que SQL, Oracle et MySQL. Il s’agit d’une collection d’outils connexes, notamment les outils d’importation et d’exportation, et fonctionne avec des clusters HDInsight à l’aide du stockage Blob ou du stockage attaché Data Lake Storage.
PolyBase est une technologie qui accède aux données extérieures à la base de données avec le langage T-SQL. Il vous permet d’exécuter des requêtes sur des données externes dans Hadoop ou d’importer et d’exporter des données à partir du stockage Blob.
La ligne de commande Hadoop est un outil que vous pouvez utiliser lorsque vos données résident sur un nœud principal de cluster HDInsight. Vous pouvez utiliser la
hadoop fs -copyFromLocalcommande pour copier ces données dans le stockage attaché de votre cluster, comme Stockage Blob ou Data Lake Storage. Pour utiliser la commande Hadoop, vous devez d’abord vous connecter au nœud principal. Une fois connecté, vous pouvez charger un fichier dans le stockage.
Interface graphique
Tenez compte des options suivantes si vous devez uniquement transférer quelques fichiers ou objets de données et n’avez pas besoin d’automatiser le processus.
L’Explorateur Stockage Azure est un outil multiplateforme qui vous permet de gérer le contenu de vos comptes de stockage. Il vous permet de charger, télécharger et gérer des objets blob, des fichiers, des files d’attente, des tables et des entités Azure Cosmos DB. Utilisez l’Explorateur Stockage avec Stockage Blob pour gérer les objets blob et les dossiers, puis chargez et téléchargez des objets blob entre votre système de fichiers local et le Stockage Blob ou entre les comptes de stockage.
Le portail Azure est une application web qui fournit une interface unifiée pour créer, gérer et surveiller des ressources Azure. Stockage Blob et Data Lake Storage fournissent une interface web permettant d’explorer et de charger des fichiers. Cette option convient si vous ne souhaitez pas installer d’outils ou exécuter des commandes pour rechercher rapidement vos fichiers, ou si vous n’avez besoin de charger que quelques fichiers.
Les dataflows Microsoft Fabric sont des fonctionnalités basées sur le cloud qui vous aident à préparer et transformer des données sans écrire de code. Ils fournissent une interface à faible code pour l’ingestion de données à partir de centaines de sources et transforment vos données à l’aide de transformateurs de données intégrés et chargent les données résultantes dans des destinations prises en charge.
Synchronisation des données et pipelines
Azure Data Factory est un service managé conçu pour transférer régulièrement des fichiers entre les services Azure, les systèmes locaux ou une combinaison des deux. À l’aide de Data Factory, vous pouvez créer et planifier des workflows pilotés par les données appelés pipelines qui ingèrent des données à partir de magasins de données disparates. Data Factory peut traiter et transformer les données à l’aide de services de calcul tels qu’Apache Spark et Azure Machine Learning. Vous pouvez créer des workflows pilotés par les données pour orchestrer et automatiser le déplacement et la transformation des données.
Fabric Data Factory est une plateforme d’intégration de données qui vous permet d’orchestrer et d’automatiser le déplacement et la transformation des données dans les environnements cloud et hybrides. Il vous permet de créer et de planifier des workflows pilotés par les données (pipelines) qui ingèrent des données à partir de différentes sources, notamment le stockage cloud, les bases de données et les systèmes locaux. Ces pipelines prennent en charge diverses activités telles que le déplacement, la transformation et le flux de contrôle des données, et peuvent utiliser des moteurs de calcul tels que Spark et SQL dans les charges de travail Fabric. Avec l’intégration à OneLake, Fabric garantit l’accès unifié aux données, la gouvernance et la collaboration dans l’ensemble du patrimoine de données.
Le runtime d’intégration dans Data Factory, la passerelle de données locale dans Fabric et la passerelle de données de réseau virtuel fournissent des fonctionnalités de connectivité et d’intégration de données sécurisées dans les environnements cloud, locaux et de réseau virtuel.
Azure Data Box Gateway transfère les données vers et depuis Azure, mais il s’agit d’une appliance virtuelle et non d’un disque dur. Les machines virtuelles qui résident dans votre réseau local écrivent des données dans Data Box Gateway à l’aide des protocoles SMB (Network File System) et Server Message Block (SMB). Ensuite, l’appareil transfère vos données à Azure.
Critères de sélection principaux
Pour les scénarios de transfert de données, choisissez le système approprié pour vos besoins en tenant compte des points suivants :
Déterminez si vous devez transférer de grandes quantités de données et transférer les données via une connexion Internet prend trop de temps, n’est pas fiable ou est trop coûteuse. Si oui, optez pour le transfert physique.
Déterminez si vous préférez scripter vos tâches de transfert de données afin qu’elles soient réutilisables. Si c’est le cas, sélectionnez l’une des options de ligne de commande ou Data Factory.
Déterminez si vous devez transférer une grande quantité de données via une connexion réseau. Si c’est le cas, sélectionnez une option optimisée pour le Big Data.
Déterminez si vous devez transférer des données vers ou depuis une base de données relationnelle. Si oui, choisissez une solution qui prend en charge une ou plusieurs bases de données relationnelles. Certaines de ces options nécessitent également un cluster Hadoop.
Déterminez si vos données ont besoin d’un pipeline automatisé ou d’une orchestration de flux de travail. Si oui, pensez à Data Factory.
Matrice des fonctionnalités
Les tableaux suivants résument les principales différences entre les fonctionnalités.
Transfert physique
| Capacité | Le service Azure Import/Export | Boîte de données |
|---|---|---|
| Facteur de forme | Disques durs ou SSD SATA internes | Appliance matérielle unique, sécurisée et inviolable |
| Microsoft gère la logistique d’expédition | Non | Oui |
| S’intègre avec les produits partenaires | Non | Oui |
| Appliance personnalisée | Non | Oui |
Outils de ligne de commande
Les outils suivants sont compatibles avec Hadoop et HDInsight.
| Capacité | DistCp | Sqoop | Interface de ligne de commande Hadoop |
|---|---|---|---|
| Optimisé pour le Big Data | Oui | Oui | Oui |
| Copie vers une base de données relationnelle | Non | Oui | Non |
| Copie à partir d’une base de données relationnelle | Non | Oui | Non |
| Copie vers le Stockage Blob | Oui | Oui | Oui |
| Copie à partir du Stockage Blob | Oui | Oui | Non |
| Copie vers Data Lake Storage | Oui | Oui | Oui |
| Copie à partir de Data Lake Storage | Oui | Oui | Non |
Le tableau suivant comprend des outils de transfert de données à usage général.
| Capacité | L'interface CLI de Azure | AzCopy | Azure PowerShell | PolyBase |
|---|---|---|---|---|
| Plateformes compatibles | Linux, OS X, Windows | Linux, Windows | Fenêtres | SQL Server |
| Optimisé pour le Big Data | Non | Oui | Non | Oui 1 |
| Copie vers une base de données relationnelle | Non | Non | Non | Oui |
| Copie à partir d’une base de données relationnelle | Non | Non | Non | Oui |
| Copie vers le Stockage Blob | Oui | Oui | Oui | Oui |
| Copie à partir du Stockage Blob | Oui | Oui | Oui | Oui |
| Copie vers Data Lake Storage | Non | Oui | Oui | Oui |
| Copie à partir de Data Lake Storage | Non | Non | Oui | Oui |
1 Performances PolyBase peuvent être améliorées en transmettant le calcul à Hadoop et en utilisant des groupes de scale-out PolyBase pour permettre le transfert de données parallèle entre les instances SQL Server et les nœuds Hadoop.
Interfaces graphiques, synchronisation des données et pipelines de données
| Capacité | Storage Explorer | Le portail Azure 2 | Usine de Données | Passerelle Data Box | Flux de données |
|---|---|---|---|---|---|
| Optimisé pour le Big Data | Non | Non | Oui | Oui | Oui |
| Copie vers une base de données relationnelle | Non | Non | Oui | Non | Oui |
| Copie à partir d’une base de données relationnelle | Non | Non | Oui | Non | Oui |
| Copie vers le Stockage Blob | Oui | Non | Oui | Oui | Oui |
| Copie à partir du Stockage Blob | Oui | Non | Oui | Non | Oui |
| Copie vers Data Lake Storage | Non | Non | Oui | Non | Oui |
| Copie à partir de Data Lake Storage | Non | Non | Oui | Non | Oui |
| Chargement vers le Stockage Blob | Oui | Oui | Oui | Oui | Oui |
| Chargement vers Data Lake Storage | Oui | Oui | Oui | Oui | Oui |
| Orchestration des transferts de données | Non | Non | Oui | Non | Oui |
| Transformations de données personnalisées | Non | Non | Oui | Non | Oui |
| Modèle de tarification | Gratuit | Gratuit | Paiement à l’utilisation | Payer par unité | Paiement à l’utilisation |
2 Le portail Azure dans ce cas représente les outils d’exploration web pour Stockage Blob et Data Lake Storage.
Contributeurs
Microsoft gère cet article. Les contributeurs suivants ont écrit cet article.
Auteur principal :
- Zoiner Tejada | CEO et Architecte
Autres contributeurs :
- Prabhjot Kaur | Ingénieur de solution senior
- Sriram Kolla | Architecte de solution cloud principal
Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.