Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Les solutions Big Data se composent souvent de tâches de traitement par lots distinctes, qui contribuent à la solution globale de traitement des données. Vous pouvez utiliser le traitement par lots pour les charges de travail qui ne nécessitent pas d’accès immédiat aux aperçus. Le traitement par lots peut répondre aux exigences de traitement en temps réel. Cette méthode vous permet également d’équilibrer la complexité et de réduire les coûts de votre implémentation globale.
L’exigence fondamentale des moteurs de traitement par lots est la possibilité d’effectuer un scale-out des calculs pour gérer de gros volumes de données. Contrairement au traitement en temps réel, le traitement par lots comporte des latences (temps entre l’ingestion des données et le calcul du résultat) qui se mesurent en minutes, voire en heures.
Choisir une technologie pour le traitement par lots
Microsoft propose plusieurs services vous permettant d’effectuer le traitement par lots.
Microsoft Fabric
Microsoft Fabric est une plateforme d’analytique et de données tout-en-un pour les organisations. Il s’agit d’une offre de logiciel en tant que service qui simplifie l’approvisionnement, la gestion et la gouvernance d’une solution d’analytique de bout en bout. Fabric gère le déplacement, le traitement, l’ingestion, la transformation et le reporting des données. Parmi les fonctionnalités de traitement par lots proposées par Fabric, on retrouve les ingénieurs de données, les entrepôts de données, les lakehouses et le traitement Apache Spark. Azure Data Factory dans Fabric accepte également les lakehouses. Pour simplifier et accélérer le développement, vous pouvez activer Copilot, basé sur l’IA.
Langages: R, Python, Java, Scala et SQL
Sécurité: Réseau virtuel managé et contrôle d’accès en fonction du rôle OneLake (RBAC)
Stockage principal : OneLake, qui a des raccourcis et des options de mise en miroir
Spark: Un pool de départ préhydraté et un pool Spark personnalisé avec des tailles de nœud prédéfinies
Azure Databricks
Azure Databricks est une plateforme d’analytique basée sur Spark. Il propose des fonctionnalités Spark enrichies et premium basées sur Spark open source. Azure Databricks est un service Microsoft qui s’intègre au reste des services Azure. Ce service propose des configurations supplémentaires pour les déploiements de cluster Spark. Par ailleurs, Unity Catalog permet de simplifier la gouvernance des objets Azure Databricks Spark.
Langages : R, Python, Java, Scala et Spark SQL.
Sécurité: Authentification de l’utilisateur avec l’ID Microsoft Entra.
Stockage principal : Intégration intégrée à Stockage Blob Azure, Data Lake Storage, Fabric OneLake et autres services. Pour plus d’informations, consultez sources de données.
Voici d’autres avantages :
Notebooks basés sur le web pour la collaboration et l’exploration des données.
Heures de début du cluster rapides, arrêt et mise à l’échelle automatiques.
Prise en charge des clusters équipés de GPU.
Critères de sélection principaux
Pour choisir votre technologie de traitement par lots, posez-vous les questions suivantes :
Avez-vous besoin d’un service géré, ou préférez-vous gérer vos propres serveurs ?
Souhaitez-vous créer la logique de traitement par lots de manière déclarative ou impérative ?
Effectuez-vous des traitements par lots en rafales ? Si c’est le cas, optez pour des solutions qui vous permettent de mettre fin automatiquement à un cluster ou qui proposent des modèles tarifaires pour chaque tâche de traitement par lots.
Avez-vous besoin d’interroger des magasins de données relationnels en parallèle de vos traitements par lots, par exemple, pour rechercher des données de référence ? Si c’est le cas, optez pour des solutions qui vous permettent d’interroger des magasins relationnels externes.
Matrice des fonctionnalités
Les tableaux suivants récapitulent les principales différences entre les fonctionnalités des différents services.
Fonctionnalités générales
| Fonctionnalité | Tissu | Azure Databricks |
|---|---|---|
| Software as a Service | Oui1 | Non |
| Service géré | Non | Oui |
| Magasin de données relationnel | Oui | Oui |
| Modèle de tarification | Unités de capacité | Unité Azure Databricks 2 et heure du cluster |
[1] Capacité Fabric affectée.
[2] Une unité Azure Databricks mesure la capacité de traitement par heure.
Autres fonctionnalités
| Fonctionnalité | Tissu | Azure Databricks |
|---|---|---|
| Mise à l’échelle automatique | Non | Oui |
| Granularité de la montée en charge | Par SKU Fabric | Par cluster |
| Mise en cache des données en mémoire | Non | Oui |
| Interrogation à partir de magasins relationnels externes | Oui | Oui |
| Authentification | Microsoft Entra ID (système d'identification de Microsoft) | Microsoft Entra ID (système d'identification de Microsoft) |
| Audit | Oui | Oui |
| Sécurité au niveau des lignes | Oui | Oui |
| Prend en charge les pare-feu | Oui | Oui |
| Masquage dynamique des données | Oui | Oui |
Contributeurs
Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.
Principaux auteurs :
- Zoiner Tejada | PDG et architecte
- Pratima Valavala | Architecte de solutions principales
Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.
Étapes suivantes
- Qu’est-ce que Fabric ?
- Guide de décision Fabric
- Qu’est-ce qu’Azure HDInsight ?
- Qu’est-ce qu’Azure Databricks ?