Choisir une technologie de traitement par lots dans Azure

Les solutions Big Data se composent souvent de tâches de traitement par lots distinctes, qui contribuent à la solution globale de traitement des données. Vous pouvez utiliser le traitement par lots pour les charges de travail qui ne nécessitent pas d’accès immédiat aux aperçus. Le traitement par lots peut répondre aux exigences de traitement en temps réel. Cette méthode vous permet également d’équilibrer la complexité et de réduire les coûts de votre implémentation globale.

L’exigence fondamentale des moteurs de traitement par lots est la possibilité d’effectuer un scale-out des calculs pour gérer de gros volumes de données. Contrairement au traitement en temps réel, le traitement par lots comporte des latences (temps entre l’ingestion des données et le calcul du résultat) qui se mesurent en minutes, voire en heures.

Choisir une technologie pour le traitement par lots

Microsoft propose plusieurs services vous permettant d’effectuer le traitement par lots.

Microsoft Fabric

Microsoft Fabric est une plateforme d’analytique et de données tout-en-un pour les organisations. Il s’agit d’une offre de logiciel en tant que service qui simplifie l’approvisionnement, la gestion et la gouvernance d’une solution d’analytique de bout en bout. Fabric gère le déplacement, le traitement, l’ingestion, la transformation et le reporting des données. Parmi les fonctionnalités de traitement par lots proposées par Fabric, on retrouve les ingénieurs de données, les entrepôts de données, les lakehouses et le traitement Apache Spark. Azure Data Factory dans Fabric accepte également les lakehouses. Pour simplifier et accélérer le développement, vous pouvez activer Copilot, basé sur l’IA.

Langages: R, Python, Java, Scala et SQL
Sécurité: Réseau virtuel managé et contrôle d’accès en fonction du rôle OneLake (RBAC)
Stockage principal : OneLake, qui a des raccourcis et des options de mise en miroir
Spark: Un pool de départ préhydraté et un pool Spark personnalisé avec des tailles de nœud prédéfinies

Azure Databricks

Azure Databricks est une plateforme d’analytique basée sur Spark. Il propose des fonctionnalités Spark enrichies et premium basées sur Spark open source. Azure Databricks est un service Microsoft qui s’intègre au reste des services Azure. Ce service propose des configurations supplémentaires pour les déploiements de cluster Spark. Par ailleurs, Unity Catalog permet de simplifier la gouvernance des objets Azure Databricks Spark.

Langages : R, Python, Java, Scala et Spark SQL.
Sécurité: Authentification de l’utilisateur avec l’ID Microsoft Entra.
Stockage principal : Intégration intégrée à Stockage Blob Azure, Data Lake Storage, Fabric OneLake et autres services. Pour plus d’informations, consultez sources de données.

Voici d’autres avantages :

Notebooks basés sur le web pour la collaboration et l’exploration des données.
Heures de début du cluster rapides, arrêt et mise à l’échelle automatiques.
Prise en charge des clusters équipés de GPU.

Critères de sélection principaux

Pour choisir votre technologie de traitement par lots, posez-vous les questions suivantes :

Avez-vous besoin d’un service géré, ou préférez-vous gérer vos propres serveurs ?
Souhaitez-vous créer la logique de traitement par lots de manière déclarative ou impérative ?
Effectuez-vous des traitements par lots en rafales ? Si c’est le cas, optez pour des solutions qui vous permettent de mettre fin automatiquement à un cluster ou qui proposent des modèles tarifaires pour chaque tâche de traitement par lots.
Avez-vous besoin d’interroger des magasins de données relationnels en parallèle de vos traitements par lots, par exemple, pour rechercher des données de référence ? Si c’est le cas, optez pour des solutions qui vous permettent d’interroger des magasins relationnels externes.

Matrice des fonctionnalités

Les tableaux suivants récapitulent les principales différences entre les fonctionnalités des différents services.

Fonctionnalités générales

Fonctionnalité	Tissu	Azure Databricks
Software as a Service	Oui¹	Non
Service géré	Non	Oui
Magasin de données relationnel	Oui	Oui
Modèle de tarification	Unités de capacité	Unité Azure Databricks ² et heure du cluster

[1] Capacité Fabric affectée.

[2] Une unité Azure Databricks mesure la capacité de traitement par heure.

Autres fonctionnalités

Fonctionnalité	Tissu	Azure Databricks
Mise à l’échelle automatique	Non	Oui
Granularité de la montée en charge	Par SKU Fabric	Par cluster
Mise en cache des données en mémoire	Non	Oui
Interrogation à partir de magasins relationnels externes	Oui	Oui
Authentification	Microsoft Entra ID (système d'identification de Microsoft)	Microsoft Entra ID (système d'identification de Microsoft)
Audit	Oui	Oui
Sécurité au niveau des lignes	Oui	Oui
Prend en charge les pare-feu	Oui	Oui
Masquage dynamique des données	Oui	Oui

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Principaux auteurs :

Zoiner Tejada | PDG et architecte
Pratima Valavala | Architecte de solutions principales

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-12-11