Partager via


Choisir une technologie de traitement par lots dans Azure

Les solutions Big Data se composent souvent de tâches de traitement par lots distinctes, qui contribuent à la solution globale de traitement des données. Vous pouvez utiliser le traitement par lots pour les charges de travail qui ne nécessitent pas d’accès immédiat aux aperçus. Le traitement par lots peut répondre aux exigences de traitement en temps réel. Cette méthode vous permet également d’équilibrer la complexité et de réduire les coûts de votre implémentation globale.

L’exigence fondamentale des moteurs de traitement par lots est la possibilité d’effectuer un scale-out des calculs pour gérer de gros volumes de données. Contrairement au traitement en temps réel, le traitement par lots comporte des latences (temps entre l’ingestion des données et le calcul du résultat) qui se mesurent en minutes, voire en heures.

Choisir une technologie pour le traitement par lots

Microsoft propose plusieurs services vous permettant d’effectuer le traitement par lots.

Microsoft Fabric

Microsoft Fabric est une plateforme d’analytique et de données tout-en-un pour les organisations. Il s’agit d’une offre de logiciel en tant que service qui simplifie l’approvisionnement, la gestion et la gouvernance d’une solution d’analytique de bout en bout. Fabric gère le déplacement, le traitement, l’ingestion, la transformation et le reporting des données. Parmi les fonctionnalités de traitement par lots proposées par Fabric, on retrouve les ingénieurs de données, les entrepôts de données, les lakehouses et le traitement Apache Spark. Azure Data Factory dans Fabric accepte également les lakehouses. Pour simplifier et accélérer le développement, vous pouvez activer Copilot, basé sur l’IA.

  • Langages: R, Python, Java, Scala et SQL

  • Sécurité: Réseau virtuel managé et contrôle d’accès en fonction du rôle OneLake (RBAC)

  • Stockage principal : OneLake, qui a des raccourcis et des options de mise en miroir

  • Spark: Un pool de départ préhydraté et un pool Spark personnalisé avec des tailles de nœud prédéfinies

Azure Databricks

Azure Databricks est une plateforme d’analytique basée sur Spark. Il propose des fonctionnalités Spark enrichies et premium basées sur Spark open source. Azure Databricks est un service Microsoft qui s’intègre au reste des services Azure. Ce service propose des configurations supplémentaires pour les déploiements de cluster Spark. Par ailleurs, Unity Catalog permet de simplifier la gouvernance des objets Azure Databricks Spark.

  • Langages : R, Python, Java, Scala et Spark SQL.

  • Sécurité: Authentification de l’utilisateur avec l’ID Microsoft Entra.

  • Stockage principal : Intégration intégrée à Stockage Blob Azure, Data Lake Storage, Fabric OneLake et autres services. Pour plus d’informations, consultez sources de données.

Voici d’autres avantages :

  • Notebooks basés sur le web pour la collaboration et l’exploration des données.

  • Heures de début du cluster rapides, arrêt et mise à l’échelle automatiques.

  • Prise en charge des clusters équipés de GPU.

Critères de sélection principaux

Pour choisir votre technologie de traitement par lots, posez-vous les questions suivantes :

  • Avez-vous besoin d’un service géré, ou préférez-vous gérer vos propres serveurs ?

  • Souhaitez-vous créer la logique de traitement par lots de manière déclarative ou impérative ?

  • Effectuez-vous des traitements par lots en rafales ? Si c’est le cas, optez pour des solutions qui vous permettent de mettre fin automatiquement à un cluster ou qui proposent des modèles tarifaires pour chaque tâche de traitement par lots.

  • Avez-vous besoin d’interroger des magasins de données relationnels en parallèle de vos traitements par lots, par exemple, pour rechercher des données de référence ? Si c’est le cas, optez pour des solutions qui vous permettent d’interroger des magasins relationnels externes.

Matrice des fonctionnalités

Les tableaux suivants récapitulent les principales différences entre les fonctionnalités des différents services.

Fonctionnalités générales

Fonctionnalité Tissu Azure Databricks
Software as a Service Oui1 Non
Service géré Non Oui
Magasin de données relationnel Oui Oui
Modèle de tarification Unités de capacité Unité Azure Databricks 2 et heure du cluster

[1] Capacité Fabric affectée.

[2] Une unité Azure Databricks mesure la capacité de traitement par heure.

Autres fonctionnalités

Fonctionnalité Tissu Azure Databricks
Mise à l’échelle automatique Non Oui
Granularité de la montée en charge Par SKU Fabric Par cluster
Mise en cache des données en mémoire Non Oui
Interrogation à partir de magasins relationnels externes Oui Oui
Authentification Microsoft Entra ID (système d'identification de Microsoft) Microsoft Entra ID (système d'identification de Microsoft)
Audit Oui Oui
Sécurité au niveau des lignes Oui Oui
Prend en charge les pare-feu Oui Oui
Masquage dynamique des données Oui Oui

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Principaux auteurs :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes