Comment fonctionne Azure Synapse Analytics ?

Effectué

Pour prendre en charge les besoins d’analytique des organisations actuelles, Azure Synapse Analytics combine un service centralisé pour le stockage et le traitement des données avec une architecture extensible via laquelle les services liés vous permettent d’intégrer des magasins de données, des plateformes de traitement et des outils de visualisation couramment utilisés.

Création et utilisation d’un espace de travail Azure Synapse Analytics

Un espace de travail Synapse Analytics définit une instance du service Synapse Analytics dans laquelle vous pouvez gérer les services et les ressources de données nécessaires à votre solution d’analyse. Vous pouvez créer un espace de travail Synapse Analytics dans un abonnement Azure de manière interactive via le portail Azure, ou vous pouvez automatiser le déploiement à l’aide d’Azure PowerShell, de l’interface de ligne de commande Azure ou d’un modèle Azure Resource Manager ou Bicep.

Après avoir créé un espace de travail Synapse Analytics, vous pouvez gérer les services dans celui-ci et effectuer des tâches d’analyse des données avec eux à l’aide de Synapse Studio ; un portail web pour Azure Synapse Analytics.

Capture d’écran d’Azure Synapse Studio.

Utilisation de fichiers dans un lac de données

L’une des ressources principales d’un espace de travail Synapse Analytics est un lac de données, dans lequel les fichiers de données peuvent être stockés et traités à grande échelle. Un espace de travail possède généralement un lac de données par défaut qui est implémenté en tant que service lié dans un conteneur Azure Data Lake Storage Gen2. Vous pouvez ajouter des services liés pour plusieurs lacs de données basés sur différentes plateformes de stockage, en fonction des besoins.

Capture d’écran d’un service lié data lake dans Azure Studio.

Ingestion et transformation de données avec des pipelines

Dans la plupart des solutions d’analytique données d’entreprise, les données sont extraites de plusieurs sources opérationnelles et transférées vers un lac de données ou un entrepôt de données central à des fins d’analyse. Azure Synapse Analytics inclut une prise en charge intégrée de la création, de l’exécution et de la gestion de pipelines qui orchestrent les activités nécessaires pour récupérer des données à partir d’une plage de sources, transformer les données selon les besoins et charger les données transformées résultantes dans un magasin analytique.

Capture d’écran d’un pipeline dans Azure Synapse Studio.

Notes

Les pipelines dans Azure Synapse Analytics sont basés sur la même technologie sous-jacente qu’Azure Data Factory. Si vous connaissez déjà Azure Data Factory, vous pouvez tirer parti de vos compétences existantes pour générer des solutions d’ingestion et de transformation de données dans Azure Synapse Analytics.

Interrogation et manipulation de données avec SQL

SQL est un langage omniprésent pour l’interrogation et la manipulation de données, qui constitue la base des bases de données relationnelles, dont Microsoft SQL Server, plateforme de base de données bien connue. Azure Synapse Analytics prend en charge l’interrogation et la manipulation de données basées sur SQL via deux types de pool SQL basés sur le moteur de base de données relationnelle SQL Server :

  • Pool serverless intégré optimisé pour l’utilisation de la sémantique SQL relationnelle pour interroger des données basées sur des fichiers dans un lac de données.
  • Pools SQL dédiés personnalisés qui hébergent des entrepôts de données relationnelles.

Le système Azure Synapse SQL utilise un modèle de traitement des requêtes distribuées pour paralléliser les opérations SQL, ce qui se traduit par une solution hautement évolutive pour le traitement des données relationnelles. Vous pouvez utiliser le pool serverless intégré pour l’analyse et le traitement rentables des données de fichiers dans le lac de données, et vous servir de pools SQL dédiés pour créer des entrepôts de données relationnelles pour la modélisation de données d’entreprise et la création de rapports.

Capture d’écran d’une requête sql et de bases de données dans Azure Synapse Studio.

Traitement et analyse de données avec Apache Spark

Apache Spark est une plateforme open source pour l’analytique de Big Data. Spark effectue un traitement distribué de fichiers dans un lac de données en exécutant des tâches qui peuvent être implémentées à l’aide d’une série de langages de programmation pris en charge. Les langages pris en charge dans Spark sont Python, Scala, Java, SQL et C# .

Dans Azure Synapse Analytics, vous pouvez créer un ou plusieurs pools Spark et utiliser des notebooks interactifs pour combiner du code et des notes lorsque vous créez des solutions pour l’analytique des données, le Machine Learning et la visualisation des données.

Capture d’écran d’un notebook Spark dans Azure Synapse Studio.

Exploration des données avec Data Explorer

Azure Synapse Data Explorer est un moteur de traitement des données dans Azure Synapse Analytics, qui est basé sur le service Azure Data Explorer. Data Explorer utilise une syntaxe de requête intuitive nommée Langage de requête Kusto (KQL) pour permettre une analyse haute performance et à faible latence de données de traitement par lots et de diffusion en continu.

Capture d’écran d’un script Kusto Query Language dans Azure Synapse Studio.

Intégration avec d’autres services de données Azure

Azure Synapse Analytics peut être intégré avec d’autres services de données Azure pour des solutions d’analyse de bout en bout. Les solutions intégrées sont les suivantes :

  • Azure Synapse Link permet une synchronisation en temps quasi réel entre les données opérationnelles dans Azure Cosmos DB, Azure SQL Database, SQL Server et Microsoft Power Platform Dataverse et le stockage de données analytiques qui peuvent être interrogés dans Azure Synapse Analytics.
  • L’intégration de Microsoft Power BI permet aux analystes de données d’intégrer un espace de travail Power BI à un espace de travail Synapse et d’effectuer une visualisation interactive des données dans Azure Synapse Studio.
  • L’intégration de Microsoft Purview permet aux organisations de cataloguer les ressources de données dans Azure Synapse Analytics et facilite la recherche de ressources de données et le suivi de la traçabilité des données lors de l’implémentation de pipelines de données qui ingèrent des données dans Azure Synapse Analytics.
  • L’intégration d’Azure Machine Learning permet aux analystes de données et aux scientifiques des données d’intégrer l’entraînement et la consommation de modèles prédictifs dans des solutions analytiques.