Utiliser Spark dans Azure Synapse Analytics

Effectué

Vous pouvez exécuter de nombreux types d’applications différents sur Spark, notamment du code dans des scripts Python ou Scala, du code Java compilé en tant qu’archive Java (JAR) et autres. Spark est couramment utilisé dans deux types de charge de travail :

  • Travaux de traitement par lots ou en streaming pour ingérer, nettoyer et transformer des données, souvent exécutées dans le cadre d’un pipeline automatisé.
  • Sessions d’analytique interactive pour explorer, analyser et visualiser des données.

Exécution de code Spark dans des notebooks

Azure Synapse Studio comprend une interface de notebook intégrée pour l’utilisation de Spark. Les notebooks offrent un moyen intuitif de combiner du code avec des notes Markdown, couramment utilisées par les scientifiques des données et les analystes Données. L’expérience des notebooks intégrée dans Azure Synapse Studio s’apparente à l’expérience des notebooks Jupyter, plateforme de notebooks open source populaire.

Capture d’écran d’un notebook dans Azure Synapse Studio.

Notes

Bien qu’ils soient généralement utilisés de manière interactive, les notebooks peuvent être inclus dans des pipelines automatisés et s’exécuter en tant que script sans assistance.

Les notebooks se composent d’une ou plusieurs cellules, chacune contenant du code ou des notes markdown. Les cellules de code des notebooks ont certaines fonctionnalités qui peuvent vous aider à être plus productifs, notamment :

  • Coloration syntaxique et prise en charge des erreurs.
  • Autocomplétion du code.
  • Visualisations interactives des données.
  • Possibilité d’exporter les résultats.

Conseil

Pour en savoir plus sur l’utilisation des notebooks dans Azure Synapse Analytics, consultez l’article Créer, développer et gérer des notebooks Synapse dans Azure Synapse Analytics dans la documentation Azure Synapse Analytics.

Accès aux données à partir d’un pool Synapse Spark

Vous pouvez utiliser Spark dans Azure Synapse Analytics pour utiliser des données provenant de différentes sources, notamment :

  • Un lac de données basé sur le compte de stockage principal de l’espace de travail Azure Synapse Analytics.
  • Un lac de données basé sur le stockage défini en tant que service lié dans l’espace de travail.
  • Un pool SQL dédié ou serverless dans l’espace de travail.
  • Une base de données Azure SQL ou SQL Server (avec le connecteur Spark pour SQL Server)
  • Une base de données analytique Azure Cosmos DB définie en tant que service lié et configurée avec Azure Synapse Link pour Cosmos DB.
  • Une base de données Azure Data Explorer Kusto définie en tant que service lié dans l’espace de travail.
  • Un metastore Hive externe défini en tant que service lié dans l’espace de travail.

L’une des utilisations les plus courantes de Spark consiste à utiliser des données dans un lac de données, où vous pouvez lire et écrire des fichiers dans plusieurs formats couramment utilisés, notamment du texte délimité, Parquet, Avro et autres.