Présentation
Apache Spark fournit une plateforme puissante pour effectuer des tâches de nettoyage et de transformation des données sur de grands volumes de données. À l’aide de l’objet dataframe spark, vous pouvez facilement charger des données à partir de fichiers dans un lac de données et effectuer des modifications complexes. Vous pouvez ensuite enregistrer les données transformées dans le lac de données pour le traitement ou l’ingestion en aval dans un entrepôt de données.
Azure Synapse Analytics fournit des pools Apache Spark que vous pouvez utiliser pour exécuter des charges de travail Spark pour transformer des données dans le cadre d’une charge de travail d’ingestion et de préparation des données. Vous pouvez utiliser des notebooks pris en charge en mode natif pour écrire et exécuter du code sur un pool Spark pour préparer des données à des fins d’analyse. Vous pouvez ensuite utiliser d’autres fonctionnalités Azure Synapse Analytics telles que des pools SQL pour travailler avec les données transformées.