Introducción

Completado

Apache Spark proporciona una plataforma eficaz para realizar tareas de limpieza y transformación de datos en grandes volúmenes de datos. Mediante el uso del objeto dataframe de Spark , puede cargar fácilmente datos de archivos en un lago de datos y realizar modificaciones complejas. Después, puede volver a guardar los datos transformados en el lago de datos para su procesamiento o ingesta en un almacenamiento de datos.

Azure Synapse Analytics proporciona grupos de Apache Spark que puede usar para ejecutar cargas de trabajo de Spark para transformar datos como parte de una carga de trabajo de ingesta y preparación de datos. Puede usar cuadernos compatibles de forma nativa para escribir y ejecutar código en un grupo de Spark para preparar los datos para el análisis. A continuación, puede usar otras funcionalidades de Azure Synapse Analytics, como los grupos de SQL, para trabajar con los datos transformados.