Introdução

Concluído

O Apache Spark fornece uma plataforma poderosa para executar tarefas de limpeza e transformação de dados em grandes volumes de dados. Usando o dataframe do Spark objeto, você pode facilmente carregar dados de arquivos em um data lake e executar modificações complexas. Em seguida, você pode salvar os dados transformados de volta no data lake para processamento ou ingestão downstream em um data warehouse.

O Azure Synapse Analytics fornece pools do Apache Spark que você pode usar para executar cargas de trabalho do Spark para transformar dados como parte de uma carga de trabalho de preparação e ingestão de dados. Você pode usar notebooks com suporte nativo para gravar e executar código em um pool do Spark para preparar dados para análise. Em seguida, você pode usar outros recursos do Azure Synapse Analytics, como pools de SQL, para trabalhar com os dados transformados.