Einleitung

Abgeschlossen

Apache Spark bietet eine leistungsstarke Plattform zum Ausführen von Datenbereinigungs- und Transformationsaufgaben auf großen Datenmengen. Mithilfe des Spark dataframe-Objekts können Sie daten aus Dateien in einem Datensee problemlos laden und komplexe Änderungen vornehmen. Anschließend können Sie die transformierten Daten zur nachgelagerten Verarbeitung oder Aufnahme in ein Data Warehouse wieder im Data Lake speichern.

Azure Synapse Analytics bietet Apache Spark-Pools, mit denen Sie Spark-Workloads ausführen können, um Daten als Teil einer Datenaufnahme- und Vorbereitungsworkload zu transformieren. Sie können systemeigene unterstützte Notizbücher verwenden, um Code in einem Spark-Pool zu schreiben und auszuführen, um Daten für die Analyse vorzubereiten. Anschließend können Sie andere Azure Synapse Analytics-Funktionen wie SQL-Pools verwenden, um mit den transformierten Daten zu arbeiten.