Partager via


Vue d’ensemble d’Apache Spark

Apache Spark est la technologie qui alimente les clusters de calcul et les entrepôts SQL dans Azure Databricks.

Cette page fournit une vue d’ensemble de la documentation de cette section.

Get started

Commencez à utiliser Apache Spark sur Databricks.

Sujet Descriptif
Apache Spark sur Azure Databricks Obtenez des réponses aux questions fréquemment posées sur Apache Spark sur Azure Databricks.
Tutoriel : charger et transformer des données en utilisant DataFrames Apache Spark Suivez un guide pas à pas pour utiliser des DataFrames Spark en Python, R ou Scala pour le chargement et la transformation des données.
Principes de base de PySpark Découvrez les principes de base de l’utilisation de PySpark en parcourant des exemples simples.

Ressources supplémentaires

Explorez d’autres fonctionnalités et documentation Spark.

Sujet Descriptif
Comparer Spark Connect à Spark Classic Découvrez les principales différences entre Spark Connect et Spark Classic dans le comportement d’exécution et d’analyse pour éviter les problèmes inattendus de comportement et de performances lors de la migration du code.
Définir les propriétés de configuration Spark sur Azure Databricks Définissez les propriétés de configuration Spark pour personnaliser les paramètres dans votre environnement de calcul et optimiser les performances.
Diffusion en continu structurée Lisez une vue d’ensemble de Structured Streaming, un moteur de traitement en temps quasi réel.
Diagnostiquer des problèmes de coût et de performances à l’aide de l’interface utilisateur Spark Apprenez à utiliser l’interface utilisateur Spark pour l’optimisation des performances, le débogage et l’optimisation des coûts des travaux Spark.
Utiliser Apache Spark MLlib sur Azure Databricks Machine Learning distribué à l’aide de Spark MLlib et de l’intégration à des frameworks ML populaires.

API Spark

Utilisez Spark à l’aide de votre langage de programmation préféré.

Sujet Descriptif
Informations de référence sur les API Apache Spark Vue d’ensemble de la référence d’API pour Apache Spark, y compris des liens vers des références pour les opérations Spark SQL, DataFrames et RDD dans les langages pris en charge.
PySpark Utilisez Python avec Spark, notamment les concepts de base de PySpark, les sources de données personnalisées et les optimisations spécifiques à Python.
API Pandas sur Spark Tirez parti de la syntaxe pandas familière avec l’extensibilité de Spark pour le traitement des données distribuées.
R pour Spark Utilisez R et Spark à l’aide de SparkR et sparklyr pour l’informatique statistique et l’analyse des données.
Scala pour Spark Créez des applications Spark hautes performances à l’aide de Scala avec des API Spark natives et une sécurité de type.