Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Apache Spark est la technologie qui alimente les clusters de calcul et les entrepôts SQL dans Azure Databricks.
Cette page fournit une vue d’ensemble de la documentation de cette section.
Get started
Commencez à utiliser Apache Spark sur Databricks.
| Sujet | Descriptif |
|---|---|
| Apache Spark sur Azure Databricks | Obtenez des réponses aux questions fréquemment posées sur Apache Spark sur Azure Databricks. |
| Tutoriel : charger et transformer des données en utilisant DataFrames Apache Spark | Suivez un guide pas à pas pour utiliser des DataFrames Spark en Python, R ou Scala pour le chargement et la transformation des données. |
| Principes de base de PySpark | Découvrez les principes de base de l’utilisation de PySpark en parcourant des exemples simples. |
Ressources supplémentaires
Explorez d’autres fonctionnalités et documentation Spark.
| Sujet | Descriptif |
|---|---|
| Comparer Spark Connect à Spark Classic | Découvrez les principales différences entre Spark Connect et Spark Classic dans le comportement d’exécution et d’analyse pour éviter les problèmes inattendus de comportement et de performances lors de la migration du code. |
| Définir les propriétés de configuration Spark sur Azure Databricks | Définissez les propriétés de configuration Spark pour personnaliser les paramètres dans votre environnement de calcul et optimiser les performances. |
| Diffusion en continu structurée | Lisez une vue d’ensemble de Structured Streaming, un moteur de traitement en temps quasi réel. |
| Diagnostiquer des problèmes de coût et de performances à l’aide de l’interface utilisateur Spark | Apprenez à utiliser l’interface utilisateur Spark pour l’optimisation des performances, le débogage et l’optimisation des coûts des travaux Spark. |
| Utiliser Apache Spark MLlib sur Azure Databricks | Machine Learning distribué à l’aide de Spark MLlib et de l’intégration à des frameworks ML populaires. |
API Spark
Utilisez Spark à l’aide de votre langage de programmation préféré.
| Sujet | Descriptif |
|---|---|
| Informations de référence sur les API Apache Spark | Vue d’ensemble de la référence d’API pour Apache Spark, y compris des liens vers des références pour les opérations Spark SQL, DataFrames et RDD dans les langages pris en charge. |
| PySpark | Utilisez Python avec Spark, notamment les concepts de base de PySpark, les sources de données personnalisées et les optimisations spécifiques à Python. |
| API Pandas sur Spark | Tirez parti de la syntaxe pandas familière avec l’extensibilité de Spark pour le traitement des données distribuées. |
| R pour Spark | Utilisez R et Spark à l’aide de SparkR et sparklyr pour l’informatique statistique et l’analyse des données. |
| Scala pour Spark | Créez des applications Spark hautes performances à l’aide de Scala avec des API Spark natives et une sécurité de type. |