Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Remarque
Cet article couvre l’intégration sparklyr à Databricks Connect pour Databricks Runtime 13.0 et versions ultérieures. Cette intégration n’est ni fournie par Databricks ni directement prise en charge par Databricks.
Pour des questions, accédez à la Communauté Posit.
Pour signaler des problèmes, accédez à la section Problèmes du référentiel sparklyr dans GitHub.
Pour plus d’informations, consultez Databricks Connect v2 dans la documentation sparklyr.
Databricks Connect vous permet de connecter des environnements de développement intégré (IDE) populaires tels que RStudio Desktop, des serveurs notebook et d’autres applications personnalisées aux clusters Azure Databricks. Consultez Qu’est-ce que Databricks Connect ?.
Remarque
Databricks Connect a une compatibilité limitée avec Apache Spark MLlib, car Spark MLlib utilise des RDD, tandis que Databricks Connect prend uniquement en charge l’API DataFrame. Pour utiliser toutes les fonctions Spark MLlib de sparklyr, utilisez les notebooks Databricks ou la fonction db_repl du package brickster.
Cet article explique comment démarrer rapidement avec Databricks Connect pour R en utilisant sparklyr et RStudio Desktop.
- Pour Databricks Connect pour Python, consultez Databricks Connect pour Python.
- Pour Databricks Connect pour Scala, consultez Databricks Connect pour Scala.
Didacticiel
Dans le tutoriel suivant, vous allez créer un projet dans RStudio, installer et configurer Databricks Connect pour Databricks Runtime 13.3 LTS et versions ultérieures, puis exécuter du code simple sur le calcul dans votre espace de travail Databricks à partir de RStudio. Pour plus d’informations sur ce tutoriel, consultez la section « Databricks Connect » de Spark Connect et Databricks Connect v2 sur le site web sparklyr.
Ce tutoriel utilise RStudio Desktop et Python 3.10. Si vous ne les avez pas déjà installés, installez R et RStudio Desktop et Python 3.10.
Spécifications
Pour suivre ce tutoriel, vous devez répondre aux exigences suivantes :
- Votre espace de travail et cluster Azure Databricks cible doivent répondre aux exigences de configuration de calcul pour Databricks Connect.
- Vous devez disposer de votre ID de cluster. Pour obtenir votre ID de cluster, dans votre espace de travail, cliquez sur Calcul dans la barre latérale, puis sur le nom de votre cluster. Dans la barre d’adresses de votre navigateur web, copiez la chaîne de caractères entre
clustersetconfigurationdans l’URL.
Étape 1 : créer un jeton d’accès personnel
Remarque
Actuellement, l’authentification Databricks Connect pour R prend uniquement en charge les jetons d’accès personnels Azure Databricks.
Ce tutoriel utilise l’authentification par jeton d’accès personnel Azure Databricks pour l’authentification dans votre espace de travail Azure Databricks.
Si vous n’avez pas encore de jeton d’accès personnel Azure Databricks, passez à l’étape 2. Si vous ne savez pas si vous disposez déjà d’un jeton d’accès personnel Azure Databricks, vous pouvez suivre cette étape sans affecter les autres jetons d’accès personnel Azure Databricks de votre compte d’utilisateur.
Pour créer un jeton d’accès personnel, suivez les étapes décrites dans Créer des jetons d’accès personnels pour les utilisateurs de l’espace de travail.
Étape 2 : créer le projet
- Démarrez RStudio Desktop.
- Dans le menu principal, cliquez sur Fichier > Nouveau projet.
- Sélectionnez Nouveau répertoire.
- Sélectionnez Nouveau projet.
- Pour le nom du répertoire et créer un projet en tant que sous-répertoire, entrez le nom du nouveau répertoire de projet et l’emplacement où créer ce répertoire de projet.
- Sélectionnez Utiliser renv avec ce projet. Si vous êtes invité à installer une version mise à jour du package
renv, cliquez sur Oui. - Cliquez sur Create Project (Créer le projet).
Étape 3 : ajouter le package Databricks Connect et d’autres dépendances
Dans le menu principal de RStudio Desktop, cliquez sur Outils > Installer des packages.
Laissez Installer à partir de défini sur le Référentiel (CRAN).
Pour Packages, entrez la liste suivante de packages qui sont requis pour le package Databricks Connect et ce tutoriel :
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyrLaissez Installer dans la bibliothèque défini sur votre environnement virtuel R.
Vérifiez que Installer les dépendances est sélectionné.
Cliquez sur Installer.
Lorsque vous êtes invité dans la vue Console (Afficher > Déplacer le focus vers la console) à poursuivre l’installation, entrez
Y. Les packagessparklyretpysparklyrainsi que leurs dépendances sont installés dans votre environnement virtuel R.Dans le volet Console, utilisez
reticulatepour installer Python en exécutant la commande suivante. (Databricks Connect pour R nécessite l’installation préalable dereticulateet Python.) Dans la commande suivante, remplacez3.10par la version principale et mineure de la version Python installée sur votre cluster Azure Databricks. Pour trouver cette version majeure et mineure, consultez la section « Environnement système » des notes de publication pour la version Databricks Runtime de votre cluster dans la section Versions et compatibilité des notes de publication de Databricks Runtime.reticulate::install_python(version = "3.10")Dans le volet Console, installez le package Databricks Connect en exécutant la commande suivante. Dans la commande suivante, remplacez
13.3par la version de Databricks Runtime installée sur votre cluster Azure Databricks. Pour trouver cette version, dans la page des détails de votre cluster dans votre espace de travail Azure Databricks, sous l’onglet Configuration , consultez la zone Version du runtime Databricks .pysparklyr::install_databricks(version = "13.3")Si vous ne connaissez pas la version de Databricks Runtime de votre cluster ou si vous ne souhaitez pas la rechercher, vous pouvez exécuter la commande suivante à la place et
pysparklyrinterrogera le cluster pour déterminer la version correcte de Databricks Runtime à utiliser :pysparklyr::install_databricks(cluster_id = "<cluster-id>")Si vous souhaitez que votre projet se connecte ultérieurement à un autre cluster qui a la même version de Databricks Runtime que celle que vous venez de spécifier,
pysparklyrutilisera le même environnement Python. Si le nouveau cluster a une autre version de Databricks Runtime, vous devez réexécuter la commandepysparklyr::install_databricksavec la nouvelle version de Databricks Runtime ou l’ID de cluster.
Étape 4 : définir des variables d’environnement pour l’URL de l’espace de travail, le jeton d’accès et l’ID de cluster
Databricks ne vous recommande pas de coder en dur des valeurs sensibles ou modifiables telles que l’URL de votre espace de travail Azure Databricks, le jeton d’accès personnel Azure Databricks ou l’ID de cluster Azure Databricks dans vos scripts R. Au lieu de cela, stockez ces valeurs séparément, par exemple dans des variables d’environnement locales. Ce tutoriel utilise la prise en charge intégrée de RStudio Desktop pour stocker des variables d’environnement dans un .Renviron fichier.
Créez un fichier
.Renvironpour stocker les variables d’environnement, si ce fichier n’existe pas déjà, puis ouvrez ce fichier pour la modification : dans la console de RStudio Desktop, exécutez la commande suivante :usethis::edit_r_environ()Dans le fichier
.Renvironqui s’affiche (Afficher > Déplacer le focus vers la source), entrez le contenu suivant. Dans ce contenu, remplacez les espaces réservés suivants :- Remplacez
<workspace-url>par votre URL par espace de travail, par exemplehttps://adb-1234567890123456.7.azuredatabricks.net. - Remplacez
<personal-access-token>par votre jeton d’accès personnel Azure Databricks obtenu à l’étape 1. - Remplacez
<cluster-id>par l'ID de votre cluster conformément aux exigences de ce didacticiel.
DATABRICKS_HOST=<workspace-url> DATABRICKS_TOKEN=<personal-access-token> DATABRICKS_CLUSTER_ID=<cluster-id>- Remplacez
Enregistrez le fichier
.Renviron.Chargez les variables d’environnement dans R : dans le menu principal, cliquez sur Session > Redémarrer R.
Étape 5 : ajouter un code
Dans le menu principal de RStudio Desktop, cliquez sur Fichier > Nouveau fichier > Script R.
Entrez le code suivant dans le fichier, puis enregistrez le fichier (Fichier > Enregistrer) en tant que
demo.R:library(sparklyr) library(dplyr) library(dbplyr) sc <- sparklyr::spark_connect( master = Sys.getenv("DATABRICKS_HOST"), cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"), token = Sys.getenv("DATABRICKS_TOKEN"), method = "databricks_connect", envname = "r-reticulate" ) trips <- dplyr::tbl( sc, dbplyr::in_catalog("samples", "nyctaxi", "trips") ) print(trips, n = 5)
Étape 6 : Exécuter le code
Dans RStudio Desktop, dans la barre d’outils du fichier
demo.R, cliquez sur Source.
Dans la console, les cinq premières lignes de la table
tripss’affichent.Dans la vue Connexions (Afficher > Afficher les connexions), vous pouvez explorer les catalogues, schémas, tables et vues disponibles.
Étape 7 : Déboguer le code
- Dans le fichier
demo.R, cliquez sur la gouttière en regard deprint(trips, n = 5)pour définir un point d’arrêt. - Dans la barre d’outils du fichier
demo.R, cliquez sur Source. - Lorsque le code arrête l’exécution au point d’arrêt, vous pouvez inspecter la variable dans la vue Environnement (Afficher > Afficher l’environnement).
- Dans le menu principal, cliquez sur Déboguer > Continuer.
- Dans la console, les cinq premières lignes de la table
tripss’affichent.