Partager via


Utiliser un notebook pour charger des données dans votre lakehouse

Dans ce tutoriel, découvrez comment lire/écrire des données dans votre lakehouse Fabric avec un notebook. Fabric prend en charge l’API Spark et l’API Pandas pour atteindre cet objectif.

Charger des données avec une API Apache Spark

Dans la cellule de code du notebook, utilisez l’exemple de code suivant pour lire des données à partir de la source et les charger dans les sections Fichiers, Tables, ou dans les deux de votre lakehouse.

Pour spécifier l’emplacement à partir duquel lire, vous pouvez utiliser le chemin relatif si les données proviennent du lakehouse par défaut de votre bloc-notes actuel. Ou, si les données proviennent d’un autre lakehouse, vous pouvez utiliser le chemin absolu du système de fichiers blob Azure (ABFS). Copiez ce chemin à partir du menu contextuel des données.

Capture d’écran montrant l’option de menu de l’action de copie.

Copier le chemin ABFS : cette option retourne le chemin absolu du fichier.

Copier le chemin relatif de Spark : cette option retourne le chemin relatif du fichier dans votre lakehouse par défaut.

df = spark.read.parquet("location to read from") 

# Keep it if you want to save dataframe as CSV files to Files section of the default lakehouse

df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)

# Keep it if you want to save dataframe as Parquet files to Files section of the default lakehouse

df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)

# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default lakehouse

df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)

# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table

df.write.mode("append").format("delta").saveAsTable(delta_table_name)

Charger des données avec l’API Pandas

Pour prendre en charge l’API Pandas, le lakehouse par défaut est automatiquement monté sur le notebook. Le point de montage est /lakehouse/default/. Vous pouvez utiliser ce point de montage pour lire/écrire des données depuis/vers le lakehouse par défaut. L’option « Copier le chemin d’accès de l’API fichier » dans le menu contextuel retourne le chemin d’accès de l’API fichier à partir de ce point de montage. Le chemin retourné à partir de l’option Copier le chemin ABFS fonctionne également pour l’API Pandas.

Important

Le point de montage /lakehouse/default/ est disponible uniquement dans les notebooks informatiques. Pour les définitions de travaux Spark, utilisez des chemins ABFS et reportez-vous à la documentation des définitions de travaux Spark.

Capture d’écran montrant l’option de menu du chemin d’accès de l’API copier un fichier.

Copier le chemin d’accès de l’API Fichier : cette option retourne le chemin sous le point de montage du lakehouse par défaut.

Option 1 : Utilisation du point de montage lakehouse par défaut (recommandé pour le même lakehouse)

import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")

Option 2 : Utilisation de chemins ABFS (requis pour différentes définitions de travaux Lakehouses ou Spark)

# Path structure: abfss://WorkspaceName@msit-onelake.dfs.fabric.microsoft.com/LakehouseName.Lakehouse/Files/filename
import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")

Conseil / Astuce

Pour l’API Spark, utilisez l’option Copier le chemin ABFS ou Copier le chemin relatif pour Spark pour obtenir le chemin du fichier. Pour l’API Pandas, utilisez l’option Copier le chemin d’accès ABFS ou Copier le chemin d'accès de l'API de fichier afin d'obtenir le chemin du fichier.

Le moyen le plus rapide d’utiliser le code avec l’API Spark ou l’API Pandas consiste à utiliser l’option Charger des données et à sélectionner l’API que vous souhaitez utiliser. Le code est généré automatiquement dans une nouvelle cellule de code du notebook.

Capture d’écran montrant où sélectionner l’option charger des données.