Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Os notebooks do Microsoft Fabric dão suporte à interação perfeita com os dados do Lakehouse usando o Pandas, a biblioteca Python mais popular para exploração e processamento de dados. Em um notebook, você pode ler rapidamente os dados e gravar dados de volta em seus recursos do Lakehouse em vários formatos de arquivo. Este guia fornece exemplos de código para ajudá-lo a começar a usar seu próprio notebook.
Pré-requisitos
Obtenha uma assinatura do Microsoft Fabric. Ou, inscreva-se para uma avaliação gratuita do Microsoft Fabric.
Entre no Microsoft Fabric.
Alterne para o Fabric usando o alternador de experiências no canto inferior esquerdo da página inicial.
- Conclua as etapas em Preparar seu sistema para tutoriais de ciência de dados para criar um novo bloco de anotações e anexar um Lakehouse a ele. Para este artigo, siga as etapas para criar um novo bloco de anotações em vez de importar um existente.
Carregar dados do Lakehouse em um notebook
Observação
Você precisa de alguns dados em seu Lakehouse para seguir as etapas desta seção. Se você não tiver dados, siga as etapas em Baixar conjunto de dados e carregue no lakehouse para adicionar o arquivo churn.csv ao Lakehouse.
Depois de anexar um Lakehouse ao bloco de anotações do Microsoft Fabric, você poderá explorar os dados armazenados sem sair da página e lê-los no bloco de anotações com apenas algumas etapas. Selecionar qualquer arquivo lakehouse exibe opções para "Carregar dados" em um DataFrame spark ou Pandas. Também é possível copiar o caminho completo do ABFS do arquivo ou um caminho relativo amigável.
Selecionar um dos prompts "Carregar dados" gera uma célula de código que carrega o arquivo em um DataFrame em seu notebook.
Como converter um DataFrame do Spark em um DataFrame do Pandas
Para referência, este comando mostra como converter um DataFrame do Spark em um DataFrame pandas:
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
Leitura e gravação de vários formatos de arquivo
Observação
Modificar a versão de um pacote específico pode potencialmente interromper outros pacotes que dependem dele. Por exemplo, o downgrade azure-storage-blob pode causar problemas com Pandas e várias outras bibliotecas que dependem de Pandas, incluindo mssparkutils, fsspec_wrapper e notebookutils.
Você poderá exibir a lista de pacotes pré-instalados e suas versões para cada runtime aqui.
Esses exemplos de código demonstram operações do Pandas para ler e gravar vários formatos de arquivo. Esses exemplos não devem ser executados sequencialmente como em um tutorial, mas sim para serem copiados e colados em seu próprio bloco de anotações, conforme necessário.
Observação
É necessário substituir os caminhos de arquivo nesses exemplos de código. O Pandas é compatível com caminhos relativos, conforme mostrado aqui, e a caminhos completos do ABFS. Você pode recuperar e copiar caminhos de qualquer tipo da interface usando as etapas anteriores.
Ler dados de um arquivo CSV
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
Gravar dados como um arquivo CSV
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
Explorar dados de um arquivo Parquet
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
Gravar dados em um arquivo Parquet
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
Ler dados de um arquivo do Excel
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
# If the file is in a subfolder, add the correct file path after Files/
# For the default lakehouse attached to the notebook, use: df = pd.read_excel("/lakehouse/default/Files/FILENAME.xlsx")
df = pd.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
Gravar dados como um arquivo do Excel
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
Escolha dados de um arquivo JSON
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
Gravar dados como um arquivo JSON
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
Trabalhando com tabelas Delta
As tabelas delta são o formato de tabela padrão no Microsoft Fabric e são armazenadas na seção Tabelas do Lakehouse. Ao contrário dos arquivos, as tabelas Delta exigem um processo de duas etapas para funcionar com pandas: primeiro leia a tabela em um DataFrame do Spark e converta-a em um DataFrame pandas.
Criar uma tabela Delta de teste
Para seguir as etapas desta seção, você precisa de uma tabela Delta em seu Lakehouse. Siga as etapas em Baixar conjunto de dados e carregue no lakehouse para adicionar o arquivo churn.csv ao Lakehouse e crie uma tabela de teste do arquivo churn.csv executando este código em seu notebook:
import pandas as pd
# Create a test Delta table from the churn.csv file
df = pd.read_csv("/lakehouse/default/Files/churn/raw/churn.csv")
spark_df = spark.createDataFrame(df)
spark_df.write.format("delta").mode("overwrite").saveAsTable("churn_table")
Isso cria uma tabela Delta chamada churn_table que você pode usar para testar os exemplos abaixo.
Ler dados de uma tabela Delta
# Read a Delta table from your Lakehouse into a pandas DataFrame
# This example uses the churn_table created above
spark_df = spark.read.format("delta").load("Tables/churn_table")
pandas_df = spark_df.toPandas()
display(pandas_df)
Você também pode ler tabelas Delta usando a sintaxe do Spark SQL:
# Alternative method using Spark SQL
spark_df = spark.sql("SELECT * FROM churn_table")
pandas_df = spark_df.toPandas()
display(pandas_df)
Gravar DataFrame do Pandas em uma tabela Delta
# Convert pandas DataFrame to Spark DataFrame, then save as Delta table
# Replace TABLE_NAME with your desired table name
spark_df = spark.createDataFrame(pandas_df)
spark_df.write.format("delta").mode("overwrite").saveAsTable("TABLE_NAME")
Você também pode salvar em um caminho específico na seção Tabelas:
# Save to a specific path in the Tables section
spark_df = spark.createDataFrame(pandas_df)
spark_df.write.format("delta").mode("overwrite").save("Tables/TABLE_NAME")
Modos de gravação para tabelas Delta
Ao gravar em tabelas Delta, você pode especificar modos diferentes:
# Overwrite the entire table
spark_df.write.format("delta").mode("overwrite").saveAsTable("TABLE_NAME")
# Append new data to existing table
spark_df.write.format("delta").mode("append").saveAsTable("TABLE_NAME")
Observação
As tabelas delta criadas na seção Tabelas do Lakehouse são detectáveis sem nenhuma etapa adicional de registro ou configuração e podem ser consultadas usando o SQL do Spark. Eles também aparecem na interface do Lakehouse Explorer (talvez seja necessário atualizar o Lakehouse Explorer para ver as alterações recentes).
Conteúdo relacionado
- Usar o Data Wrangler para limpar e preparar seus dados
- Iniciar o treinamento de modelos de ML