Transforme dados com o Apache Spark e consulte com SQL

Neste guia, você irá:

Carregue dados para o OneLake com o explorador de arquivos do OneLake.
Use um notebook do Fabric para ler dados no OneLake e escrever de volta como uma tabela Delta.
Analise e transforme dados com o Spark usando um bloco de anotações Fabric.
Consulte uma cópia dos dados no OneLake com SQL.

Pré-requisitos

Antes de começar, deve:

Transfira e instale o explorador de ficheiros OneLake.
Crie um espaço de trabalho com um item Lakehouse.
Faça o download do conjunto de dados WideWorldImportersDW. Pode usar o Explorador de Armazenamento do Azure para se conectar a https://fabrictutorialdata.blob.core.windows.net/sampledata/WideWorldImportersDW/csv/full/dimension_city e descarregar o conjunto de ficheiros csv. Ou você pode usar seus próprios dados csv e atualizar os detalhes conforme necessário.

Carregar dados

Nesta secção, são carregados dados de teste para o teu lakehouse utilizando o explorador de ficheiros OneLake.

No explorador de arquivos do OneLake, navegue até sua casa do lago e crie um subdiretório chamado dimension_city sob o diretório /Files.
Copie seus arquivos csv de exemplo para o diretório OneLake usando o explorador /Files/dimension_city de arquivos OneLake.
Navegue até sua casa do lago no serviço Power BI ou Fabric e exiba seus arquivos.

Criar uma tabela Delta

Nesta seção, você converte os arquivos CSV não gerenciados em uma tabela gerenciada usando o formato Delta.

Nota

Certifiquem-se de sempre criar, carregar, ou criar um atalho para dados do Delta-Parquet diretamente na secção Tabelas do lakehouse. Não aninhe as suas tabelas em subpastas sob a seção Tabelas. O lakehouse não reconhece subpastas como tabelas e rotula-as como Não Identificadas.

Na casa do lago, selecione Abrir bloco de anotaçõese, em seguida, Novo bloco de anotações para criar um bloco de anotações.
Usando o Fabric notebook, converta os arquivos CSV para o formato Delta. O trecho de código a seguir lê dados do diretório /Files/dimension_city criado pelo usuário e os converte em uma tabela dim_cityDelta.

Copie o trecho de código para o editor de células do bloco de anotações. Substitua os espaços reservados pelos seus próprios detalhes do workspace e, depois, selecione Executar célula ou Executar tudo.
```
import os
from pyspark.sql.types import *
for filename in os.listdir("/lakehouse/default/Files/dimension_city"):
    df=spark.read.format('csv').options(header="true",inferSchema="true").load("abfss://<YOUR_WORKSPACE_NAME>@onelake.dfs.fabric.microsoft.com/<YOUR_LAKEHOUSE_NAME>.Lakehouse/Files/dimension_city/"+filename,on_bad_lines="skip")
    df.write.mode("overwrite").format("delta").save("Tables/dim_city")
```
Dica

Você pode recuperar o caminho ABFS completo para seu diretório clicando com o botão direito do mouse no nome do diretório e selecionando Copiar caminho ABFS.
Para ver a nova tabela, atualize a exibição do /Tables diretório. Selecione mais opções (...) ao lado do diretório Tabelas e, em seguida, selecione Atualizar.

Consultar e modificar dados

Nesta secção, usa um notebook do Fabric para interagir com os dados na sua tabela.

Consulte a tabela com SparkSQL no mesmo notebook do Fabric.
```
%%sql
SELECT * from <LAKEHOUSE_NAME>.dim_city LIMIT 10;
```

Modifique a tabela Delta adicionando uma nova coluna chamada newColumn com número inteiro do tipo de dados. Defina o valor de 9 para todos os registros desta coluna recém-adicionada.

%%sql

ALTER TABLE <LAKEHOUSE_NAME>.dim_city ADD COLUMN newColumn int;

UPDATE <LAKEHOUSE_NAME>.dim_city SET newColumn = 9;

SELECT City,newColumn FROM <LAKEHOUSE_NAME>.dim_city LIMIT 10;

Você também pode acessar qualquer tabela Delta no OneLake por meio de um ponto de extremidade de análise SQL. Um endereço de análise SQL refere-se à mesma cópia física da tabela Delta no OneLake e proporciona a experiência T-SQL.

Navegue até o seu Lakehouse e selecione Lakehouse>ponto de extremidade de análises SQL no menu suspenso.
Selecione Nova Consulta SQL para consultar a tabela usando T-SQL.
Copie e cole o código a seguir no editor de consultas e selecione Executar.
```
SELECT TOP (100) * FROM [<LAKEHOUSE_NAME>].[dbo].[dim_city];
```

Conectar-se ao ADLS usando um atalho do OneLake

Feedback

Esta página foi útil?

Last updated on 2025-03-20