Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Neste tutorial, você aprenderá as etapas básicas para carregar e analisar dados com o Apache Spark for Azure Synapse.
Pré-requisitos
Certifique-se de ter colocado os dados de exemplo na conta de armazenamento principal.
Criar um pool do Apache Spark sem servidor
- No Synapse Studio, no painel esquerdo, selecione Gerenciar>pools do Apache Spark.
- Selecione Novo
- Para o nome do pool do Apache Spark, digite Spark1.
- For Node size enter Small.
- Para Número de nós Defina o mínimo para 3 e o máximo para 3
- Select Review + create>Create. Seu pool Apache Spark estará pronto em alguns segundos.
Entenda os pools do Apache Spark sem servidor
Um pool do Spark sem servidor é uma maneira de indicar como um usuário deseja trabalhar com o Spark. Quando você começa a usar um pool, uma sessão do Spark é criada, se necessário. O pool controla quantos recursos do Spark serão usados por essa sessão e quanto tempo a sessão durará antes de ser pausada automaticamente. Você paga pelos recursos de Spark usados durante esta sessão e não pela piscina em si. Desta forma, um pool do Spark permite que você use o Apache Spark sem gerenciar clusters. Isso é semelhante ao funcionamento de um pool SQL sem servidor.
Analise os dados do NYC Taxi com um pool Spark
Nota
Certifique-se de ter colocado os dados de exemplo na conta de armazenamento principal.
In Synapse Studio, go to the Develop hub.
Crie um novo bloco de notas.
Crie uma nova célula de código e cole o seguinte código nessa célula:
%%pyspark df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet') display(df.limit(10))Modifique o URI de carga, para que ele faça referência ao arquivo de exemplo em sua conta de armazenamento de acordo com o esquema de URI abfss.
In the notebook, in the Attach to menu, choose the Spark1 serverless Spark pool that we created earlier.
Selecione Executar na célula. Synapse iniciará uma nova sessão do Spark para executar esta célula, se necessário. Se uma nova sessão do Spark for necessária, inicialmente levará cerca de 2 a 5 minutos para ser criada. Uma vez que uma sessão é criada, a execução da célula levará cerca de 2 segundos.
Se você quiser apenas ver o esquema do dataframe, execute uma célula com o seguinte código:
%%pyspark df.printSchema()
Carregue os dados do NYC Taxi no banco de dados nyctaxi do Spark
Os dados estão disponíveis através do dataframe denominado df. Carregue-o em um banco de dados do Spark chamado nyctaxi.
Adicione uma nova célula de código ao bloco de notas e, em seguida, introduza o seguinte código:
%%pyspark spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi") df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
Analise os dados dos táxis de Nova Iorque usando o Spark e notebooks
Crie uma nova célula de código e insira o código a seguir.
%%pyspark df = spark.sql("SELECT * FROM nyctaxi.trip") display(df)Run the cell to show the NYC Taxi data we loaded into the nyctaxi Spark database.
Crie uma nova célula de código e insira o código a seguir. Vamos analisar esses dados e salvar os resultados em uma tabela chamada nyctaxi.passengercountstats.
%%pyspark df = spark.sql(""" SELECT passenger_count, SUM(trip_distance) as SumTripDistance, AVG(trip_distance) as AvgTripDistance FROM nyctaxi.trip WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count ORDER BY passenger_count """) display(df) df.write.saveAsTable("nyctaxi.passengercountstats")Nos resultados da célula, selecione Gráfico para ver os dados visualizados.