Partilhar via


Guia de início rápido: analisar com o Apache Spark

Neste tutorial, você aprenderá as etapas básicas para carregar e analisar dados com o Apache Spark for Azure Synapse.

Pré-requisitos

Certifique-se de ter colocado os dados de exemplo na conta de armazenamento principal.

Criar um pool do Apache Spark sem servidor

  1. No Synapse Studio, no painel esquerdo, selecione Gerenciar>pools do Apache Spark.
  2. Selecione Novo
  3. Para o nome do pool do Apache Spark, digite Spark1.
  4. For Node size enter Small.
  5. Para Número de nós Defina o mínimo para 3 e o máximo para 3
  6. Select Review + create>Create. Seu pool Apache Spark estará pronto em alguns segundos.

Entenda os pools do Apache Spark sem servidor

Um pool do Spark sem servidor é uma maneira de indicar como um usuário deseja trabalhar com o Spark. Quando você começa a usar um pool, uma sessão do Spark é criada, se necessário. O pool controla quantos recursos do Spark serão usados por essa sessão e quanto tempo a sessão durará antes de ser pausada automaticamente. Você paga pelos recursos de Spark usados durante esta sessão e não pela piscina em si. Desta forma, um pool do Spark permite que você use o Apache Spark sem gerenciar clusters. Isso é semelhante ao funcionamento de um pool SQL sem servidor.

Analise os dados do NYC Taxi com um pool Spark

Nota

Certifique-se de ter colocado os dados de exemplo na conta de armazenamento principal.

  1. In Synapse Studio, go to the Develop hub.

  2. Crie um novo bloco de notas.

  3. Crie uma nova célula de código e cole o seguinte código nessa célula:

    %%pyspark
    df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet')
    display(df.limit(10))
    
  4. Modifique o URI de carga, para que ele faça referência ao arquivo de exemplo em sua conta de armazenamento de acordo com o esquema de URI abfss.

  5. In the notebook, in the Attach to menu, choose the Spark1 serverless Spark pool that we created earlier.

  6. Selecione Executar na célula. Synapse iniciará uma nova sessão do Spark para executar esta célula, se necessário. Se uma nova sessão do Spark for necessária, inicialmente levará cerca de 2 a 5 minutos para ser criada. Uma vez que uma sessão é criada, a execução da célula levará cerca de 2 segundos.

  7. Se você quiser apenas ver o esquema do dataframe, execute uma célula com o seguinte código:

    %%pyspark
    df.printSchema()
    

Carregue os dados do NYC Taxi no banco de dados nyctaxi do Spark

Os dados estão disponíveis através do dataframe denominado df. Carregue-o em um banco de dados do Spark chamado nyctaxi.

  1. Adicione uma nova célula de código ao bloco de notas e, em seguida, introduza o seguinte código:

    %%pyspark
    spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi")
    df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
    

Analise os dados dos táxis de Nova Iorque usando o Spark e notebooks

  1. Crie uma nova célula de código e insira o código a seguir.

    %%pyspark
    df = spark.sql("SELECT * FROM nyctaxi.trip") 
    display(df)
    
  2. Run the cell to show the NYC Taxi data we loaded into the nyctaxi Spark database.

  3. Crie uma nova célula de código e insira o código a seguir. Vamos analisar esses dados e salvar os resultados em uma tabela chamada nyctaxi.passengercountstats.

    %%pyspark
    df = spark.sql("""
       SELECT passenger_count,
           SUM(trip_distance) as SumTripDistance,
           AVG(trip_distance) as AvgTripDistance
       FROM nyctaxi.trip
       WHERE trip_distance > 0 AND passenger_count > 0
       GROUP BY passenger_count
       ORDER BY passenger_count
    """) 
    display(df)
    df.write.saveAsTable("nyctaxi.passengercountstats")
    
  4. Nos resultados da célula, selecione Gráfico para ver os dados visualizados.

Próximo passo