Compartilhar via


Visão geral do Apache Spark

O Apache Spark é a tecnologia que alimenta clusters de computação e sql warehouses no Azure Databricks.

Esta página fornece uma visão geral da documentação nesta seção.

Introdução

Comece a trabalhar com o Apache Spark no Databricks.

Tópico Description
Apache Spark no Azure Databricks Obtenha respostas para perguntas frequentes sobre o Apache Spark no Azure Databricks.
Tutorial: Carregar e transformar dados usando Apache Spark DataFrames Siga um guia passo a passo para trabalhar com DataFrames do Spark em Python, R ou Scala para carregamento e transformação de dados.
Noções básicas do PySpark Conheça as noções básicas de como usar o PySpark percorrendo exemplos simples.

Recursos adicionais

Explore outros recursos e documentação do Spark.

Tópico Description
Comparar o Spark Connect com o Spark Classic Saiba mais sobre as principais diferenças entre o Spark Connect e o Spark Classic no comportamento de execução e análise para evitar problemas inesperados de comportamento e desempenho ao migrar código.
Definir propriedades de configuração do Spark no Azure Databricks Defina as propriedades de configuração do Spark para personalizar as configurações em seu ambiente de computação e otimizar o desempenho.
Streaming estruturado Leia uma visão geral do Streaming Estruturado, um mecanismo de processamento quase em tempo real.
Diagnosticar problemas de custo e desempenho usando a interface do usuário do Spark Saiba como usar a interface do usuário do Spark para ajuste de desempenho, depuração e otimização de custos de trabalhos do Spark.
Usar o Apache Spark MLlib no Azure Databricks Aprendizado de máquina distribuído usando o Spark MLlib e a integração com estruturas ML populares.

Spark APIs

Trabalhe com o Spark usando sua linguagem de programação preferida.

Tópico Description
Referência para APIs do Apache Spark Visão geral de referência da API para Apache Spark, incluindo links para referência para operações SQL, DataFrames e RDD do Spark em linguagens com suporte.
PySpark Use o Python com Spark, incluindo noções básicas do PySpark, fontes de dados personalizadas e otimizações específicas do Python.
API do Pandas no Spark Aproveite a sintaxe familiar do Pandas com a escalabilidade do Spark para processamento de dados distribuídos.
R para Spark Trabalhe com r e Spark usando SparkR e sparklyr para computação estatística e análise de dados.
Scala para Spark Crie aplicativos Spark de alto desempenho usando o Scala com APIs nativas do Spark e segurança de tipo.