Apache Spark no Azure Databricks

O Apache Spark está no centro da Plataforma de Inteligência de Dados do Azure Databricks e é a tecnologia que alimenta clusters de computação e sql warehouses. O Azure Databricks é uma plataforma otimizada para Apache Spark que fornece uma plataforma eficiente e simples para executar cargas de trabalho do Apache Spark.

Qual é a relação do Apache Spark com o Azure Databricks?

A empresa Databricks foi fundada pelos criadores originais do Apache Spark. Como um projeto de software livre, o Apache Spark tem committers de muitas das principais empresas, incluindo Databricks.

O Databricks continua a desenvolver e liberar recursos para o Apache Spark. O Databricks Runtime, que alimenta o Azure Databricks, inclui otimizações adicionais e recursos proprietários que se baseiam e estendem o Apache Spark, incluindo o Photon, uma camada de execução otimizada que pode ser usada em conjunto com o Spark. O Databricks Photon foi projetado para trabalhar e melhorar o desempenho das cargas de trabalho do Apache Spark. O Photon aprimora o desempenho do Spark vetorizando consultas e outras operações, permitindo uma execução mais rápida das operações de API do SQL e do DataFrame.

Como o Databricks é otimizado para o Apache Spark?

No Apache Spark, todas as operações são definidas como transformações ou ações.

Transformações: adicione alguma lógica de processamento ao plano. Exemplos incluem leitura de dados, junções, agregações e conversão de tipos.
Ações: disparar a lógica de processamento para avaliar e gerar um resultado. Exemplos incluem gravações, exibição ou visualização de resultados, cache manual ou obtenção da contagem de linhas.

O Apache Spark usa um modelo de execução lento , o que significa que nenhuma lógica definida por uma coleção de operações é avaliada até que uma ação seja disparada. Para evitar uma avaliação desnecessária da lógica, use apenas ações para salvar os resultados em uma tabela de destino.

Como as ações representam um gargalo de processamento para otimizar a lógica, o Azure Databricks adicionou várias otimizações sobre as já presentes no Apache Spark para garantir a execução lógica ideal. Essas otimizações consideram todas as transformações disparadas por uma determinada ação de uma só vez e encontram o plano ideal com base no layout físico dos dados. Fazer cache dos dados manualmente ou retornar resultados de prévia em pipelines de produção pode interromper essas otimizações e levar a aumentos de custo e latência.

Como o Apache Spark funciona no Azure Databricks?

Quando você implanta um cluster de computação ou sql warehouse no Azure Databricks, o Apache Spark é configurado e implantado em máquinas virtuais. Você não precisa configurar nem inicializar um contexto do Spark ou uma sessão do Spark, pois elas são gerenciadas para você pelo Azure Databricks.

Posso usar o Azure Databricks sem usar o Apache Spark?

Sim. O Azure Databricks dá suporte a uma variedade de cargas de trabalho e inclui bibliotecas de software livre no Databricks Runtime. O Databricks SQL usa o Photon no capô, mas os usuários finais podem usar a sintaxe do Spark SQL para criar e consultar objetos de banco de dados com o Photon.

O Databricks Runtime para Machine Learning é otimizado para cargas de trabalho de ML e muitos cientistas de dados usam bibliotecas de software livre primárias, como TensorFlow e SciKit Learn, enquanto trabalham no Azure Databricks. Você pode usar trabalhos para agendar cargas de trabalho arbitrárias em relação aos recursos de computação implantados e gerenciados pelo Azure Databricks.

Por que usar o Apache Spark no Azure Databricks?

A plataforma Databricks fornece um ambiente seguro e colaborativo para desenvolver e implantar soluções empresariais que são dimensionadas com sua empresa. Os funcionários do Databricks incluem muitos dos mantenedores e usuários do Apache Spark mais experientes do mundo. A empresa desenvolve e lança continuamente novas otimizações para garantir que os usuários possam acessar o ambiente mais rápido para executar o Apache Spark.

Como posso saber mais sobre como usar o Apache Spark no Azure Databricks?

Para começar a usar o Apache Spark no Azure Databricks, mergulhe diretamente! O tutorial do Apache Spark DataFrames explica como carregar e transformar dados em Python, R ou Scala. Veja Tutorial: Carregar e transformar dados usando Apache Spark DataFrames. Para obter outros guias e links para obter informações adicionais, consulte Apache Spark no Azure Databricks.

Para obter informações adicionais sobre o suporte à linguagem Python, R e Scala no Spark, consulte pySpark no Azure Databricks, sparklyr e Azure Databricks para desenvolvedores do Scala, bem como em Referência para APIs do Apache Spark.

Comentários

Esta página foi útil?

Last updated on 2025-09-18