Modo de alta simultaneidade no Apache Spark para o Fabric

O modo de alta simultaneidade permite que os usuários compartilhem as mesmas sessões do Spark no Spark para Fabric nas cargas de trabalho da engenharia de dados e ciência de dados. Um item como um notebook utiliza uma sessão padrão do Spark para sua execução. No modo de alta simultaneidade, a sessão Spark pode dar suporte a execução independente de vários itens dentro de núcleos individuais de loop de leitura-avaliação-impressão (REPL) que existem dentro do aplicativo Spark. Esses núcleos REPL fornecem isolamento para cada item e impedem que as variáveis locais do notebook sejam substituídas por variáveis com o mesmo nome de outros notebooks que compartilham a mesma sessão.

Como a sessão já está em execução, isso fornece aos usuários uma experiência de execução instantânea ao reutilizar a sessão em vários notebooks.

Observação

No caso de pools personalizados com modo de alta simultaneidade, os usuários obtêm uma experiência de início de sessão 36 vezes mais rápida em comparação com uma sessão padrão do Spark.

Importante

As condições de compartilhamento de sessão incluem:

As sessões devem estar dentro de um limite de usuário único.
As sessões devem ter a mesma configuração padrão de lakehouse.
As sessões devem ter as mesmas propriedades de computação do Spark.

Como parte da inicialização da sessão do Spark, um núcleo REPL é criado. Toda vez que um novo item começa a compartilhar a mesma sessão e os executores são alocados de maneira baseada em FAIR para esses notebooks em execução nesses núcleos REPL dentro do aplicativo Spark, prevenindo cenários de inanição.

Cobrança de sessões de alta concorrência

Ao usar o modo de alta simultaneidade, somente a sessão de início que inicia o aplicativo Spark compartilhado é cobrada. Todas as sessões subsequentes que compartilham a mesma sessão do Spark não incorrem em cobrança adicional. Essa abordagem permite otimização de custos para equipes e usuários que executam várias cargas de trabalho simultâneas em um contexto compartilhado.

📌 Exemplo:

Um usuário inicia o Notebook 1, que inicia uma sessão do Spark no modo de alta simultaneidade.
A mesma sessão é compartilhada pelo Bloco de Anotações 2, Bloco de Anotações 3, Bloco de Anotações 4 e Bloco de Anotações 5.
Nesse caso, somente o Notebook 1 será cobrado pelo uso de computação do Spark.
Os blocos de anotações compartilhados (2 a 5) não serão cobrados individualmente.

Esse comportamento de cobrança também é refletido nas Métricas de Capacidade – o uso será relatado somente no notebook inicial (Notebook 1, nesse caso).

Observação

O mesmo comportamento de cobrança se aplica quando o modo de alta simultaneidade é usado dentro de atividades de pipeline – somente o notebook ou a atividade que inicia a sessão do Spark é cobrada.

Para começar a usar o modo de alta simultaneidade em notebooks, confira Configurar o modo de alta simultaneidade para notebooks do Fabric.

Comentários

Esta página foi útil?

Last updated on 2025-11-26

Compartilhar via

Modo de alta simultaneidade no Apache Spark para o Fabric

Cobrança de sessões de alta concorrência

📌 Exemplo:

Conteúdo relacionado

Comentários

Recursos adicionais