Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo mostra como criar pools personalizados do Apache Spark no Microsoft Fabric para suas cargas de trabalho de análise. Os pools do Apache Spark permitem criar ambientes de computação personalizados com base em seus requisitos, para que você obtenha o desempenho ideal e o uso de recursos.
Especifique os nós mínimos e máximos para dimensionamento automático. O sistema obtém e retira nós à medida que as necessidades de computação do trabalho mudam, assim, o dimensionamento é eficiente e o desempenho melhora. Os pools do Spark ajustam o número de executores automaticamente para que você não precise defini-los manualmente. O sistema ajusta a quantidade de executores com base no volume de dados e nas necessidades de computação do trabalho, permitindo que você se concentre em suas cargas de trabalho em vez de ajustes de desempenho e gerenciamento de recursos.
Dica
Quando você configura pools do Spark, o tamanho do nó é determinado pelas Unidades de Capacidade (), que representam a capacidade de computação atribuída a cada nó. Para obter mais informações sobre tamanhos de nó e CU, consulte a seção Opções de tamanho de nó neste guia.
Pré-requisitos
Para criar um pool personalizado do Spark, verifique se você tem acesso de administrador ao workspace. O administrador de capacidade habilita a opção pools de espaços de trabalho personalizados na seção Computação do Spark nas configurações do Administrador de Capacidade. Para obter mais informações, consulte Configurações de Computação do Spark para Capacidades de Malha.
Criar pools personalizados do Spark
Para criar ou gerenciar o pool do Spark associado ao seu workspace:
Vá para seu workspace e selecione Configurações do workspace.
Selecione a opção Engenharia de Dados/Ciência para expandir o menu e selecione configurações do Spark.
Selecione a opção Novo Pool. Na tela Criar Pool, nomeie o pool do Spark. Escolha também a Família do Nó e selecione um Tamanho do nó dos tamanhos disponíveis (Pequeno, Médio, Grande, Extra grande e Super extra grande), com base nos requisitos de computação para suas cargas de trabalho.
Você também pode definir a configuração mínima do nó para os pools personalizados como 1. Como o Fabric Spark fornece disponibilidade restaurável para clusters com um único nó, você não precisa se preocupar com falhas de tarefas, interrupção de sessão durante falhas ou pagar em excesso por computação para tarefas menores do Spark.
Você pode habilitar ou desabilitar o dimensionamento automático para seus pools personalizados do Spark. Quando o dimensionamento automático estiver habilitado, o pool adquirirá dinamicamente novos nós até o limite máximo de nós especificado pelo usuário, e os desativará após a execução do trabalho. Esse recurso garante um melhor desempenho ajustando os recursos com base nos requisitos de trabalho. Você tem permissão para dimensionar os nós, que se ajustam às unidades de capacidade adquiridas como parte do SKU de capacidade do Fabric.
Você pode ajustar o número de executores usando um controle deslizante. Cada executor é um processo do Spark que executa tarefas e mantém dados na memória. Aumentar executores pode melhorar o paralelismo, mas também aumenta o tamanho e o tempo de inicialização do cluster. Você também pode optar por habilitar a alocação de executor dinâmico para o pool do Spark, que determina automaticamente o número ideal de executores dentro do limite máximo especificado pelo usuário. Esse recurso ajusta o número de executores com base no volume de dados, resultando em melhor desempenho e utilização de recursos.
Esses pools personalizados têm uma duração padrão de pausa automática de 2 minutos após o término do período de inatividade. Quando a duração da pausa automática for atingida, a sessão expirará e os clusters serão desalocados. Você é cobrado com base no número de nós e na duração para a qual os pools personalizados do Spark são usados.
Nota
Atualmente, os pools personalizados do Spark no Microsoft Fabric têm um limite máximo de 200 nós. Ao configurar o dimensionamento automático ou definir contagens manuais de nó, verifique se seus valores mínimos e máximos permanecem dentro desse limite. Exceder esse limite resultará em erros de validação durante a criação ou atualização do pool.
Opções de tamanho do nó
Ao configurar um pool personalizado do Spark, você escolhe entre os seguintes tamanhos de nós:
| Tamanho de nó | vCores | Memória (GB) | Descrição |
|---|---|---|---|
| Pequeno | 4 | 32 | Para trabalhos leves de desenvolvimento e teste. |
| Médio | oito | 64 | Para cargas de trabalho gerais e operações típicas. |
| Grande | 16 | 128 | Para tarefas com uso intensivo de memória ou trabalhos de processamento de dados grandes. |
| Extragrande | 32 | 256 | Para as cargas de trabalho do Spark mais exigentes que necessitam de recursos significativos. |
Conteúdo relacionado
- Saiba mais na documentação pública do Apache Spark .
- Introdução às Configurações de administração de workspace do Spark no Microsoft Fabric.