Compartilhar via


Enfileiramento de trabalhos no Apache Spark para Microsoft Fabric

Aplica-se a:✅ Engenharia e Ciência de Dados no Microsoft Fabric

O Microsoft Fabric oferece suporte ao enfileiramento de trabalhos em segundo plano quando você atinge os limites de computação do Spark para sua capacidade do Fabric. O sistema de enfileiramento de trabalhos oferece novas tentativas automáticas para trabalhos que são adicionados à fila até que eles atinjam a expiração da fila. Quando os usuários criam uma capacidade do Microsoft Fabric no Azure, eles podem escolher um tamanho de capacidade com base no tamanho da carga de trabalho de análise.

Após adquirirem a capacidade, os administradores podem criar workspaces dentro da capacidade no Microsoft Fabric. Os trabalhos do Spark executados nesses espaços de trabalho podem usar até o máximo de núcleos alocados para uma determinada capacidade e, uma vez atingido o limite máximo, os trabalhos são limitados ou enfileirados.

Saiba mais sobre Limites de simultaneidade do Spark no Microsoft Fabric

Há suporte para filas de trabalhos em trabalhos do Notebook e definições de trabalho do Spark que são acionadas por pipelines ou por meio do agendador. Não há suporte para filas para trabalhos interativos de notebook e trabalhos de notebook disparados por meio da API pública do notebook.

A fila opera de maneira FIFO (First-In-First-Out), onde os trabalhos são adicionados à fila com base na hora de envio e são constantemente repetidos até começarem a ser executados quando a capacidade é liberada.

Observação

Não há suporte para filas de trabalhos do Spark quando a capacidade do Fabric está em seu estado limitado. Os novos trabalhos enviados serão rejeitados.

Como funciona o enfileiramento de tarefas

Quando um trabalho do Spark é enviado, se a capacidade do Fabric já estiver no limite máximo de computação, o trabalho não poderá ser executado imediatamente. Nesses casos, você pode enfileirar a tarefa para execução. Use as seguintes etapas para enfileirar um notebook de um pipeline:

  1. Crie um novo item de Pipeline e uma nova atividade de Pipeline dentro dele para executar o notebook.

  2. Na atividade de pipeline, abra a guia Configurações e escolha o bloco de anotações que você deseja enfileirar e executar o pipeline.

    Captura de tela mostrando como executar um notebook de um pipeline.

  3. O trabalho entra na fila FIFO. Navegue até o Hub Monitor e observe que o status do trabalho é Não Iniciado, indicando que foi enfileirado e está aguardando capacidade.

  4. À medida que os trabalhos existentes são concluídos e liberam recursos de computação, os trabalhos da fila são captados. Quando a execução começa, o status é alterado de Não Iniciado para Em Andamento. A fila expira após 24 horas para todos os trabalhos a partir do momento em que eles foram admitidos na fila. Depois que o tempo de expiração for atingido, os trabalhos deverão ser reenviados.

Tamanhos da fila

O Fabric Spark impõe os tamanhos das filas com base no tamanho do SKU de capacidade associado a um espaço de trabalho, fornecendo um mecanismo de limitação e enfileiramento em que os usuários podem enviar trabalhos com base nos SKUs de capacidade do Fabric adquiridos.

A seção a seguir lista vários tamanhos de filas para cargas de trabalho do Spark baseadas em SKUs de capacidade do Microsoft Fabric:

SKU de capacidade do Fabric SKU equivalente do Power BI Limite de fila
F2 - 4
F4 - 4
F8 - 8
F16 - 16
F32 - 32
F64 P1 64
F128 P2 128
F256 P3 256
F512 P4 512
F1024 - 1024
F2048 - 2.048
Capacidade de avaliação P1 NA

Observação

Não há suporte para filas para capacidades de avaliação do Fabric. Os usuários teriam que alternar para uma SKU F ou P paga do Fabric a fim de usar enfileiramento para trabalhos do Spark.

Depois que o limite máximo de fila for atingido para uma capacidade do Fabric, os novos trabalhos enviados serão limitados com uma mensagem de erro [TooManyRequestsForCapacity] Esse trabalho do Spark não pode ser executado porque você atingiu um limite de computação do Spark ou um limite de taxa de API. Para executar esse trabalho do Spark, cancele um trabalho ativo do Spark por meio do Hub de monitoramento, escolha uma SKU de maior capacidade ou tente novamente mais tarde. Código de status HTTP: 430 {Saiba mais} Código de status HTTP: 430.