Compartir a través de


Colas de trabajos en Apache Spark para Microsoft Fabric Spark

Se aplica a:✅ Ingeniería de datos y ciencia de datos en Microsoft Fabric

Microsoft Fabric admite la puesta en cola de trabajos en segundo plano cuando haya alcanzado los límites de proceso de Spark para la capacidad de Fabric. El sistema de puesta en cola de trabajos ofrece reintentos automáticos para los trabajos que se agregan a la cola hasta que vencen. Cuando los usuarios crean una capacidad de Microsoft Fabric en Azure, eligen un tamaño de capacidad en función de su tamaño de carga de trabajo de análisis.

Una vez adquirida la capacidad, los administradores pueden crear áreas de trabajo dentro de ella en Microsoft Fabric. Los trabajos de Spark que se ejecutan dentro de estas áreas de trabajo pueden usar hasta el máximo de núcleos asignados para una capacidad determinada y, una vez alcanzado el límite máximo, los trabajos se limitan o se ponen en cola.

Más información sobre los Límites de simultaneidad de Spark en Microsoft Fabric

La cola de trabajos es compatible con trabajos de Notebook y definiciones de trabajos de Spark desencadenadas por canalizaciones o a través del programador. La cola no es compatible con trabajos interactivos de cuadernos y trabajos de cuaderno desencadenados a través de la API pública del cuaderno.

La cola funciona con el criterio “primero en entrar, primero en salir” (PEPS, FIFO por las siglas en inglés), donde los trabajos se agregan a la cola en función de la hora de envío y se reintentan constantemente, y comienzan a ejecutarse cuando se libera la capacidad.

Nota:

No se admite la puesta en cola de trabajos de Spark cuando la capacidad de Fabric está en su estado limitado. Se rechazarán todos los nuevos trabajos enviados.

Funcionamiento de la cola de trabajos

Cuando se envía un trabajo de Spark, si la capacidad de Fabric ya está en su límite máximo de proceso, el trabajo no se puede ejecutar inmediatamente. En tales casos, puede poner en cola el trabajo para su ejecución. Siga estos pasos para poner en cola un cuaderno desde una canalización:

  1. Cree un nuevo elemento de canalización y una nueva actividad de canalización dentro de ella para ejecutar el cuaderno.

  2. En la actividad de canalización, abra la pestaña Configuración y elija el cuaderno que desea poner en cola y Ejecutar la canalización.

    Captura de pantalla que muestra cómo ejecutar un cuaderno desde una canalización.

  3. El trabajo entra en la cola FIFO. Vaya al centro de supervisión y observe que el estado del trabajo no está iniciado , lo que indica que se ha puesto en cola y está esperando capacidad.

  4. A medida que los trabajos existentes se completan y liberan recursos de proceso, se seleccionan los trabajos de la cola. Cuando comienza la ejecución, el estado cambia de No iniciado a En curso. La cola expira después de 24 horas para todos los trabajos desde el momento en que se admitieron en la cola. Una vez alcanzado el tiempo de expiración, los trabajos deben volver a enviarse.

Tamaños de cola

Los tamaños de cola de Fabric Spark se basan en el tamaño de SKU de capacidad vinculado a un espacio de trabajo, que aplica un mecanismo de limitación y cola que permite a los usuarios enviar trabajos en función de las SKU de capacidad de Fabric compradas.

En la sección siguiente se enumeran varios límites de cola para cargas de trabajo de Spark basados en SKU de capacidad de Microsoft Fabric:

SKU de capacidad de Fabric SKU de Power BI equivalente Límite de cola
F2 - 4
F4 - 4
F8 - 8
F16 - 16
F32 - 32
F64 P1 64
F128 P2 128
F256 P3 256
F512 P4 512
F1024 - 1024
F2048 - 2048
Capacidad de prueba P1 N/D

Nota:

La cola no se admite para las capacidades de prueba de Fabric. Los usuarios tendrían que cambiar a una SKU de Fabric F o P de pago para usar la puesta en cola de trabajos de Spark.

Una vez alcanzado el límite máximo de cola para una capacidad de Fabric, los nuevos trabajos enviados se limitarán con el mensaje de error [TooManyRequestsForCapacity] Este trabajo de Spark no se puede ejecutar porque se ha alcanzado un límite de velocidad de proceso o API de Spark. Para ejecutar este trabajo de Spark, cancela un trabajo activo de Spark a través del centro de supervisión, elige una SKU de capacidad mayor o inténtalo de nuevo más tarde. Código de estado HTTP: 430 {Más información} Código de estado HTTP: 430.