Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Este artículo contiene recomendaciones y recursos para configurar la computación para trabajos de Lakeflow.
Importante
Entre las limitaciones del proceso sin servidor para los trabajos se incluyen las siguientes:
- No se admite la programación continua.
- No se admiten desencadenadores de intervalos predeterminados o basados en tiempo en Structured Streaming.
Para obtener más limitaciones, consulte Limitaciones de proceso sin servidor.
Cada trabajo puede tener una o varias tareas. Los recursos de proceso se definen para cada tarea. Varias tareas definidas para el mismo trabajo pueden usar el mismo recurso de proceso.
¿Cuál es el proceso recomendado para cada tarea?
En la tabla siguiente se indican los tipos de proceso recomendados y admitidos para cada tipo de tarea.
Nota:
El proceso sin servidor para trabajos tiene limitaciones y no admite todas las cargas de trabajo. Consulte Limitaciones de proceso sin servidor.
| Tarea | Proceso recomendado | Proceso admitido |
|---|---|---|
| Cuaderno | Trabajos sin servidor | Trabajos sin servidor, trabajos clásicos, uso completo clásico |
| Script de Python | Trabajos sin servidor | Trabajos sin servidor, trabajos clásicos, uso completo clásico |
| Paquete wheel de Python | Trabajos sin servidor | Trabajos sin servidor, trabajos clásicos, uso completo clásico |
| SQL | Almacén de SQL sin servidor | Almacén de SQL sin servidor por almacén SQL |
| Canalizaciones declarativas de Spark de Lakeflow | Canalización sin servidor | Canalización sin servidor, canalización clásica |
| dbt | Almacén de SQL sin servidor | Almacén de SQL sin servidor por almacén SQL |
| Comandos de la CLI de dbt | Trabajos sin servidor | Trabajos sin servidor, trabajos clásicos, uso completo clásico |
| TARRO | Trabajos clásicos | Trabajos clásicos, uso completo clásico |
| Envío de Spark | Trabajos clásicos | Trabajos clásicos |
Los precios de los trabajos de Lakeflow están vinculados a los recursos de cómputo utilizados para ejecutar tareas. Para más información, consulte precios de Databricks.
¿Cómo se configura el proceso para trabajos?
La computación de trabajos clásicos se configura directamente desde la interfaz de usuario de trabajos de Lakeflow, y estas configuraciones forman parte de la definición del puesto. Todos los demás tipos de proceso disponibles almacenan sus configuraciones con otros recursos del área de trabajo. En la tabla siguiente se muestran más detalles:
| Tipo de proceso | Detalles |
|---|---|
| Proceso de trabajos clásicos | El proceso se configura para trabajos clásicos con la misma interfaz de usuario y la misma configuración disponible para el proceso multiuso. Consulta Referencia de configuración de proceso. |
| Proceso sin servidor para trabajos | El proceso sin servidor para los trabajos es el valor predeterminado para todas las tareas que lo admiten. Databricks administra la configuración de proceso para el proceso sin servidor. Consulte Ejecutar tus trabajos de Lakeflow con computación sin servidor para flujos de trabajo. |
| Almacenes de SQL | Los administradores del área de trabajo o los usuarios configuran los almacenes de SQL sin servidor y pro con privilegios de creación de clústeres sin restricciones. Las tareas se configuran para que se ejecuten en los almacenes de SQL existentes. Consulte Conectarse a un almacén SQL. |
| Proceso de canalizaciones declarativas de Spark de Lakeflow | Configura los ajustes de computación para las canalizaciones declarativas de Spark de Lakeflow durante la configuración de la canalización. Consulte Configurar el cálculo clásico para canalizaciones. Azure Databricks gestiona los recursos de computación para las canalizaciones declarativas de Spark de Lakeflow sin servidor. Consulte Configuración de una canalización sin servidor. |
| Proceso multiuso | Opcionalmente, puede configurar tareas mediante el proceso multiuso clásico. Databricks no recomienda esta configuración para los trabajos de producción. Consulte Referencia de configuración de proceso y ¿se debe usar algún proceso multiuso para los trabajos?. |
Uso compartido del proceso entre tareas
Configure las tareas para usar los mismos recursos de proceso de trabajos para optimizar el uso de recursos con trabajos que orquestan varias tareas. El uso compartido del proceso entre tareas puede reducir la latencia asociada a los tiempos de inicio.
Puede usar un único recurso de proceso de trabajo para ejecutar todas las tareas que forman parte del trabajo o varios recursos de trabajo optimizados para cargas de trabajo específicas. Cualquier proceso de trabajo configurado como parte de un trabajo está disponible para todas las demás tareas del trabajo.
En la tabla siguiente se resaltan las diferencias entre el proceso de trabajo configurado para una sola tarea y el proceso de trabajo compartido entre tareas:
| Tarea única | Compartido entre tareas | |
|---|---|---|
| Iniciar | Cuando se inicia la ejecución de la tarea. | Cuando se configura la primera ejecución de la tarea para usar el recurso de proceso. |
| Terminar | Después de que se ejecute la tarea. | Después de la tarea final configurada para usar los recursos de proceso, se ejecuta. |
| Proceso inactivo | No aplicable. | El proceso permanece inactivo mientras las tareas no usan la ejecución del recurso de proceso. |
Un clúster de trabajos compartidos está limitado a una sola ejecución del trabajo y no lo pueden usar otros trabajos ni ejecuciones del mismo trabajo.
En una configuración de clúster de trabajos compartidos no se pueden usar las bibliotecas. Debe agregar bibliotecas dependientes en la configuración de tareas.
Revisión, configuración e intercambio de proceso de trabajos
En la sección Proceso del panel Detalles del trabajo se enumeran todos los procesos configurados para las tareas del trabajo actual.
Las tareas configuradas para usar un recurso de proceso se resaltan en el gráfico de tareas al mantener el puntero sobre la especificación de proceso.
Use el botón Intercambiar para cambiar el proceso de todas las tareas asociadas a un recurso de proceso.
Los recursos de proceso de trabajos clásicos tienen una opción Configurar. Otros recursos de proceso proporcionan opciones para ver y modificar los detalles de configuración de proceso.
Más información
Para más información sobre cómo configurar trabajos clásicos de Azure Databricks, consulte Procedimientos recomendados para configurar trabajos clásicos de Lakeflow.