Compartir a través de


Hoja de referencia rápida de creación de proceso

Este artículo tiene como objetivo proporcionar instrucciones claras y fundamentadas para la programación de trabajos de producción. Mediante el uso de los tipos de proceso adecuados para el flujo de trabajo, puede mejorar el rendimiento y ahorrar costos.

Práctica recomendada Impacto Documentación
Si no está familiarizado con Azure Databricks, empiece por usar tipos de instancia de uso general de uso completo Al seleccionar el tipo de instancia adecuado para la carga de trabajo, se obtiene una mayor eficacia.
Utilice el modo de acceso estándar, a menos que la característica necesaria no esté admitida. El proceso de computación con el modo de acceso estándar puede ser utilizado por varios usuarios con aislamiento de datos entre usuarios.
Use los tipos de instancia de última generación si hay suficiente disponibilidad La última generación de tipos de instancia proporciona el mejor rendimiento y las características más recientes.
Establezca el equilibrio de instancias puntuales y a petición en función de la rapidez con la que necesita que se ejecute la carga de trabajo Las instancias de spot ahorran costos, pero pueden afectar al tiempo de ejecución general de una operación si se reclaman las instancias de spot.
Elija el tamaño de los nodos y el número de trabajos en función de los tipos de operaciones que realiza la carga de trabajo Por ejemplo, si espera una gran cantidad de orden aleatorios, puede ser más eficaz usar un nodo único grande en lugar de varios nodos más pequeños.
Ejecute el vacío en un clúster con el escalado automático establecido para 1-4 trabajos, donde cada trabajador tiene 8 núcleos.
Seleccione un controlador con entre 8 y 32 núcleos. Aumente el tamaño del controlador si obtiene errores de memoria insuficiente (OOM).
Las instrucciones de vacío se producen en dos fases, la segunda de las cuales es driver-heavy. Si no usa el clúster de tamaño correcto, la operación podría provocar una ralentización y podría no realizarse correctamente.
Evaluar si el flujo de trabajo por lotes se beneficiaría de Photon Photon proporciona consultas más rápidas y reduce el costo total por carga de trabajo.