Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Este artículo tiene como objetivo proporcionar instrucciones claras y fundamentadas para la programación de trabajos de producción. Mediante el uso de los tipos de proceso adecuados para el flujo de trabajo, puede mejorar el rendimiento y ahorrar costos.
| Práctica recomendada | Impacto | Documentación |
|---|---|---|
| Si no está familiarizado con Azure Databricks, empiece por usar tipos de instancia de uso general de uso completo | Al seleccionar el tipo de instancia adecuado para la carga de trabajo, se obtiene una mayor eficacia. | |
| Utilice el modo de acceso estándar, a menos que la característica necesaria no esté admitida. | El proceso de computación con el modo de acceso estándar puede ser utilizado por varios usuarios con aislamiento de datos entre usuarios. | |
| Use los tipos de instancia de última generación si hay suficiente disponibilidad | La última generación de tipos de instancia proporciona el mejor rendimiento y las características más recientes. | |
| Establezca el equilibrio de instancias puntuales y a petición en función de la rapidez con la que necesita que se ejecute la carga de trabajo | Las instancias de spot ahorran costos, pero pueden afectar al tiempo de ejecución general de una operación si se reclaman las instancias de spot. | |
| Elija el tamaño de los nodos y el número de trabajos en función de los tipos de operaciones que realiza la carga de trabajo | Por ejemplo, si espera una gran cantidad de orden aleatorios, puede ser más eficaz usar un nodo único grande en lugar de varios nodos más pequeños. | |
| Ejecute el vacío en un clúster con el escalado automático establecido para 1-4 trabajos, donde cada trabajador tiene 8 núcleos. Seleccione un controlador con entre 8 y 32 núcleos. Aumente el tamaño del controlador si obtiene errores de memoria insuficiente (OOM). |
Las instrucciones de vacío se producen en dos fases, la segunda de las cuales es driver-heavy. Si no usa el clúster de tamaño correcto, la operación podría provocar una ralentización y podría no realizarse correctamente. |
|
| Evaluar si el flujo de trabajo por lotes se beneficiaría de Photon | Photon proporciona consultas más rápidas y reduce el costo total por carga de trabajo. |