Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
La actividad Azure Databricks en Data Factory para Microsoft Fabric le permite orquestar los siguientes trabajos de Azure Databricks:
- Ordenador portátil
- Jar
- Pitón
- Job
En este artículo se proporciona un tutorial paso a paso que describe cómo crear una actividad de Azure Databricks mediante la interfaz de Data Factory.
Requisitos previos
Para empezar, debe completar los siguientes requisitos previos:
- Una cuenta de inquilino con una suscripción activa. Cree una cuenta gratuita.
- Se crea un área de trabajo.
Configuración de una actividad de Azure Databricks
Para usar una actividad de Azure Databricks en una canalización, complete los pasos siguientes:
Configuración de la conexión
Cree una canalización en el área de trabajo.
Seleccione Agregar actividad de canalización y busque Azure Databricks.
Alternativamente, puede buscar Azure Databricks en el panel Actividades de la canalización y seleccionarlo para añadirlo al lienzo de la canalización.
Seleccione la nueva actividad de Azure Databricks en el lienzo si aún no está seleccionada.
Consulte las instruccionesgenerales para configurar la pestaña de parámetros General.
Configuración de clústeres
Seleccione la pestañaClúster. A continuación, puede elegir una conexión Azure Databricks existente o crear una nuevay luego elegir un nuevo clúster de trabajounclúster interactivo existente, o ungrupo de instancias existente.
En función de lo que elija para el clúster, rellene los campos correspondientes como se muestra.
- En el nuevo clúster de trabajos y en el grupo de instancias existente, también tienes la capacidad de configurar el número de trabajadores y habilitar instancias de acceso puntual.
También puede especificar otras opciones de configuración del clúster, como la directiva de clúster, la configuración de Spark, las variables de entorno de Spark y las etiquetas personalizadas, según sea necesario para el clúster al que se conecta. scripts de inicialización de Databricks y ruta de acceso de destino del registro de clúster también se pueden agregar en la configuración adicional del clúster.
Nota:
Todas las propiedades avanzadas del clúster y las expresiones dinámicas compatibles con el servicio vinculado de Azure Data Factory Azure Databricks ahora también son compatibles en la actividad de Azure Databricks de Microsoft Fabric, en la sección "Configuración de clúster adicional" de la interfaz de usuario. Como estas propiedades se incluyen ahora en la interfaz de usuario de actividad, se pueden usar con una expresión (contenido dinámico) sin necesidad de la especificación JSON avanzada.
La actividad de Azure Databricks ahora también admite el soporte para la directiva de clústeres y Unity Catalog.
- En Configuración avanzada, puede elegir la directiva de clúster para especificar qué configuraciones de clúster se permiten.
- Además, en opciones avanzadas, puede configurar el modo de acceso al catálogo de Unity para mayor seguridad. Los tipos de modo de acceso disponibles son:
- Modo de acceso de usuario único Este modo está diseñado para escenarios en los que un único usuario utiliza cada clúster. Garantiza que el acceso a los datos en el clúster está restringido solo a ese usuario. Este modo es útil para las tareas que requieren aislamiento y gestión de datos individuales.
- Modo de acceso compartido En este modo, varios usuarios pueden acceder al mismo clúster. Combina la gobernanza de datos de Unity Catalog con las listas de control de acceso (ACL) de tablas heredadas. Este modo permite el acceso de datos colaborativos, además de mantener los protocolos de gobernanza y seguridad. Sin embargo, tiene ciertas limitaciones, como no admitir Databricks Runtime ML, trabajos de envío de Spark y API de Spark específicas y UDF.
- Sin modo de acceso Este modo deshabilita la interacción con el catálogo de Unity, lo que significa que los clústeres no tienen acceso a los datos administrados por Unity Catalog. Este modo es útil para las cargas de trabajo que no requieren las características de gobernanza del Catálogo de Unity.
Configuración de opciones
Al seleccionar la pestaña Configuración , puede elegir entre 4 opciones que azure Databricks escriba que desea organizar.
Orquestación del tipo de Notebook en la actividad de Azure Databricks:
En la pestaña Configuración, puede elegir el botón de radio Notebook para ejecutar un cuaderno. Debe especificar la ruta del notebook que se ejecutará en Azure Databricks, los parámetros base opcionales que se pasarán al notebook y las bibliotecas adicionales que se instalarán en el clúster para ejecutar el trabajo.
Orquestación del tipo Jar en la actividad de Azure Databricks:
En la pestaña Configuración, puede elegir el botón de radio Jar para ejecutar un archivo Jar. Debe especificar el nombre de clase que se va a ejecutar en Azure Databricks, los parámetros base opcionales que se van a pasar al archivo Jar y las bibliotecas adicionales que se van a instalar en el clúster para ejecutar el trabajo.
Orquestación del tipo de Python en la actividad de Azure Databricks:
En la pestaña Configuración, puede elegir el botón de radioPython para ejecutar un archivo de Python. Debe especificar la ruta de acceso de Azure Databricks a un archivo de Python que se va a ejecutar, los parámetros base opcionales que se van a pasar y las bibliotecas adicionales que se van a instalar en el clúster para ejecutar el trabajo.
Orquestación del tipo de trabajo en la actividad de Azure Databricks:
En la pestaña Configuración , puede elegir el botón de radio Trabajo para ejecutar un trabajo de Databricks. Debe especificar el Trabajo mediante la lista desplegable que se va a ejecutar en Azure Databricks y pasar los parámetros opcionales del Trabajo. Puede ejecutar trabajos sin servidor con esta opción.
Bibliotecas admitidas para la actividad de Azure Databricks
En la definición de actividad de Databricks anterior, puede especificar estos tipos de biblioteca: jar, egg, whl, maven, pypi, cran.
Para más información, consulte la documentación de Databricks sobre los tipos de bibliotecas.
Paso de parámetros entre la actividad y las canalizaciones de Azure Databricks
Puede pasar parámetros a cuadernos mediante la propiedad baseParameters en la actividad de Databricks.
A veces, es posible que tenga que devolver valores de un notebook al servicio para el flujo de control o usarlos en actividades posteriores (con un límite de tamaño de 2 MB).
En tu cuaderno, por ejemplo, puedes llamar a dbutils.notebook.exit("returnValue") y se devolverá el valor "returnValue" correspondiente al servicio.
Puede usar la salida del servicio mediante una expresión como
@{activity('databricks activity name').output.runOutput}.
Guardar y ejecutar o programar la canalización
Después de configurar las demás actividades necesarias para la canalización, cambie a la pestaña Inicio en la parte superior del editor de canalizaciones y seleccione el botón Guardar para guardar la canalización. Seleccione Ejecutar para ejecutarlo directamente o Planificar para programarlo. También puede ver el historial de ejecución aquí o configurar otras opciones.