Compartir a través de


Transformación de datos mediante la ejecución de un cuaderno

Utilice la actividad de Notebook para ejecutar cuadernos creados en Microsoft Fabric como parte de sus canalizaciones de Data Factory. Los cuadernos permiten ejecutar trabajos de Apache Spark para incorporar, limpiar o transformar los datos como parte de los flujos de trabajo de datos. Es fácil agregar una actividad de Notebook a las canalizaciones en Fabric y esta guía le guía a través de cada paso.

Requisitos previos

Para empezar, debe completar los siguientes requisitos previos:

Creación de una actividad de cuaderno

  1. Cree una canalización en el área de trabajo.

  2. Busque Cuaderno en el panel Actividades de la canalización y selecciónelo para agregarlo al lienzo de la canalización.

    Captura de pantalla de la UI de Fabric con el panel Actividades y la actividad de Cuaderno resaltada.

  3. Seleccione la nueva actividad de Cuaderno en el lienzo si aún no está seleccionada.

    Captura de pantalla en la que se muestra la pestaña Configuración general de la actividad de Cuaderno.

    Consulte las instruccionesgenerales para configurar la pestaña de parámetros General.

Configuración de las opciones del cuaderno

Seleccione la pestaña Configuración .

En Conexión, seleccione el método de autenticación para la ejecución del cuaderno y proporcione las credenciales necesarias o la configuración de identidad en función de la selección:

  • Entidad de servicio (SPN): Se recomienda para escenarios de producción a fin de garantizar una ejecución automatizada y segura sin depender en las credenciales de usuario.
  • Identidad del área de trabajo (WI): ideal para entornos administrados en los que se requiere la gobernanza centralizada de identidades.

Seleccione un cuaderno existente en la lista desplegable Cuaderno y, opcionalmente, especifique los parámetros que se van a pasar al cuaderno.

Captura de pantalla en la que se muestra la pestaña de configuración de Cuaderno resaltando la pestaña, dónde elegir un nuevo cuaderno y dónde agregar parámetros.

Uso de Fabric Workspace Identity (WI) en la actividad Notebook

  1. Creación de la identidad del área de trabajo Debe habilitar WI en el área de trabajo (esto puede tardar un momento en cargarse). Cree una identidad de área de trabajo en tu espacio de trabajo de Fabric. Consulte los documentos en Identidad del área de trabajo.

  2. Habilitación de la configuración de nivel de inquilino En el portal de administración de Fabric, habilite la siguiente configuración de inquilino: Las entidades de servicio pueden llamar a las API públicas de Fabric. Esta configuración es necesaria para que la identidad del área de trabajo se autentique correctamente. Consulte los documentos de Habilitación de la autenticación de entidad de servicio para las API de administración.

  3. Concesión de permisos de área de trabajo a la identidad del área de trabajo Abra el área de trabajo, seleccione Administrar acceso y asigne permisos a la identidad del área de trabajo. El acceso de colaborador es suficiente para la mayoría de los escenarios. Consulte los documentos sobre Concesión de acceso a los usuarios a las áreas de trabajo.

Establecimiento de la etiqueta de sesión

Para minimizar la cantidad de tiempo que se tarda en ejecutar el trabajo del cuaderno, puede establecer opcionalmente una etiqueta de sesión. Establecer la etiqueta de sesión indica a Spark que reutilice cualquier sesión de Spark existente, lo que minimiza el tiempo de inicio. Cualquier valor arbitrario de cadena se puede usar para la etiqueta de sesión. Si no existe ninguna sesión, se creará una nueva con el valor de etiqueta .

Captura de pantalla que muestra la pestaña Configuración del cuaderno que resalta la pestaña, donde agregar la etiqueta de sesión.

Nota:

Para poder usar la etiqueta de sesión, se debe activar el modo de simultaneidad alta para la canalización que ejecuta varios cuadernos. Esta opción se puede encontrar en el modo de simultaneidad alta para la configuración de Spark en la configuración del área de trabajo

Captura de pantalla que muestra la pestaña Configuración del área de trabajo que resalta la pestaña, donde se habilita el modo de simultaneidad alta para las canalizaciones que ejecutan varios cuadernos.

Guardar y ejecutar o programar la canalización

Cambie a la pestaña Inicio en la parte superior del editor de canalizaciones y seleccione el botón Guardar para guardar su canalización. Seleccione Ejecutar para ejecutarlo directamente o Planificar para programarlo. También puede ver el historial de ejecución aquí o configurar otras opciones.

Captura de pantalla que muestra la pestaña Inicio en el editor de tuberías con los botones de pestaña, Guardar, Ejecutar y Programar resaltados.