Compartir a través de


Transformación de datos mediante la ejecución de un trabajo de Databricks

APLICABLE A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

La actividad Trabajos de Azure Databricks en una canalización ejecuta trabajos de Databricks en el área de trabajo de Azure Databricks, incluyendo los trabajos sin servidor. Este artículo se basa en el artículo sobre actividades de transformación de datos , que presenta información general de la transformación de datos y las actividades de transformación admitidas. Azure Databricks es una plataforma administrada para ejecutar Apache Spark.

Puede crear un trabajo de Databricks directamente a través de la interfaz de usuario de Azure Data Factory Studio.

Agregar una actividad de Trabajo para Azure Databricks a una canalización con interfaz de usuario

Para usar una actividad de Job para Azure Databricks en una tubería, complete los pasos siguientes:

  1. Busque Trabajo en el panel Actividades de canalización y arrastre una actividad de Trabajo al lienzo de canalización.

  2. Seleccione la nueva actividad Trabajo en el lienzo si no está ya seleccionada.

  3. Seleccione la pestaña Azure Databricks para seleccionar o crear un nuevo servicio vinculado de Azure Databricks.

    Nota:

    La actividad de trabajo de Azure Databricks se ejecuta automáticamente en clústeres sin servidor, por lo que no es necesario especificar un clúster en la configuración del servicio vinculado. En su lugar, elija la opción Sin servidor .

    Captura de pantalla de la interfaz de usuario de una actividad de trabajo, con la pestaña Azure Databricks resaltada.

  4. Seleccione la pestaña Configuración y especifique el trabajo que se va a ejecutar en Azure Databricks, parámetros base opcionales que se van a pasar al trabajo y cualquier otra biblioteca que se va a instalar en el clúster para ejecutar el trabajo.

    Captura de pantalla de la interfaz de usuario de una actividad de trabajo, con la pestaña Configuración resaltada.

Definición de actividad de trabajo de Databricks

Esta es la definición JSON de ejemplo de una actividad de trabajo de Databricks:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksJob",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedservice",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "jobID": "012345678910112",
            "jobParameters": {
                "testParameter": "testValue"
            },
        }
    }
}

Propiedades de actividad de trabajo de Databricks

En la siguiente tabla se describen las propiedades JSON que se usan en la definición de JSON:

Propiedad Descripción Obligatorio
nombre Nombre de la actividad en la canalización.
descripción Texto que describe para qué se usa la actividad. No
tipo En el caso de la actividad de Trabajo en Databricks, el tipo de actividad es DatabricksJob.
nombreDelServicioVinculado Nombre del servicio vinculado de Databricks en el que se ejecuta el trabajo de Databricks. Para obtener más información sobre este servicio vinculado, vea el artículo Compute linked services (Servicios vinculados de procesos).
jobId Identificador del trabajo que se va a ejecutar en el área de trabajo de Databricks.
jobParameters Una matriz de pares de clave y valor. Se pueden utilizar parámetros de trabajo para cada ejecución de actividad. Si el trabajo toma un parámetro que no se especifica, se usará el valor predeterminado del trabajo. Obtenga más información sobre los parámetros en Trabajos de Databricks. No

Pasar parámetros entre cuadernos y canalizaciones

Puede pasar parámetros a trabajos mediante la propiedad jobParameters en la actividad de Databricks.

Nota:

Los parámetros de trabajo solo se admiten en ir autohospedado versión 5.52.0.0 o posterior.