Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
APLICABLE A:
Azure Data Factory
Azure Synapse Analytics
Sugerencia
Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.
La actividad Trabajos de Azure Databricks en una canalización ejecuta trabajos de Databricks en el área de trabajo de Azure Databricks, incluyendo los trabajos sin servidor. Este artículo se basa en el artículo sobre actividades de transformación de datos , que presenta información general de la transformación de datos y las actividades de transformación admitidas. Azure Databricks es una plataforma administrada para ejecutar Apache Spark.
Puede crear un trabajo de Databricks directamente a través de la interfaz de usuario de Azure Data Factory Studio.
Agregar una actividad de Trabajo para Azure Databricks a una canalización con interfaz de usuario
Para usar una actividad de Job para Azure Databricks en una tubería, complete los pasos siguientes:
Busque Trabajo en el panel Actividades de canalización y arrastre una actividad de Trabajo al lienzo de canalización.
Seleccione la nueva actividad Trabajo en el lienzo si no está ya seleccionada.
Seleccione la pestaña Azure Databricks para seleccionar o crear un nuevo servicio vinculado de Azure Databricks.
Nota:
La actividad de trabajo de Azure Databricks se ejecuta automáticamente en clústeres sin servidor, por lo que no es necesario especificar un clúster en la configuración del servicio vinculado. En su lugar, elija la opción Sin servidor .
Seleccione la pestaña Configuración y especifique el trabajo que se va a ejecutar en Azure Databricks, parámetros base opcionales que se van a pasar al trabajo y cualquier otra biblioteca que se va a instalar en el clúster para ejecutar el trabajo.
Definición de actividad de trabajo de Databricks
Esta es la definición JSON de ejemplo de una actividad de trabajo de Databricks:
{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksJob",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedservice",
"type": "LinkedServiceReference"
},
"typeProperties": {
"jobID": "012345678910112",
"jobParameters": {
"testParameter": "testValue"
},
}
}
}
Propiedades de actividad de trabajo de Databricks
En la siguiente tabla se describen las propiedades JSON que se usan en la definición de JSON:
| Propiedad | Descripción | Obligatorio |
|---|---|---|
| nombre | Nombre de la actividad en la canalización. | Sí |
| descripción | Texto que describe para qué se usa la actividad. | No |
| tipo | En el caso de la actividad de Trabajo en Databricks, el tipo de actividad es DatabricksJob. | Sí |
| nombreDelServicioVinculado | Nombre del servicio vinculado de Databricks en el que se ejecuta el trabajo de Databricks. Para obtener más información sobre este servicio vinculado, vea el artículo Compute linked services (Servicios vinculados de procesos). | Sí |
| jobId | Identificador del trabajo que se va a ejecutar en el área de trabajo de Databricks. | Sí |
| jobParameters | Una matriz de pares de clave y valor. Se pueden utilizar parámetros de trabajo para cada ejecución de actividad. Si el trabajo toma un parámetro que no se especifica, se usará el valor predeterminado del trabajo. Obtenga más información sobre los parámetros en Trabajos de Databricks. | No |
Pasar parámetros entre cuadernos y canalizaciones
Puede pasar parámetros a trabajos mediante la propiedad jobParameters en la actividad de Databricks.
Nota:
Los parámetros de trabajo solo se admiten en ir autohospedado versión 5.52.0.0 o posterior.