Compartir a través de


Databricks (versión preliminar)

Databricks ofrece una plataforma unificada para la administración, gobernanza y análisis escalables de datos, combinando flujos de trabajo simplificados con la capacidad de controlar diversos tipos de datos de forma eficaz.

Este conector está disponible en los siguientes productos y regiones:

Service Class Regions
Copilot Studio Premium Todas las regiones de Power Automate excepto las siguientes:
     - Gobierno de EE. UU. (GCC)
     - Gobierno de EE. UU. (GCC High)
     - China Cloud operado por 21Vianet
     - Departamento de Defensa de EE. UU. (DoD)
Aplicaciones lógicas Estándar Todas las regiones de Logic Apps excepto las siguientes:
     - Regiones de Azure Government
     - Regiones de Azure China
     - Departamento de Defensa de EE. UU. (DoD)
Power Apps Premium Todas las regiones de Power Apps excepto las siguientes:
     - Gobierno de EE. UU. (GCC)
     - Gobierno de EE. UU. (GCC High)
     - China Cloud operado por 21Vianet
     - Departamento de Defensa de EE. UU. (DoD)
Power Automate Premium Todas las regiones de Power Automate excepto las siguientes:
     - Gobierno de EE. UU. (GCC)
     - Gobierno de EE. UU. (GCC High)
     - China Cloud operado por 21Vianet
     - Departamento de Defensa de EE. UU. (DoD)
Contacto
Nombre Compatibilidad con Databricks
URL https://help.databricks.com
Correo Electrónico eng-partner-eco-help@databricks.com
Metadatos del conector
Publicador Databricks Inc.
Website https://www.databricks.com/
Directiva de privacidad https://www.databricks.com/legal/privacynotice
Categorías Data

Conexión a Databricks desde Microsoft Power Platform

En esta página se explica cómo conectarse a Databricks desde Microsoft Power Platform agregando Databricks como conexión de datos. Cuando esté conectado, puede usar los datos de Databricks desde las siguientes plataformas:

  • Power Apps: compile aplicaciones que puedan leer y escribir en Databricks, a la vez que conserva los controles de gobernanza de Databricks.
  • Power Automate: cree flujos y agregue acciones que permitan ejecutar SQL personalizado o un trabajo existente y obtener los resultados.
  • Copilot Studio: cree agentes personalizados con los datos de Databricks como origen de conocimiento.

Antes de empezar

Antes de conectarse a Databricks desde Power Platform, debe cumplir los siguientes requisitos:

  • Tiene un token de acceso personal para el área de trabajo de Databricks.
  • Tiene una licencia premium de Power Apps.
  • Tiene una cuenta de Databricks.
  • Tiene acceso a una instancia de SQL Warehouse en Databricks.

Paso 1: Adición de una conexión de Databricks a Power Platform

Nota: Si usa Copilot Studio, se recomienda crear la conexión de Databricks en Power Apps o Power Automate. A continuación, se puede usar en Copilot Studio.

Para agregar una conexión de Databricks, haga lo siguiente:

  1. En Power Apps o Power Automate, en la barra lateral, haga clic en Conexiones.
  2. Haga clic en + Nueva conexión en la esquina superior izquierda.
  3. Busque "Databricks" mediante la barra de búsqueda de la esquina superior derecha.
  4. Seleccione el icono de Databricks (no Azure Databricks).
  5. Escriba la información de autenticación.
    • En token, escriba el siguiente "Bearer <personal-access-token>"
  6. Haga clic en Crear.

Paso 2: Uso de la conexión de Databricks

Después de crear una conexión de Databricks en Power Apps o Power Automate, puede usar los datos de Databricks para crear aplicaciones de lienzo de Power, flujos de Power Automate y agentes de Copilot Studio.

Uso de los datos de Databricks para compilar aplicaciones de lienzo de Power

Important

Solo puede usar aplicaciones de lienzo si se conecta directamente a Databricks en la aplicación. No se pueden usar tablas virtuales.

Para agregar los datos de Databricks a la aplicación, haga lo siguiente:

  1. En la barra de navegación situada más a la izquierda, haga clic en Crear.
  2. Haga clic en Iniciar con un lienzo en blanco y seleccione el tamaño del lienzo deseado para crear una nueva aplicación de lienzo.
  3. En la aplicación, haga clic en Agregarconectoresde >>. Seleccione la conexión de Databricks que creó.
  4. Seleccione un catálogo en la barra lateral Elegir un conjunto de datos .
  5. Desde el panel lateral Choose a dataset, seleccione todas las tablas a las que desea conectar la aplicación Canvas.
  6. Haga clic en Conectar.

Operaciones de datos en Power Apps:

El conector admite operaciones de creación, actualización y eliminación, pero solo para tablas que tienen definida una clave principal. Al realizar operaciones de creación, siempre debe especificar la clave principal.

Nota: Databricks admite columnas de identidad generadas. En este caso, los valores de clave principal se generan automáticamente en el servidor durante la creación de filas y no se pueden especificar manualmente.

Uso de los datos de Databricks para crear flujos de Power Automate

La API de ejecución de instrucciones y la API de trabajos se exponen en Power Automate, lo que le permite escribir instrucciones SQL y ejecutar trabajos existentes. Para crear un flujo de Power Automate mediante Databricks como una acción, haga lo siguiente:

  1. En la barra de navegación situada más a la izquierda, haga clic en Crear.
  2. Cree un flujo y agregue cualquier tipo de desencadenador.
  3. En el nuevo flujo, haga clic + y busque "Databricks" para ver las acciones disponibles.

Para escribir SQL, seleccione una de las siguientes acciones:

  • Ejecute una instrucción SQL: escriba y ejecute una instrucción SQL. Escribe lo siguiente:

    • En Body/warehouse_id, escriba el identificador del almacén en el que se va a ejecutar la instrucción SQL.
    • En Cuerpo/statement_id, escriba el identificador de la instrucción SQL que se va a ejecutar.
    • Para obtener más información sobre los parámetros avanzados, consulte aquí.
  • Comprobar el estado y obtener resultados: compruebe el estado de una instrucción SQL y recopile los resultados. Escribe lo siguiente:

    • Para ID de instrucción, introduzca el identificador devuelto cuando se ejecutó la instrucción SQL.
    • Para obtener más información sobre el parámetro , consulte aquí.
  • Cancelar la ejecución de una instrucción: finalice la ejecución de una instrucción SQL. Escribe lo siguiente:

    • En el ID de la instrucción, escriba el identificador de la instrucción SQL que se desea finalizar.
    • Para obtener más información sobre el parámetro , consulte aquí.
  • Obtener el resultado por índice de fragmento: obtiene los resultados por índice de fragmentos, que es adecuado para conjuntos de resultados grandes. Escribe lo siguiente:

    • En ID de instrucción, introduzca el identificador de la instrucción SQL cuyos resultados desea obtener.
    • En el índice de fragmento, escriba el índice de fragmento de destino.
    • Para obtener más información sobre los parámetros, consulte aquí.

Para interactuar con un trabajo de Databricks existente, seleccione una de las siguientes acciones:

  • Enumerar trabajos: recupera una lista de trabajos. Para obtener más información, consulte aquí.
  • Desencadenar una nueva ejecución de trabajo: ejecuta un trabajo y devuelve el run_id de la ejecución desencadenada. Para obtener más información, consulte aquí.
  • Obtener una sola ejecución de trabajo: devuelve metadatos sobre una ejecución, incluido el estado de ejecución (por ejemplo, RUNNING, SUCCESS, FAILED), la hora de inicio y finalización, las duraciones de ejecución, la información del clúster, etc. Para obtener más información, consulte aquí.
  • Cancelar una ejecución de trabajo: cancela una ejecución de trabajo o una ejecución de tareas. Para obtener más información, consulte aquí .
  • Obtener la salida de una sola ejecución de trabajo: recupera la salida y los metadatos de una sola ejecución de tarea. Para obtener más información, consulte aquí .

Uso de Databricks como origen de conocimiento en Copilot Studio

Para agregar los datos de Databricks como origen de conocimiento a un agente de Copilot Studio, haga lo siguiente:

  1. En la barra lateral, haga clic en Agente.
  2. Seleccione un agente existente o cree un nuevo agente haciendo clic en + Nuevo agente.
    • Describa el agente mediante la entrada de un mensaje y, a continuación, haga clic en Crear.
    • O bien, haga clic en Omitir para especificar manualmente la información del agente.
  3. En la pestaña Conocimiento , haga clic en + Conocimientos.
  4. Haz clic en Avanzado.
  5. Seleccione Databricks como origen de conocimiento.
  6. Escriba el nombre del catálogo en el que están los datos.
  7. Haga clic en Conectar.
  8. Seleccione las tablas que desea que use el agente como origen de conocimiento y haga clic en Agregar.

Creación de tablas virtuales de Dataverse con los datos de Databricks

También puede crear tablas virtuales de Dataverse con el conector de Databricks. Las tablas virtuales, también conocidas como entidades virtuales, integran datos de sistemas externos con Microsoft Dataverse. Una tabla virtual define una tabla en Dataverse sin almacenar la tabla física en la base de datos de Dataverse. Para más información sobre las tablas virtuales, consulte Introducción a las tablas virtuales (entidades).

Nota

Aunque las tablas virtuales no consumen capacidad de almacenamiento de Dataverse, Databricks recomienda usar conexiones directas para mejorar el rendimiento.

Debe tener el rol Personalizador del sistema o Administrador del sistema. Para más información, consulte Roles de seguridad para Power Platform.

Siga estos pasos para crear una tabla virtual de Dataverse:

  1. En Power Apps, en la barra lateral, haga clic en Tablas.

  2. Haga clic en + Nueva tabla en la barra de menús y seleccione Crear una tabla virtual.

  3. Seleccione una conexión de Databricks existente o cree una conexión a Databricks. Para agregar una nueva conexión, consulte Paso 1: Agregar una conexión de Databricks a Power Platform.

    Databricks recomienda usar una conexión de principal de servicio para crear una tabla virtual.

  4. Haga clic en Siguiente.

  5. Seleccione las tablas que se van a representar como una tabla virtual de Dataverse.

    • Las tablas virtuales de Dataverse requieren una clave principal. Por lo tanto, las vistas no pueden ser tablas virtuales, pero las vistas materializadas pueden.
  6. Haga clic en Siguiente.

  7. Configure la tabla virtual actualizando los detalles de la tabla, si es necesario.

  8. Haga clic en Siguiente.

  9. Confirme los detalles del origen de datos y haga clic en Finalizar.

  10. Use la tabla virtual de Dataverse en Power Apps, Power Automate y Copilot Studio.

Para obtener una lista de las limitaciones conocidas de las tablas virtuales de Dataverse, consulte Limitaciones conocidas y solución de problemas.

Realización de actualizaciones por lotes

Si necesita realizar operaciones masivas de creación, actualización o eliminación en respuesta a las entradas de Power Apps, Databricks recomienda implementar un flujo de Power Automate. Para ello, siga estos pasos:

  1. Cree una aplicación de lienzo mediante la conexión de Databricks en Power Apps.

  2. Cree un flujo de Power Automate mediante la conexión de Databricks y use Power Apps como desencadenador.

  3. En el desencadenador de Power Automate, agregue los campos de entrada que desea pasar de Power Apps a Power Automate.

  4. Cree un objeto de colección en Power Apps para recopilar todos los cambios.

  5. Agregue el flujo de Power Automate a la aplicación Canvas.

  6. Llame al flujo Power Automate desde su aplicación de lienzo y realice iteraciones sobre la colección utilizando el comando ForAll.

    ForAll(collectionName, FlowName.Run(input field 1, input field 2, input field 3, …)
    

Escrituras simultáneas

La simultaneidad de nivel de fila reduce los conflictos entre las operaciones de escritura simultáneas mediante la detección de cambios en el nivel de fila y la resolución automática de conflictos que se producen cuando las escrituras simultáneas actualizan o eliminan filas diferentes en el mismo archivo de datos.

La concurrencia a nivel de fila está incluida en Databricks Runtime 14.2 o superior. La simultaneidad de nivel de fila se admite de forma predeterminada para los siguientes tipos de tablas:

  • Tablas con vectores de eliminación habilitados y sin particiones
  • Tablas con agrupación en clústeres líquidos, a menos que los vectores de eliminación estén deshabilitados

Para habilitar vectores de eliminación, ejecute el siguiente comando SQL:

ALTER TABLE table_name SET TBLPROPERTIES ('delta.enableDeletionVectors' = true);

Para obtener más información sobre los conflictos de escritura simultáneos en Databricks, consulte Niveles de aislamiento y conflictos de escritura en Databricks.

Adición de Databricks a una directiva de datos

Al agregar Databricks a una directiva de datos profesionales, Databricks no puede compartir datos con conectores en otros grupos. Esto protege los datos e impide que se compartan con aquellos que no deben tener acceso a ellos. Para obtener más información, consulte Administración de directivas de datos.

Para agregar el conector de Databricks a una directiva de datos de Power Platform:

  1. En cualquier aplicación de Power Platform, haga clic en el engranaje de configuración en la parte superior derecha y seleccione Centro de administración.
  2. En la barra lateral, haga clic en Directivas>de datos.
  3. Si usa el nuevo centro de administración, haga clic enSecurity Data and Privacy> (Directiva> de datos de seguridad y privacidad).
  4. Haga clic en + Nueva directiva o seleccione una directiva existente.
  5. Si está creando una nueva directiva, escriba un nombre.
  6. Seleccione un entorno para agregar a la directiva y haga clic en + Agregar a la directiva arriba.
  7. Haga clic en Siguiente.
  8. Busque y seleccione el conector databricks*.
  9. Haga clic en Mover a la empresa y haga clic en Siguiente.
  10. Revise la directiva y haga clic en Crear directiva.

Limitaciones

  • El conector de Power Platform no admite nubes gubernamentales.

Limitaciones de Power App

Las siguientes fórmulas de PowerFx calculan valores con solo los datos que se han recuperado localmente:

Categoría Formula
Función Table - GroupBy
-Distinto
Aggregation - CountRows
- StdevP
- StdevS

Creación de una conexión

El conector admite los siguientes tipos de autenticación:

Token de acceso personal Token de acceso personal Todas las regiones No se puede compartir
Valor predeterminado [EN DESUSO] Esta opción solo es para conexiones anteriores sin un tipo de autenticación explícito y solo se proporciona para la compatibilidad con versiones anteriores. Todas las regiones No se puede compartir

Token de acceso personal

Identificador de autenticación: PAT

Aplicable: Todas las regiones

Token de acceso personal

Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.

Nombre Tipo Description Obligatorio
Clave de API (formato: Token< de acceso personal de >portador) securestring Clave de API basada en token de acceso personal Cierto
Nombre de host del servidor (ejemplo: foo.cloud.databricks.com) cuerda / cadena Nombre del servidor del área de trabajo de Databricks Cierto
Ruta de acceso HTTP (ejemplo: /sql/1.0/warehouses/a9c4e781bd29f315) cuerda / cadena Ruta de acceso HTTP de Databricks SQL Warehouse Cierto

Valor predeterminado [EN DESUSO]

Aplicable: Todas las regiones

Esta opción solo es para conexiones anteriores sin un tipo de autenticación explícito y solo se proporciona para la compatibilidad con versiones anteriores.

Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.

Nombre Tipo Description Obligatorio
Clave de API (formato: Token< de acceso personal de >portador) securestring Clave de API basada en token de acceso personal Cierto
Nombre de host del servidor (ejemplo: foo.cloud.databricks.com) cuerda / cadena Nombre del servidor del área de trabajo de Databricks Cierto
Ruta de acceso HTTP (ejemplo: /sql/1.0/warehouses/a9c4e781bd29f315) cuerda / cadena Ruta de acceso HTTP de Databricks SQL Warehouse Cierto

Limitaciones

Nombre Llamadas Período de renovación
Llamadas API por conexión 100 60 segundos

Acciones

Cancelación de la ejecución de instrucciones

Solicita que se cancele una instrucción en ejecución. Los autores de llamadas deben sondear el estado para ver el estado del terminal.

Cancelar una ejecución

Cancela una ejecución de trabajo o una ejecución de tareas. La ejecución se cancela de forma asincrónica, por lo que es posible que siga ejecutándose cuando se complete esta solicitud.

Comprobación del estado y obtención de resultados

Obtener el estado, el manifiesto y los resultados de la instrucción

Databricks Genie

Consulte espacios de Genie para obtener información de los datos.

Desencadenar una nueva ejecución de trabajo

Ejecute un trabajo y devuelva el run_id de la ejecución desencadenada.

Ejecución de una instrucción SQL

Ejecute una instrucción SQL y, opcionalmente, espere sus resultados durante un tiempo especificado.

Enumerar trabajos

Recupera una lista de trabajos.

Obtención de la salida de una sola ejecución

Recupere la salida y los metadatos de una sola ejecución de tarea. Cuando una tarea de cuaderno devuelve un valor a través de la llamada dbutils.notebook.exit(), puede usar este punto de conexión para recuperar ese valor. Databricks restringe esta API para devolver los primeros 5 MB de la salida. Para devolver un resultado mayor, puede almacenar los resultados del trabajo en un servicio de almacenamiento en la nube. Este punto de conexión valida que el parámetro run_id es válido y devuelve un código de estado HTTP 400 si el parámetro run_id no es válido. Las ejecuciones se quitan automáticamente después de 60 días. Si desea hacer referencia a ellos más de 60 días, debe guardar los resultados de ejecución antiguos antes de que expiren.

Obtención de una sola ejecución de trabajo

Recupera los metadatos de una ejecución. Las matrices grandes de los resultados se paginarán cuando superen los 100 elementos. Una solicitud de una sola ejecución devolverá todas las propiedades de esa ejecución y los primeros 100 elementos de las propiedades de matriz (tareas, job_clusters, job_parameters y repair_history). Use el campo next_page_token para comprobar más resultados y pasar su valor como el page_token en las solicitudes posteriores. Si alguna propiedad de matriz tiene más de 100 elementos, se devolverán resultados adicionales en las solicitudes posteriores. Las matrices sin resultados adicionales estarán vacías en páginas posteriores.

Obtención del resultado por índice de fragmento

Una vez que la ejecución de la instrucción tiene SUCCEEDED, esta solicitud se puede usar para capturar cualquier fragmento por índice.

Cancelación de la ejecución de instrucciones

Solicita que se cancele una instrucción en ejecución. Los autores de llamadas deben sondear el estado para ver el estado del terminal.

Parámetros

Nombre Clave Requerido Tipo Description
Id. de instrucción
statement_id True string

Id. de instrucción

Cancelar una ejecución

Cancela una ejecución de trabajo o una ejecución de tareas. La ejecución se cancela de forma asincrónica, por lo que es posible que siga ejecutándose cuando se complete esta solicitud.

Parámetros

Nombre Clave Requerido Tipo Description
identificador_de_ejecución
run_id True integer

Este campo es obligatorio.

Comprobación del estado y obtención de resultados

Obtener el estado, el manifiesto y los resultados de la instrucción

Parámetros

Nombre Clave Requerido Tipo Description
Id. de instrucción
statement_id True string

Id. de instrucción

Devoluciones

Respuesta de ejecución de instrucciones

Databricks Genie

Consulte espacios de Genie para obtener información de los datos.

Parámetros

Nombre Clave Requerido Tipo Description
Id. de espacio de Genie
genie_space_id True string

Id. de espacio de Genie

Desencadenar una nueva ejecución de trabajo

Ejecute un trabajo y devuelva el run_id de la ejecución desencadenada.

Parámetros

Nombre Clave Requerido Tipo Description
idempotency_token
idempotency_token string

Un token opcional para garantizar la idempoencia de las solicitudes de ejecución de trabajos. Si ya existe una ejecución con el token proporcionado, la solicitud no crea una nueva ejecución, sino que devuelve el identificador de la ejecución existente en su lugar. Si se elimina una ejecución con el token proporcionado, se devuelve un error. Si especifica el token de idempotency, cuando se produzca un error, puede reintentar hasta que la solicitud se realice correctamente. Databricks garantiza que se inicie exactamente una ejecución con ese token de idempotency. Este token debe tener como máximo 64 caracteres. Para obtener más información, consulte Cómo garantizar la idempoencia de los trabajos.

job_id
job_id True integer

Identificador del trabajo que se va a ejecutar.

job_parameters
job_parameters object

Parámetros de nivel de trabajo usados en la ejecución. por ejemplo, "param": "overriding_val"

solamente
only array of string

Lista de claves de tarea que se ejecutarán dentro del trabajo. Si no se proporciona este campo, se ejecutarán todas las tareas del trabajo.

performance_target
performance_target string
full_refresh
full_refresh boolean

Si es true, desencadena una actualización completa en la tabla dinámica delta.

enabled
enabled True boolean

Si es true, habilite la cola para el trabajo. Se trata de un campo obligatorio.

Devoluciones

Ejecución de una instrucción SQL

Ejecute una instrucción SQL y, opcionalmente, espere sus resultados durante un tiempo especificado.

Parámetros

Nombre Clave Requerido Tipo Description
warehouse_id
warehouse_id True string

Id. de almacenamiento de destino

instrucción
statement True string

Instrucción SQL que se va a ejecutar. Opcionalmente, la instrucción se puede parametrizar; consulte los parámetros.

nombre
name True string

Nombre del marcador de parámetro

type
type string

Tipo de datos de parámetro

value
value string

Valor del parámetro

catalog
catalog string

Catálogo predeterminado para la ejecución

schema
schema string

Esquema predeterminado para la ejecución

disposición
disposition string

Modo de captura de resultados

format
format string

Formato del conjunto de resultados

on_wait_timeout
on_wait_timeout string

Acción en el tiempo de espera

wait_timeout
wait_timeout string

Tiempo de espera de resultado

byte_limit
byte_limit integer

Límite de bytes de resultados

row_limit
row_limit integer

Límite de filas de resultados

Devoluciones

Respuesta de ejecución de instrucciones

Enumerar trabajos

Recupera una lista de trabajos.

Parámetros

Nombre Clave Requerido Tipo Description
Limit
limit integer

Número de trabajos que se van a devolver. Este valor debe ser mayor que 0 y menor o igual que 100. El valor predeterminado es 20.

Expandir tareas
expand_tasks boolean

Si se deben incluir los detalles de la tarea y del clúster en la respuesta. Tenga en cuenta que solo se mostrarán los primeros 100 elementos. Use :method:jobs/get para paginar a través de todas las tareas y clústeres.

Nombre del trabajo
name string

Filtro de la lista en función del nombre de trabajo exacto (sin distinción entre mayúsculas y minúsculas).

Token de página
page_token string

Use next_page_token o prev_page_token devueltos de la solicitud anterior para enumerar la página siguiente o anterior de los trabajos respectivamente.

Devoluciones

Obtención de la salida de una sola ejecución

Recupere la salida y los metadatos de una sola ejecución de tarea. Cuando una tarea de cuaderno devuelve un valor a través de la llamada dbutils.notebook.exit(), puede usar este punto de conexión para recuperar ese valor. Databricks restringe esta API para devolver los primeros 5 MB de la salida. Para devolver un resultado mayor, puede almacenar los resultados del trabajo en un servicio de almacenamiento en la nube. Este punto de conexión valida que el parámetro run_id es válido y devuelve un código de estado HTTP 400 si el parámetro run_id no es válido. Las ejecuciones se quitan automáticamente después de 60 días. Si desea hacer referencia a ellos más de 60 días, debe guardar los resultados de ejecución antiguos antes de que expiren.

Parámetros

Nombre Clave Requerido Tipo Description
Id. de ejecución
run_id True integer

Identificador canónico de la ejecución.

Devoluciones

Obtención de una sola ejecución de trabajo

Recupera los metadatos de una ejecución. Las matrices grandes de los resultados se paginarán cuando superen los 100 elementos. Una solicitud de una sola ejecución devolverá todas las propiedades de esa ejecución y los primeros 100 elementos de las propiedades de matriz (tareas, job_clusters, job_parameters y repair_history). Use el campo next_page_token para comprobar más resultados y pasar su valor como el page_token en las solicitudes posteriores. Si alguna propiedad de matriz tiene más de 100 elementos, se devolverán resultados adicionales en las solicitudes posteriores. Las matrices sin resultados adicionales estarán vacías en páginas posteriores.

Parámetros

Nombre Clave Requerido Tipo Description
Id. de ejecución
run_id True integer

Identificador canónico de la ejecución para la que se van a recuperar los metadatos. Este campo es obligatorio.

Historial de inclusión
include_history boolean

Si se debe incluir el historial de reparaciones en la respuesta.

Incluir valores resueltos
include_resolved_values boolean

Si se deben incluir valores de parámetro resueltos en la respuesta.

Token de página
page_token string

Use next_page_token devuelto de la respuesta GetRun anterior para solicitar la página siguiente de las propiedades de la matriz de la ejecución.

Devoluciones

Body
JobsRun

Obtención del resultado por índice de fragmento

Una vez que la ejecución de la instrucción tiene SUCCEEDED, esta solicitud se puede usar para capturar cualquier fragmento por índice.

Parámetros

Nombre Clave Requerido Tipo Description
Id. de instrucción
statement_id True string

Id. de instrucción

Índice de fragmento
chunk_index True string

Índice de fragmento

Devoluciones

Definiciones

Objeto

SqlBaseChunkInfo

Metadatos de un fragmento de conjunto de resultados

Nombre Ruta de acceso Tipo Description
byte_count
byte_count integer

Número de bytes en el fragmento de resultado

chunk_index
chunk_index integer

Posición en la secuencia de fragmentos del conjunto de resultados

row_count
row_count integer

Número de filas del fragmento de resultado

row_offset
row_offset integer

Inicio del desplazamiento de fila en el conjunto de resultados

SqlColumnInfo

Nombre Ruta de acceso Tipo Description
nombre
name string

Nombre de la columna

posición
position integer

Posición de columna (basada en 0)

type_interval_type
type_interval_type string

Formato de tipo de intervalo

type_name
type_name SqlColumnInfoTypeName

Nombre del tipo de datos base. Esto no incluye detalles para tipos complejos como STRUCT, MAP o ARRAY.

type_precision
type_precision integer

Número de dígitos para el tipo DECIMAL

type_scale
type_scale integer

Número de posiciones decimales para el tipo DECIMAL

type_text
type_text string

Especificación completa del tipo SQL

SqlColumnInfoTypeName

Nombre del tipo de datos base. Esto no incluye detalles para tipos complejos como STRUCT, MAP o ARRAY.

Nombre del tipo de datos base. Esto no incluye detalles para tipos complejos como STRUCT, MAP o ARRAY.

SqlStatementResponse

Respuesta de ejecución de instrucciones

Nombre Ruta de acceso Tipo Description
manifiesto
manifest SqlResultManifest

Esquema y metadatos del conjunto de resultados

resultado
result SqlResultData
statement_id
statement_id string

Id. de instrucción

estado
status SqlStatementStatus

Estado de ejecución de instrucciones

SqlResultManifest

Esquema y metadatos del conjunto de resultados

Nombre Ruta de acceso Tipo Description
Trozos
chunks array of SqlBaseChunkInfo

Metadatos del fragmento de resultado

format
format string
schema
schema SqlResultSchema

Definiciones de columna del conjunto de resultados

total_byte_count
total_byte_count integer

Total de bytes en el conjunto de resultados

total_chunk_count
total_chunk_count integer

Número total de fragmentos

total_row_count
total_row_count integer

Número total de filas

truncado
truncated boolean

Estado de truncamiento de resultados

SqlStatementStatus

Estado de ejecución de instrucciones

Nombre Ruta de acceso Tipo Description
error
error SqlServiceError
estado
state SqlStatementState

Estado de ejecución de la instrucción

SqlStatementState

Estado de ejecución de la instrucción

Estado de ejecución de la instrucción

SqlServiceError

Nombre Ruta de acceso Tipo Description
error_code
error_code string
Mensaje
message string

Mensaje de error

SqlResultSchema

Definiciones de columna del conjunto de resultados

Nombre Ruta de acceso Tipo Description
column_count
column_count integer
columns
columns array of SqlColumnInfo

SqlResultData

Nombre Ruta de acceso Tipo Description
byte_count
byte_count integer

Bytes en el fragmento de resultado

chunk_index
chunk_index integer

Posición del fragmento

data_array
data_array SqlJsonArray

Matriz de matrices con valores de cadena

external_links
external_links array of SqlExternalLink
next_chunk_index
next_chunk_index integer

Índice de fragmento siguiente

next_chunk_internal_link
next_chunk_internal_link string

Siguiente vínculo de fragmento

row_count
row_count integer

Filas en fragmento

row_offset
row_offset integer

Desplazamiento de fila inicial

SqlJsonArray

Matriz de matrices con valores de cadena

Nombre Ruta de acceso Tipo Description
Productos
array of
Nombre Ruta de acceso Tipo Description
byte_count
byte_count integer

Bytes en fragmento

chunk_index
chunk_index integer

Posición del fragmento

expiración
expiration date-time

Hora de expiración del vínculo

external_link
external_link string
http_headers
http_headers object

Encabezados HTTP necesarios

next_chunk_index
next_chunk_index integer

Índice de fragmento siguiente

next_chunk_internal_link
next_chunk_internal_link string

Siguiente vínculo de fragmento

row_count
row_count integer

Filas en fragmento

row_offset
row_offset integer

Desplazamiento de fila inicial

JobsRunNowResponse

Nombre Ruta de acceso Tipo Description
identificador_de_ejecución
run_id integer

Identificador único global de la ejecución recién desencadenada.

JobsPerformanceTarget

JobsPipelineParams

Nombre Ruta de acceso Tipo Description
full_refresh
full_refresh boolean

Si es true, desencadena una actualización completa en la tabla dinámica delta.

JobsQueueSettings

Nombre Ruta de acceso Tipo Description
enabled
enabled boolean

Si es true, habilite la cola para el trabajo. Se trata de un campo obligatorio.

JobsListJobsResponse

Nombre Ruta de acceso Tipo Description
jobs
jobs array of JobsBaseJob

Lista de trabajos. Solo se incluye en la respuesta si hay trabajos para enumerar.

next_page_token
next_page_token string

Token que se puede usar para enumerar la página siguiente de trabajos (si procede).

prev_page_token
prev_page_token string

Token que se puede usar para enumerar la página anterior de trabajos (si procede).

JobsBaseJob

Nombre Ruta de acceso Tipo Description
created_time
created_time integer

Hora a la que se creó este trabajo en milisegundos de época (milisegundos desde 1/1/1/1970 UTC).

creator_user_name
creator_user_name string

Nombre de usuario del creador. Este campo no se incluirá en la respuesta si el usuario ya se ha eliminado.

effective_budget_policy_id
effective_budget_policy_id uuid

Identificador de la directiva presupuestaria utilizada por este trabajo con fines de atribución de costos. Esto puede establecerse a través de (en orden de prioridad): 1. Administradores de presupuesto a través de la cuenta o la consola del área de trabajo 2. Interfaz de usuario de trabajos en la página de detalles del trabajo y api de trabajos mediante budget_policy_id 3. Valor predeterminado inferido en función de las directivas presupuestarias accesibles de la identidad de run_as en la creación o modificación del trabajo.

has_more
has_more boolean

Indica si el trabajo tiene más propiedades de matriz (tareas, job_clusters) que no se muestran. Se puede acceder a ellos a través de :method:jobs/get endpoint. Solo es relevante para las solicitudes api 2.2 :method:jobs/list con expand_tasks=true.

job_id
job_id integer

Identificador canónico de este trabajo.

settings
settings JobsJobSettings
trigger_state
trigger_state JobsTriggerStateProto

JobsJobSettings

Nombre Ruta de acceso Tipo Description
budget_policy_id
budget_policy_id uuid

Identificador de la directiva de presupuesto especificada por el usuario que se va a usar para este trabajo. Si no se especifica, se puede aplicar una directiva de presupuesto predeterminada al crear o modificar el trabajo. Consulte effective_budget_policy_id para obtener la directiva de presupuesto que usa esta carga de trabajo.

continuo
continuous JobsContinuous
implementación
deployment JobsJobDeployment
descripción
description string

Descripción opcional del trabajo. La longitud máxima es de 27700 caracteres en codificación UTF-8.

edit_mode
edit_mode JobsJobEditMode
email_notifications
email_notifications JobsJobEmailNotifications
environments
environments array of JobsJobEnvironment

Lista de especificaciones del entorno de ejecución de tareas a las que pueden hacer referencia las tareas sin servidor de este trabajo. Es necesario que un entorno esté presente para las tareas sin servidor. Para las tareas de cuaderno sin servidor, el entorno es accesible en el panel del entorno del cuaderno. Para otras tareas sin servidor, es necesario especificar el entorno de tareas mediante environment_key en la configuración de la tarea.

git_source
git_source JobsGitSource
Salud
health JobsJobsHealthRules
job_clusters
job_clusters array of JobsJobCluster

Lista de especificaciones de clúster de trabajos que las tareas de este trabajo pueden compartir y reutilizar. Las bibliotecas no se pueden declarar en un clúster de trabajos compartidos. Debe declarar bibliotecas dependientes en la configuración de tareas.

max_concurrent_runs
max_concurrent_runs integer

Número máximo permitido opcional de ejecuciones simultáneas del trabajo. Establezca este valor si desea poder ejecutar varias ejecuciones del mismo trabajo de manera simultánea. Esto resulta útil, por ejemplo, si desencadena el trabajo según una programación frecuente y desea permitir que las ejecuciones consecutivas se superpongan entre sí, o si desea desencadenar varias ejecuciones que difieren según sus parámetros de entrada. Esta configuración afecta solo a las nuevas ejecuciones. Por ejemplo, supongamos que la simultaneidad del trabajo es 4 y hay 4 ejecuciones activas simultáneas. A continuación, establecer la simultaneidad en 3 no eliminará ninguna de las ejecuciones activas. Sin embargo, desde entonces, se omiten las nuevas ejecuciones a menos que haya menos de 3 ejecuciones activas. Este valor no puede superar los 1000. Establecer este valor en 0 hace que se omitan todas las nuevas ejecuciones.

nombre
name string

Nombre opcional del trabajo. La longitud máxima es de 4096 bytes en codificación UTF-8.

notification_settings
notification_settings JobsJobNotificationSettings
parameters
parameters array of JobsJobParameterDefinition

Definiciones de parámetros de nivel de trabajo

performance_target
performance_target JobsPerformanceTarget
queue
queue JobsQueueSettings
run_as
run_as JobsJobRunAs
horario
schedule JobsCronSchedule
tags
tags object

Mapa de etiquetas asociadas al trabajo. Estos se reenvían al clúster como etiquetas de clúster para clústeres de trabajo y están sujetos a las mismas limitaciones que las etiquetas de clúster. Se puede agregar un máximo de 25 etiquetas al trabajo.

tareas
tasks array of JobsTask

Lista de especificaciones de tareas que se ejecutarán por este trabajo. Admite hasta 1000 elementos en puntos de conexión de escritura (:method:jobs/create, :method:jobs/reset, :method:jobs/update, :method:jobs/submit). Los puntos de conexión de lectura devuelven solo 100 tareas. Si hay más de 100 tareas disponibles, puede paginarlos mediante :method:jobs/get. Use el campo next_page_token en la raíz del objeto para determinar si hay más resultados disponibles.

timeout_seconds
timeout_seconds integer

Límite de tiempo opcional que se aplica a cada ejecución de esta tarea. Un valor de 0 significa que no se ha agotado el tiempo de espera.

trigger
trigger JobsTriggerSettings
webhook_notifications
webhook_notifications JobsWebhookNotifications

JobsContinuous

Nombre Ruta de acceso Tipo Description
pause_status
pause_status JobsPauseStatus

JobsPauseStatus

JobsJobDeployment

Nombre Ruta de acceso Tipo Description
amable
kind JobsJobDeploymentKind
metadata_file_path
metadata_file_path string

Ruta de acceso del archivo que contiene metadatos de implementación.

JobsJobDeploymentKind

JobsJobEditMode

JobsJobEmailNotifications

Nombre Ruta de acceso Tipo Description
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of string

Lista de direcciones de correo electrónico que se notificarán cuando la duración de una ejecución supera el umbral especificado para la métrica de RUN_DURATION_SECONDS en el campo de mantenimiento. Si no se especifica ninguna regla para la métrica de RUN_DURATION_SECONDS en el campo de mantenimiento del trabajo, no se envían notificaciones.

on_failure
on_failure array of string

Lista de direcciones de correo electrónico que se notificarán cuando se completa una ejecución sin éxito. Se considera que una ejecución se ha completado sin éxito si finaliza con un INTERNAL_ERROR life_cycle_state o un error o TIMED_OUT result_state. Si no se especifica en la creación, restablecimiento o actualización de trabajos, la lista está vacía y no se envían notificaciones.

on_start
on_start array of string

Lista de direcciones de correo electrónico que se notificarán cuando comienza una ejecución. Si no se especifica en la creación, el restablecimiento o la actualización del trabajo, la lista está vacía y no se envían notificaciones.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of string

Lista de direcciones de correo electrónico que se deben notificar cuando se superan los umbrales de trabajos pendientes de streaming para cualquier flujo. Los umbrales de trabajos pendientes de streaming se pueden establecer en el campo de mantenimiento mediante las siguientes métricas: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS o STREAMING_BACKLOG_FILES. La alerta se basa en el promedio de 10 minutos de estas métricas. Si el problema persiste, las notificaciones se vuelven a enviar cada 30 minutos.

on_success
on_success array of string

Lista de direcciones de correo electrónico que se van a notificar cuando se completa correctamente una ejecución. Se considera que una ejecución se ha completado correctamente si finaliza con un life_cycle_state TERMINATED y un result_state SUCCESS. Si no se especifica en la creación, el restablecimiento o la actualización del trabajo, la lista está vacía y no se envían notificaciones.

JobsJobEnvironment

Nombre Ruta de acceso Tipo Description
environment_key
environment_key string

Clave de un entorno. Debe ser único dentro de un trabajo.

Especificaciones
spec ComputeEnvironment

ComputeEnvironment

Nombre Ruta de acceso Tipo Description
dependencias
dependencies array of string

Lista de dependencias de pip, como admite la versión de pip en este entorno. Cada dependencia es una línea de archivo de requisitos pip válida por https://pip.pypa.io/en/stable/reference/requirements-file-format/. Las dependencias permitidas incluyen un especificador de requisitos, una dirección URL de archivo, una ruta de acceso de proyecto local (como volúmenes WSFS o UC en Databricks) o una dirección URL del proyecto de VCS.

environment_version
environment_version string

Obligatorio. Versión del entorno usada por el entorno. Cada versión incluye una versión específica de Python y un conjunto de paquetes de Python. La versión es una cadena que consta de un entero.

JobsGitSource

Nombre Ruta de acceso Tipo Description
git_branch
git_branch string

Nombre de la rama que se va a desprotegir y usar en este trabajo. Este campo no se puede especificar junto con git_tag o git_commit.

git_commit
git_commit string

Confirme que se va a desprotegir y usar este trabajo. Este campo no se puede especificar junto con git_branch o git_tag.

git_provider
git_provider JobsGitProvider
git_snapshot
git_snapshot JobsGitSnapshot
git_tag
git_tag string

Nombre de la etiqueta que se va a desprotegir y usar en este trabajo. Este campo no se puede especificar junto con git_branch o git_commit.

git_url
git_url string

Dirección URL del repositorio que va a clonar este trabajo.

JobsGitProvider

JobsGitSnapshot

Nombre Ruta de acceso Tipo Description
used_commit
used_commit string

Confirmación que se usó para ejecutar la ejecución. Si se especificó git_branch, apunta al HEAD de la rama en el momento de la ejecución; si se especificó git_tag, apunta a la confirmación a la que apunta la etiqueta.

JobsJobsHealthRules

Nombre Ruta de acceso Tipo Description
reglas
rules array of JobsJobsHealthRule

JobsJobsHealthRule

Nombre Ruta de acceso Tipo Description
metric
metric JobsJobsHealthMetric
Op
op JobsJobsHealthOperator
value
value integer

Especifica el valor de umbral que debe cumplir la métrica de mantenimiento para satisfacer la regla de mantenimiento.

JobsJobsHealthMetric

JobsJobsHealthOperator

JobsJobCluster

Nombre Ruta de acceso Tipo Description
job_cluster_key
job_cluster_key string

Un nombre único para el clúster de trabajos. Este campo es obligatorio y debe ser único dentro del trabajo. JobTaskSettings puede hacer referencia a este campo para determinar qué clúster se va a iniciar para la ejecución de la tarea.

new_cluster
new_cluster ComputeClusterSpec

ComputeClusterSpec

Nombre Ruta de acceso Tipo Description
apply_policy_default_values
apply_policy_default_values boolean

Cuando se establece en true, los valores fijos y predeterminados de la directiva se usarán para los campos que se omiten. Cuando se establece en false, solo se aplicarán los valores fijos de la directiva.

autoscale
autoscale ComputeAutoScale
autotermination_minutes
autotermination_minutes integer

Finaliza automáticamente el clúster tras estar inactivo durante el tiempo especificado en minutos. Si no se establece, este clúster no se terminará automáticamente. Si se especifica, el umbral debe estar comprendido entre 10 y 10000 minutos. Los usuarios también pueden establecer este valor en 0 para deshabilitar explícitamente la terminación automática.

azure_attributes
azure_attributes ComputeAzureAttributes
cluster_log_conf
cluster_log_conf ComputeClusterLogConf
nombre_del_cluster
cluster_name string

Nombre del clúster solicitado por el usuario. Esto no tiene que ser único. Si no se especifica en la creación, el nombre del clúster será una cadena vacía. En el caso de los clústeres de trabajos, el nombre del clúster se establece automáticamente en función del trabajo y los identificadores de ejecución de trabajos.

custom_tags
custom_tags object

Etiquetas adicionales para los recursos del clúster. Databricks etiquetará todos los recursos del clúster (por ejemplo, instancias de AWS y volúmenes EBS) con estas etiquetas además de default_tags. Notas: Actualmente, Databricks permite como máximo 45 etiquetas personalizadas: los clústeres solo pueden reutilizar los recursos en la nube si las etiquetas de los recursos son un subconjunto de las etiquetas de clúster.

data_security_mode
data_security_mode ComputeDataSecurityMode
docker_image
docker_image ComputeDockerImage
driver_instance_pool_id
driver_instance_pool_id string

Identificador opcional del grupo de instancias para el controlador al que pertenece el clúster. El clúster de grupo utiliza el grupo de instancias con el identificador (instance_pool_id) si el grupo de controladores no está asignado.

driver_node_type_id
driver_node_type_id string

Tipo de nodo del controlador de Spark. Tenga en cuenta que este campo es opcional; si no se establece, el tipo de nodo de controlador se establecerá como el mismo valor que node_type_id definido anteriormente. Este campo, junto con node_type_id, no debe establecerse si se establece virtual_cluster_size. Si se especifican driver_node_type_id, node_type_id y virtual_cluster_size, driver_node_type_id y node_type_id tienen prioridad.

enable_elastic_disk
enable_elastic_disk boolean

Escalado automático de almacenamiento local: cuando está habilitado, este clúster adquirirá dinámicamente espacio en disco adicional cuando sus trabajos de Spark se estén ejecutando con poco espacio en disco. Esta característica requiere permisos específicos de AWS para funcionar correctamente; consulte la Guía del usuario para obtener más detalles.

enable_local_disk_encryption
enable_local_disk_encryption boolean

Si se habilita LUKS en los discos locales de las máquinas virtuales del clúster

init_scripts
init_scripts array of ComputeInitScriptInfo

Configuración para almacenar scripts de inicialización. Se puede especificar cualquier número de destinos. Los scripts se ejecutan de manera secuencial en el orden proporcionado. Si se especifica cluster_log_conf, los registros de script de inicialización se envían a <destination>/<cluster-ID>/init_scripts.

instance_pool_id
instance_pool_id string

Identificador opcional del grupo de instancias al que pertenece el clúster.

is_single_node
is_single_node boolean

Este campo solo se puede usar cuando el tipo = CLASSIC_PREVIEW. Cuando se establece en true, Databricks establecerá automáticamente custom_tags, spark_conf y num_workers relacionados con el nodo único.

amable
kind ComputeKind
node_type_id
node_type_id string

Este campo codifica, mediante un solo valor, los recursos disponibles para cada uno de los nodos de Spark de este clúster. Por ejemplo, los nodos de Spark se pueden aprovisionar y optimizar para cargas de trabajo intensivas de memoria o proceso. Se puede recuperar una lista de los tipos de nodo disponibles mediante la llamada API :method:clusters/listNodeTypes.

num_workers
num_workers integer

Número de nodos de trabajo que debería tener este clúster. Un clúster tiene un controlador de Spark y num_workers Ejecutores para un total de num_workers + 1 nodos de Spark. Nota: Al leer las propiedades de un clúster, este campo refleja el número deseado de trabajos en lugar del número actual real de trabajos. Por ejemplo, si un clúster cambia de tamaño de 5 a 10 trabajos, este campo se actualizará inmediatamente para reflejar el tamaño de destino de 10 trabajos, mientras que los trabajos enumerados en spark_info aumentarán gradualmente de 5 a 10 a medida que se aprovisionan los nuevos nodos.

policy_id
policy_id string

Identificador de la directiva de clúster que se usa para crear el clúster si es aplicable.

runtime_engine
runtime_engine ComputeRuntimeEngine
single_user_name
single_user_name string

Nombre de usuario único si data_security_mode es SINGLE_USER

spark_conf
spark_conf object

Objeto que contiene un conjunto de pares de clave-valor de configuración de Spark opcionales especificado por el usuario. Los usuarios también pueden pasar una cadena de opciones adicionales de JVM al controlador y a los ejecutores a través de spark.driver.extraJavaOptions y spark.executor.extraJavaOptions respectivamente.

spark_env_vars
spark_env_vars object

Objeto que contiene un conjunto de pares de clave-valor de variables de entorno opcionales especificadas por el usuario. Tenga en cuenta que el par clave-valor del formulario (X,Y) se exportará tal como está (es decir, exportar X='Y') al iniciar el controlador y los trabajos. Para especificar un conjunto adicional de SPARK_DAEMON_JAVA_OPTS, se recomienda anexarlos a $SPARK_DAEMON_JAVA_OPTS, como se muestra en el ejemplo siguiente. Esto garantiza que también se incluyan también todas las variables de entorno administradas de Databricks predeterminadas. Variables de entorno de Spark de ejemplo: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} o {"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}

spark_version
spark_version string

La versión de Spark del clúster, por ejemplo, 3.3.x-scala2.11. Se puede recuperar una lista de las versiones de Spark disponibles mediante la llamada a la API :method:clusters/sparkVersions.

ssh_public_keys
ssh_public_keys array of string

Contenido de clave pública SSH que se agregará a cada nodo de Spark de este clúster. Las claves privadas correspondientes se pueden usar para iniciar sesión con el nombre de usuario ubuntu en el puerto 2200. Se pueden especificar hasta 10 claves.

use_ml_runtime
use_ml_runtime boolean

Este campo solo se puede usar cuando el tipo = CLASSIC_PREVIEW. effective_spark_version viene determinado por spark_version (versión de DBR), este campo use_ml_runtime y si node_type_id es un nodo de gpu o no.

workload_type
workload_type ComputeWorkloadType

ComputeAutoScale

Nombre Ruta de acceso Tipo Description
max_workers
max_workers integer

Número máximo de trabajos a los que el clúster se puede escalar verticalmente cuando se sobrecarga. Tenga en cuenta que max_workers deben ser estrictamente mayores que min_workers.

min_workers
min_workers integer

Número mínimo de trabajos a los que el clúster se puede reducir verticalmente cuando se infrautiliza. También es el número inicial de trabajos que tendrá el clúster después de la creación.

ComputeAzureAttributes

Nombre Ruta de acceso Tipo Description
availability
availability ComputeAzureAvailability
first_on_demand
first_on_demand integer

Los primeros nodos first_on_demand del clúster se colocarán en instancias a petición. Este valor debe ser mayor que 0 para asegurarse de que el nodo del controlador de clúster se coloca en una instancia a petición. Si este valor es mayor o igual que el tamaño del clúster actual, todos los nodos se colocarán en instancias a petición. Si este valor es menor que el tamaño del clúster actual, first_on_demand nodos se colocarán en instancias a petición y el resto se colocará en las instancias de disponibilidad. Tenga en cuenta que este valor no afecta al tamaño del clúster y actualmente no se puede mutar durante la vigencia de un clúster.

log_analytics_info
log_analytics_info ComputeLogAnalyticsInfo
spot_bid_max_price
spot_bid_max_price double

El precio máximo de puja que se usará para las instancias de acceso puntual de Azure. El precio máximo de la oferta no puede ser mayor que el precio a petición de la instancia. Si no se especifica, el valor predeterminado es -1, que especifica que la instancia no se puede expulsar basándose en el precio y solo en función de la disponibilidad. Además, el valor debe ser > 0 o -1.

ComputeAzureAvailability

ComputeLogAnalyticsInfo

Nombre Ruta de acceso Tipo Description
log_analytics_primary_key
log_analytics_primary_key string
log_analytics_workspace_id
log_analytics_workspace_id string

ComputeClusterLogConf

Nombre Ruta de acceso Tipo Description
dbfs
dbfs ComputeDbfsStorageInfo
volumes
volumes ComputeVolumesStorageInfo

ComputeDbfsStorageInfo

Nombre Ruta de acceso Tipo Description
destination
destination string

destino de dbfs, por ejemplo, dbfs:/my/path

ComputeVolumesStorageInfo

Nombre Ruta de acceso Tipo Description
destination
destination string

Destino de volúmenes uc, por ejemplo, /Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh o dbfs:/Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh

ComputeDataSecurityMode

ComputeDockerImage

Nombre Ruta de acceso Tipo Description
basic_auth
basic_auth ComputeDockerBasicAuth
URL
url string

Dirección URL de la imagen de Docker.

ComputeDockerBasicAuth

Nombre Ruta de acceso Tipo Description
contraseña
password string

Contraseña del usuario

nombre de usuario
username string

Nombre del usuario

ComputeInitScriptInfo

Nombre Ruta de acceso Tipo Description
abfss
abfss ComputeAdlsgen2Info
archivo
file ComputeLocalFileInfo
Gcs
gcs ComputeGcsStorageInfo
volumes
volumes ComputeVolumesStorageInfo
workspace
workspace ComputeWorkspaceStorageInfo

ComputeAdlsgen2Info

Nombre Ruta de acceso Tipo Description
destination
destination string

abfss destination, por ejemplo, abfss:// container-name<@>storage-account-name.dfs.core.windows.net/<> directory-name<>.

ComputeLocalFileInfo

Nombre Ruta de acceso Tipo Description
destination
destination string

destino del archivo local, por ejemplo, file:/my/local/file.sh

ComputeGcsStorageInfo

Nombre Ruta de acceso Tipo Description
destination
destination string

Destino/URI de GCS, por ejemplo, gs://my-bucket/some-prefix

ComputeWorkspaceStorageInfo

Nombre Ruta de acceso Tipo Description
destination
destination string

destino de wsfs, por ejemplo, workspace:/cluster-init-scripts/setup-datadog.sh

ComputeKind

ComputeRuntimeEngine

ComputeWorkloadType

Nombre Ruta de acceso Tipo Description
clients
clients ComputeClientsTypes

ComputeClientsTypes

Nombre Ruta de acceso Tipo Description
jobs
jobs boolean

Con los trabajos establecidos, el clúster se puede usar para los trabajos.

Cuadernos
notebooks boolean

Con los cuadernos establecidos, este clúster se puede usar para cuadernos.

JobsJobNotificationSettings

Nombre Ruta de acceso Tipo Description
no_alert_for_canceled_runs
no_alert_for_canceled_runs boolean

Si es true, no envíe notificaciones a los destinatarios especificados en on_failure si se cancela la ejecución.

no_alert_for_skipped_runs
no_alert_for_skipped_runs boolean

Si es true, no envíe notificaciones a los destinatarios especificados en on_failure si se omite la ejecución.

JobsJobParameterDefinition

Nombre Ruta de acceso Tipo Description
predeterminado
default string

Valor predeterminado del parámetro.

nombre
name string

Nombre del parámetro definido. Solo puede contener caracteres alfanuméricos, _, -, y .

JobsJobRunAs

Nombre Ruta de acceso Tipo Description
service_principal_name
service_principal_name string

Identificador de aplicación de una entidad de servicio activa. Establecer este campo requiere el rol servicePrincipal/user.

nombre_de_usuario
user_name string

Correo electrónico de un usuario de área de trabajo activa. Los usuarios que no son administradores solo pueden establecer este campo en su propio correo electrónico.

JobsCronSchedule

Nombre Ruta de acceso Tipo Description
pause_status
pause_status JobsPauseStatus
quartz_cron_expression
quartz_cron_expression string

Expresión Cron con sintaxis de Cuarzo que describe la programación de un trabajo. Consulte Desencadenador cron para obtener más información. Este campo es obligatorio.

timezone_id
timezone_id string

Un identificador de zona horaria de Java. La programación de un trabajo se resuelve con respecto a esta zona horaria. Consulte Zona horaria de Java para obtener más información. Este campo es obligatorio.

JobsTask

Nombre Ruta de acceso Tipo Description
clean_rooms_notebook_task
clean_rooms_notebook_task Object
condition_task
condition_task JobsConditionTask
dashboard_task
dashboard_task JobsDashboardTask
dbt_task
dbt_task Object
depends_on
depends_on array of JobsTaskDependency

Matriz opcional de objetos que especifican el gráfico de dependencias de la tarea. Todas las tareas especificadas en este campo deben completarse antes de ejecutar esta tarea. La tarea solo se ejecutará si la condición run_if es true. La clave es task_key y el valor es el nombre asignado a la tarea dependiente.

descripción
description string

Descripción opcional de esta tarea.

disable_auto_optimization
disable_auto_optimization boolean

Una opción para deshabilitar la optimización automática en sin servidor

email_notifications
email_notifications JobsTaskEmailNotifications
environment_key
environment_key string

Clave que hace referencia a una especificación de entorno en un trabajo. Este campo es necesario para las tareas de script de Python, rueda de Python y dbt al usar el proceso sin servidor.

existing_cluster_id
existing_cluster_id string

Si existing_cluster_id, el identificador de un clúster existente que se usa para todas las ejecuciones. Al ejecutar trabajos o tareas en un clúster existente, es posible que tenga que reiniciar manualmente el clúster si deja de responder. Se recomienda ejecutar trabajos y tareas en clústeres nuevos para una mayor confiabilidad

for_each_task
for_each_task JobsForEachTask
Salud
health JobsJobsHealthRules
job_cluster_key
job_cluster_key string

Si job_cluster_key, esta tarea se ejecuta reutilizando el clúster especificado en job.settings.job_clusters.

libraries
libraries array of ComputeLibrary

Lista opcional de bibliotecas que se van a instalar en el clúster. El valor predeterminado es una lista vacía.

max_retries
max_retries integer

Número máximo opcional de veces para reintentar una ejecución incorrecta. Una ejecución se considera incorrecta si se completa con la result_state FAILED o INTERNAL_ERROR life_cycle_state. El valor -1 significa reintentar indefinidamente y el valor 0 significa que nunca se reintenta.

min_retry_interval_millis
min_retry_interval_millis integer

Intervalo mínimo opcional en milisegundos entre el inicio de la ejecución con errores y la posterior ejecución de reintento. El comportamiento predeterminado es que las ejecuciones incorrectas se reintentan inmediatamente.

new_cluster
new_cluster ComputeClusterSpec
notebook_task
notebook_task JobsNotebookTask
notification_settings
notification_settings JobsTaskNotificationSettings
pipeline_task
pipeline_task JobsPipelineTask
power_bi_task
power_bi_task Object
python_wheel_task
python_wheel_task JobsPythonWheelTask
retry_on_timeout
retry_on_timeout boolean

Directiva opcional para especificar si se reintenta un trabajo cuando se agota el tiempo de espera. El comportamiento predeterminado es no volver a intentarlo en el tiempo de espera.

run_if
run_if JobsRunIf
run_job_task
run_job_task JobsRunJobTask
spark_jar_task
spark_jar_task JobsSparkJarTask
spark_python_task
spark_python_task JobsSparkPythonTask
spark_submit_task
spark_submit_task JobsSparkSubmitTask
sql_task
sql_task Object
task_key
task_key string

Un nombre único para la tarea. Este campo se usa para hacer referencia a esta tarea desde otras tareas. Este campo es obligatorio y debe ser único dentro de su trabajo primario. En Actualizar o restablecer, este campo se usa para hacer referencia a las tareas que se van a actualizar o restablecer.

timeout_seconds
timeout_seconds integer

Un tiempo de espera opcional aplicado a cada ejecución de esta tarea de trabajo. Un valor de 0 significa que no se ha agotado el tiempo de espera.

webhook_notifications
webhook_notifications JobsWebhookNotifications

JobsConditionTask

Nombre Ruta de acceso Tipo Description
left
left string

Operando izquierdo de la tarea de condición. Puede ser un valor de cadena o una referencia de estado de trabajo o parámetro.

Op
op JobsConditionTaskOp
Derecha
right string

Operando derecho de la tarea de condición. Puede ser un valor de cadena o una referencia de estado de trabajo o parámetro.

JobsConditionTaskOp

JobsDashboardTask

Nombre Ruta de acceso Tipo Description
dashboard_id
dashboard_id string

Identificador del panel que se va a actualizar.

subscription
subscription JobsSubscription
warehouse_id
warehouse_id string

Opcional: identificador de almacenamiento con el que ejecutar el panel para la programación. Si no se especifica, se usará el almacenamiento predeterminado del panel.

JobsSubscription

Nombre Ruta de acceso Tipo Description
custom_subject
custom_subject string

Opcional: permite a los usuarios especificar una línea de asunto personalizada en el correo electrónico enviado a los suscriptores.

Pausa
paused boolean

Cuando es true, la suscripción no enviará correos electrónicos.

Suscriptores
subscribers array of JobsSubscriptionSubscriber

Lista de suscriptores a la que se va a enviar la instantánea del panel.

JobsSubscriptionSubscriber

Nombre Ruta de acceso Tipo Description
destination_id
destination_id string

Se enviará una instantánea del panel al destino cuando el campo destination_id esté presente.

nombre_de_usuario
user_name string

Se enviará una instantánea del panel al correo electrónico del usuario cuando el campo user_name esté presente.

JobsSource

JobsTaskDependency

Nombre Ruta de acceso Tipo Description
resultado
outcome string

Solo se puede especificar en las dependencias de tareas de condición. Resultado de la tarea dependiente que se debe cumplir para que se ejecute esta tarea.

task_key
task_key string

El nombre de la tarea de la que depende esta tarea.

JobsTaskEmailNotifications

Nombre Ruta de acceso Tipo Description
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of string

Lista de direcciones de correo electrónico que se notificarán cuando la duración de una ejecución supera el umbral especificado para la métrica de RUN_DURATION_SECONDS en el campo de mantenimiento. Si no se especifica ninguna regla para la métrica de RUN_DURATION_SECONDS en el campo de mantenimiento del trabajo, no se envían notificaciones.

on_failure
on_failure array of string

Lista de direcciones de correo electrónico que se notificarán cuando se completa una ejecución sin éxito. Se considera que una ejecución se ha completado sin éxito si finaliza con un INTERNAL_ERROR life_cycle_state o un error o TIMED_OUT result_state. Si no se especifica en la creación, restablecimiento o actualización de trabajos, la lista está vacía y no se envían notificaciones.

on_start
on_start array of string

Lista de direcciones de correo electrónico que se notificarán cuando comienza una ejecución. Si no se especifica en la creación, el restablecimiento o la actualización del trabajo, la lista está vacía y no se envían notificaciones.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of string

Lista de direcciones de correo electrónico que se deben notificar cuando se superan los umbrales de trabajos pendientes de streaming para cualquier flujo. Los umbrales de trabajos pendientes de streaming se pueden establecer en el campo de mantenimiento mediante las siguientes métricas: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS o STREAMING_BACKLOG_FILES. La alerta se basa en el promedio de 10 minutos de estas métricas. Si el problema persiste, las notificaciones se vuelven a enviar cada 30 minutos.

on_success
on_success array of string

Lista de direcciones de correo electrónico que se van a notificar cuando se completa correctamente una ejecución. Se considera que una ejecución se ha completado correctamente si finaliza con un life_cycle_state TERMINATED y un result_state SUCCESS. Si no se especifica en la creación, el restablecimiento o la actualización del trabajo, la lista está vacía y no se envían notificaciones.

ComputeLibrary

Nombre Ruta de acceso Tipo Description
Cran
cran ComputeRCranLibrary
tarro
jar string

URI de la biblioteca JAR que se va a instalar. Entre los URI admitidos se incluyen las rutas de acceso del área de trabajo, las rutas de acceso de volúmenes de Catálogo de Unity y los URI de ADLS. Por ejemplo: { "jar": "/Workspace/path/to/library.jar" }, { "jar" : "/Volumes/path/to/library.jar" } o { "jar": "abfss://my-bucket/library.jar" }. Si se usa ADLS, asegúrese de que el clúster tiene acceso de lectura en la biblioteca. Es posible que tenga que iniciar el clúster con una entidad de servicio de Id. de Microsoft Entra para acceder al URI de ADLS.

entendido
maven ComputeMavenLibrary
pypi
pypi ComputePythonPyPiLibrary
requirements
requirements string

URI del archivo requirements.txt que se va a instalar. Solo se admiten las rutas de acceso del área de trabajo y las rutas de acceso de volúmenes del catálogo de Unity. Por ejemplo: { "requirements": "/Workspace/path/to/requirements.txt" } o { "requirements" : "/Volumes/path/to/requirements.txt" }

whl
whl string

URI de la biblioteca de ruedas que se va a instalar. Entre los URI admitidos se incluyen las rutas de acceso del área de trabajo, las rutas de acceso de volúmenes de Catálogo de Unity y los URI de ADLS. Por ejemplo: { "whl": "/Workspace/path/to/library.whl" }, { "whl" : "/Volumes/path/to/library.whl" } o { "whl": "abfss://my-bucket/library.whl" }. Si se usa ADLS, asegúrese de que el clúster tiene acceso de lectura en la biblioteca. Es posible que tenga que iniciar el clúster con una entidad de servicio de Id. de Microsoft Entra para acceder al URI de ADLS.

JobsForEachTask

Nombre Ruta de acceso Tipo Description
simultaneidad
concurrency integer

Número máximo opcional permitido de ejecuciones simultáneas de la tarea. Establezca este valor si desea poder ejecutar varias ejecuciones de la tarea simultáneamente.

inputs
inputs string

Matriz de la tarea en la que se va a iterar. Puede ser una cadena JSON o una referencia a un parámetro de matriz.

task
task Object

ComputeRCranLibrary

Nombre Ruta de acceso Tipo Description
paquete
package string

Nombre del paquete CRAN que se va a instalar.

Repo
repo string

Repositorio donde se puede encontrar el paquete. Si no se especifica, se usa el repositorio CRAN predeterminado.

ComputeMavenLibrary

Nombre Ruta de acceso Tipo Description
Coordenadas
coordinates string

Coordenadas maven de estilo Gradle. Por ejemplo: "org.jsoup:jsoup:1.7.2".

Exclusiones
exclusions array of string

Lista de dependencias que se van a excluir. Por ejemplo: ["slf4j:slf4j", "*:hadoop-client"]. Exclusiones de dependencias de Maven: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html.

Repo
repo string

Repositorio de Maven desde el que instalar el paquete de Maven. Si se omite, se busca tanto el repositorio central de Maven como los paquetes de Spark.

ComputePythonPyPiLibrary

Nombre Ruta de acceso Tipo Description
paquete
package string

Nombre del paquete pypi que se va a instalar. También se admite una especificación de versión exacta opcional. Ejemplos: "simplejson" y "simplejson==3.8.0".

Repo
repo string

Repositorio donde se puede encontrar el paquete. Si no se especifica, se usa el índice pip predeterminado.

JobsNotebookTask

Nombre Ruta de acceso Tipo Description
base_parameters
base_parameters object

Parámetros base que se usarán para cada ejecución de este trabajo. Si la ejecución se inicia mediante una llamada a :method:jobs/run Now con parámetros especificados, se combinan los dos mapas de parámetros. Si se especifica la misma clave en base_parameters y en run-now, se usa el valor de run-now. Use variables de parámetros task para establecer parámetros que contengan información sobre las ejecuciones de trabajos. Si el cuaderno toma un parámetro que no se especifica en el base_parameters del trabajo o los parámetros de invalidación run-now, se usa el valor predeterminado del cuaderno. Recupere estos parámetros en un cuaderno mediante dbutils.widgets.get. La representación JSON de este campo no puede superar los 1 MB.

notebook_path
notebook_path string

Ruta de acceso del cuaderno que se va a ejecutar en el área de trabajo de Databricks o en el repositorio remoto. En el caso de los cuadernos almacenados en el área de trabajo de Databricks, la ruta de acceso debe ser absoluta y comenzar con una barra diagonal. En el caso de los cuadernos almacenados en un repositorio remoto, la ruta de acceso debe ser relativa. Este campo es obligatorio.

source
source JobsSource
warehouse_id
warehouse_id string

Opcional warehouse_id para ejecutar el cuaderno en un almacén de SQL. No se admiten los almacenes de SQL clásicos, use almacenes SQL sin servidor o pro. Tenga en cuenta que los almacenes de SQL solo admiten celdas SQL; si el cuaderno contiene celdas que no son de SQL, se producirá un error en la ejecución.

JobsTaskNotificationSettings

Nombre Ruta de acceso Tipo Description
alert_on_last_attempt
alert_on_last_attempt boolean

Si es true, no envíe notificaciones a los destinatarios especificados en on_start para las ejecuciones de reintento y no envíe notificaciones a los destinatarios especificados en on_failure hasta el último reintento de la ejecución.

no_alert_for_canceled_runs
no_alert_for_canceled_runs boolean

Si es true, no envíe notificaciones a los destinatarios especificados en on_failure si se cancela la ejecución.

no_alert_for_skipped_runs
no_alert_for_skipped_runs boolean

Si es true, no envíe notificaciones a los destinatarios especificados en on_failure si se omite la ejecución.

JobsPipelineTask

Nombre Ruta de acceso Tipo Description
full_refresh
full_refresh boolean

Si es true, desencadena una actualización completa en la tabla dinámica delta.

pipeline_id
pipeline_id string

Nombre completo de la tarea de canalización que se va a ejecutar.

JobsPythonWheelTask

Nombre Ruta de acceso Tipo Description
entry_point
entry_point string

Punto de entrada con nombre que se va a usar, si no existe en los metadatos del paquete, ejecuta la función directamente desde el paquete mediante $packageName.$entryPoint()

named_parameters
named_parameters object

Parámetros de línea de comandos pasados a la tarea rueda de Python en forma de ["--name=task", "--data=dbfs:/path/to/data.json"]. Déjelo vacío si los parámetros no son NULL.

package_name
package_name string

Nombre del paquete que se va a ejecutar

parameters
parameters array of string

Parámetros de línea de comandos pasados a la tarea rueda de Python. Déjelo vacío si named_parameters no es null.

JobsRunIf

JobsRunJobTask

Nombre Ruta de acceso Tipo Description
job_id
job_id integer

Identificador del trabajo que se va a desencadenar.

job_parameters
job_parameters object

Parámetros de nivel de trabajo usados para desencadenar el trabajo.

pipeline_params
pipeline_params JobsPipelineParams

JobsSparkJarTask

Nombre Ruta de acceso Tipo Description
main_class_name
main_class_name string

Nombre completo de la clase que incluye el método principal que se va a ejecutar. Esta clase debe estar contenida en un archivo JAR que se proporciona como una biblioteca. El código debe usar SparkContext.getOrCreate para obtener un contexto de Spark; De lo contrario, se produce un error en las ejecuciones del trabajo.

parameters
parameters array of string

Parámetros pasados al método principal. Use variables de parámetros de tarea para establecer parámetros que contengan información sobre las ejecuciones de trabajos.

JobsSparkPythonTask

Nombre Ruta de acceso Tipo Description
parameters
parameters array of string

Parámetros de línea de comandos pasados al archivo de Python. Use variables de parámetros task para establecer parámetros que contengan información sobre las ejecuciones de trabajos.

python_file
python_file string

Archivo de Python que se va a ejecutar. Se admiten los URI de archivo en la nube (como dbfs:/, s3:/, adls:/, gcs:/) y las rutas de acceso del área de trabajo. Para los archivos de Python almacenados en el área de trabajo de Databricks, la ruta de acceso debe ser absoluta y comenzar con /. Para los archivos almacenados en un repositorio remoto, la ruta de acceso debe ser relativa. Este campo es obligatorio.

source
source JobsSource

JobsSparkSubmitTask

Nombre Ruta de acceso Tipo Description
parameters
parameters array of string

Parámetros de línea de comandos pasados al envío de Spark. Use variables de parámetros task para establecer parámetros que contengan información sobre las ejecuciones de trabajos.

JobsWebhookNotifications

Nombre Ruta de acceso Tipo Description
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of JobsWebhook

Lista opcional de identificadores de notificación del sistema que se deben llamar cuando la duración de una ejecución supera el umbral especificado para la métrica de RUN_DURATION_SECONDS en el campo de mantenimiento. Se puede especificar un máximo de 3 destinos para la propiedad on_duration_warning_threshold_exceeded.

on_failure
on_failure array of JobsWebhook

Lista opcional de identificadores de notificación del sistema que se deben llamar cuando se produce un error en la ejecución. Se puede especificar un máximo de 3 destinos para la propiedad on_failure.

on_start
on_start array of JobsWebhook

Lista opcional de identificadores de notificación del sistema a los que llamar cuando se inicia la ejecución. Se puede especificar un máximo de 3 destinos para la propiedad on_start.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of JobsWebhook

Una lista opcional de identificadores de notificación del sistema que se deben llamar cuando se superan los umbrales de trabajo pendiente de streaming para cualquier flujo. Los umbrales de trabajos pendientes de streaming se pueden establecer en el campo de mantenimiento mediante las siguientes métricas: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS o STREAMING_BACKLOG_FILES. La alerta se basa en el promedio de 10 minutos de estas métricas. Si el problema persiste, las notificaciones se vuelven a enviar cada 30 minutos. Se puede especificar un máximo de 3 destinos para la propiedad on_streaming_backlog_exceeded.

on_success
on_success array of JobsWebhook

Lista opcional de identificadores de notificación del sistema a los que llamar cuando la ejecución se completa correctamente. Se puede especificar un máximo de 3 destinos para la propiedad on_success.

JobsWebhook

Nombre Ruta de acceso Tipo Description
id
id string

JobsTriggerSettings

Nombre Ruta de acceso Tipo Description
file_arrival
file_arrival JobsFileArrivalTriggerConfiguration
pause_status
pause_status JobsPauseStatus
periódico
periodic JobsPeriodicTriggerConfiguration

JobsFileArrivalTriggerConfiguration

Nombre Ruta de acceso Tipo Description
min_time_between_triggers_seconds
min_time_between_triggers_seconds integer

Si se establece, el desencadenador inicia una ejecución solo después de la cantidad de tiempo especificada pasada desde la última vez que se desencadenó el desencadenador. El valor mínimo permitido es de 60 segundos.

URL
url string

Dirección URL que se va a supervisar para las llegadas de archivos. La ruta de acceso debe apuntar a la raíz o a una subruta de la ubicación externa.

wait_after_last_change_seconds
wait_after_last_change_seconds integer

Si se establece, el desencadenador inicia una ejecución solo después de que no se haya producido ninguna actividad de archivo durante el período de tiempo especificado. Esto permite esperar a que llegue un lote de archivos entrantes antes de desencadenar una ejecución. El valor mínimo permitido es de 60 segundos.

JobsPeriodicTriggerConfiguration

Nombre Ruta de acceso Tipo Description
interval
interval integer

Intervalo en el que se debe ejecutar el desencadenador.

unit
unit JobsPeriodicTriggerConfigurationTimeUnit

JobsPeriodicTriggerConfigurationTimeUnit

JobsTriggerStateProto

Nombre Ruta de acceso Tipo Description
file_arrival
file_arrival JobsFileArrivalTriggerState

JobsFileArrivalTriggerState

Nombre Ruta de acceso Tipo Description
using_file_events
using_file_events boolean

Indica si el desencadenador aprovecha los eventos de archivo para detectar llegadas de archivos.

JobsRun

Nombre Ruta de acceso Tipo Description
attempt_number
attempt_number integer

Número de secuencia de este intento de ejecución para una ejecución de trabajo desencadenada. El intento inicial de una ejecución tiene un attempt_number de 0. Si se produce un error en el intento de ejecución inicial y el trabajo tiene una directiva de reintento (max_retries > 0), las ejecuciones posteriores se crean con un original_attempt_run_id del identificador del intento original y un attempt_number de incremento. Las ejecuciones solo se reintentan hasta que se realizan correctamente y el attempt_number máximo es el mismo que el valor de max_retries para el trabajo.

cleanup_duration
cleanup_duration integer

Tiempo en milisegundos que tardó en finalizar el clúster y limpiar los artefactos asociados. La duración de una ejecución de tareas es la suma del setup_duration, execution_duration y el cleanup_duration. El campo cleanup_duration se establece en 0 para ejecuciones de trabajos de varias tareas. La duración total de una ejecución de trabajo de varias tareas es el valor del campo run_duration.

cluster_instance
cluster_instance JobsClusterInstance
cluster_spec
cluster_spec JobsClusterSpec
creator_user_name
creator_user_name string

Nombre de usuario del creador. Este campo no se incluirá en la respuesta si el usuario ya se ha eliminado.

descripción
description string

Descripción de la ejecución

effective_performance_target
effective_performance_target JobsPerformanceTarget
end_time
end_time integer

Hora en la que esta ejecución finalizó en milisegundos de época (milisegundos desde las 1/1/1970 UTC). Este campo se establece en 0 si el trabajo todavía se está ejecutando.

execution_duration
execution_duration integer

El tiempo en milisegundos que tardó en ejecutar los comandos en el ARCHIVO JAR o cuaderno hasta que se completaron, se produjo un error, se agota el tiempo de espera, se canceló o se encontró un error inesperado. La duración de una ejecución de tareas es la suma del setup_duration, execution_duration y el cleanup_duration. El campo execution_duration se establece en 0 para ejecuciones de trabajos de varias tareas. La duración total de una ejecución de trabajo de varias tareas es el valor del campo run_duration.

git_source
git_source JobsGitSource
has_more
has_more boolean

Indica si la ejecución tiene más propiedades de matriz (tareas, job_clusters) que no se muestran. Se puede acceder a ellos a través de :method:jobs/getrun endpoint. Solo es relevante para las solicitudes api 2.2 :method:jobs/listruns con expand_tasks=true.

job_clusters
job_clusters array of JobsJobCluster

Lista de especificaciones de clúster de trabajos que las tareas de este trabajo pueden compartir y reutilizar. Las bibliotecas no se pueden declarar en un clúster de trabajos compartidos. Debe declarar bibliotecas dependientes en la configuración de tareas. Si hay más de 100 clústeres de trabajos disponibles, puede paginarlos mediante :method:jobs/getrun.

job_id
job_id integer

Identificador canónico del trabajo que contiene esta ejecución.

job_parameters
job_parameters array of JobsJobParameter

Parámetros de nivel de trabajo usados en la ejecución

job_run_id
job_run_id integer

Identificador de la ejecución del trabajo a la que pertenece esta ejecución. Para el trabajo heredado y de tarea única, el campo se rellena con el identificador de ejecución del trabajo. En el caso de las ejecuciones de tareas, el campo se rellena con el identificador de la ejecución del trabajo al que pertenece la ejecución de la tarea.

next_page_token
next_page_token string

Token que se puede usar para enumerar la página siguiente de propiedades de matriz.

original_attempt_run_id
original_attempt_run_id integer

Si esta ejecución es un reintento de un intento de ejecución anterior, este campo contiene la run_id del intento original; de lo contrario, es igual que el run_id.

overriding_parameters
overriding_parameters JobsRunParameters
queue_duration
queue_duration integer

Tiempo en milisegundos que la ejecución ha invertido en la cola.

repair_history
repair_history array of JobsRepairHistoryItem

Historial de reparaciones de la ejecución.

run_duration
run_duration integer

El tiempo en milisegundos tomó la ejecución del trabajo y todas sus reparaciones para finalizar.

identificador_de_ejecución
run_id integer

Identificador canónico de la ejecución. Este identificador es único en todas las ejecuciones de todos los trabajos.

run_name
run_name string

Un nombre opcional para la ejecución. La longitud máxima es de 4096 bytes en codificación UTF-8.

run_page_url
run_page_url string

Dirección URL de la página de detalles de la ejecución.

tipo_de_ejecución
run_type JobsRunType
horario
schedule JobsCronSchedule
setup_duration
setup_duration integer

El tiempo en milisegundos que tardó en configurar el clúster. En el caso de las ejecuciones que se ejecutan en clústeres nuevos, este es el tiempo de creación del clúster, para las ejecuciones que se ejecutan en clústeres existentes, este tiempo debe ser muy corto. La duración de una ejecución de tareas es la suma del setup_duration, execution_duration y el cleanup_duration. El campo setup_duration se establece en 0 para ejecuciones de trabajos de varias tareas. La duración total de una ejecución de trabajo de varias tareas es el valor del campo run_duration.

hora_de_inicio
start_time integer

Hora a la que se inició esta ejecución en milisegundos de época (milisegundos desde 1/1/1/1970 UTC). Puede que no sea la hora en que la tarea de trabajo empiece a ejecutarse, por ejemplo, si el trabajo está programado para ejecutarse en un nuevo clúster, es la hora en que se emite la llamada de creación del clúster.

estado
status JobsRunStatus
tareas
tasks array of JobsRunTask

Lista de tareas realizadas por la ejecución. Cada tarea tiene su propia run_id que puede usar para llamar a JobsGetOutput para recuperar las resutls de ejecución. Si hay más de 100 tareas disponibles, puede paginarlos mediante :method:jobs/getrun. Use el campo next_page_token en la raíz del objeto para determinar si hay más resultados disponibles.

trigger
trigger JobsTriggerType
trigger_info
trigger_info JobsTriggerInfo

JobsClusterInstance

Nombre Ruta de acceso Tipo Description
cluster_id
cluster_id string

Identificador canónico del clúster usado por una ejecución. Este campo siempre está disponible para las ejecuciones en clústeres existentes. En el caso de las ejecuciones en clústeres nuevos, estará disponible una vez creado el clúster. Este valor se puede usar para ver los registros; para ello, vaya a /#setting/sparkui/$cluster_id/driver-logs. Los registros siguen estando disponibles una vez completada la ejecución. La respuesta no incluirá este campo si el identificador aún no está disponible.

spark_context_id
spark_context_id string

Identificador canónico del contexto de Spark usado por una ejecución. Este campo se rellena una vez que la ejecución comienza la ejecución. Este valor se puede usar para ver la interfaz de usuario de Spark; para ello, vaya a /#setting/sparkui/$cluster_id/$spark_context_id. La interfaz de usuario de Spark sigue estando disponible una vez completada la ejecución. La respuesta no incluirá este campo si el identificador aún no está disponible.

JobsClusterSpec

Nombre Ruta de acceso Tipo Description
existing_cluster_id
existing_cluster_id string

Si existing_cluster_id, el identificador de un clúster existente que se usa para todas las ejecuciones. Al ejecutar trabajos o tareas en un clúster existente, es posible que tenga que reiniciar manualmente el clúster si deja de responder. Se recomienda ejecutar trabajos y tareas en clústeres nuevos para una mayor confiabilidad

job_cluster_key
job_cluster_key string

Si job_cluster_key, esta tarea se ejecuta reutilizando el clúster especificado en job.settings.job_clusters.

libraries
libraries array of ComputeLibrary

Lista opcional de bibliotecas que se van a instalar en el clúster. El valor predeterminado es una lista vacía.

new_cluster
new_cluster ComputeClusterSpec

JobsJobParameter

Nombre Ruta de acceso Tipo Description
predeterminado
default string

Valor predeterminado opcional del parámetro

nombre
name string

Nombre del parámetro

value
value string

Valor usado en la ejecución

JobsRunParameters

Nombre Ruta de acceso Tipo Description
pipeline_params
pipeline_params JobsPipelineParams

JobsRepairHistoryItem

Nombre Ruta de acceso Tipo Description
effective_performance_target
effective_performance_target JobsPerformanceTarget
end_time
end_time integer

Hora de finalización de la ejecución (reparada).

id
id integer

Identificador de la reparación. Solo se devuelve para los elementos que representan una reparación en repair_history.

hora_de_inicio
start_time integer

Hora de inicio de la ejecución (reparada).

estado
status JobsRunStatus
task_run_ids
task_run_ids array of integer

Los identificadores de ejecución de la tarea se ejecutan como parte de este elemento del historial de reparaciones.

type
type JobsRepairHistoryItemType

JobsRunStatus

Nombre Ruta de acceso Tipo Description
queue_details
queue_details JobsQueueDetails
estado
state JobsRunLifecycleStateV2State
termination_details
termination_details JobsTerminationDetails

JobsQueueDetails

Nombre Ruta de acceso Tipo Description
código
code JobsQueueDetailsCodeCode
Mensaje
message string

Mensaje descriptivo con los detalles de puesta en cola. Este campo no está estructurado y su formato exacto está sujeto a cambios.

JobsQueueDetailsCode

JobsRunLifecycleStateV2State

JobsTerminationDetails

Nombre Ruta de acceso Tipo Description
código
code JobsTerminationCodeCode
Mensaje
message string

Mensaje descriptivo con los detalles de finalización. Este campo no está estructurado y el formato puede cambiar.

type
type JobsTerminationTypeType

JobsTerminationCode

JobsTerminationTypeType

JobsRepairHistoryItemType

JobsRunType

JobsRunTask

Nombre Ruta de acceso Tipo Description
attempt_number
attempt_number integer

Número de secuencia de este intento de ejecución para una ejecución de trabajo desencadenada. El intento inicial de una ejecución tiene un attempt_number de 0. Si se produce un error en el intento de ejecución inicial y el trabajo tiene una directiva de reintento (max_retries > 0), las ejecuciones posteriores se crean con un original_attempt_run_id del identificador del intento original y un attempt_number de incremento. Las ejecuciones solo se reintentan hasta que se realizan correctamente y el attempt_number máximo es el mismo que el valor de max_retries para el trabajo.

clean_rooms_notebook_task
clean_rooms_notebook_task Object
cleanup_duration
cleanup_duration integer

Tiempo en milisegundos que tardó en finalizar el clúster y limpiar los artefactos asociados. La duración de una ejecución de tareas es la suma del setup_duration, execution_duration y el cleanup_duration. El campo cleanup_duration se establece en 0 para ejecuciones de trabajos de varias tareas. La duración total de una ejecución de trabajo de varias tareas es el valor del campo run_duration.

cluster_instance
cluster_instance JobsClusterInstance
condition_task
condition_task JobsRunConditionTask
dashboard_task
dashboard_task Object
dbt_task
dbt_task Object
depends_on
depends_on array of JobsTaskDependency

Matriz opcional de objetos que especifican el gráfico de dependencias de la tarea. Todas las tareas especificadas en este campo deben completarse correctamente antes de ejecutar esta tarea. La clave es task_key y el valor es el nombre asignado a la tarea dependiente.

descripción
description string

Descripción opcional de esta tarea.

effective_performance_target
effective_performance_target JobsPerformanceTarget
email_notifications
email_notifications JobsJobEmailNotifications
end_time
end_time integer

Hora en la que esta ejecución finalizó en milisegundos de época (milisegundos desde las 1/1/1970 UTC). Este campo se establece en 0 si el trabajo todavía se está ejecutando.

environment_key
environment_key string

Clave que hace referencia a una especificación de entorno en un trabajo. Este campo es necesario para las tareas de script de Python, rueda de Python y dbt al usar el proceso sin servidor.

execution_duration
execution_duration integer

El tiempo en milisegundos que tardó en ejecutar los comandos en el ARCHIVO JAR o cuaderno hasta que se completaron, se produjo un error, se agota el tiempo de espera, se canceló o se encontró un error inesperado. La duración de una ejecución de tareas es la suma del setup_duration, execution_duration y el cleanup_duration. El campo execution_duration se establece en 0 para ejecuciones de trabajos de varias tareas. La duración total de una ejecución de trabajo de varias tareas es el valor del campo run_duration.

existing_cluster_id
existing_cluster_id string

Si existing_cluster_id, el identificador de un clúster existente que se usa para todas las ejecuciones. Al ejecutar trabajos o tareas en un clúster existente, es posible que tenga que reiniciar manualmente el clúster si deja de responder. Se recomienda ejecutar trabajos y tareas en clústeres nuevos para una mayor confiabilidad

for_each_task
for_each_task Object
git_source
git_source JobsGitSource
job_cluster_key
job_cluster_key string

Si job_cluster_key, esta tarea se ejecuta reutilizando el clúster especificado en job.settings.job_clusters.

libraries
libraries array of Object

Lista opcional de bibliotecas que se van a instalar en el clúster. El valor predeterminado es una lista vacía.

new_cluster
new_cluster Object
notebook_task
notebook_task JobsNotebookTask
notification_settings
notification_settings Object
pipeline_task
pipeline_task Object
power_bi_task
power_bi_task Object
python_wheel_task
python_wheel_task Object
queue_duration
queue_duration integer

Tiempo en milisegundos que la ejecución ha invertido en la cola.

resolved_values
resolved_values JobsResolvedValues
run_duration
run_duration integer

El tiempo en milisegundos tomó la ejecución del trabajo y todas sus reparaciones para finalizar.

identificador_de_ejecución
run_id integer

Identificador de la ejecución de la tarea.

run_if
run_if JobsRunIf
run_job_task
run_job_task JobsRunJobTask
run_page_url
run_page_url string
setup_duration
setup_duration integer

El tiempo en milisegundos que tardó en configurar el clúster. En el caso de las ejecuciones que se ejecutan en clústeres nuevos, este es el tiempo de creación del clúster, para las ejecuciones que se ejecutan en clústeres existentes, este tiempo debe ser muy corto. La duración de una ejecución de tareas es la suma del setup_duration, execution_duration y el cleanup_duration. El campo setup_duration se establece en 0 para ejecuciones de trabajos de varias tareas. La duración total de una ejecución de trabajo de varias tareas es el valor del campo run_duration.

spark_jar_task
spark_jar_task Object
spark_python_task
spark_python_task Object
spark_submit_task
spark_submit_task Object
sql_task
sql_task Object
hora_de_inicio
start_time integer

Hora a la que se inició esta ejecución en milisegundos de época (milisegundos desde 1/1/1/1970 UTC). Puede que no sea la hora en que la tarea de trabajo empiece a ejecutarse, por ejemplo, si el trabajo está programado para ejecutarse en un nuevo clúster, es la hora en que se emite la llamada de creación del clúster.

estado
status JobsRunStatus
task_key
task_key string

Un nombre único para la tarea. Este campo se usa para hacer referencia a esta tarea desde otras tareas. Este campo es obligatorio y debe ser único dentro de su trabajo primario. En Actualizar o restablecer, este campo se usa para hacer referencia a las tareas que se van a actualizar o restablecer.

timeout_seconds
timeout_seconds integer

Un tiempo de espera opcional aplicado a cada ejecución de esta tarea de trabajo. Un valor de 0 significa que no se ha agotado el tiempo de espera.

webhook_notifications
webhook_notifications Object

JobsRunConditionTask

Nombre Ruta de acceso Tipo Description
left
left string

Operando izquierdo de la tarea de condición. Puede ser un valor de cadena o una referencia de estado de trabajo o parámetro.

Op
op JobsConditionTaskOp
resultado
outcome string

Resultado de evaluación de expresiones de condición. Rellenado si la tarea se completó correctamente. Puede ser "true" o "false"

Derecha
right string

Operando derecho de la tarea de condición. Puede ser un valor de cadena o una referencia de estado de trabajo o parámetro.

JobsTriggerType

JobsTriggerInfo

Nombre Ruta de acceso Tipo Description
identificador_de_ejecución
run_id integer

Identificador de ejecución de la tarea Ejecutar trabajo

JobsRunOutput

Nombre Ruta de acceso Tipo Description
clean_rooms_notebook_output
clean_rooms_notebook_output Object
dashboard_output
dashboard_output Object
dbt_output
dbt_output Object
error
error string

Mensaje de error que indica por qué se produjo un error en una tarea o por qué la salida no está disponible. El mensaje no está estructurado y su formato exacto está sujeto a cambios.

error_trace
error_trace string

Si se produjo un error al ejecutar la ejecución, este campo contiene los seguimientos de pila disponibles.

info
info string
logs
logs string

Salida de las tareas que escriben en secuencias estándar (stdout/stderr), como spark_jar_task, spark_python_task, python_wheel_task. No se admite para el notebook_task, pipeline_task ni spark_submit_task. Databricks restringe esta API para devolver los últimos 5 MB de estos registros.

logs_truncated
logs_truncated boolean

Indica si los registros se truncan.

metadata
metadata Object
notebook_output
notebook_output JobsNotebookOutput
run_job_output
run_job_output JobsRunJobOutput
sql_output
sql_output Object

JobsNotebookOutput

Nombre Ruta de acceso Tipo Description
resultado
result string

Valor pasado a dbutils.notebook.exit(). Databricks restringe esta API para devolver los primeros 5 MB del valor. Para obtener un resultado mayor, el trabajo puede almacenar los resultados en un servicio de almacenamiento en la nube. Este campo no se encuentra si nunca se llamó a dbutils.notebook.exit().

truncado
truncated boolean

Indica si el resultado se ha truncado o no.

JobsRunJobOutput

Nombre Ruta de acceso Tipo Description
identificador_de_ejecución
run_id integer

Identificador de ejecución de la ejecución del trabajo desencadenado

JobsResolvedValues

Nombre Ruta de acceso Tipo Description
condition_task
condition_task JobsResolvedConditionTaskValues
dbt_task
dbt_task JobsResolvedDbtTaskValues
notebook_task
notebook_task JobsResolvedNotebookTaskValues
python_wheel_task
python_wheel_task JobsResolvedPythonWheelTaskValues
run_job_task
run_job_task JobsResolvedRunJobTaskValues
simulation_task
simulation_task JobsResolvedParamPairValues
spark_jar_task
spark_jar_task JobsResolvedStringParamsValues
spark_python_task
spark_python_task JobsResolvedStringParamsValues
spark_submit_task
spark_submit_task JobsResolvedStringParamsValues
sql_task
sql_task JobsResolvedParamPairValues

JobsResolvedConditionTaskValues

Nombre Ruta de acceso Tipo Description
left
left string
Derecha
right string

JobsResolvedDbtTaskValues

Nombre Ruta de acceso Tipo Description
commands
commands array of string

JobsResolvedNotebookTaskValues

Nombre Ruta de acceso Tipo Description
base_parameters
base_parameters object

JobsResolvedPythonWheelTaskValues

Nombre Ruta de acceso Tipo Description
named_parameters
named_parameters object
parameters
parameters array of string

JobsResolvedRunJobTaskValues

Nombre Ruta de acceso Tipo Description
job_parameters
job_parameters object
parameters
parameters object

JobsResolvedParamPairValues

Nombre Ruta de acceso Tipo Description
parameters
parameters object

JobsResolvedStringParamsValues

Nombre Ruta de acceso Tipo Description
parameters
parameters array of string