Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Importante
Esta característica está en versión preliminar pública.
En esta página se describe cómo actualizar el linaje de datos para incluir recursos externos y flujos de trabajo que se ejecutan fuera de Azure Databricks.
El Catálogo de Unity captura automáticamente el linaje de datos en tiempo de ejecución entre las consultas que se ejecutan en Azure Databricks. Sin embargo, es posible que tenga cargas de trabajo que se ejecuten fuera de Azure Databricks (por ejemplo, ETL de primera milla o BI de última milla). El catálogo de Unity le permite agregar metadatos de linaje externos para aumentar el linaje de datos de Azure Databricks que captura automáticamente, lo que proporciona una vista de linaje de un extremo a otro en el catálogo de Unity. Esto resulta útil cuando desea capturar dónde proceden los datos (por ejemplo, Salesforce o MySQL) antes de que se ingieren en el Catálogo de Unity o dónde se consumen datos fuera del Catálogo de Unity (por ejemplo, Tableau o PowerBI).
En el gráfico de linaje siguiente se muestra una tabla externa de PostgreSQL que se ingerió en Azure Databricks como una tabla administrada del catálogo de Unity, con tres columnas transformadas en una release_date columna y, a continuación, consultadas mediante PowerBI.
Para obtener información general sobre el linaje de datos en Azure Databricks, consulte Visualización del linaje de datos mediante el catálogo de Unity.
Requisitos
Para agregar metadatos de linaje externos en el catálogo de Unity, debe tener los siguientes privilegios, en función de la tarea específica:
- Para crear un objeto protegible de metadatos externos en el Catálogo de Unity, debe tener el privilegio
CREATE EXTERNAL METADATAen el metastore. - Para especificar relaciones de linaje entre un objeto de metadatos externo y cualquier otro objeto del Catálogo de Unity, debe tener el
MODIFYprivilegio en el objeto de metadatos externo. - Para especificar una relación de linaje descendente con un objeto Catalog de Unity, debe tener privilegios de lectura en el objeto (por ejemplo,
SELECTen una tabla). - Para especificar una relación de linaje ascendente con un objeto Catalog de Unity, debe tener privilegios de escritura en el objeto (por ejemplo,
MODIFYen una tabla).
Adición de metadatos de linaje externo
Para agregar metadatos de linaje externos:
Crea un objeto securizable de metadatos externos en Unity Catalog.
Este objeto representa una entidad en un sistema externo, como un panel de Tableau.
Configure una relación de linaje entre el objeto de metadatos externos y otro objeto del Catálogo de Unity, como una tabla, un modelo, una ruta u otro objeto de metadatos externos.
Cuando haya creado relaciones de linaje, el objeto de metadatos externos aparece en la vista de gráfico de linaje.
Puede crear objetos de metadatos externos y configurar relaciones de linaje mediante la interfaz de usuario del Explorador de catálogos o una API REST.
Creación de un objeto de metadatos externos
Puede crear un objeto de metadatos externo mediante el Explorador de catálogos o la API de metadatos externos.
Para usar el Explorador de catálogos para crear un objeto de metadatos externo:
En el área de trabajo de Azure Databricks, haga clic en
Catálogo.
Haga clic en el botón Datos >externos, vaya a la pestaña Metadatos externos y haga clic en Crear metadatos externos.
Especifique los detalles de los metadatos.
Requerido:
- Nombre: escriba un nombre legible que ayude a los usuarios de Azure Databricks a comprender lo que ven en el linaje. No se pueden usar espacios.
- Tipo de sistema: seleccione en la lista de datos externos comunes y sistemas de BI. Si no encuentra el suyo, seleccione Personalizado.
- Tipo de entidad: escriba el tipo de objeto, como "tabla" o "panel".
Opcional:
- Dirección URL: escriba la dirección URL del objeto si desea que los visores de gráficos de linaje puedan hacer clic en el recurso externo (por ejemplo, un panel de Tableau).
- Descripción
Avanzado:
- Columnas: si desea realizar la asignación de nivel de columna de este objeto externo a otro objeto catalog de Unity, escriba los nombres de columna. Seleccione la interfaz de usuario para escribirlas de una en una o entrada de texto para escribir una lista delimitada por comas en un único cuadro de texto.
- Propiedades: si hay otras propiedades que desea realizar un seguimiento en el linaje, escríbalas como pares clave-valor JSON. Puede usar la interfaz de usuario para escribir cada par clave-valor o escribir un objeto JSON completo.
Haga clic en Crear.
Un cuadro de diálogo le ofrece la opción de ver el objeto de metadatos externos o crear relaciones de linaje para el objeto .
Creación de relaciones de linaje
Puede crear relaciones de linaje mediante el Explorador de catálogos, la API de linaje externo o el SDK de Databricks para Python.
Para agregar relaciones entre un objeto de metadatos externo y otros objetos catalog de Unity:
Siga el mensaje mencionado anteriormente o busque el objeto de metadatos externos existente en el Explorador de catálogos:
- Haga clic en
Catálogo
- Haga clic en el botón Datos >externos.
- Vaya a la pestaña Metadatos externos y seleccione el objeto de metadatos externos.
- Haga clic en
Haga clic en Crear relación de linaje.
Seleccione si desea crear una relación ascendente o descendente.
Escriba el tipo de objeto al que desea crear la relación:
- Tabla: seleccione la tabla mediante el cuadro de diálogo de búsqueda.
- Modelo: seleccione el modelo mediante el cuadro de diálogo de búsqueda y, a continuación, seleccione la versión del modelo.
- Ruta: Para volúmenes o ubicaciones externas, introduzca la ruta.
- Metadatos externos: seleccione el objeto de metadatos externos en el menú desplegable.
(Opcional) Haga clic en Opciones avanzadas para agregar:
- Asignaciones de columnas entre el objeto de metadatos externo y el objeto de origen o de destino.
- Otros metadatos como JSON de pares clave-valor. Por ejemplo, puede usarlos para escribir el texto de la consulta que creó una tabla a partir del objeto de metadatos externos o anotaciones que explican el flujo de trabajo externo que generó la relación.
Haga clic en Crear.
Ahora puede ver la relación de linaje externo en la pestaña Linaje de los objetos relacionados.
Preguntas más frecuentes sobre el linaje externo
¿Databricks proporciona conectores o rastreadores para incorporar automáticamente metadatos de linaje externos?
No, el linaje externo no se captura automáticamente. Debe usar la API REST o el Explorador de catálogos para agregar linaje externo.
¿Se registra el linaje externo que agrego en la tabla del sistema de linaje?
No, el linaje externo que agregue con esta característica no se puede consultar desde la tabla del sistema de linaje. Debe llamar a la API REST para obtener el linaje externo de forma programática.
¿Puedo especificar una relación de linaje entre dos tablas registradas en el catálogo de Unity mediante esta característica?
Para especificar una relación de linaje entre dos tablas registradas en el catálogo de Unity, debe crear un objeto de metadatos externo que se encuentra entre ellas. Puede especificar una tabla como de entrada para el objeto de metadatos externos y la otra como de salida para que se muestren como conectadas en el gráfico de linaje.
¿Puedo usar esta característica para especificar varios niveles de relaciones de linaje externo (por ejemplo, anotando datos que pasan por varios sistemas antes de entrar en Databricks)?
Sí, puede especificar varios niveles de linaje externo creando varios objetos protegibles de metadatos externos y creando relaciones de linaje externas en cada uno de ellos.
¿Puedo agregar linaje externo de nivel de columna mediante esta característica?
Sí, puede agregar un linaje externo a nivel de columna. Debe especificar nombres de columna al crear el objeto protegible de metadatos externos y especificar las asignaciones de columnas de origen y destino al configurar la relación de linaje externo.
¿Hay límites para el linaje externo?
Sí, puede crear 10 000 objetos de metadatos externos y 100 000 relaciones de linaje externo por metastore. Consulte Límites de los recursos.