Compartir a través de


Exámenes e ingesta en Data Map

En este artículo se proporciona información general sobre las características de examen e ingesta en Mapa de datos de Microsoft Purview. Estas características conectan la cuenta de Microsoft Purview a los orígenes para rellenar Data Map y Catálogo unificado para que pueda empezar a explorar y administrar los datos a través de Microsoft Purview.

  • El examen captura metadatos de orígenes de datos y los lleva a Microsoft Purview.
  • La ingesta procesa metadatos y los almacena en Catálogo unificado de ambos:
    • Exámenes de origen de datos: los metadatos examinados se agregan a Data Map.
    • Conexiones de linaje: los recursos de transformación agregan metadatos sobre sus orígenes, salidas y actividades a Data Map.

Análisis

Después de registrar orígenes de datos en su cuenta de Microsoft Purview, examine los orígenes de datos. El proceso de examen se conecta al origen de datos y captura metadatos técnicos, como nombres, tamaño de archivo, columnas, etc. También extrae el esquema para orígenes de datos estructurados, aplica clasificaciones en esquemas y aplica etiquetas de confidencialidad si el mapa de datos está conectado al portal de Microsoft Purview. Puede desencadenar el proceso de examen para que se ejecute inmediatamente o programarlo para que se ejecute periódicamente para mantener actualizada la cuenta de Microsoft Purview.

Para cada examen, puede personalizar el proceso para que solo examine la información que necesita, en lugar de todo el origen.

Elección de un método de autenticación para los exámenes

Microsoft Purview es seguro de forma predeterminada. No almacena contraseñas ni secretos directamente, por lo que debe elegir un método de autenticación para los orígenes. Puede autenticar la cuenta de Microsoft Purview de varias maneras, pero no todos los métodos son compatibles con cada origen de datos.

  • Identidad administrada
  • Entidad de servicio
  • Autenticación de SQL
  • Autenticación de Windows
  • ARN de rol
  • Autenticación delegada
  • Clave de consumidor
  • Clave de cuenta o autenticación básica

Siempre que sea posible, use una identidad administrada porque elimina la necesidad de almacenar y administrar credenciales para orígenes de datos individuales. Este método puede reducir considerablemente el tiempo que usted y su equipo dedican a configurar y solucionar problemas de autenticación para exámenes. Al habilitar una identidad administrada para su cuenta de Microsoft Purview, se crea una identidad en Microsoft Entra ID (Id. de entra) y está asociada al ciclo de vida de la cuenta.

Ámbito del examen

Al examinar un origen, puede examinar todo el origen de datos o elegir solo entidades específicas (carpetas o tablas) para examinar. Las opciones disponibles dependen del origen que esté escaneando. Puede definir estas opciones para los exámenes puntuales y programados.

Por ejemplo, al crear y ejecutar un examen para una base de datos de Azure SQL, puede elegir qué tablas examinar o seleccionar toda la base de datos.

Para cada entidad (carpeta o tabla), existen tres estados de selección: totalmente seleccionados, parcialmente seleccionados y no seleccionados. En el ejemplo siguiente, si selecciona Departamento 1 en la jerarquía de carpetas, el Departamento 1 se considera totalmente seleccionado. Las entidades primarias del Departamento 1, que son Empresa y ejemplo, se consideran parcialmente seleccionadas, ya que las demás entidades del mismo elemento primario (por ejemplo, Departamento 2) no están seleccionadas. En la interfaz de usuario se usan diferentes iconos para las entidades con distintos estados de selección.

Captura de pantalla que muestra el ámbito de la página de examen.

Después de ejecutar el examen, es probable que se agreguen nuevos recursos en el sistema de origen. De forma predeterminada, los activos futuros de un elemento primario determinado se seleccionan automáticamente si el elemento primario está seleccionado total o parcialmente al volver a ejecutar el examen. En el ejemplo anterior, después de seleccionar Departamento 1 y ejecutar el examen, los nuevos recursos de la carpeta Departamento 1 o de Empresa y el ejemplo se incluyen al volver a ejecutar el examen.

Un botón de alternancia, como se muestra en la imagen siguiente, permite a los usuarios controlar la inclusión automática de nuevos recursos en el elemento primario parcialmente seleccionado. De forma predeterminada, el botón de alternancia está desactivado y el comportamiento de inclusión automática de un elemento primario parcialmente seleccionado está deshabilitado. Con el botón de alternancia desactivado, los nuevos recursos en elementos primarios parcialmente seleccionados, como Company y example , no se incluyen al volver a ejecutar el examen; solo se incluyen nuevos recursos en el Departamento 1 en el examen futuro.

Captura de pantalla que muestra el ámbito de la página de examen con el botón de alternancia desactivado.

Si el botón de alternancia está activado, los nuevos recursos de un elemento primario se seleccionan automáticamente si el elemento primario está seleccionado total o parcialmente al volver a ejecutar el examen. El comportamiento de inclusión es el mismo que antes de que se introduzca el botón de alternancia.

Captura de pantalla que muestra el ámbito de la página de examen con el botón de alternancia activado.

Nota:

  • La disponibilidad del botón de alternancia depende del tipo de origen de datos. Actualmente está disponible en versión preliminar pública para orígenes como Azure Blob Storage, Azure Data Lake Storage Gen 1, Azure Data Lake Storage Gen 2, Azure Files y Azure grupo de SQL dedicado (anteriormente SQL DW).
  • Para los exámenes creados o programados antes de que se introduzca el botón de alternancia, el estado de alternancia se establece como Activado y no se puede cambiar. Para los exámenes creados o programados después de introducir el botón de alternancia, el estado de alternancia no se puede cambiar después de guardar el examen. Debe crear un nuevo examen para cambiar el estado de alternancia.
  • Cuando se desactiva el botón de alternancia, para orígenes de tipo de almacenamiento como Azure Data Lake Storage Gen 2, puede tardar hasta cuatro horas antes de que la experiencia de exploración por tipo de origen esté totalmente disponible una vez completado el trabajo de examen.

Limitaciones conocidas

Cuando el botón de alternancia está desactivado:

  • Las entidades de archivo en un elemento primario parcialmente seleccionado no se examinan.
  • Si se seleccionan explícitamente todas las entidades existentes en un elemento primario, el elemento primario se considera totalmente seleccionado y los nuevos recursos del elemento primario se incluyen al volver a ejecutar el examen.

Personalización del nivel de examen

En la terminología de Mapa de datos, existen tres niveles diferentes de análisis basados en el ámbito y las funcionalidades de los metadatos:

  • Examen L1: extrae información básica y metadatos, como el nombre de archivo, el tamaño y el nombre completo.
  • Examen L2: extrae el esquema para tipos de archivos estructurados y tablas de base de datos
  • Examen L3: extrae el esquema cuando corresponda y somete el archivo muestreado al sistema y a las reglas de clasificación personalizadas.

Al configurar un nuevo examen o editar un examen existente, puede personalizar el nivel de examen para los orígenes de datos de examen que admiten la configuración del nivel de examen.

Captura de pantalla que muestra la lista desplegable para seleccionar los niveles de examen.

De forma predeterminada, se seleccionará la opción "Detección automática", lo que significa que Microsoft Purview aplica el nivel de examen más alto disponible para este origen de datos. Tome Azure SQL Base de datos como ejemplo, la "Detección automática" se resolverá como "Nivel 3" cuando se ejecute el examen, ya que el origen de datos ya ha admitido la clasificación en Microsoft Purview. El nivel de examen del detalle de la ejecución del examen muestra el nivel real aplicado.

Captura de pantalla que muestra el nivel de examen real aplicado.

Para todas las ejecuciones de examen en el historial de exámenes que se completaron antes de personalizar el nivel de examen como una nueva característica, el nivel de examen se establece y se muestra como Detección automática.

Captura de pantalla que muestra el nivel de examen como detección automática.

  • Cuando un nivel de examen superior está disponible para un origen de datos, los exámenes guardados o programados que tienen el nivel de examen establecido en Detección automática aplican automáticamente el nuevo nivel de examen. Por ejemplo, si la clasificación como nueva característica está habilitada para un origen de datos determinado, todos los exámenes existentes en este origen de datos aplican automáticamente la clasificación.

  • La configuración de nivel de examen se muestra en la interfaz de supervisión del examen para cada ejecución de examen.

  • Si selecciona Nivel 1, el examen solo devuelve metadatos técnicos básicos, como el nombre del recurso, el tamaño del recurso, la marca de tiempo modificada, etc., en función de la disponibilidad de metadatos existente de un origen de datos específico. Para SQL Database, el proceso crea entidades de recursos como tablas en Mapa de datos, pero no extrae el esquema de tabla. (Nota: los usuarios todavía pueden ver el esquema de tabla a través de la vista en vivo si tienen los permisos necesarios en el sistema de origen).

  • Si selecciona Nivel 2, el examen devuelve esquemas de tabla y metadatos técnicos básicos, pero no realiza el muestreo y la clasificación de datos. Para Azure SQL Database, las entidades de recursos de tabla capturan el esquema de tabla sin información de clasificación.

  • Si selecciona Nivel 3, el examen realiza el muestreo y la clasificación de datos. Se trata de una configuración estándar para el examen de Azure SQL base de datos antes del nivel de examen a medida que se introduce una nueva característica.

  • Si establece un examen programado en un nivel de examen inferior y, posteriormente, lo modifica a un nivel de examen superior, la siguiente ejecución del examen realiza automáticamente un examen completo y actualiza todos los recursos de datos existentes del origen de datos con metadatos introducidos por una configuración de nivel de examen superior. Por ejemplo, al cambiar un conjunto de exámenes programados con Nivel 2 en una base de datos de Azure SQL a Nivel 3, la siguiente ejecución del examen es un examen completo y actualiza todos los recursos existentes Azure SQL Tabla de base de datos y ver los recursos con información de clasificación. Después, todos los exámenes se reanudan como exámenes incrementales establecidos con el nivel 3.

  • Si establece un examen programado en un nivel de examen superior y, posteriormente, lo modifica a un nivel de examen inferior, la siguiente ejecución de examen continúa realizando un examen incremental y todos los nuevos recursos de datos del origen de datos solo tienen metadatos introducidos por una configuración de nivel de examen inferior. Por ejemplo, al cambiar un conjunto de exámenes programados con Nivel 3 en una base de datos de Azure SQL a Nivel 2, la siguiente ejecución del examen es un examen incremental y todos los nuevos recursos de tabla y vista de Azure SQL Database agregados en Data Map no tienen información de clasificación. Todos los recursos de datos existentes siguen manteniendo la información de clasificación generada a partir del examen anterior establecido con Nivel 3.

Nota:

  • La personalización del nivel de examen está disponible actualmente para los siguientes orígenes de datos: Azure SQL Database, Azure SQL Managed Instance, Azure Cosmos DB for NoSQL, Azure Database for PostgreSQL, Azure Database for MySQL, Azure Data Lake Storage Gen2, Azure Blob Storage, Azure Files, Azure Synapse Analytics, Azure grupo de SQL dedicado (anteriormente SQL DW), Azure Data Explorer, Dataverse, Azure Multiple (Azure Subscription), Azure Multiple (Azure Resource Group), Snowflake, Azure Databricks Unity Catalog
  • Actualmente, la característica solo está disponible en Azure integration runtime y Managed Virtual Network integration runtime v2.

Conjunto de reglas de examen

Un conjunto de reglas de examen determina los tipos de información que busca un examen cuando se ejecuta en uno de los orígenes. Las reglas disponibles dependen del tipo de origen que se va a examinar, pero incluyen elementos como los tipos de archivo que debe examinar y los tipos de clasificaciones que necesita.

Muchos tipos de orígenes de datos ya tienen conjuntos de reglas de examen del sistema, pero también puede crear sus propios conjuntos de reglas de examen para adaptar los exámenes a su organización.

Programar el examen

Microsoft Purview le ofrece la opción de escanear diariamente, semanalmente o mensualmente en un momento específico que elija. Obtenga más información sobre las opciones de programación admitidas. Los exámenes diarios o semanales pueden ser adecuados para orígenes de datos con estructuras que están activamente en desarrollo o que cambian con frecuencia. El examen mensual es más adecuado para los orígenes de datos que cambian con poca frecuencia. Trabaje con el administrador del origen que desea examinar para identificar un momento en que las demandas de proceso en el origen son bajas.

Cómo los exámenes detectan los recursos eliminados

Un catálogo de Microsoft Purview solo conoce el estado de un almacén de datos cuando ejecuta un examen. Para que el catálogo sepa si se elimina un archivo, una tabla o un contenedor, compara la última salida de examen con la salida de examen actual. Por ejemplo, suponga que la última vez que examinó una cuenta de Azure Data Lake Storage Gen2, incluyó una carpeta denominada folder1. Cuando se vuelve a examinar la misma cuenta, falta folder1 . Por lo tanto, el catálogo supone que se elimina la carpeta.

Sugerencia

Debido a cómo se detectan los archivos eliminados, es posible que necesite varios exámenes correctos para detectar y resolver los recursos eliminados. Si Catálogo unificado no registra eliminaciones para un examen con ámbito, pruebe varios exámenes completos para resolver el problema.

Detección de archivos eliminados

La lógica para detectar archivos que faltan funciona para varios exámenes por el mismo usuario y por distintos usuarios. Por ejemplo, supongamos que un usuario ejecuta un examen único en un almacén de datos Data Lake Storage Gen2 en las carpetas A, B y C. Más adelante, un usuario diferente de la misma cuenta ejecuta un examen único diferente en las carpetas C, D y E del mismo almacén de datos. Dado que la carpeta C se ha examinado dos veces, el catálogo comprueba si hay posibles eliminaciones. Las carpetas A, B, D y E, sin embargo, solo se examinaron una vez y el catálogo no comprueba si hay recursos eliminados.

Para mantener los archivos eliminados fuera del catálogo, es importante ejecutar exámenes normales. El intervalo de examen es importante, ya que el catálogo no puede detectar los recursos eliminados hasta que se ejecuta otro examen. Por lo tanto, si ejecuta exámenes una vez al mes en un almacén determinado, el catálogo no podrá detectar ningún recurso de datos eliminados en ese almacén hasta que ejecute el siguiente examen un mes más tarde.

Al enumerar almacenes de datos grandes como Data Lake Storage Gen2, hay varias maneras (incluidos errores de enumeración y eventos eliminados) de perder información. Es posible que un examen determinado pierda que se creó o eliminó un archivo. Por lo tanto, a menos que el catálogo esté seguro de que se elimina un archivo, no lo elimina del catálogo. Esta estrategia significa que puede haber errores cuando todavía existe un archivo que no existe en el almacén de datos examinado en el catálogo. En algunos casos, es posible que sea necesario examinar un almacén de datos dos o tres veces antes de detectar determinados recursos eliminados.

Nota:

  • Los recursos marcados para su eliminación se eliminan después de un examen correcto. Es posible que los recursos eliminados sigan siendo visibles en el catálogo durante algún tiempo antes de que se procesen y quiten.
  • La detección de eliminación solo se admite para estos orígenes dentro de Microsoft Purview: áreas de trabajo de Azure Synapse Analytics, Azure SQL Server habilitada para Arc, Azure Blob Storage, Azure Files, Azure Cosmos DB, Azure Data Explorer, Azure Database for MySQL, Azure Database for PostgreSQL, Azure grupo de SQL dedicado, Azure Machine Learning, Azure SQL Database e instancia administrada de Azure SQL. Para estos orígenes, cuando se elimina un recurso del origen de datos, los exámenes posteriores quitarán automáticamente los metadatos y linaje correspondientes en Microsoft Purview.

Ingestión

La ingesta es el proceso que rellena Data Map con metadatos recopilados a través de sus diversos procesos.

Nota:

El recuento combinado de todos los objetos secundarios (entidades a las que se hace referencia) y los contactos (propietario, experto) no debe superar las 20 000 entidades.

Ingesta de exámenes

El proceso de examen identifica los metadatos técnicos o las clasificaciones y los envía a la ingesta. La ingesta analiza la entrada del examen, aplica patrones de conjunto de recursos, rellena la información de linaje disponible y, a continuación, carga automáticamente Mapa de datos. Solo puede detectar o mantener los recursos y esquemas una vez completada la ingesta. Si el examen se completa pero no ve los recursos en el catálogo o mapa de datos, debe esperar a que finalice el proceso de ingesta.

Ingesta desde conexiones de linaje

Puede conectar recursos como Azure Data Factory y Azure Synapse a Microsoft Purview para incluir información de origen de datos y linaje en Data Map. Por ejemplo, cuando una canalización de copia se ejecuta en un Azure Data Factory que se conectó a Microsoft Purview, el servicio ingiere metadatos sobre los orígenes de entrada, la actividad y los orígenes de salida. La información se agrega a Data Map.

Si agrega un origen de datos a Data Map a través de un examen, la información de linaje sobre la actividad se agrega al origen existente. Si aún no ha agregado el origen de datos a Data Map, el proceso de ingesta de linaje lo agrega a la colección raíz con su información de linaje.

Para obtener más información sobre las conexiones de linaje disponibles, consulte la guía del usuario de linaje.

Pasos siguientes

Para obtener más información, o para obtener instrucciones específicas para examinar orígenes, siga los vínculos siguientes.