Compartir a través de


Configuración y ejecución de un examen de calidad de datos

Los exámenes de calidad de datos revisan los recursos de datos en función de sus reglas de calidad de datos aplicadas y generan una puntuación. Los administradores de datos pueden usar esa puntuación para evaluar el estado de los datos y abordar cualquier problema que pueda reducir la calidad de los datos.

Requisitos previos

  • Para ejecutar y programar exámenes de evaluación de la calidad de los datos, los usuarios necesitan el rol administrador de calidad de datos.
  • Actualmente, puede establecer la cuenta de Microsoft Purview para permitir el acceso público o el acceso a la red virtual administrada para que se puedan ejecutar exámenes de calidad de datos.

Ciclo de vida de la calidad de datos

El examen de calidad de datos es el séptimo paso del ciclo de vida de la calidad de datos de un recurso de datos. Los pasos anteriores son:

  1. Asigne a los usuarios permisos de administrador de calidad de datos en Catálogo unificado de Microsoft Purview para que puedan usar todas las características de calidad de datos.
  2. Registre y examine un origen de datos en Mapa de datos de Microsoft Purview.
  3. Adición del recurso de datos a un producto de datos
  4. Configure una conexión de origen de datos para preparar el origen para la evaluación de la calidad de los datos.
  5. Configure y ejecute la generación de perfiles de datos para un recurso en el origen de datos.
    1. Una vez completada la generación de perfiles, examine los resultados de cada columna del recurso de datos para comprender la estructura y el estado actuales de los datos.
  6. Configure reglas de calidad de datos basadas en los resultados de generación de perfiles y aplíquelas al recurso de datos.

Orígenes de datos multinube admitidos

Examine el documento de origen de datos admitido para ver la lista de orígenes de datos admitidos, incluidos los formatos de archivo para la generación de perfiles de datos y el examen de calidad de datos, con y sin compatibilidad con la red virtual.

Importante

La calidad de los datos del archivo Parquet está diseñada para admitir:

  1. Directorio con el archivo de elementos de Parquet. Por ejemplo: ./Sales/{Parquet Part Files}. El nombre completo debe seguir https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Asegúrese de que no haya patrones {n} en la estructura de directorios o subdirectorio. Debe ser un FQN directo que conduce a {SparkPartitions}.
  2. Directorio con archivos Parquet con particiones, con particiones por columnas dentro del conjunto de datos, como los datos de ventas particionados por año y mes. Por ejemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Se admiten estos dos escenarios esenciales, que presentan un esquema de conjunto de datos parquet coherente. Limitación: No está diseñado para o no admitirá N jerarquías arbitrarias de directorios con archivos Parquet. Se recomienda presentar datos en (1) o (2) estructura construida.

Métodos de autenticación compatibles

Actualmente, Microsoft Purview solo puede ejecutar exámenes de calidad de datos mediante La identidad administrada como opción de autenticación. Los servicios de calidad de datos se ejecutan en Apache Spark 3.4 y Delta Lake 2.4. Para obtener más información sobre las regiones admitidas, consulte información general sobre la calidad de los datos.

Importante

  • Si actualiza el esquema en el origen de datos, debe volver a ejecutar el examen de mapa de datos antes de ejecutar un examen de calidad de datos. También puede usar la característica de importación de esquemas desde la página de información general sobre la calidad de los datos.
  • No se admite la importación de esquemas para orígenes de datos que se ejecutan en Virtual Network administrados o en un punto de conexión privado.
  • La red virtual no es compatible con Google BigQuery.

Ejecución de un examen de calidad de datos

  1. Configure una conexión de origen de datos a los recursos que va a examinar para buscar la calidad de los datos si aún no lo ha hecho.

  2. En Catálogo unificado, seleccione Administración de estado y, después, Calidad de datos.

  3. Seleccione un dominio de gobernanza en la lista.

  4. Seleccione un producto de datos para evaluar la calidad de los datos de los recursos de datos vinculados a ese producto.

  5. Seleccione el nombre de un recurso de datos, que le llevará a la página información general sobre la calidad de los datos.

  6. Examine las reglas de calidad de datos existentes y agregue nuevas reglas; para ello, seleccione Reglas. Examine el esquema del recurso de datos seleccionando Esquema. Active o desactive las reglas que agregó.

  7. Ejecute el examen de calidad seleccionando Ejecutar examen de calidad en la página de información general.

  8. Mientras se ejecuta el examen, puede realizar un seguimiento de su progreso desde la página de supervisión de la calidad de los datos en el dominio de gobernanza.

Programación de exámenes de calidad de datos

Aunque puede ejecutar exámenes de calidad de datos de forma ad hoc seleccionando Ejecutar examen de calidad, en escenarios de producción es probable que los datos de origen se actualicen constantemente. Debe supervisar periódicamente la calidad de los datos para detectar cualquier problema. La automatización del proceso de examen le ayuda a administrar actualizaciones periódicas de los exámenes de calidad.

  1. En Catálogo unificado, seleccione Administración de estado y, después, Calidad de datos.

  2. Seleccione un dominio de gobernanza en la lista.

  3. Seleccione Administrar y, a continuación, seleccione Exámenes programados.

  4. Rellene el formulario en la página Crear examen programado . Agregue un nombre y una descripción para el origen que va a configurar la programación.

  5. Seleccione Continuar.

  6. En la pestaña Ámbito , seleccione productos y recursos de datos individuales o todos los productos de datos y los recursos de datos de todo el dominio de gobernanza.

  7. Seleccione Continuar.

  8. Establezca una programación basada en sus preferencias y seleccione Continuar.

  9. En la pestaña Revisar , seleccione Guardar (o Guardar y ejecutar para probar inmediatamente) para completar la programación del examen de evaluación de la calidad de los datos.

Puede supervisar los exámenes programados en la página de supervisión del trabajo de calidad de datos en la pestaña Exámenes .

Nota:

No puede agregar más de 30 recursos en todos los productos de datos en una sola programación. Cree varias programaciones para 30 recursos por lote. Puede configurar para ejecutar varias programaciones en la misma ventana de tiempo.

Eliminación del historial y los exámenes de calidad de datos anteriores

Al quitar un recurso de datos de un producto de datos, si ese recurso de datos tiene una puntuación de calidad de datos, primero debe eliminar la puntuación de calidad de datos y, a continuación, quitar el recurso de datos del producto de datos.

Al eliminar datos del historial de calidad de datos, se quita el historial de perfiles, el historial de examen de calidad de datos y las reglas de calidad de datos, pero no se eliminan las acciones de calidad de datos.

Siga los pasos siguientes para eliminar los exámenes de calidad de datos anteriores de un recurso de datos:

  1. En Catálogo unificado, seleccione Administración de estado y, después, Calidad de datos.
  2. Seleccione un dominio de gobernanza en la lista.
  3. Seleccione el producto de datos de la lista.
  4. Seleccione el recurso de datos de la lista para navegar por la página Información general sobre la calidad de los datos.
  5. Seleccione los puntos suspensivos (...) en la parte superior derecha de la página Información general sobre la calidad de los datos.
  6. Seleccione Eliminar datos de calidad de datos para eliminar el historial de ejecuciones de calidad de datos.

Nota:

  • Use Eliminar datos de calidad de datos para ejecuciones de prueba, ejecuciones de calidad de datos con errores o si va a quitar un recurso de datos de un producto de datos.
  • El sistema almacena hasta 50 instantáneas de la generación de perfiles de calidad de datos y el historial de evaluación de la calidad de los datos. Si desea eliminar una instantánea específica, seleccione la ejecución del historial deseada y seleccione el icono de eliminación.

Importación de esquema

Si el tipo de datos de un esquema no está definido, se define incorrectamente o se cambia en el origen, es posible que se produzca un error en el trabajo de calidad de los datos. Si se produce un error, vuelva a importar el esquema mediante la funcionalidad de importación de esquema. La importación de esquemas se admite para orígenes de datos en redes públicas y detrás de puntos de conexión privados. Los orígenes de datos admitidos aparecen en Orígenes de datos y formatos de archivo compatibles con la calidad de los datos. Para importar un esquema desde los orígenes de datos, siga estos pasos:

  • Seleccione Calidad de los datos en Administración de estado.
  • Seleccione un dominio empresarial, seleccione un producto de datos y, a continuación, seleccione un recurso de datos de ese producto de datos. Llega a la página de información general sobre la calidad de los datos.
  • Seleccione Esquema y, a continuación, seleccione el botón de alternancia Administración de esquemas .
  • Seleccione Importar esquema para importar el esquema.

Pasos siguientes