Compartir a través de


Introducción a la calidad de los datos en Catálogo unificado de Microsoft Purview

La calidad de los datos en Catálogo unificado de Microsoft Purview permite a los propietarios de dominios y datos de gobernanza evaluar y supervisar la calidad de su ecosistema de datos, facilitando las acciones dirigidas para mejorar. En el panorama actual basado en la inteligencia artificial, la confiabilidad de los datos afecta directamente a la precisión de las conclusiones y recomendaciones basadas en la inteligencia artificial. Sin datos de confianza, existe el riesgo de erosionar la confianza en los sistemas de inteligencia artificial y dificultar su adopción.

La mala calidad de los datos o las estructuras de datos incompatibles pueden obstaculizar los procesos empresariales y las capacidades de toma de decisiones. La calidad de los datos en Catálogo unificado aborda estos desafíos al ofrecer a los usuarios la capacidad de evaluar la calidad de los datos mediante reglas sin código o con código bajo, incluidas las reglas integradas (OOB) y las reglas generadas por IA. Estas reglas se aplican en el nivel de columna y se agregan para proporcionar puntuaciones en los niveles de recursos de datos, productos de datos y dominios de gobernanza, lo que garantiza una visibilidad integral de la calidad de los datos dentro de cada dominio.

La calidad de los datos en Microsoft Purview también incorpora funcionalidades de generación de perfiles de datos con tecnología de inteligencia artificial, lo que recomienda columnas para la generación de perfiles, a la vez que permite la intervención humana para refinar estas recomendaciones. Este proceso iterativo no solo mejora la precisión de la generación de perfiles de datos, sino que también contribuye a la mejora continua de los modelos de inteligencia artificial subyacentes.

Al aplicar la calidad de los datos, las organizaciones pueden medir, supervisar y mejorar de forma eficaz la calidad de sus recursos de datos, lo que refuerza la confiabilidad de la información basada en inteligencia artificial y fomenta la confianza en los procesos de toma de decisiones basados en la inteligencia artificial.

Ciclo de vida de la calidad de datos

  1. Asigne a los usuarios permisos de administrador de calidad de datos en Catálogo unificado para usar todas las características de calidad de datos.
  2. Registre y examine un origen de datos en Mapa de datos de Microsoft Purview.
  3. Adición del recurso de datos a un producto de datos
  4. Configure una conexión de origen de datos para preparar el origen para la evaluación de la calidad de los datos.
  5. Configure y ejecute la generación de perfiles de datos para un recurso en el origen de datos.
    1. Una vez completada la generación de perfiles, examine los resultados de cada columna del recurso de datos para comprender la estructura y el estado actuales de los datos.
  6. Configure reglas de calidad de datos basadas en los resultados de generación de perfiles y aplíquelas al recurso de datos.
  7. Configure y ejecute un examen de calidad de datos en un producto de datos para evaluar la calidad de todos los recursos admitidos en el producto de datos.
  8. Revise los resultados del examen para evaluar la calidad de los datos actuales del producto de datos.
  9. Repita los pasos del 5 al 8 periódicamente en el ciclo de vida del recurso de datos para asegurarse de que mantiene la calidad.
  10. Supervisión continua de la calidad de los datos
    1. Revise las acciones de calidad de los datos para identificar y resolver problemas.
    2. Establezca notificaciones de calidad de datos para que le avise de problemas de calidad.

Regiones de calidad de datos admitidas

La calidad de los datos se admite actualmente en las siguientes regiones.

Orígenes de datos multinube admitidos

Vea la lista de orígenes de datos admitidos.

Importante

La calidad de los datos de los archivos Parquet está diseñada para admitir:

  1. Directorio con el archivo de elementos de Parquet. Por ejemplo: ./Sales/{Parquet Part Files}. El nombre completo debe seguir https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Asegúrese de que la estructura de directorios y subdirectorios no incluya patrones {n}. En su lugar, use un FQN directo que conduce a {SparkPartitions}.
  2. Directorio con archivos Parquet con particiones, con particiones por columnas dentro del conjunto de datos, como los datos de ventas particionados por año y mes. Por ejemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Se admiten ambos escenarios esenciales, que presentan un esquema de conjunto de datos parquet coherente. Limitación: La calidad de los datos no está diseñada para admitir jerarquías arbitrarias de directorios con archivos Parquet. Se recomienda presentar datos en la estructura construida (1) o (2).

Actualmente, Microsoft Purview solo puede ejecutar exámenes de calidad de datos mediante Identidad administrada como opción de autenticación. Los servicios de calidad de datos se ejecutan en Apache Spark 3.4 y Delta Lake 2.4.

Características de calidad de datos

  • Configuración de la conexión del origen de datos
    • Configure la conexión para permitir que la aplicación SaaS de calidad de datos de Microsoft Purview tenga acceso de lectura a los datos para el examen de calidad y la generación de perfiles.
    • Microsoft Purview usa Managed Identity como opción de autenticación.
  • Generación de perfiles de datos
    • Experiencia de generación de perfiles de datos habilitada para IA.
    • Instantánea estadística estándar del sector (distribución, mínimo, máximo, desviación estándar, unicidad, integridad, duplicado y mucho más).
    • Explorar en profundidad las medidas de generación de perfiles de nivel de columna.
  • Reglas de calidad de datos
    • Reglas predefinidas para medir seis dimensiones de calidad de datos de estándares del sector (integridad, coherencia, conformidad, precisión, frescura y exclusividad).
    • Las características de creación de reglas personalizadas incluyen el número de funciones predefinidas y los valores de expresión.
    • Reglas generadas automáticamente con experiencia integrada de inteligencia artificial.
  • Examen de calidad de datos
    • Seleccione y asigne reglas a las columnas para el examen de calidad de datos.
    • Aplique la regla de actualización de datos en el nivel de entidad o tabla para medir el acuerdo de nivel de servicio de actualización de datos.
    • Programación del trabajo de examen de calidad de datos para el período de tiempo (por hora, diario, semanal, mensual y mucho más).
  • Supervisión de trabajos de calidad de datos
    • Habilite la supervisión del estado del trabajo de calidad de datos (activo, completado, con errores, etc.).
    • Habilite la exploración del historial de examen de calidad de datos.
  • Puntuación de calidad de datos
    • Puntuación de calidad de datos en el nivel de regla (cuál es la puntuación de calidad de una regla que se aplica a una columna).
    • Puntuación de calidad de datos para recursos de datos, productos de datos y dominios de gobernanza (un dominio de gobernanza puede tener muchos productos de datos, un producto de datos puede tener muchos recursos de datos, un recurso de datos puede tener muchas columnas de datos).
  • Alertas de calidad de datos
    • Configure alertas para notificar a los propietarios de datos y administradores de datos si el umbral de calidad de datos no superó las expectativas.
    • Configure el alias de correo electrónico o el grupo de distribución para enviar la notificación sobre problemas de calidad de datos.
  • Acciones de calidad de datos
    • Centro de acciones para la calidad de los datos con acciones para abordar los estados de anomalías de calidad de los datos, incluidas las consultas de diagnóstico para el administrador de calidad de datos a cero en los datos específicos que se corregirán para cada estado de anomalía.
  • Red virtual administrada de calidad de datos
    • Una red virtual administrada por la calidad de los datos que se conecta con puntos de conexión privados a los orígenes de datos de Microsoft Azure.

Residencia y cifrado de datos

La cuenta de Microsoft Managed Storage almacena metadatos de calidad de datos y un resumen de generación de perfiles. Los almacena en la misma región que el origen de datos, por lo que la residencia de datos permanece intacta. Todos los datos están cifrados. El almacén de datos de usuario regional del proveedor de recursos de Purview se usa para los metadatos. Controla todo el cifrado y es común en todos los servicios de Purview. Si desea tener más control sobre el cifrado de datos con una clave de cifrado administrada por el cliente (CMK), use un proceso independiente. Obtenga más información sobre la clave de cliente de Microsoft Purview.

Precios de proceso de calidad de datos

El uso de la calidad de los datos se factura en función de los medidores de pago por uso de la Unidad de procesamiento de gobernanza de datos (DGPU). Busque detalles sobre cómo se calculan los precios para la calidad de los datos.

Limitación

  • Todavía no se admite la red virtual para Google Big Query.

Pasos siguientes

  1. Asigne a los usuarios permisos de administrador de calidad de datos en Catálogo unificado para que puedan usar todas las características de calidad de datos.
  2. Configure una conexión de origen de datos para preparar el origen para una evaluación de la calidad de los datos.
  3. Configure y ejecute la generación de perfiles de datos para un recurso en el origen de datos.