Compartir a través de


Generación de perfiles y notificaciones de datos en DQS

La generación de perfiles de datos en Data Quality Services (DQS) es el proceso de analizar los datos en un origen de datos existente y mostrar estadísticas sobre los datos de las actividades de DQS. Proporciona medidas automatizadas de calidad de datos. La generación de perfiles de DQS se integra en proyectos de calidad de datos y administración de conocimientos de DQS. Es dinámico y ajustable. La generación de perfiles tiene dos objetivos principales: en primer lugar, guiarle a través de procesos de calidad de datos y apoyar sus decisiones y, en segundo lugar, evaluar la eficacia de los procesos. El proceso de generación de perfiles de DQS tiene las siguientes ventajas:

  • La generación de perfiles proporciona información sobre la calidad de los datos de origen y le ayuda a identificar problemas de calidad de los datos.

  • La generación de perfiles evalúa la eficacia de los procesos de calidad de los datos, guiándole en el descubrimiento de conocimiento, la limpieza de datos, la política de coincidencia y el proceso de coincidencia.

  • La generación de perfiles le presenta la información más relevante en el momento más relevante.

  • El proceso de generación de perfiles genera notificaciones que enfatizan las estadísticas o eventos importantes que pueden justificar la acción. En muchos casos, las notificaciones de DQS indicarán una condición y recomendarán la acción que puede realizar para solucionar esa condición.

La generación de perfiles permite usar Data Quality Services no solo para la detección, limpieza y coincidencia de conocimientos, sino también como herramienta de análisis. Puede crear una base de conocimiento para el análisis y ejecutar la detección de conocimiento mediante esa base de conocimiento para determinar a partir de las estadísticas de generación de perfiles si la base de conocimiento satisface las necesidades de detección, limpieza y coincidencia.

Funcionamiento de la generación de perfiles

La generación de perfiles no mide la calidad de la base de conocimiento. Mide la calidad de los datos de origen. La generación de perfiles proporciona estadísticas que indican el efecto de la operación específica que está realizando en la administración de conocimientos o en un proyecto de calidad de datos en los datos de origen. El análisis de perfiles siempre se realiza en el contexto de la actividad específica que está realizando. Puede hacer clic en la pestaña de generación de perfiles en una pantalla para mostrar los datos de generación de perfiles sin salir de la fase de la actividad que está realizando. La tabla de generación de perfiles se rellena en tiempo real a medida que se realiza el proceso, lo que le permite evaluar las tareas de calidad de los datos a medida que las realiza. Puede determinar si los datos de origen son mejores después de la limpieza o desduplicación y cuánto.

Todos los números de generación de perfiles hacen referencia al número de apariencias de un valor y, en muchos casos, el porcentaje del total, a excepción de las métricas de unicidad. Las métricas de unicidad hacen referencia al número absoluto de valores, independientemente del número de apariencias de esos valores.

La generación de perfiles forma parte de la solución impulsada por el conocimiento de DQS. Proporciona información sobre una base de conocimiento, una coincidencia o un proceso de limpieza de datos basado en la asignación entre campos de origen de datos y dominios de base de conocimiento. La generación de perfiles solo se realiza una vez completada la asignación; no se realiza ninguna generación de perfiles durante la fase de asignación de ninguna actividad. La generación de perfiles siempre está asociada a una actividad. El proceso de generación de perfiles se realiza en los datos asignados a dominios, no en los datos de los dominios. La generación de perfiles se integra en los siguientes pasos de actividades:

  • Los pasos Detectar y administrar valores de dominio de la actividad detección de conocimiento

  • Los pasos Limpiar y Administrar y ver los resultados de la actividad Limpieza

  • Los pasos de la Política de coincidencia y los Resultados de coincidencia de la actividad de la Política de coincidencia

  • Pasos de Matching y Exportación de la actividad Matching

DQS no proporciona estadísticas de generación de perfiles para la actividad administración de dominios.

Generación de perfiles de datos por actividad

La generación de perfiles de DQS usa dimensiones de calidad de datos estándar para representar la calidad de los datos: integridad (la medida en que los datos están presentes), la precisión (la medida en que se pueden usar los datos para su uso previsto) y la unicidad (la medida en que los distintos valores representan entidades diferentes). De forma predeterminada, los valores NULL y vacíos se consideran que faltan o reducen el porcentaje de integridad; Sin embargo, también puede definir otros valores para que sean equivalentes a NULL, en cuyo caso también se considerará que faltan.

La generación de perfiles proporciona las estadísticas que necesita para evaluar los procesos, pero debe interpretar las estadísticas. Comprenda lo que le dice la generación de perfiles examinando las estadísticas columna por columna.

Las actividades de DQS tienen diferentes conjuntos de estadísticas de generación de perfiles, como se indica a continuación:

  • Solo la actividad limpieza tiene estadísticas de generación de perfiles para la precisión (en porcentaje por dominio). La precisión afecta a la validez, la coherencia, los errores de sintaxis y las reglas de dominio.

  • Solo la actividad de Limpieza tiene estadísticas de perfil para los valores correctos, corregidos y sugeridos en la fuente, y corregidos y sugeridos por dominio (en porcentajes).

  • Las actividades Limpieza y detección de conocimiento tienen estadísticas de generación de perfiles para su validez (Limpieza por registro, Detección de conocimiento por registro y dominio). La Política de coincidencia y las actividades de coincidencia no tienen estadísticas de validez.

  • La actividad Limpieza no tiene estadísticas de generación de perfiles para la unicidad. Las actividades Descubrimiento de conocimiento, Política de coincidencia y Coincidencia tienen estadísticas de perfilado que muestran la unicidad en número y porcentaje para la fuente y por dominio.

Para obtener más información sobre las estadísticas de generación de perfiles específicas relacionadas con una actividad, consulte las secciones generación de perfiles en los temas siguientes:

Generación de perfiles de datos en la supervisión de actividades

La información de perfiles para las actividades de detección de conocimiento, directiva de coincidencia, coincidencia y limpieza está disponible no solo en las páginas de actividad en el cliente de Gestión de la Calidad de los Datos, sino también en la monitorización de actividades. La supervisión de actividades proporciona información general sobre las actividades actuales y pasadas. Además de las propiedades y los procesos computacionales relacionados de las actividades, puede ver la información de generación de perfiles generada para cada actividad en una ubicación. Seleccione una actividad en la tabla de actividad para mostrar los resultados de generación de perfiles en una tabla siguiente. También puede exportar los resultados de generación de perfiles. Para obtener más información, consulte Administración de DQS.

Notificaciones

Además de recopilar y mostrar estadísticas y métricas importantes a través de la generación de perfiles, DQS generará notificaciones (si está habilitada) para indicar cuándo puede querer realizar una acción en función de las estadísticas de generación de perfiles mostradas. DQS usa notificaciones para resaltar hechos importantes sobre el origen de datos y mostrar la eficacia de la actividad actual en relación con el propósito para el que se ejecutó. Las notificaciones proporcionan sugerencias y recomendaciones que indican una condición y recomiendan cómo puede mejorar una actividad de detección de conocimiento, limpieza de datos o coincidencia de datos.

Una notificación de DQS se usa para plantear una cuestión que pueda interesarle o para abordar un posible problema. Si actúa sobre la notificación depende de si es relevante para sus propósitos. Por ejemplo, supongamos que DQS envía una notificación cuando, al realizar la limpieza de datos, no se generan valores corregidos ni sugeridos, mientras que la integridad y precisión son ambas 100%. Esta notificación indicaría que es posible que no sea necesario ejecutar la actividad. Sin embargo, si decide ejecutar la actividad, es su decisión.

Una notificación se indica mediante un mensaje emergente con un signo de exclamación en la pestaña Generación de perfiles. Las estadísticas asociadas a la notificación se presentan en rojo para indicar la justificación estadística de la notificación.

Puede habilitar (valor predeterminado) o deshabilitar las notificaciones en la pestaña Configuración general de la sección Administración de la página principal de Data Quality Client. Cuando la notificación está deshabilitada, las sugerencias de herramientas no se muestran y las estadísticas no se colorea de color rojo. No hay ninguna mejora significativa en el rendimiento deshabilitando las notificaciones. La generación de perfiles seguirá funcionando si deshabilita las notificaciones.

Para conocer las condiciones específicas asociadas a las notificaciones de una actividad, consulte lo siguiente:

Descripción de la tarea Tema
Describe cómo habilitar o deshabilitar notificaciones en DQS. Habilitar o deshabilitar notificaciones de generación de perfiles en DQS