Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este tema se describe cómo crear una base de conocimiento a través de la detección de conocimiento. En el proceso de detección, Data Quality Services (DQS) analiza los datos de un origen de datos de ejemplo a través de un proceso asistido por equipo y agrega el conocimiento que obtiene a la base de conocimiento. Este conocimiento se puede modificar y mejorar en el paso Administrar valores de dominio de la actividad de detección de conocimiento o en la actividad de administración de dominios.
El descubrimiento de conocimiento es un proceso guiado por un asistente que incluye tres pasos, cada uno de los cuales debe ser completado.
Antes de empezar
Prerrequisitos
Microsoft Excel debe instalarse en el equipo de Data Quality Client si los datos de origen en los que se ejecuta la detección se encuentran en un archivo de Excel. De lo contrario, no podrá seleccionar el archivo de Excel en la etapa de asignación. Los archivos creados por Microsoft Excel pueden tener una extensión de .xlsx, .xlso .csv. Si se usa la versión de 64 bits de Excel, solo se admiten los archivos de Excel 2003 (.xls); No se admiten archivos de Excel 2007 o 2010 (.xlsx). Si usa una versión de 64 bits de Excel 2007 o 2010, guarde el archivo como un archivo de .xls o un archivo de .csv, o instale una versión de 32 bits de Excel en su lugar.
Seguridad
Permisos
Debe tener el rol dqs_kb_editor o el dqs_administrator en la base de datos de DQS_MAIN para crear una base de conocimiento.
Primer paso: Iniciar detección de conocimiento
Inicie el cliente de calidad de datos. Para obtener información sobre cómo hacerlo, consulte Ejecución de la aplicación Data Quality Client.
Si desea realizar la detección de conocimiento en una nueva base de conocimiento, haga clic en Nueva base de conocimiento, escriba el nombre y la descripción y especifique a partir de qué está creando la base de conocimiento, si procede. Si desea realizar la detección de conocimiento en una base de conocimiento existente, haga clic en Abrir base de conocimiento y, a continuación, seleccione una base de conocimiento.
Seleccione Detección de conocimiento como actividad y, a continuación, haga clic en Crear para crear la nueva base de conocimiento o Abrir para abrir una base de conocimiento existente.
Fase de mapeo
En el campo Origen de datos , seleccione SQL Server (valor predeterminado) o archivo de Excel.
Nota:
En esta página, realiza una conexión ya sea a un origen de datos SQL Server o Excel, y luego asigna columnas del origen de datos a un dominio en la base de conocimiento. La tabla Asignaciones muestra todas las columnas de la base de datos de origen que se analizarán para agregar conocimiento a los dominios correspondientes. Los mapeos se realizan entre columnas del origen de datos y un dominio de la base de conocimiento.
Si el origen de datos es SQL Server, continúe de la siguiente manera:
En el campo Base de datos , seleccione la base de datos de origen que desea analizar para crear la base de conocimiento. El cuadro de texto desplegable mostrará las bases de datos disponibles. La base de datos de origen debe estar presente en la misma instancia de SQL Server que Data Quality Server. De lo contrario, no aparecerá en la lista desplegable.
En el campo Tabla/Vista , seleccione la tabla o vista que desea analizar para crear la base de conocimiento. Esta tabla o vista debe ser datos de ejemplo, no una base de datos de origen completa en la que esté realizando la limpieza o la coincidencia de datos. El cuadro de texto desplegable mostrará las tablas y vistas disponibles para la base de datos seleccionada.
Si el origen de datos es Excel, continúe de la siguiente manera:
Haga clic en Examinar y seleccione el archivo de Excel que desea analizar para crear la base de conocimiento. Excel debe instalarse en el equipo cliente de calidad de datos para seleccionar un archivo de Excel. Si Excel no está instalado en el equipo data Quality Client, el botón Examinar no estará disponible y se le notificará debajo de este cuadro de texto que Excel no está instalado.
Active la casilla Usar primera fila como encabezado si la primera fila del archivo de Excel contiene datos de encabezado.
En la tabla Mapeos, asigne cada columna de origen que desea para la detección de conocimiento a un dominio dentro de la base de conocimiento.
Para crear un mapeo, seleccione una columna de origen en la lista desplegable de la Columna de Origen de una fila vacía y luego seleccione un dominio en la lista desplegable de la Dominio de la misma fila, si hay uno. Si no existe ningún dominio, haga clic en crear un dominio o en Crear un dominio compuesto para crear un dominio. Para obtener más información, vea Crear una regla de dominio o Crear un dominio compuesto.
Repita el paso anterior para cada asignación. Para cambiar el número de filas de la tabla, haga clic en Agregar una asignación de columnas o seleccione una fila y haga clic en quitar la asignación de columnas seleccionada. Si hace clic en Quitar asignación de columnas seleccionadas cuando se selecciona una fila rellenada, la fila seleccionada se eliminará incluso si hay una fila no rellenada.
Nota:
Puede asignar los datos de origen a un dominio DQS para realizar la detección de conocimiento solo si el tipo de datos de origen se admite en DQS y coincide con el tipo de datos de dominio DQS. Para obtener más información sobre los tipos de datos admitidos, vea Tipos de datos de SQL Server y SSIS compatibles para dominios DQS.
Haga clic en Ver o seleccionar dominios compuestos para mostrar los dominios compuestos que se han definido. Si no se ha definido ningún dominio compuesto, el control no estará disponible.
Haga clic en Vista previa del origen de datos para mostrar en un elemento emergente todos los datos del origen de datos que seleccionó en el cuadro de texto Tabla/Vista o Archivo de Excel .
Haga clic en Siguiente para continuar con la página Detectar del Asistente para detección de conocimiento. También puede seleccionar lo siguiente:
Haga clic en Cancelar para finalizar la actividad detección de conocimiento, perder el trabajo y volver a la página principal de DQS.
Haga clic en Cerrar para guardar su trabajo y volver a la página principal de DQS. La base de conocimiento se bloqueará para ti, y el estado de la base de conocimiento en la tabla de base de conocimiento en la pantalla Abrir Base de Conocimiento será Detección - Asignación. Después de hacer clic en Cerrar, para realizar la actividad de Administración de dominios, tendría que hacer clic en Descubrimiento de conocimiento en la pantalla Abrir base de conocimiento, continuar con la pantalla Administración de la Base de Conocimientos: Administrar términos de dominio, hacer clic en Finalizar y, a continuación, hacer clic en Sí para publicar la base de conocimiento o en No para guardar el trabajo en la base de conocimiento y salir.
Fase de descubrimiento
Haga clic en Iniciar para analizar el origen de datos.
Nota:
La detección se realiza en las columnas especificadas en la tabla Asignaciones de la página Mapa . El dominio asignado a cada columna se rellenará con el conocimiento extraído de la detección. Si el dominio es un dominio compuesto, el conocimiento se agregará a los dominios individuales de los que consta el dominio compuesto.
A medida que se ejecuta el proceso de detección, compruebe el estado de finalización que se muestra para cada paso de detección: Preprocesamiento de registros, Reglas de dominio en ejecución y Detección en ejecución. El porcentaje de estado completo y de finalización se mostrará para cada una de estas fases.
Cuando se haya completado el análisis, compruebe que la línea de estado debajo de las estadísticas de finalización indica que se completó correctamente.
Nota:
Al salir de la pantalla antes de que se haya cargado el archivo, finalizará el proceso de carga de archivos.
Una vez completado el análisis, compruebe las estadísticas de la pestaña Generador de perfiles para ver el estado de los datos. Para obtener más información, consulte Perfiles de Datos y Notificaciones en DQS.
Una vez completado el análisis, el botón Iniciar se convierte en un botón Reiniciar . Haga clic en Reiniciar para volver a ejecutar el proceso de análisis. Sin embargo, los resultados del análisis anterior aún no se han guardado, por lo que hacer clic en Reiniciar hará que se pierdan los datos anteriores. Para continuar, haga clic en Sí en el menú emergente. A medida que se ejecuta el análisis, no deje la página o se finalizará el proceso de análisis.
Haga clic en Siguiente para continuar con la página Administrar valores de dominio del Asistente para detección de conocimiento. En esta página puede modificar el conocimiento agregado a los dominios de la base de conocimiento. También puede seleccionar lo siguiente:
Haga clic en Cancelar para finalizar la actividad detección de conocimiento, perder el trabajo y volver a la página principal de DQS.
Haga clic en Cerrar para volver a la página principal de DQS mientras guarda su trabajo. La base de conocimiento se bloqueará para usted, y el estado de la base de conocimiento en la tabla de la base de conocimiento en la pantalla Abrir base de conocimiento será Descubrimiento: Descubrir. Después de hacer clic en Cerrar, para realizar la actividad de Administración de dominios, tendría que hacer clic en Descubrimiento de conocimiento en la pantalla de apertura de la base de conocimiento, continuar con la pantalla de Administración de la Base de Conocimiento: Administrar términos de dominio, hacer clic en Finalizar y, a continuación, hacer clic en Sí para publicar la base de conocimiento o en No para guardar el trabajo en la base de conocimiento y salir.
Haga clic para volver a la página Detectar .
Gestión de los resultados de detección de datos
Después de realizar la actividad de detección de conocimiento, puede cambiar los valores de la siguiente manera:
Agregue un valor de dominio a la lista de valores o seleccione un valor y elimínelo de la lista.
Cambiar el estado de dominio de un valor de acuerdo con la designación del proceso de detección de DQS, cambiándolo a correcto, erróneo o no válido.
Escriba un valor de reemplazo para un valor que esté en error o que no sea válido.
Establezca dos o más valores como sinónimos y cambie el valor inicial establecido por el proceso de detección, con el resultado de que el valor inicial reemplazará el valor de sinónimo si se estableció la propiedad Usar valor inicial al crear el dominio.
Importe los valores de dominio desde un archivo de Excel.
La tabla Valor muestra el conocimiento agregado a la base de conocimiento para un único dominio. Seleccione ese dominio en la lista de dominios del panel a la izquierda. Las columnas del campo son las siguientes:
La columna Valor muestra todos los valores que el proceso de detección agregó al dominio seleccionado desde un campo del ejemplo de datos. Cualquier valor que se proyecta como un error se mostrará como sinónimo de un valor que se proyecta como correcto.
La columna Frecuencia muestra el número de instancias del valor en el campo de base de datos de ejemplo al que se asigna el dominio. En el caso de un dominio compuesto, solo se muestran los valores con una frecuencia mayor o igual que 20. Los datos de frecuencia están disponibles porque el proceso de descubrimiento de conocimiento aún tiene una conexión a la base de datos de muestra. Los datos de frecuencia no están disponibles en la tabla de dominio de la pestaña Valores de dominio de la pantalla Administración de dominios porque el proceso de administración de dominios no tiene una conexión a la base de datos de ejemplo.
La columna Tipo muestra el estado del valor, determinado por el proceso de detección. Una comprobación verde indica que el valor es correcto o corregido; una cruz roja indica que el valor está en error; y un triángulo naranja con un signo de exclamación indica que el valor no es válido. Un valor que no es válido no cumple los requisitos de datos del dominio. Un valor que está en error puede ser válido, pero no es el valor correcto por motivos de datos.
La columna Corregir a muestra un valor correcto al que se cambiará el valor original marcado como en error o no válido. DQS puede proponer el valor correcto como resultado del proceso de detección.
Administre los resultados de la detección de la siguiente manera:
En el panel Lista de dominios de la izquierda, seleccione un dominio para el que establecer los valores de dominio. Puede hacer lo siguiente para modificar los valores mostrados.
Muestre los resultados que desee en la tabla, en función de su estado, seleccionando el estado en la lista Filtro .
Busque los datos que desea comprobar o modificar escribiendo una letra más para buscar en el cuadro de texto Buscar. Esto resaltará las letras siempre que se produzcan en cualquier valor que se muestre.
Haga clic en Mostrar solo nuevo para restringir los valores mostrados en la tabla solo a los valores detectados en la sesión actual, no en las sesiones anteriores.
Haga clic en el botón Expandir todo para mostrar todos los valores de cualquier grupo de sinónimos cuando el estado actual esté contraído, o en el botón Contraer todo para ocultar todos menos el valor inicial en cualquier grupo de sinónimos cuando el estado actual esté expandido.
Haga clic en el botón Mostrar u ocultar el panel Historial de cambios de valores de dominio para mostrar una ventana emergente de vista previa en la parte inferior de la tabla de valores que muestra los cambios recientes en la colección de valores de dominio.
Busque las correcciones que Data Quality Services ha propuesto estableciendo Filtro en Error. Compruebe que el valor está de hecho en error y que el valor de la columna Corregir a es adecuado.
Establezca Filtro en Todos los valores y compruebe que el estado de los valores es adecuado. Para cambiar el estado de un valor, seleccione el valor y, a continuación, haga clic en el botón Establecer valores de dominio seleccionados como corregidos (comprobar), el botón Establecer valores de dominio seleccionados como errores (cruz) o el botón Establecer valores de dominio seleccionados como botón (triángulo) no válido.
Para cambiar el estado de un valor, continúe de la siguiente manera:
Establezca los valores de dominio seleccionados como corregidos: Para cambiar el estado de un valor de Error o No válido a Correcto, seleccione el valor y, a continuación, haga clic en establecer los valores de dominio seleccionados como corregidos (comprobar) en la flecha abajo de la barra de iconos o en la lista desplegable Tipo. Si el valor en error o no válido se agrupa con un valor correcto, elimine ese valor después de la operación.
Establecer valores de dominio seleccionados como errores: para cambiar el estado de un valor de Correcto o No válido a Error, seleccione el valor y, a continuación, haga clic en el icono Establecer valores de dominio seleccionados como errores (cruz) en la flecha abajo de la barra de iconos o en la lista desplegable Tipo. Puede escribir una corrección en la columna Corregir o dejarla en blanco.
Establecer valores de dominio seleccionados como no válidos: para cambiar el estado de un valor de Correcto o Error a No válido, seleccione el valor y, a continuación, haga clic en el icono Establecer valores de dominio seleccionados como no válidos (triángulo) en la flecha abajo de la barra de iconos o en la lista desplegable Tipo. Puede escribir una corrección en la columna Corregir o dejarla en blanco.
Corregir a: Después de marcar un valor como erróneo o no válido, escriba un nuevo valor en la columna Corregir a. DQS agregará una nueva fila para el valor de reemplazo, la designará como correcta y, a continuación, agrupará los dos valores. El nuevo valor se mostrará como el valor principal, con el valor principal en negrita y el valor en error o no válido con sangría.
Para designar valores como un grupo de sinónimos, seleccione varios valores correctos y, a continuación, continúe como se indica a continuación:
Establecer valores de dominio seleccionados como sinónimos: haga clic para establecer los valores seleccionados como sinónimos. DQS designará uno de los valores como el valor inicial con el que se reemplazarán los demás.
Nota:
Si selecciona dos o más valores en un grupo y otro valor fuera del grupo y, a continuación, los establece como sinónimos, recibirá un mensaje de error incorrecto. Después de cerrar el menú emergente del mensaje de error, los valores se establecerán correctamente como sinónimos.
Interrumpir la relación entre sinónimos seleccionados: haga clic para deshacer la designación de sinónimos.
Establezca el valor de dominio seleccionado como un valor inicial de su grupo: cambie el valor inicial del grupo seleccionando un valor en el grupo que no está designado como valor inicial y, a continuación, haga clic en el valor Establecer dominio seleccionado como valor inicial de su botón de grupo .
Corrector ortográfico: si ha habilitado el corrector ortográfico en la página Propiedades del dominio, busque los valores que tengan un subrayado rojo ondulado, la indicación de que el corrector ortográfico sugiere una corrección. Haga clic con el botón derecho en el valor con el carácter de subrayado y seleccione una corrección si se aplica. El tipo de valor se convierte en error, o se mantiene como tal, y la corrección se agregará a la columna Corregir a. Haga clic en la flecha abajo para ver correcciones propuestas adicionales. Escriba una corrección manualmente para agregarla al diccionario ortográfico y poder seleccionarla como corrección. Para obtener más información, vea Usar el corrector ortográfico de DQS y Establecer propiedades de dominio.
Nota:
Para usar el corrector ortográfico, puede habilitarlo en la página Propiedades del dominio o, si está deshabilitado en la página Propiedades del dominio , puede hacer clic en el icono Habilitar o deshabilitar corrector ortográfico de la página Administrar resultados de detección de datos para habilitarlo en esta página.
Agregar nuevo valor de dominio: agregue un nuevo valor al dominio haciendo clic en el botón Agregar nuevo valor de dominio para agregar una fila al final de la tabla. Después de escribir un valor, la fila se volverá a colocar en orden alfabético.
Importar valores de dominio desde Excel: agregue nuevos valores desde una hoja de cálculo de Excel haciendo clic en la flecha abajo del icono Importar valores y, a continuación, seleccionando Importar valores de dominio de Excel. Escriba el nombre de archivo, seleccione Usar la primera fila como encabezado si procede y, a continuación, haga clic en Aceptar. Para obtener más información, vea Importar valores de un archivo de Excel en un dominio.
Importar valores de proyecto: agregue nuevos valores desde un proyecto de calidad de datos haciendo clic en la flecha hacia abajo del icono Importar valores y seleccionando Importar valores del proyecto. Escriba el nombre de archivo, seleccione Usar la primera fila como encabezado si procede y, a continuación, haga clic en Aceptar. Seleccione el proyecto desde el que desea importar valores y, a continuación, haga clic en Aceptar. Se mostrarán los valores importados. Haga clic en Finalizar Para obtener más información, vea Importar valores de proyecto en un dominio.
Elimine los valores de dominio seleccionados: quite uno o varios valores existentes del dominio seleccionando los valores y, a continuación, haciendo clic en el botón Eliminar valores de dominio seleccionados . No se puede eliminar una entrada de DQS_NULL, por lo que si elige varios valores para eliminar y una entrada de DQS_NULL es una de ellas, se producirá un error en la operación.
Haga clic en Finalizar para completar la actividad de detección de conocimiento. Se mostrará una ventana emergente si no ha revisado ninguno de los dominios. Haga clic en Sí para continuar revisando o No para continuar. Si hace clic en No, se mostrará otro elemento emergente que le permitirá hacer lo siguiente:
Publicar: La base de conocimiento se publicará para que el usuario actual u otros puedan usarla. La base de conocimiento no se bloqueará, el estado de la base de conocimiento (en la tabla de la base de conocimiento) se establecerá en vacío y estarán disponibles las actividades Administración de dominios y Detección de conocimiento. Se le devolverá a la página principal. Para completar el proceso, haga clic en Sí en el elemento emergente.
No: el trabajo se guardará, la base de conocimiento permanecerá bloqueada y el estado de la base de conocimiento se establecerá en En proceso. Las actividades administración de dominios y detección de conocimiento estarán disponibles. Se le devolverá a la página principal.
Cancelar: la ventana emergente se cerrará y usted permanecerá en la página Administrar valor de dominio.
También puede hacer clic en lo siguiente:
Cancelar para terminar la actividad de descubrimiento de conocimiento, perder su trabajo, y regresar a la página principal de DQS.
Cerrar para volver a la página principal de DQS mientras guarda su trabajo. La base de conocimiento se bloqueará para ti, y el estado de la base de conocimiento de la tabla de la base de conocimiento en la pantalla Abrir base de conocimiento será Detección: administración de valores.
Haga clic en Atrás para volver a la página Detectar . Después de hacer clic en Cerrar, para realizar la actividad de Administración de dominios, tendría que hacer clic en Detección de Conocimiento en la pantalla Abrir base de conocimiento, continuar con la pantalla Administración de la Base de Conocimiento: Administrar términos de dominio, hacer clic en Finalizar y, a continuación, hacer clic en Sí para publicar la base de conocimiento o en No para guardar el trabajo en la base de conocimiento y salir.
Seguimiento: después de realizar la detección de conocimiento
Una vez que haya agregado conocimiento a la base de conocimiento en el proceso de descubrimiento de conocimiento asistido por computadora, puede usar la base de conocimiento para un proyecto de limpieza, o bien puede realizar la administración de dominios antes de realizar la limpieza inmediatamente. Para obtener más información sobre la limpieza de datos o la administración de dominios, consulte Limpieza de datos o Administración de un dominio.
Significado de los valores correctos, de error y no válidos
A cada valor de la tabla Valor de la página Valores de dominio se le asigna una configuración Tipo de Correcto, Error o No válido. El tipo del valor se genera inicialmente mediante la actividad de descubrimiento de conocimiento y puede cambiarlo a su conveniencia. El tipo final, basado en los cambios interactivos y de detección, se genera mediante la actividad de limpieza. Esta configuración tiene los significados siguientes:
Correcto: Se trata de un valor que pertenece al dominio y no tiene errores de sintaxis. Por ejemplo, "Chicago" en un dominio city es correcto.
Error: Se trata de un valor que pertenece al dominio, pero es un valor incorrecto. Por ejemplo, "Shicago" en lugar de "Chicago" en un dominio de ciudad es un error. DQS designa un valor como erróneo al detectar un error de sintaxis y una corrección asociada durante el proceso de descubrimiento. Los errores de sintaxis incluyen errores ortográficos.
No válido: Se trata de un valor que no pertenece al dominio y no tiene una corrección. Por ejemplo, el valor "12345" en un dominio city no es válido. DQS designa un valor como no válido cuando se produce un error en una regla de dominio.
Puede cambiar manualmente el tipo de un valor a cualquiera de los otros dos valores. DQS no aplica la semántica de validez y error en las operaciones manuales. Puede escribir una corrección para un valor no válido sin cambiar su estado. Puede designar un valor como no válido aunque no se produzca un error en una regla de dominio. Puede designar un valor como en error aunque el proceso de detección no indique que tiene un error de sintaxis. También puede quitar una corrección a un valor error, que se marca como Correcto, sin cambiar su estado.
Al realizar la limpieza interactiva de datos en la página Administrar y ver resultados de la actividad Limpieza , los valores no válidos y en error se incluyen en la pestaña No válido de la página Administrar y ver resultados .
Cómo mostrar los valores adecuados
Puede modificar la presentación de la siguiente manera:
Filtre los resultados que desee en la tabla, en función de su estado, seleccionando el estado en la lista desplegable Filtro .
Busque los datos que desea comprobar o modificar escribiendo una letra más para buscar en el cuadro de texto Buscar . Esto resaltará aquellas letras dondequiera que aparezcan en cualquier valor mostrado.
Haga clic en Mostrar solo nuevo para restringir los valores mostrados en la tabla solo a los valores detectados en la sesión actual, no en las sesiones anteriores.
Haga clic en el botón Expandir todo para mostrar todos los valores de cualquier grupo de sinónimos cuando se contraiga el estado actual.
Haga clic en el botón Contraer todo para ocultar todo excepto el valor principal en cualquier grupo de sinónimos cuando el estado actual esté expandido.
Haga clic en el botón Mostrar u ocultar el panel Historial de cambios de valores de dominio para mostrar una ventana emergente de vista previa en la parte inferior de la tabla de valores que muestra los cambios recientes en la colección de valores de dominio.
Estadísticas del generador de perfiles
La pestaña Generador de perfiles proporciona estadísticas que indican la calidad de los datos de origen. Estas estadísticas no miden la calidad de la base de conocimiento. La generación de perfiles en la detección de conocimiento proporciona información sobre la integridad y la exclusividad. La generación de perfiles en la detección de conocimiento no mide la precisión. La generación de perfiles para la administración de conocimientos le ayuda a evaluar la medida en que el origen de datos es útil para crear y mejorar el conocimiento en una base de conocimiento.
La pestaña Profiler proporciona las siguientes estadísticas para el proceso de detección, por campo y dominio:
Registros: ¿Cuántos registros en la muestra de datos fueron descubiertos?
Valores totales: cuántos valores totales se encontraron para cada campo y en total
Nuevos valores: cuántos de los valores totales de cada campo y todos los campos asignados eran nuevos desde el último proceso de detección y su porcentaje de los valores totales
Valores únicos: cuántos de los valores totales de cada campo y todos los campos asignados eran únicos y su porcentaje de los valores totales
Nuevos valores únicos: cuántos de los valores únicos de cada campo y todos los campos asignados eran nuevos desde el último proceso de detección y su porcentaje de los valores totales
Válido en valores de dominio: cuántos de los valores totales de cada campo y todos los campos asignados eran válidos y su porcentaje de los valores totales
Las estadísticas de campo incluyen lo siguiente:
Campo: nombre del campo de la base de datos de origen
Dominio: nombre del dominio que se asigna al campo
Nuevo: el número de valores nuevos y el porcentaje de valores nuevos en comparación con los valores existentes en el campo
Campo único: el número de registros únicos en el campo y su porcentaje del total
Válido en Dominio: número de valores de dominio válidos y su porcentaje del total
Completitud: La completitud de cada campo de origen que se asigna para el ejercicio de coincidencia
La creación de perfiles en el descubrimiento de conocimiento proporciona información sobre la completitud. Si la generación de perfiles indica que un campo está relativamente incompleto, es posible que desee quitarlo de la base de conocimiento de un proyecto de calidad de datos. La generación de perfiles puede no proporcionar estadísticas de integridad confiables para dominios compuestos. Si necesita estadísticas de integridad, use dominios únicos en lugar de dominios compuestos. Si desea usar dominios compuestos, puede crear una base de conocimiento con dominios únicos para la generación de perfiles, determinar la integridad y crear otro dominio con un dominio compuesto para el proceso de limpieza. Por ejemplo, la generación de perfiles podría mostrar una incompletitud del 95 %% para los registros de direcciones que usan un dominio compuesto, pero podría haber un nivel mucho mayor de incompletitud para una de las columnas, por ejemplo, una columna de código postal. En este ejemplo, puede que quiera medir la integridad de la columna de código postal con un solo dominio. La generación de perfiles probablemente proporcionará estadísticas de precisión confiables para dominios compuestos, ya que puede medir la precisión de varias columnas juntas. El valor de estos datos está en la agregación compuesta, por lo que es posible que desee medir la precisión con un dominio compuesto.
Las estadísticas se muestran en la pestaña Generador de perfiles en las siguientes fases:
En la fase Registros de preprocesamiento , DQS carga los datos y los indexa. Esto se realiza registro por registro o lote por lote, de modo que el progreso pueda mostrarse por registros. Durante la ejecución de este paso, se pueden generar la mayoría de los datos de perfilado, excepto los valores válidos en el dominio.
En la fase de Ejecutar Reglas de Dominio, la columna Válido en Dominio se rellena a medida que las reglas de dominio se ejecutan como una unidad atómica de cada valor de dominio.
En la fase De detección en ejecución , no se actualiza ningún dato nuevo en la pestaña Generador de perfiles. Los errores de sintaxis encontrados se pueden ver en el siguiente paso del asistente, la fase Administrar valores de dominio .
Para la actividad de detección de conocimiento, las siguientes condiciones dan lugar a notificaciones:
No hay nuevos valores en el campo; se recomienda eliminarlo del mapeo.
Hay pocos valores nuevos en un campo; es posible que quiera eliminarlo del mapeo.
Un campo está vacío; se recomienda eliminarlo del mapeo.
La puntuación de completitud del campo es muy baja; puede que desee eliminarlo del mapeo.
Todos los valores de un campo son inválidos; debe comprobar la asignación y la relevancia de las reglas de dominio para el contenido del campo.
Hay un bajo nivel de valores válidos en el campo; debe comprobar el mapeo y la pertinencia o relevancia de las reglas de dominio para el contenido del campo.
Para obtener más información sobre la generación de perfiles, consulte Generación de perfiles de datos y notificaciones en DQS.