Compartilhar via


Realizar descoberta de conhecimento

Este tópico descreve como criar uma base de dados de conhecimento por meio da descoberta de conhecimento. No processo de descoberta, o DQS (Data Quality Services) analisa os dados em uma fonte de dados de exemplo por meio de um processo assistido por computador e adiciona o conhecimento obtido à base de dados de conhecimento. Esse conhecimento pode ser modificado e aprimorado na etapa Gerenciar Valores de Domínio da atividade de descoberta de conhecimento ou na atividade de gerenciamento de domínio.

A descoberta de conhecimento é um processo controlado pelo assistente que inclui três etapas, cada uma delas deve ser concluída.

Antes de começar

Pré-requisitos

O Microsoft Excel deverá ser instalado no computador Cliente de Qualidade de Dados se os dados de origem nos quais você está executando a descoberta estiverem em um arquivo do Excel. Caso contrário, você não poderá selecionar o arquivo do Excel no estágio de mapeamento. Os arquivos criados pelo Microsoft Excel podem ter uma extensão de .xlsx, .xlsou .csv. Se a versão de 64 bits do Excel for usada, somente arquivos do Excel 2003 (.xls) serão compatíveis; Não há suporte para arquivos do Excel 2007 ou 2010 (.xlsx). Se você estiver usando a versão de 64 bits do Excel 2007 ou 2010, salve o arquivo como um arquivo .xls ou um arquivo .csv ou instale uma versão de 32 bits do Excel.

Segurança

Permissões

Você deve ter a função dqs_kb_editor ou a dqs_administrator no banco de dados DQS_MAIN para criar uma base de dados de conhecimento.

Primeira etapa: iniciar a descoberta de conhecimento

  1. Iniciar o Cliente Data Quality. Para obter informações sobre como fazer isso, consulte Executar o aplicativo do Data Quality Client.

  2. Se você quiser executar a descoberta de conhecimento em uma nova base de dados de conhecimento, clique em Nova base de dados de conhecimento, insira o nome e a descrição e especifique do que você está criando a base de dados de conhecimento, se aplicável. Se você quiser executar a descoberta de conhecimento em uma base de dados de conhecimento existente, clique em Abrir base de dados de conhecimento e selecione uma base de dados de conhecimento.

  3. Selecione Descoberta de Conhecimento como atividade e clique em Criar para criar a nova base de dados de conhecimento ou Abrir para abrir uma base de dados de conhecimento existente.

Estágio de Mapeamento

  1. No campo Fonte de Dados , selecione SQL Server (o padrão) ou o arquivo do Excel.

    Observação

    Nesta página, você faz uma conexão com uma fonte de dados do SQL Server ou do Excel e mapeia entre colunas na fonte de dados e um domínio na base de dados de conhecimento. A tabela Mapeamentos exibe todas as colunas no banco de dados de origem que serão analisadas para adicionar conhecimento aos domínios correspondentes. Mapeamentos são feitos entre colunas na fonte de dados e um domínio na base de dados de conhecimento.

  2. Se a fonte de dados for SQL Server, prossiga da seguinte maneira:

    1. No campo Banco de Dados , selecione o banco de dados de origem que você deseja analisar para criar a base de dados de conhecimento. A lista suspensa da caixa de texto listará os bancos de dados disponíveis. O banco de dados de origem deve estar presente na mesma instância do SQL Server que o Data Quality Server. Caso contrário, ele não aparecerá na lista suspensa.

    2. No campo Tabela/Exibição , selecione a tabela ou exibição que você deseja analisar para criar a base de dados de conhecimento. Esta tabela ou visão deve ser um conjunto de dados de exemplo, não um banco de dados de origem inteiro em que você esteja realizando limpeza ou correspondência de dados. A lista suspensa da caixa de texto listará as tabelas e exibições disponíveis para o banco de dados selecionado.

  3. Se a fonte de dados for Excel, prossiga da seguinte maneira:

    1. Clique em Procurar e selecione o arquivo do Excel que você deseja analisar para criar a base de dados de conhecimento. O Excel deve ser instalado no computador Cliente de Qualidade de Dados para selecionar um arquivo do Excel. Se o Excel não estiver instalado no computador Cliente de Qualidade de Dados, o botão Procurar não estará disponível e você será notificado nesta caixa de texto informando que o Excel não está instalado.

    2. Selecione a caixa de seleção Usar a primeira linha como cabeçalho se a primeira linha do arquivo do Excel contiver dados de cabeçalho.

  4. Na tabela Mapeamentos , mapeie cada coluna de origem que você deseja que a descoberta de conhecimento seja executada em um domínio na base de dados de conhecimento, da seguinte maneira:

    1. Para criar um mapeamento, selecione uma coluna de origem na lista suspensa para a coluna Coluna de Origem de uma linha vazia e, em seguida, selecione um domínio na lista suspensa para a coluna Domínio na mesma linha, se houver um domínio. Se nenhum domínio existir, clique em Criar um domínio ou criar um domínio composto para criar um domínio. Para obter mais informações, consulte Criar uma regra de domínio ou criar um domínio composto.

    2. Repita a etapa anterior para cada mapeamento. Para alterar o número de linhas na tabela, clique em Adicionar um mapeamento de coluna ou selecione uma linha e clique no mapeamento remover coluna selecionada. Se você clicar em Remover mapeamento de coluna selecionado quando uma linha preenchida estiver selecionada, a linha selecionada será excluída mesmo se houver uma linha não preenchida.

      Observação

      Você pode mapear seus dados de origem para um domínio DQS para executar a descoberta de conhecimento somente se o tipo de dados de origem tiver suporte no DQS e corresponder ao tipo de dados de domínio DQS. Para obter mais informações sobre tipos de dados com suporte, consulte tipos de dados SSIS e SQL Server com suporte para domínios DQS.

    3. Clique em Exibir/selecionar domínios compostos para exibir os domínios compostos que foram definidos. Se nenhum domínio composto tiver sido definido, o controle não estará disponível.

    4. Clique em Visualizar fonte de dados para exibir em um pop-up todos os dados na fonte de dados selecionada na caixa de texto Tabela/Exibição ou Arquivo do Excel .

  5. Clique em Avançar para prosseguir para a página Descobrir do assistente de Descoberta de Conhecimento. Você também pode selecionar o seguinte:

    • Clique em Cancelar para encerrar a atividade de Descoberta de Conhecimento, perdendo seu trabalho e retornando à home page do DQS.

    • Clique em Fechar para retornar à página inicial do DQS e salvar seu trabalho. A base de conhecimento será bloqueada para você, e o estado da base de conhecimento na tabela da base de conhecimento na tela Base de Conhecimento Aberta será Descoberta - Mapeamento. Depois de clicar em Fechar, para executar a atividade de Gerenciamento de Domínio, você precisará clicar na Descoberta de Conhecimento na tela da base de dados de conhecimento Aberta , prosseguir para o Gerenciamento da Base de Dados de Conhecimento: Gerenciar a tela Termos do Domínio, clicar em Concluir e, em seguida, clicar em Sim para publicar a base de dados de conhecimento ou Não para salvar o trabalho na base de dados de conhecimento e sair.

Estágio de Descoberta

  1. Clique em Iniciar para analisar a fonte de dados.

    Observação

    A descoberta é realizada nas colunas que foram incluídas na tabela Mapeamentos na página Mapa. O domínio mapeado para cada coluna será preenchido com o conhecimento extraído da descoberta. Se o domínio for um domínio composto, o conhecimento será adicionado aos domínios individuais dos quais o domínio composto consiste.

  2. À medida que o processo de descoberta está em execução, verifique o status de conclusão exibido para cada etapa da descoberta: Pré-processando registros, executando regras de domínio e executando a descoberta. A porcentagem concluída e o status de conclusão serão mostrados para cada um desses estágios.

  3. Quando a análise for concluída, verifique se a linha de status abaixo das estatísticas de conclusão indica que ela foi concluída com êxito.

    Observação

    Sair da tela antes que o arquivo tenha sido carregado encerrará o processo de upload de arquivo.

  4. Após a conclusão da análise, verifique as estatísticas na guia Criador de Perfil para ver o status dos dados. Para obter mais informações, consulte Perfil de Dados e Notificações no DQS.

  5. Depois que a análise for concluída, o botão Iniciar se transformará em um botão Reiniciar . Clique em Reiniciar para executar o processo de análise novamente. No entanto, os resultados da análise anterior ainda não foram salvos, portanto, clicar em Reiniciar fará com que os dados anteriores sejam perdidos. Para continuar, clique em Sim no pop-up. Como a análise está em execução, não saia da página ou o processo de análise será encerrado.

  6. Clique em Avançar para prosseguir para a página Gerenciar Valores de Domínio do assistente de Descoberta de Conhecimento. Nesta página, você pode modificar o conhecimento adicionado aos domínios da base de dados de conhecimento. Você também pode selecionar o seguinte:

    • Clique em Cancelar para encerrar a atividade de Descoberta de Conhecimento, perdendo seu trabalho e retornando à home page do DQS.

    • Clique em Fechar para retornar à página inicial do DQS enquanto o seu trabalho é salvo. A base de conhecimento será bloqueada para você, e o estado da base de conhecimento na tabela da base de conhecimento na tela Base de Conhecimento Aberta será Descoberta – Descobrir. Depois de clicar em Fechar, para executar a atividade de Gerenciamento de Domínio, você precisará clicar na Descoberta de Conhecimento na tela da base de dados de conhecimento Aberta , prosseguir para o Gerenciamento da Base de Dados de Conhecimento: Gerenciar a tela Termos do Domínio, clicar em Concluir e, em seguida, clicar em Sim para publicar a base de dados de conhecimento ou Não para salvar o trabalho na base de dados de conhecimento e sair.

    • Clique para retornar à página Descobrir .

Gerenciar o estágio de resultados da descoberta de dados

Depois de executar a atividade de descoberta de conhecimento, você pode alterar os valores da seguinte maneira:

  • Adicione um valor de domínio à lista de valores ou selecione um valor e exclua-o da lista

  • Alterar o status de um valor de domínio do que o processo de descoberta do DQS o designa como, alterando-o para correto, em erro ou não válido

  • Insira um valor de substituição para um valor que está em erro ou não é válido

  • Defina dois ou mais valores como sinônimos e altere o valor principal conforme definido pelo processo de descoberta, com o resultado de que o valor principal substituirá o valor do sinônimo se a propriedade Use Leading Value tiver sido definida quando você criou o domínio

  • Importar valores de domínio de um arquivo do Excel.

A tabela Valor exibe o conhecimento adicionado à base de dados de conhecimento para um único domínio. Selecione esse domínio na lista de domínios no painel à esquerda. As colunas no campo são as seguintes:

  • A coluna Valor exibe todos os valores que o processo de descoberta adicionou ao domínio selecionado de um campo no exemplo de dados. Qualquer valor projetado como um erro será mostrado como um sinônimo para um valor projetado como correto.

  • A coluna Frequency exibe o número de instâncias do valor no campo de banco de dados de exemplo para o qual o domínio é mapeado. Para um domínio composto, somente esses valores com uma frequência maior ou igual a 20 são exibidos. Os dados de frequência estão disponíveis porque o processo de descoberta de conhecimento ainda tem uma conexão com o banco de dados de exemplo. Os dados de frequência não estão disponíveis na tabela de domínio na guia Valores de Domínio da tela Gerenciamento de Domínio porque o processo de gerenciamento de domínio não tem uma conexão com o banco de dados de exemplo.

  • A coluna Type exibe o status do valor, conforme determinado pelo processo de descoberta. Uma verificação verde indica que o valor está correto ou corrigido; uma cruz vermelha indica que o valor está em erro; e um triângulo laranja com um ponto de exclamação indica que o valor não é válido. Um valor que não é válido não está em conformidade com os requisitos de dados do domínio. Um valor que está em erro pode ser válido, mas não é o valor correto por motivos de dados.

  • A coluna Correto para mostra um valor correto para o qual o valor original, marcado como em erro ou não válido, será alterado. O DQS pode propor o valor correto como resultado do processo de descoberta.

Gerencie os resultados da descoberta da seguinte maneira:

  1. No painel Lista de Domínios à esquerda, selecione um domínio para o qual definir valores de domínio. Você pode fazer o seguinte para modificar os valores exibidos.

    • Exiba os resultados desejados na tabela, com base em seu status, selecionando o status na lista Filtro .

    • Localize os dados que você deseja verificar ou modificar inserindo mais uma letra para pesquisar na caixa de texto Localizar. Isso realçará as letras onde quer que elas ocorram em qualquer valor exibido.

    • Clique em Mostrar Somente Novo para restringir os valores exibidos na tabela apenas aos valores descobertos na sessão atual, não às sessões anteriores.

    • Clique no botão Expandir Tudo para exibir todos os valores em qualquer grupo de sinônimos quando o estado atual estiver recolhido, ou no botão Recolher Tudo para ocultar todos os valores, exceto o principal, em qualquer grupo de sinônimos quando o estado atual estiver expandido.

    • Clique no botão Mostrar/Ocultar o Painel de Histórico de Alterações de Valores de Domínio para exibir um pop-up de visualização na parte inferior da tabela de valores que mostra alterações recentes na coleção de valores de domínio.

  2. Encontre as correções propostas pelos Serviços de Qualidade de Dados definindo Filtrar como Erro. Verifique se o valor está de fato em erro e se o valor na coluna Correto para é apropriado.

  3. Defina Filtro para Todos os Valores e verifique se o estado dos valores é apropriado. Para alterar o estado de um valor, selecione o valor e clique no botão Definir valores de domínio selecionados como corrigidos (verificação), no botão definir valores de domínio selecionados como erros (cruzados ) ou no botão definir valores de domínio selecionados como inválidos (triângulo).

  4. Para alterar o estado de um valor, prossiga da seguinte maneira:

    1. Defina os valores de domínio selecionados como corrigidos: para alterar o estado de um valor de Erro ou Inválido para Corrigir, selecione o valor e clique em Definir valores de domínio selecionados como corrigidos (verificação) na seta para baixo na barra de ícones ou na lista suspensa Tipo. Se o valor com erro ou inválido for agrupado com um valor correto, remova o valor após a operação.

    2. Defina valores de domínio selecionados como erros: para alterar o estado de um valor de Correto ou Inválido para Erro, selecione o valor e clique no ícone Definir valores de domínio selecionados como erros (cruzados ) na seta para baixo na barra de ícones ou na lista suspensa Tipo. Você pode inserir uma correção na coluna Corrigir para ou deixá-la em branco.

    3. Defina valores de domínio selecionados como inválidos: para alterar o estado de um valor de Correto ou Erro para Inválido, selecione o valor e clique no ícone Definir valores de domínio selecionados como inválidos (triângulo) na seta para baixo na barra de ícones ou na lista suspensa Tipo. Você pode inserir uma correção na coluna Corrigir para ou deixá-la em branco.

    4. Correto para: depois de definir um valor como em erro ou inválido, insira um novo valor na coluna Correto para . O DQS adicionará uma nova linha para o valor de substituição, designará-a como correta e agrupará os dois valores. O novo valor será mostrado como o valor principal, com o valor principal em negrito e o valor errado ou inválido recuado.

  5. Para designar valores como um grupo de sinônimos, selecione vários valores corretos e prossiga da seguinte maneira:

    • Defina valores de domínio selecionados como sinônimos: clique para definir os valores selecionados como sinônimos. O DQS designará um dos valores como o valor principal pelo qual os outros serão substituídos.

      Observação

      Se você selecionar dois ou mais valores em um grupo e outro valor fora do grupo e defini-los como sinônimos, receberá uma mensagem de erro incorreta. Depois de fechar o pop-up da mensagem de erro, os valores serão definidos corretamente como sinônimos.

    • Interromper a relação entre sinônimos selecionados: clique para desfazer a designação de sinônimo.

    • Defina o valor de domínio selecionado como um valor principal de seu grupo: altere o valor principal do grupo selecionando um valor no grupo que não é designado como o valor principal e, em seguida, clique no botão Definir valor de domínio selecionado como principal do grupo.

  6. Verificador Ortográfico: Se você habilitou o Verificador Ortográfico na página de Propriedades do Domínio, encontre quaisquer valores que tenham um sublinhado vermelho ondulado, indicando que o Verificador Ortográfico está sugerindo uma correção. Clique com o botão direito do mouse no valor com o sublinhado e selecione uma correção se houver alguma. O tipo de valor se torna (ou permanece como) erro e a correção será adicionada à coluna Correto . Clique na seta para baixo para ver outras correções propostas. Insira uma correção manualmente para adicioná-la ao dicionário Speller e ser capaz de selecioná-la como uma correção. Para obter mais informações, consulte Usar o Verificador Ortográfico do DQS e definir propriedades de domínio.

    Observação

    Para usar o Verificador Ortográfico, você pode habilitá-lo na página Propriedades do Domínio ou, se ele estiver desabilitado na página Propriedades do Domínio , você pode clicar no ícone Habilitar/Desabilitar O Verificador Ortográfico na página Gerenciar Resultados da Descoberta de Dados para habilitá-lo nesta página.

  7. Adicione um novo valor de domínio: adicione um novo valor ao domínio clicando no botão Adicionar novo valor de domínio para adicionar uma linha no final da tabela. Depois de inserir um valor, a linha será reposicionada em ordem alfabética.

  8. Importar valores de domínio do Excel: adicione novos valores de uma planilha do Excel clicando na seta para baixo para o ícone Importar Valores e selecionando Importar valores de domínio do Excel. Insira o nome do arquivo, selecione Usar a primeira linha como cabeçalho , se apropriado, e clique em OK. Para obter mais informações, consulte Importar valores de um arquivo do Excel para um domínio.

  9. Importar valores de projeto: adicione novos valores de um Projeto de Qualidade de Dados clicando na seta para baixo para o ícone Importar Valores e selecionando Importar valores de projeto. Insira o nome do arquivo, selecione Usar a primeira linha como cabeçalho , se apropriado, e clique em OK. Selecione o projeto do qual você deseja importar valores e clique em OK. Os valores importados serão exibidos. Clique em Concluir. Para obter mais informações, consulte Importar valores de projeto para um domínio.

  10. Excluir valores de domínio selecionados: remova um ou mais valores existentes do domínio selecionando os valores e, em seguida, clicando no botão Excluir valores de domínio selecionados . Uma entrada de DQS_NULL não pode ser excluída, portanto, se você escolher vários valores a serem excluídos e uma entrada de DQS_NULL for uma delas, a operação falhará.

  11. Clique em Concluir para concluir a atividade de descoberta de conhecimento. Um pop-up será exibido se você não tiver revisado cada um dos domínios. Clique em Sim para continuar revisando ou Não para continuar. Se você clicar em Não, outro pop-up será exibido, permitindo que você faça o seguinte:

    1. Publicação: A base de dados de conhecimento será publicada para o usuário atual ou outras pessoas usarem. A base de dados de conhecimento não será bloqueada, o estado da base de dados de conhecimento (na tabela base de dados de conhecimento) será definido como vazio e as atividades de Gerenciamento de Domínio e Descoberta de Conhecimento estarão disponíveis. Você será retornado para a home page. Para concluir o processo, clique em Sim no pop-up.

    2. Não: seu trabalho será salvo, a base de dados de conhecimento permanecerá bloqueada e o estado da base de dados de conhecimento será definido como Em trabalho. As atividades de Gerenciamento de Domínio e Descoberta de Conhecimento estarão disponíveis. Você será retornado para a home page.

    3. Cancelar: o pop-up será fechado e você permanecerá na página Gerenciar Valor de Domínio .

  12. Você também pode clicar no seguinte:

    • Cancele para encerrar a atividade de Descoberta de Conhecimento, perder seu trabalho e retornar à home page do DQS.

    • Fechar para retornar à página inicial do DQS enquanto salva seu trabalho. A base de conhecimento será bloqueada para você, e o estado da base de conhecimento na tabela da base de conhecimento na tela Abrir Base de Conhecimento será Descoberta – Gerenciamento de Valor.

    • Clique em Voltar para retornar à página Descobrir . Depois de clicar em Fechar, para executar a atividade de Gerenciamento de Domínio, você precisará clicar na Descoberta de Conhecimento na tela da base de dados de conhecimento Aberta , prosseguir para o Gerenciamento da Base de Dados de Conhecimento: Gerenciar a tela Termos do Domínio, clicar em Concluir e, em seguida, clicar em Sim para publicar a base de dados de conhecimento ou Não para salvar o trabalho na base de dados de conhecimento e sair.

Acompanhamento: após realizar a descoberta de conhecimento

Depois de adicionar conhecimento ao caso de conhecimento no processo de descoberta de conhecimento assistido por computador, você pode usar a base de dados de conhecimento para um projeto de limpeza imediatamente ou executar o gerenciamento de domínio antes de executar a limpeza. Para obter mais informações sobre limpeza de dados ou gerenciamento de domínio, consulte Limpeza de Dados ou Gerenciamento de um Domínio.

O significado de valores corretos, inválidos e erros.

Cada valor na tabela Valor da página Valores de Domínio recebe uma configuração de Tipode Correto, Erro ou Inválido. O tipo do valor é gerado inicialmente pela atividade de descoberta de conhecimento e você pode alterá-lo conforme achar melhor. O tipo final, baseado na descoberta e nas alterações interativas, é gerado pela atividade de limpeza. Essas configurações têm os seguintes significados:

  • Correto: Esse é um valor que pertence ao domínio e não tem erros de sintaxe. Por exemplo, "Chicago" em um domínio da cidade está correto.

  • Erro: Esse é um valor que pertence ao domínio, mas é um valor incorreto. Por exemplo, "Shicago" em vez de "Chicago" em um domínio da cidade está em erro. O DQS designa um valor como um erro ao detectar um erro de sintaxe e uma correção associada no processo de descoberta. Os erros de sintaxe incluem erros ortográficos.

  • Inválido: Esse é um valor que não pertence ao domínio e não tem uma correção. Por exemplo, o valor "12345" em um domínio city é inválido. O DQS designa um valor como inválido quando falha em uma regra de domínio.

Você pode alterar manualmente o tipo de um valor para qualquer um dos dois outros valores. O DQS não impõe a validade e a semântica de erro em operações manuais. Você pode inserir uma correção para um valor Inválido sem alterar seu status. Você pode designar um valor como inválido mesmo que ele não tenha falhado em uma regra de domínio. Você pode designar um valor como em erro, mesmo que o processo de descoberta não indique que ele tem um erro de sintaxe. Você também pode remover uma correção para um valor de erro, que é marcado como Correto, sem alterar seu status.

Quando você estiver executando a limpeza interativa de dados na página Gerenciar e Exibir Resultados da atividade Cleansing, os valores inválidos e com erro são incluídos na guia Inválido na página Gerenciar e Exibir Resultados.

Como exibir os valores apropriados

Você pode modificar a exibição da seguinte maneira:

  • Filtre os resultados desejados na tabela, com base em seu status, selecionando o status na lista suspensa Filtro .

  • Encontre os dados que você deseja verificar ou modificar digitando mais uma letra para buscar na caixa de texto Localizar. Isso destacará essas letras onde quer que ocorram em qualquer valor exibido.

  • Clique em Mostrar Somente Novo para restringir os valores exibidos na tabela apenas aos valores descobertos na sessão atual, não às sessões anteriores.

  • Clique no botão Expandir Tudo para exibir todos os valores em qualquer grupo de sinônimos quando o estado atual for recolhido.

  • Clique no botão Recolher Tudo para ocultar todos, exceto o valor principal em qualquer grupo de sinônimos, quando o estado atual for expandido.

  • Clique no botão Mostrar/Ocultar o Painel de Histórico de Alterações de Valores de Domínio para exibir um pop-up de visualização na parte inferior da tabela de valores que mostra alterações recentes na coleção de valores de domínio.

Estatísticas do Perfilador

A guia de Perfilador fornece estatísticas que indicam a qualidade dos dados fonte. Essas estatísticas não medem a qualidade da base de dados de conhecimento. O perfilamento na descoberta de conhecimento fornece insights sobre integridade e exclusividade. O perfilamento em descoberta de conhecimento não é medição da precisão. A criação de perfil para gerenciamento de conhecimento ajuda a avaliar até que ponto a fonte de dados é valiosa para criar e aprimorar o conhecimento em uma base de dados de conhecimento.

A guia Criador de Perfil fornece as seguintes estatísticas para o processo de descoberta, por campo e domínio:

  • Registros: Quantos registros na amostra de dados foram descobertos

  • Valores totais: quantos valores totais foram encontrados para cada campo e no total

  • Novos Valores: quantos dos valores totais de cada campo e todos os campos mapeados eram novos desde o último processo de descoberta e sua porcentagem dos valores totais

  • Valores exclusivos: quantos dos valores totais de cada campo e todos os campos mapeados eram exclusivos e sua porcentagem dos valores totais

  • Novos Valores Exclusivos: quantos dos valores exclusivos para cada campo e todos os campos mapeados eram novos desde o último processo de descoberta e sua porcentagem dos valores totais

  • Válido em Valores de Domínio: quantos dos valores totais para cada campo e todos os campos mapeados eram válidos e sua porcentagem dos valores totais

As estatísticas de campo incluem o seguinte:

  • Campo: nome do campo no banco de dados de origem

  • Domínio: Nome do domínio que é mapeado para o campo

  • Novo: o número de novos valores e a porcentagem de novos valores em comparação com os valores existentes no campo

  • Único: o número de registros únicos no campo e sua percentagem do total

  • Válido no Domínio: o número de valores de domínio válidos e sua porcentagem do total

  • Integridade: a integridade de cada campo de origem mapeado para o exercício correspondente

A análise de perfil na descoberta de conhecimento fornece insights sobre completude. Se a avaliação estiver informando que um campo está relativamente incompleto, talvez você queira removê-lo da base de conhecimento de um projeto de qualidade de dados. A perfilação pode não fornecer estatísticas de integridade confiáveis para domínios compostos. Se você precisar de estatísticas de integridade, use domínios únicos em vez de domínios compostos. Se você quiser usar domínios compostos, convém criar uma base de dados de conhecimento com domínios únicos para criação de perfil, determinar a integridade e criar outro domínio com um domínio composto para o processo de limpeza. Por exemplo, a análise de perfil pode mostrar 95% de completude para registros de endereço usando um domínio composto, mas pode haver um nível muito maior de incompletude em uma das colunas, como, por exemplo, a coluna de código postal (CEP). Neste exemplo, talvez você queira medir a completude da coluna de CEP com um único domínio. A criação de perfil provavelmente fornecerá estatísticas de precisão confiáveis para domínios compostos, pois você pode medir a precisão de várias colunas juntas. O valor desses dados está na agregação composta, portanto, talvez você queira medir a precisão com um domínio composto.

As estatísticas são exibidas na guia do Profiler nas seguintes fases:

  • Na fase de Registros de Pré-processamento , o DQS carrega os dados e os indexa. Esse registro é feito por registro ou lote por lote, para que o progresso possa ser exibido pelos registros. Durante a execução desta etapa, a maior parte dos dados de perfil pode ser gerada, exceto os valores válidos no domínio.

  • Na fase Execução das Regras de Domínio, a coluna Válido no Domínio é preenchida, pois as regras de domínio são executadas como uma unidade atômica de cada valor de domínio.

  • Na fase Execução de Descoberta, nenhum novo dado é atualizado na guia Profiler. Erros de sintaxe encontrados são visíveis na próxima etapa do assistente, a fase Gerenciar Valores de Domínio.

Para a atividade de descoberta de conhecimento, as seguintes condições resultam em notificações:

  • Não há novos valores em um campo; É recomendável eliminá-lo do mapeamento.

  • Há poucos novos valores em um campo; talvez você queira eliminá-lo do mapeamento.

  • Um campo está vazio; É recomendável eliminá-lo do mapeamento.

  • A pontuação de integridade do campo é muito baixa; talvez você queira eliminá-lo do mapeamento.

  • Todos os valores em um campo são inválidos; você deve verificar o mapeamento e a relevância das regras de domínio para o conteúdo do campo.

  • Há um baixo nível de valores válidos no campo; você deve verificar o mapeamento e a relevância das regras de domínio para o conteúdo do campo.

Para obter mais informações sobre criação de perfil, consulte Criação de Perfil de Dados e Notificações no DQS.