Partilhar via


Executar descoberta de conhecimento

Aplica-se a:SQL Server

Importante

Os Serviços de Qualidade de Dados (DQS) foram removidos no SQL Server 2025 (17.x). Continuamos a oferecer suporte ao DQS no SQL Server 2022 (16.x) e em versões anteriores.

Este tópico descreve como criar uma base de dados de conhecimento por meio da descoberta de conhecimento. No processo de descoberta, o Data Quality Services (DQS) analisa os dados em uma fonte de dados de exemplo por meio de um processo assistido por computador e adiciona o conhecimento adquirido à base de conhecimento. Esse conhecimento pode ser modificado e aprimorado na etapa Gerenciar Valores de Domínio da atividade de descoberta de conhecimento ou na atividade de gerenciamento de domínio.

A descoberta de conhecimento é um processo orientado por um assistente que inclui três etapas, cada uma das quais deve ser concluída.

Antes de começar

Pré-requisitos

O Microsoft Excel deve ser instalado no computador Cliente Data Quality se os dados de origem nos quais você está executando a descoberta estiverem em um arquivo do Excel. Caso contrário, você não poderá selecionar o arquivo do Excel na etapa de mapeamento. Os arquivos criados pelo Microsoft Excel podem ter uma extensão de .xlsx, .xlsou .csv. Se a versão de 64 bits do Excel for usada, somente arquivos do Excel 2003 (.xls) serão suportados; Os ficheiros do Excel 2007 ou 2010 (.xlsx) não são suportados. Se estiver a utilizar a versão de 64 bits do Excel 2007 ou 2010, guarde o ficheiro como um ficheiro .xls ou um ficheiro .csv ou instale uma versão de 32 bits do Excel.

Segurança

Permissões

Você deve ter a função dqs_kb_editor ou o dqs_administrator no banco de dados DQS_MAIN para criar uma base de dados de conhecimento.

Primeira etapa: Iniciar a descoberta de conhecimento

  1. Inicie o Data Quality Client. Para obter informações sobre como fazer isso, consulte executar o aplicativo cliente Data Quality.

  2. Se desejar executar a descoberta de conhecimento em uma nova base de dados de conhecimento, clique em Nova base de dados de conhecimento, insira o nome e a descrição e especifique a partir do que você está criando a base de dados de conhecimento, se aplicável. Se quiser executar a descoberta de conhecimento em uma base de dados de conhecimento existente, clique em Abrir base de dados de conhecimento e selecione uma base de dados de conhecimento.

  3. Selecione Descoberta de Conhecimento como a atividade e, em seguida, clique em Criar para criar a nova base de conhecimento ou Abrir para abrir uma base de conhecimento existente.

Estágio de mapeamento

  1. No campo da Fonte de Dados, selecione SQL Server (o padrão) ou arquivo do Excel.

    Observação

    Nesta página, você faz uma conexão com uma fonte de dados do SQL Server ou do Excel e, em seguida, mapeia entre colunas na fonte de dados e um domínio na base de dados de conhecimento. A tabela Mapeamentos exibe todas as colunas no banco de dados de origem que serão analisadas para adicionar conhecimento aos domínios correspondentes. Os mapeamentos são feitos entre colunas na fonte de dados e um domínio na base de dados de conhecimento.

  2. Se a fonte de dados for SQL Server, proceda da seguinte maneira:

    1. No campo Banco de Dados, selecione o banco de dados de origem que você deseja analisar para criar a base de dados de conhecimento. A lista da caixa de texto apresentará as bases de dados disponíveis. O banco de dados de origem deve estar presente na mesma instância do SQL Server que o Data Quality Server. Caso contrário, ele não aparecerá na lista suspensa.

    2. No campo Tabela/Exibição, selecione a tabela ou exibição que deseja analisar para criar a base de dados de conhecimento. Esta tabela ou exibição deve ser dados de exemplo, não um banco de dados de origem inteiro no qual você está executando a limpeza ou correspondência de dados. A lista suspensa da caixa de texto listará as tabelas e exibições disponíveis para o banco de dados selecionado.

  3. Se a fonte de dados for Excel, proceda da seguinte maneira:

    1. Clique Procurar e selecione o ficheiro do Excel que pretende analisar para criar a base de conhecimento. O Excel deve ser instalado no computador Cliente Data Quality para selecionar um arquivo do Excel. Se o Excel não estiver instalado no computador Cliente Data Quality, o botão Procurar não estará disponível e você será notificado abaixo desta caixa de texto de que o Excel não está instalado.

    2. Marque a caixa de seleção Usar primeira linha como cabeçalho se a primeira linha do arquivo do Excel contiver dados de cabeçalho.

  4. Na tabela Mapeamentos, mapeie cada coluna de origem na qual pretende que a descoberta de conhecimento seja efetuada a um domínio na base de conhecimento, da seguinte maneira:

    1. Crie um mapeamento selecionando uma coluna de origem na lista suspensa para a coluna de de Coluna de Origem de uma linha vazia e, em seguida, selecionando um domínio na lista suspensa para a coluna de Domínio na mesma linha, se existir um domínio. Se não existir nenhum domínio, clique no Criar um domínio ou Criar um domínio composto para criar um domínio. Para obter mais informações, consulte Criar uma regra de domínio ou Criar um domínio composto.

    2. Repita a etapa anterior para cada mapeamento. Para alterar o número de linhas na tabela, clique Adicionar um mapeamento de colunaou selecione uma linha e clique no Remover mapeamento de coluna selecionado. Se clicar em Remover mapeamento da coluna selecionada quando uma linha preenchida for selecionada, a linha selecionada será excluída mesmo que haja uma linha não preenchida.

      Observação

      Você pode mapear seus dados de origem para um domínio DQS para executar a descoberta de conhecimento somente se o tipo de dados de origem for suportado no DQS e corresponder ao tipo de dados de domínio DQS. Para obter mais informações sobre tipos de dados com suporte, consulte Supported SQL Server and SSIS Data Types for DQS Domains.

    3. Clique Exibir / selecionar domínios compostos para exibir os domínios compostos que foram definidos. Se nenhum domínio composto tiver sido definido, o controle não estará disponível.

    4. Clique em Visualização da fonte de dados para exibir numa janela todos os dados na fonte de dados selecionada na caixa de texto Tabela/Visualização ou Ficheiro Excel .

  5. Clique em Avançar para prosseguir para a página Descobrir do assistente de Descoberta de Conhecimento. Você também pode selecionar o seguinte:

    • Clique Cancelar para encerrar a atividade de Descoberta de Conhecimento, perder seu trabalho e retornar à página inicial do DQS.

    • Clique em Fechar para retornar à página inicial do DQS enquanto guarda o seu trabalho. A base de conhecimento será bloqueada para ti, e o estado da base de conhecimento na tabela correspondente no ecrã Base de Conhecimento Aberta será Descoberta - Mapeamento. Depois de clicar em Fechar, para realizares a atividade de Gestão de Domínio, tens de clicar em Descoberta de Conhecimento a partir do ecrã Base de Conhecimento Aberta, prosseguir para o ecrã Gestão da Base de Conhecimento: Gerir Termos de Domínio, clicar em Concluire, em seguida, clicar em Sim para publicar a base de conhecimento ou em Não para guardar o trabalho na base de conhecimento e sair.

Descubra o Palco

  1. Clique Iniciar para analisar a fonte de dados.

    Observação

    A descoberta é realizada nas colunas que foram inseridas na tabela Mapeamentos na página Mapa. O domínio mapeado para cada coluna será preenchido com conhecimento extraído da descoberta. Se o domínio for um domínio composto, o conhecimento será adicionado aos domínios individuais em que o domínio composto consiste.

  2. À medida que o processo de descoberta está em execução, verifique o status de conclusão exibido para cada etapa da descoberta: Pré-processamento de registros, Regras de domínio em execuçãoe Executando a descoberta. A porcentagem de conclusão e o status de conclusão serão mostrados para cada um desses estágios.

  3. Quando a análise for concluída, verifique se a linha de status abaixo das estatísticas de conclusão indica que ela foi concluída com êxito.

    Observação

    Sair da tela antes que o arquivo tenha sido carregado encerrará o processo de upload do arquivo.

  4. Após a conclusão da análise, verifique as estatísticas no separador do Profiler para ver o estado dos dados. Para obter mais informações, consulte Perfil de Dados e Notificações no DQS.

  5. Após a conclusão da análise, o botão Iniciar se transforma em um botão Reiniciar. Clique Reiniciar para executar o processo de análise novamente. No entanto, os resultados da análise anterior ainda não foram salvos, portanto, clicar Reiniciar fará com que os dados anteriores sejam perdidos. Para continuar, clique em Sim na janela de diálogo. Como a análise está em execução, não saia da página ou o processo de análise será encerrado.

  6. Clique Avançar para prosseguir para a página Gerir Valores de Domínio do assistente de descoberta de conhecimento. Nesta página, você pode modificar o conhecimento adicionado aos domínios da base de dados de conhecimento. Você também pode selecionar o seguinte:

    • Clique Cancelar para encerrar a atividade de Descoberta de Conhecimento, perder seu trabalho e retornar à página inicial do DQS.

    • Clique em Fechar para retornar à página inicial do DQS enquanto guarda o seu trabalho. A base de dados de conhecimento será bloqueada para você e o estado da base de dados de conhecimento na tabela da base de dados de conhecimento na tela Base de Dados de Conhecimento Aberta será Descoberta - Descubra. Depois de clicar em Fechar, para realizares a atividade de Gestão de Domínio, tens de clicar em Descoberta de Conhecimento a partir do ecrã Base de Conhecimento Aberta, prosseguir para o ecrã Gestão da Base de Conhecimento: Gerir Termos de Domínio, clicar em Concluire, em seguida, clicar em Sim para publicar a base de conhecimento ou em Não para guardar o trabalho na base de conhecimento e sair.

    • Clique para voltar à página Discover.

Gerir a Fase de Resultados da Descoberta de Dados

Depois de executar a atividade de descoberta de conhecimento, você pode alterar os valores da seguinte maneira:

  • Adicionar um valor de domínio à lista de valores ou selecionar um valor e excluí-lo da lista

  • Alterar o estado de um valor de domínio com base no que o processo de descoberta do DQS designa, alterando-o para corrigido, em erro ou inválido.

  • Insira um valor de substituição para um valor que está em erro ou não é válido

  • Defina dois ou mais valores como sinónimos e altere o valor principal conforme definido pelo processo de descoberta, com o resultado de que o valor principal substituirá o valor do sinônimo se a propriedade Usar Valor Principal foi definida quando criou o domínio

  • Importe valores de domínio de um arquivo do Excel.

A tabela Value exibe o conhecimento adicionado à base de dados de conhecimento de um único domínio. Selecione esse domínio na lista de domínios no painel à esquerda. As colunas no campo são as seguintes:

  • A coluna Value exibe todos os valores que o processo de descoberta adicionou ao domínio selecionado a partir de um campo no exemplo de dados. Qualquer valor projetado como um erro será mostrado como sinônimo de um valor projetado como correto.

  • A coluna de frequência exibe o número de instâncias do valor no campo da base de dados de exemplo para o qual o domínio está mapeado. Para um domínio composto, apenas os valores com uma frequência maior ou igual a 20 são exibidos. Os dados de freqüência estão disponíveis porque o processo de descoberta de conhecimento ainda tem uma conexão com o banco de dados de exemplo. Os dados de frequência não estão disponíveis na tabela de domínio na guia Valores de Domínio da tela Gerenciamento de Domínio porque o processo de gerenciamento de domínio não tem uma conexão com o banco de dados de exemplo.

  • A coluna Tipo exibe o estado do valor, conforme determinado pelo processo de descoberta. Uma verificação verde indica que o valor está correto ou corrigido; uma cruz vermelha indica que o valor está errado; e um triângulo laranja com um ponto de exclamação indica que o valor não é válido. Um valor que não é válido não está em conformidade com os requisitos de dados para o domínio. Um valor que está em erro pode ser válido, mas não é o valor correto por motivos de dados.

  • A coluna Correto para mostra um valor correto para o qual o valor original, marcado como errado ou não válido, será alterado. O DQS pode propor o valor correto como resultado do processo de descoberta.

Gerencie os resultados da descoberta da seguinte maneira:

  1. No painel Lista de Domínios à esquerda, selecione um domínio para o qual definir valores de domínio. Você pode fazer o seguinte para modificar os valores exibidos.

    • Exiba os resultados desejados na tabela, com base no seu estado, selecionando o estado na lista Filtro.

    • Localize os dados que pretende verificar ou modificar introduzindo mais uma letra para procurar na caixa de texto Localizar. Isso destacará ter essas letras onde quer que elas ocorram em qualquer valor exibido.

    • Clique Mostrar Apenas Novo para restringir os valores exibidos na tabela apenas aos valores que foram descobertos na sessão atual, não às sessões anteriores.

    • Clique no botão Expandir tudo para exibir todos os valores em qualquer grupo de sinônimos quando o estado atual estiver recolhido ou no botão Fechar tudo para ocultar todos, exceto o valor à esquerda, em qualquer grupo de sinônimos quando o estado atual for expandido.

    • Clique no botão Mostrar/Ocultar Painel Histórico de Alterações de Valores de Domínio para exibir uma janela pop-up de visualização na parte inferior da tabela de valores que mostra as alterações recentes na coleção de valores de domínio.

  2. Encontre as correções propostas pelo Data Quality Services configurando o Filtro para Erro . Verifique se o valor está de fato errado e se o valor na coluna Correto para é apropriado.

  3. Defina o Filtro como para Todos os Valores e verifique se o estado dos valores está adequado. Para alterar o estado de um valor, selecione-o e clique no botão Definir valores de domínio selecionados como corrigidos (verificação), no botão definir valores de domínio selecionados como erros (cruz) ou no botão definir valores de domínio selecionados como (triângulo) inválido.

  4. Para alterar o estado de um valor, proceda da seguinte forma:

    1. Definir valores de domínio selecionados como corrigidos: Para alterar o estado de um valor de Erro ou Inválido para Correto, selecione o valor e, em seguida, clique no botão Definir valores de domínio selecionados como corrigidos (check) a partir da seta descendente na barra de ícones ou a partir da lista pendente Tipo. Se o valor incorreto ou inválido for agrupado com um valor correto, exclua o valor incorreto ou inválido após a operação.

    2. Definir valores de domínio selecionados como erros: Para alterar o estado de um valor de Correto ou Inválido para Erro, selecione o valor e clique no ícone Definir valores de domínio selecionados como erros (cruz) na seta para baixo na barra de ícones ou na lista suspensa Tipo. Você pode inserir uma correção na coluna Corrigir para ou deixá-la em branco.

    3. Definir valores de domínio selecionados como inválidos: Para alterar o estado de um valor de Correto ou Erro para Inválido, selecione o valor e clique no ícone Definir valores de domínio selecionados como inválidos (triângulo) na seta para baixo na barra de ícones ou na lista suspensa Tipo. Você pode inserir uma correção na coluna Corrigir para ou deixá-la em branco.

    4. Corrigir para: depois de definir um valor como errado ou inválido, insira um novo valor na coluna Correto para. O DQS adicionará uma nova linha para o valor de substituição, designá-lo-á como correto e, em seguida, agrupará os dois valores. O novo valor será mostrado como o valor principal, com o valor principal em negrito e o valor incorreto ou inválido em itálico.

  5. Para designar valores como um grupo de sinônimos, selecione vários valores corretos e proceda da seguinte maneira:

    • Definir valores de domínio selecionados como sinônimos: Clique para definir os valores selecionados como sinônimos. O DQS designará um dos valores como o valor principal pelo qual os outros serão substituídos.

      Observação

      Se você selecionar dois ou mais valores em um grupo e outro valor fora do grupo e, em seguida, defini-los como sinônimos, você receberá uma mensagem de erro incorreta. Depois de fechar o pop-up da mensagem de erro, os valores serão definidos corretamente como sinônimos.

    • Quebrar relação entre sinónimos selecionados: Clique para desfazer a designação do sinónimo.

    • Defina o valor de domínio selecionado como o valor principal do seu grupo: Altere o valor principal do grupo selecionando um valor no grupo que não esteja designado como o valor principal e, em seguida, clicando no botão Definir o valor de domínio selecionado como o valor principal do seu grupo.

  6. Speller: Se você tiver ativado o Speller na página Propriedades do Domínio, localize quaisquer valores que tenham um sublinhado vermelho ondulado, a indicação de que o Speller está sugerindo uma correção. Clique com o botão direito do rato no valor com o sublinhado e selecione uma correção, caso se aplique. O tipo de valor torna-se (ou permanece como) erro e a correção será adicionada à coluna Corrigir para. Clique na seta para baixo para ver as correções adicionais propostas. Insira uma correção manualmente para adicioná-la ao dicionário ortográfico e possa selecioná-la como uma correção. Para obter mais informações, consulte Usar o Verificador Ortográfico DQS e Definir propriedades do domínio.

    Observação

    Para usar o Speller, você pode habilitá-lo na página Propriedades do Domínio ou, se ele estiver desabilitado na página Propriedades do Domínio, clicar no ícone Ativar/Desabilitar Ortografia na página Gerenciar Resultados da Descoberta de Dados para habilitá-lo nesta página.

  7. Adicionar novo valor de domínio: Adicione um novo valor ao domínio clicando no botão Adicionar novo valor de domínio para adicionar uma linha no final da tabela. Depois de inserir um valor, a linha será reposicionada em ordem alfabética.

  8. Importar valores de domínio do Excel: Adicione novos valores de uma planilha do Excel clicando na seta para baixo do ícone Importar Valores e selecionando Importar valores de domínio do Excel. Digite o nome do ficheiro, selecione Usar a primeira linha como cabeçalho se apropriado e, em seguida, clique em OK. Para obter mais informações, consulte Importar valores de um ficheiro do Excel para um domínio,.

  9. Importar valores de projeto: Adicione novos valores de um Projeto de Qualidade de Dados clicando na seta para baixo do ícone Importar Valores e selecionando Importar valores de projeto. Digite o nome do ficheiro, selecione Usar a primeira linha como cabeçalho se apropriado e, em seguida, clique em OK. Selecione o projeto do qual deseja importar valores e clique em OK. Os valores importados serão exibidos. Clique Concluir. Para obter mais informações, consulte Importar valores de projeto para um domínio.

  10. Excluir valor(es) de domínio selecionado(s): Remova um ou mais valores existentes do domínio selecionando os valores e clicando no botão Excluir valor(es) de domínio selecionado(s). Uma entrada de DQS_NULL não pode ser excluída, portanto, se você escolher vários valores para excluir, e uma entrada de DQS_NULL for um deles, a operação falhará.

  11. Clique Terminar para concluir a atividade de descoberta de conhecimento. Um pop-up será exibido se você não tiver revisado cada um dos domínios. Clique em Sim para continuar a revisão ou Não para continuar. Se você clicar em Não, outro pop-up será exibido permitindo que você faça o seguinte:

    1. Publicar: A base de dados de conhecimento será publicada para o usuário atual ou outros usarem. A base de dados de conhecimento não será bloqueada, o estado da base de dados de conhecimento (na tabela da base de dados de conhecimento) será definido como vazio e as atividades Gerenciamento de Domínio e Descoberta de Conhecimento estarão disponíveis. Você retornará à página inicial. Para concluir o processo, clique Sim no pop-up.

    2. Sem: Seu trabalho será salvo, a base de dados de conhecimento permanecerá bloqueada e o estado da base de dados de conhecimento será definido como Em trabalho. As atividades de Gerenciamento de Domínio e Descoberta de Conhecimento estarão disponíveis. Você retornará à página inicial.

    3. Cancelar: O pop-up será fechado e você ficará na página Gerenciar Valor do Domínio.

  12. Você também pode clicar no seguinte:

    • Cancelar para encerrar a atividade de Descoberta de Conhecimento, perder seu trabalho e retornar à página inicial do DQS.

    • Feche para voltar à página inicial do DQS, guardando o seu trabalho. A base de conhecimento será bloqueada para si, e o estado da base de conhecimento na tabela da base de conhecimento na tela Base de Conhecimento Aberta será Descoberta - Gerenciamento de Valor.

    • Clique em Voltar para regressar à página Descobrir. Depois de clicar em Fechar, para realizares a atividade de Gestão de Domínio, tens de clicar em Descoberta de Conhecimento a partir do ecrã Base de Conhecimento Aberta, prosseguir para o ecrã Gestão da Base de Conhecimento: Gerir Termos de Domínio, clicar em Concluire, em seguida, clicar em Sim para publicar a base de conhecimento ou em Não para guardar o trabalho na base de conhecimento e sair.

Acompanhamento: Depois de realizar a descoberta de conhecimento

Depois de adicionar conhecimento ao caso de conhecimento no processo de descoberta de conhecimento assistido por computador, você pode usar a base de dados de conhecimento para um projeto de limpeza imediatamente ou executar o gerenciamento de domínio antes de executar a limpeza. Para obter mais informações sobre limpeza de dados ou gestão de domínio, veja Limpeza de Dados ou Gestão de um Domínio.

O significado de valores corretos, erros e inválidos

A cada valor na tabela Valor da página Valores de Domínio é atribuída uma configuração Tipo de Correto, Erroou Inválido. O tipo do valor é gerado inicialmente pela atividade de descoberta de conhecimento e você pode alterá-lo como achar melhor. O tipo final, baseado na descoberta e nas alterações interativas, é gerado pela atividade de limpeza. Essas configurações têm os seguintes significados:

  • Correto: Este é um valor que pertence ao domínio e não tem erros de sintaxe. Por exemplo, "Chicago" em um domínio City está correto.

  • Erro: Este é um valor que pertence ao domínio, mas é um valor incorreto. Por exemplo, "Shicago" em vez de "Chicago" num domínio de cidade é um erro. O DQS designa um valor como em erro, ele deteta um erro de sintaxe e uma correção associada no processo de descoberta. Os erros de sintaxe incluem erros ortográficos.

  • Inválido: Este é um valor que não pertence ao domínio e não tem uma correção. Por exemplo, o valor "12345" em um domínio Cidade é inválido. O DQS designa um valor como inválido quando ele falha em uma regra de domínio.

Você pode alterar manualmente o Tipo de um valor para qualquer um dos outros dois valores. O DQS não impõe semântica de validade e erro em operações manuais. Você pode inserir uma correção para um valor Inválido sem alterar seu status. Você pode designar um valor como inválido mesmo que ele não tenha falhado em uma regra de domínio. Você pode designar um valor como em erro, mesmo que o processo de descoberta não indique que ele tem um erro de sintaxe. Você também pode remover uma correção para um valor de Erro, que está marcado como Correto, sem alterar seu status.

Quando estiveres a executar a limpeza interativa de dados na página Gerir e Visualizar Resultados da atividade Limpeza, os valores inválidos e com erro são incluídos no separador Inválido na página Gerir e Visualizar Resultados.

Como exibir os valores apropriados

Você pode modificar a exibição da seguinte maneira:

  • Filtrar os resultados desejados na tabela, com base em seu status, selecionando o status na lista suspensa Filtrar.

  • Localizar os dados que pretende verificar ou modificar introduzindo mais uma letra para procurar na caixa de texto Localizar. Isso destacará ter essas letras onde quer que elas ocorram em qualquer valor exibido.

  • Clique Mostrar Apenas Novo para restringir os valores exibidos na tabela apenas aos valores que foram descobertos na sessão atual, não às sessões anteriores.

  • Clique no botão Expandir tudo para exibir todos os valores em qualquer grupo de sinônimos quando o estado atual for recolhido.

  • Clique no botão Recolher tudo para ocultar todos, exceto o valor principal, em qualquer grupo de sinônimos quando o estado atual estiver expandido.

  • Clique no botão Mostrar/Ocultar Painel Histórico de Alterações de Valores de Domínio para exibir uma janela pop-up de visualização na parte inferior da tabela de valores que mostra as alterações recentes na coleção de valores de domínio.

Estatísticas do Profiler

A guia Profiler fornece estatísticas que indicam a qualidade dos dados de origem. Estas estatísticas não medem a qualidade da base de conhecimentos. A criação de perfis na descoberta de conhecimento fornece informações sobre completude e exclusividade. O perfilamento na descoberta de conhecimento não consiste em medir a precisão. A criação de perfis para gerenciamento de conhecimento ajuda a avaliar até que ponto a fonte de dados é valiosa para criar e aprimorar o conhecimento em uma base de conhecimento.

O separador Profiler fornece as seguintes estatísticas para o processo de descoberta, por campo e domínio:

  • Records: Quantos registros na amostra de dados foram descobertos

  • Valores Totais: Quantos valores totais foram encontrados para cada campo e no total

  • Novos Valores: Quantos dos valores totais para cada campo e todos os campos mapeados eram novos desde o último processo de descoberta e sua porcentagem dos valores totais

  • Valores Únicos: Quantos dos valores totais para cada campo e todos os campos mapeados eram exclusivos e sua porcentagem dos valores totais

  • Novos Valores Exclusivos: Quantos dos valores exclusivos para cada campo e todos os campos mapeados eram novos desde o último processo de descoberta e sua porcentagem dos valores totais

  • Válido em Valores de Domínio: Quantos dos valores totais de cada campo e de todos os campos mapeados eram válidos, e a sua porcentagem em relação aos valores totais

As estatísticas de campo incluem o seguinte:

  • Campo: Nome do campo na base de dados de origem

  • Domain: Nome do domínio que mapeia para o campo

  • Novo: O número de novos valores e a percentagem de novos valores em comparação com os valores existentes no campo

  • Unique: O número de registos únicos no campo e a sua percentagem do total

  • Válido no Domínio: O número de valores de domínio que são válidos e sua porcentagem do total

  • Completude: A completude de cada campo de origem que está mapeado para o exercício de correspondência

A criação de perfis na descoberta de conhecimento fornece informações sobre a completude. Se a criação de perfil estiver a indicar que um campo está incompleto, ainda que relativamente, pode ser conveniente removê-lo da base de conhecimento de um projeto de qualidade de dados. A criação de perfis pode não fornecer estatísticas confiáveis de completude para domínios compostos. Se você precisar de estatísticas de completude, use domínios únicos em vez de domínios compostos. Se você quiser usar domínios compostos, convém criar uma base de dados de conhecimento com domínios únicos para criação de perfil, para determinar a completude e criar outro domínio com um domínio composto para o processo de limpeza. Por exemplo, a criação de perfil pode mostrar 95% completude para registros de endereço usando um domínio composto, mas pode haver um nível muito maior de incompletude para uma das colunas, por exemplo, uma coluna de código postal (CEP). Neste exemplo, talvez você queira medir a integridade da coluna de CEP com um único domínio. A criação de perfil provavelmente fornecerá estatísticas de precisão confiáveis para domínios compostos, pois você pode medir a precisão de várias colunas juntas. O valor desses dados está na agregação composta, portanto, convém medir a precisão com um domínio composto.

As estatísticas são exibidas na guia Profiler nas seguintes fases:

  • Na fase Pré-processamento de Registos, o DQS carrega os dados e os indexa. Isso é feito registro por registro ou lote por lote, para que o progresso possa ser exibido por registros. Durante a execução desta etapa, a maioria dos dados de profiling pode ser gerada, exceto valores válidos no domínio para.

  • Na fase de Execução das Regras de Domínio, a coluna Válido no Domínio é preenchida à medida que as regras de domínio são todas executadas como uma unidade atômica para cada valor de domínio.

  • Na fase Running Discovery, nenhum novo dado é atualizado na aba Profiler. Quaisquer erros de sintaxe encontrados podem ser vistos na próxima etapa do assistente, a fase Gerenciar Valores de Domínio.

Para a atividade de descoberta de conhecimento, as seguintes condições resultam em notificações:

  • Não há novos valores em um campo; é recomendável eliminá-lo do mapeamento.

  • Há poucos valores novos em um campo; você pode querer eliminá-lo do mapeamento.

  • Um campo está vazio; é recomendável eliminá-lo do mapeamento.

  • A pontuação de completude do campo é muito baixa; você pode querer eliminá-lo do mapeamento.

  • Todos os valores em um campo são inválidos; Você deve verificar o mapeamento e a relevância das regras de domínio para o conteúdo do campo.

  • Há um baixo nível de valores válidos no campo; Você deve verificar o mapeamento e a relevância das regras de domínio para o conteúdo do campo.

Para obter mais informações sobre perfilagem de dados, consulte Perfilagem de Dados e Notificações no DQS.