Partilhar via


Limpeza de dados

A limpeza de dados é o processo de analisar a qualidade dos dados em uma fonte de dados, aprovar/rejeitar manualmente as sugestões pelo sistema e, assim, fazer alterações nos dados. A limpeza de dados no DQS (Data Quality Services) inclui um processo assistido por computador que analisa como os dados estão em conformidade com o conhecimento em uma base de dados de conhecimento e um processo interativo que permite que o administrador de dados examine e modifique os resultados do processo assistido por computador para garantir que a limpeza de dados seja exatamente como eles querem fazer.

O administrador de dados também pode executar a limpeza de dados no processo de empacotamento do Integration Services. Nesse caso, o administrador de dados usaria o componente de Limpeza do DQS no Integration Services que executa automaticamente a limpeza de dados usando uma base de dados de conhecimento existente. Para mais informações, consulte Transformação de Limpeza do DQS.

O recurso de limpeza de dados no DQS tem os seguintes benefícios:

  • Identifica dados incompletos ou incorretos em sua fonte de dados (arquivo do Excel ou banco de dados do SQL Server) e corrige ou alerta sobre os dados inválidos.

  • Fornece um processo em duas etapas para limpar os dados: assistidos por computador e interativos. O processo assistido por computador usa o conhecimento em uma base de dados de conhecimento do DQS para processar automaticamente os dados e sugerir substituições/correções. A próxima etapa, interativa, permite que o administrador de dados aprove, rejeite ou modifique as alterações propostas pelo DQS durante a limpeza assistida por computador.

  • Padroniza e enriquece os dados do cliente usando valores de domínio, regras de domínio e dados de referência. Por exemplo, padronizar o uso de termos alterando "St." para "Street", enriquecer dados preenchendo elementos ausentes alterando "1 Microsoft way Redmond 98006" para "1 Microsoft Way, Redmond, WA 98006".

  • Fornece uma interface simples, intuitiva e consistente semelhante ao assistente para o usuário navegar pelos dados e inspecionar erros entre um conjunto muito grande de dados.

A ilustração a seguir exibe como a limpeza de dados é feita no DQS:

Processo de limpeza de dados no DQS

Limpeza assistida por computador

O processo de limpeza de dados do DQS aplica a base de dados de conhecimento aos dados a serem limpos e propõe alterações nos dados. O administrador de dados tem acesso a cada alteração proposta, permitindo que ele avalie e corrija as alterações. Para executar a limpeza de dados, o administrador de dados prossegue da seguinte maneira:

  1. Crie um projeto de qualidade de dados, selecione uma base de dados de conhecimento na qual você deseja analisar e limpar seus dados de origem e selecione a atividade limpeza . Vários projetos de qualidade de dados podem usar a mesma base de dados de conhecimento.

  2. Especifique a tabela/exibição do banco de dados ou um arquivo do Excel que contém os dados de origem a serem limpos. O banco de dados ou o arquivo do Excel pode ser o mesmo que foi usado para descoberta de conhecimento ou pode ser um banco de dados ou arquivo do Excel diferente.

    Observação

    Se você selecionar a mesma fonte de dados para atividades de descoberta e limpeza de conhecimento, não haverá nenhuma alteração nos dados. É recomendável que você execute a descoberta de conhecimento em um exemplo de dados e, posteriormente, limpe seus dados de origem em relação ao conhecimento criado durante a atividade de descoberta de conhecimento.

  3. Mapeie os campos de dados a serem limpos para domínios apropriados/domínios compostos na base de dados de conhecimento. Se você mapear um campo para um domínio composto, o mapeamento ocorrerá entre o campo e o domínio composto, e não com os domínios individuais no domínio composto. Além disso, a limpeza de dados para o campo mapeado é feita com base nas regras especificadas para o domínio composto e não para os domínios individuais no domínio composto. Para obter mais informações sobre domínios compostos, consulte Bases de Dados de Conhecimento e Domínios do DQS.

  4. Execute o processo de limpeza assistida por computador clicando em Iniciar na página Limpeza .

O processo de limpeza de dados localiza a melhor correspondência de uma instância de dados com valores de domínio de dados conhecidos. O processo aplica o conhecimento de qualidade dos dados a todos os dados de origem, ao contrário do processo de descoberta de conhecimento, que é realizado em uma porcentagem dos dados amostrais.

O processo assistido por computador exibe informações de qualidade de dados no Cliente de Qualidade de Dados que serão usadas para o processo de limpeza interativo. Além da adesão às regras de erro de sintaxe, o DQS também usa dados de referência e algoritmos avançados para categorizar dados usando o nível de confiança. O nível de confiança indica o grau de certeza do DQS para a correção ou sugestão. O nível de confiança baseia-se nos seguintes valores de limite:

  • Um valor de limite de correção automática acima do qual o DQS sugerirá uma alteração e a fará, a menos que o administrador de dados o rejeite. Você pode especificar o valor do limite de correção automática na guia Configurações Gerais na tela Configuração . Para obter mais informações, consulte Configurar valores de limite para limpeza e correspondência.

  • Valor de limite de sugestão automática, abaixo do limite de correção automática, acima do qual o DQS sugerirá uma alteração e fará a alteração se o responsável pelos dados aprová-la. Você pode especificar o valor do limite de sugestão automática na guia Configurações Gerais na tela Configuração . Para obter mais informações, consulte Configurar valores de limite para limpeza e correspondência.

Qualquer valor que tenha um nível de confiança abaixo do valor do limite de sugestão automática é deixado como está pelo DQS, a menos que o administrador de dados especifique uma alteração.

Limpeza Interativa

Com base no processo de limpeza assistida por computador, o DQS fornece ao administrador de dados informações de que eles precisam tomar uma decisão sobre a alteração dos dados. O DQS categoriza os dados nas cinco guias a seguir:

  • Sugerido: valores para os quais o DQS encontrou sugestões que têm um nível de confiança maior que o valor do limite de sugestão automática , mas inferior ao valor do limite de correção automática . Você deve examinar esses valores e aprovar ou rejeitar conforme apropriado.

  • Novo: valores válidos para os quais o DQS não tem informações suficientes (sugestão) e, portanto, não podem ser mapeados para qualquer outra guia. Além disso, essa guia também contém valores que têm um nível de confiança menor que o valor do limite de sugestão automática , mas alto o suficiente para ser marcado como válido.

  • Inválido: valores marcados como inválidos no domínio na base de dados de conhecimento ou valores que falharam em uma regra de domínio ou dados de referência. Essa guia também conterá valores rejeitados pelo usuário em qualquer uma das outras quatro guias durante o processo de limpeza interativo.

  • Corrigido: valores corrigidos pelo DQS durante o processo de limpeza automatizado, pois o DQS encontrou uma correção para o valor com nível de confiança acima do valor do limite de correção automática . Essa guia também conterá valores para os quais o usuário especificou um valor correto na coluna Correto para durante a limpeza interativa e, em seguida, aprovado clicando no botão de opção na coluna Aprovar em qualquer uma das outras quatro guias.

  • Correto: valores que foram encontrados corretos. Por exemplo, o valor correspondeu a um valor de domínio. Se necessário, você pode substituir a limpeza do DQS rejeitando valores sob esta guia ou especificando uma palavra alternativa na coluna Corrigir para e, em seguida, clicar no botão de rádio na coluna Aceitar. Esta aba também conterá valores que foram aprovados pelo usuário durante o processo de limpeza interativa ao clicar no botão de opção na coluna Aprovar da guia Novo ou Inválido.

Observação

Nas guias Sugeridas, Corrigidas e Corretas, o DQS exibe o valor principal de um domínio, se aplicável, na coluna Corrigir Para em relação ao respectivo valor de domínio.

O administrador de dados usa o Cliente de Qualidade de Dados para ver as alterações propostas pelo DQS e decidir se deseja implementá-las ou não. Ele pode verificar se os valores que o DQS designou como corretos estão de fato corretos. Ele pode verificar se as alterações já feitas pelo DQS, com um alto nível de confiança, devem ser feitas. Ele ou ela pode decidir se aprova alterações sugeridas automaticamente. E ele ou ela pode examinar valores que não foram alterados, apenas no caso de desejarem fazer uma alteração não encontrada pelo processo assistido pelo computador.

O DQS mesclará as alterações feitas pelo administrador de dados com os resultados da limpeza de dados assistida pelo computador. Essas alterações permanecerão no projeto; no entanto, eles não serão adicionados à base de dados de conhecimento. Durante a limpeza de dados, a base de conhecimento associada é somente leitura.

Quando o processo de limpeza de dados for concluído, você poderá optar por exportar os dados processados para uma nova tabela em um banco de dados do SQL Server, .csv arquivo ou arquivo do Excel. Os dados de origem nos quais a limpeza é executada são mantidos em seu estado original. O administrador de dados pode usar os dados limpos separados para corrigir os dados de origem reais.

A ilustração a seguir exibe como a limpeza de dados é feita usando o aplicativo Cliente de Qualidade de Dados:

Limpeza de dados no Cliente de Qualidade de Dados

Correção de Valor Principal

A correção de valor principal aplica-se a valores de domínio que têm sinônimos e o usuário deseja usar um dos valores de sinônimo como o valor principal em vez de outros para a representação consistente do valor. Por exemplo, "Nova York", "NYC" e "big apple" são sinônimos, e o usuário deseja usar "Nova York" como o valor principal em vez de "NYC" e "Big Apple". O DQS dá suporte à correção de valor principal durante o processo de limpeza para ajudá-lo a padronizar seus dados. A correção de valor principal será feita somente se o domínio tiver sido habilitado para o mesmo quando ele foi criado. Por padrão, todos os domínios são habilitados para correção de valor principal, a menos que você tenha desmarcado a caixa de seleção Usar Valores Principais durante a criação de um domínio. Para obter mais informações sobre essa caixa de seleção, consulte Definir Propriedades do Domínio.

Padronizar dados limpos

Você pode escolher se deseja exportar os dados limpos no formato padronizado com base no formato de saída definido para domínios. Ao criar um domínio, você pode selecionar a formatação que será aplicada quando os valores de dados no domínio forem gerados. Para mais informações sobre como especificar formatos de saída para um domínio, consulte a lista Formatar Saída para em Definir Propriedades do Domínio.

Ao exportar os dados purificados na página Exportar no assistente do projeto de qualidade de dados durante a limpeza, especifique se deseja que os dados sejam exportados no formato padrão selecionando a caixa de seleção Padronizar Saída. Por padrão, os dados limpos são exportados no formato padronizado, ou seja, a caixa de seleção está selecionada. Para obter mais informações sobre como exportar os dados limpos, consulte Limpar dados usando o conhecimento do DQS (interno).

Descrição da tarefa Tópico
Descreve como configurar valores de limite para a atividade de limpeza. Configurar valores de limite para limpeza e correspondência
Descreve como limpar dados usando o conhecimento interno do DQS. Limpar dados usando o conhecimento do DQS (interno)
Descreve como limpar dados usando o conhecimento do serviço de dados de referência. Limpar dados usando conhecimento de dados de referência (externos)
Descreve como limpar um domínio composto. Limpar dados em um domínio composto

Consulte Também

DQS (Projetos de Qualidade de Dados)
Correspondência de dados