Correspondência de dados

Aplica-se a:SQL Server

Importante

Os Serviços de Qualidade de Dados (DQS) foram removidos no SQL Server 2025 (17.x). Continuamos a oferecer suporte ao DQS no SQL Server 2022 (16.x) e em versões anteriores.

O processo de correspondência de dados do Data Quality Services (DQS) permite reduzir a duplicação de dados e melhorar a precisão dos dados em uma fonte de dados. A correspondência analisa o grau de duplicação em todos os registros de uma única fonte de dados, retornando probabilidades ponderadas de uma correspondência entre cada conjunto de registros comparados. Em seguida, pode decidir quais registros são coincidências e tomar as medidas adequadas nos dados de origem.

O processo de correspondência do DQS oferece os seguintes benefícios:

A correspondência permite eliminar diferenças entre valores de dados que devem ser iguais, determinando o valor correto e reduzindo os erros que as diferenças de dados podem causar. Por exemplo, nomes e endereços são muitas vezes os dados de identificação de uma fonte de dados, particularmente dados de clientes, mas os dados podem ficar sujos e deteriorar-se com o tempo. Realizar a correspondência para identificar e corrigir esses erros pode tornar o uso e a manutenção dos dados muito mais fáceis.
A correspondência permite garantir que os valores equivalentes, mas inseridos em um formato ou estilo diferente, sejam uniformizados.
A correspondência identifica correspondências exatas e aproximadas, permitindo que você remova dados duplicados à medida que os define. Você define o ponto em que uma correspondência aproximada é, de fato, uma correspondência. Você define quais campos são avaliados para correspondência e quais não são.
O DQS permite criar uma política de correspondência usando um processo assistido por computador, modificá-la interativamente com base em resultados correspondentes e adicioná-la a uma base de dados de conhecimento reutilizável.
Você pode reindexar dados copiados da origem para a tabela de estágio ou optar por não reindexar, conforme o estado da política de correspondência e dos dados de origem. A não reindexação pode melhorar o desempenho.

Você pode executar o processo de correspondência em conjunto com outros processos de limpeza de dados para melhorar a qualidade geral dos dados. Você também pode executar a eliminação de duplicação de dados usando a funcionalidade DQS incorporada ao Master Data Services. Para obter mais informações, consulte Visão geral do Master Data Services (MDS).

A ilustração a seguir exibe como a correspondência de dados é feita no DQS:

Processo de correspondência no DQS

Como executar a correspondência de dados

Como acontece com outros processos de qualidade de dados no DQS, você executa a correspondência criando uma base de dados de conhecimento e executando uma atividade correspondente em um projeto de qualidade de dados nas seguintes etapas:

Criar uma política de correspondência na base de dados de conhecimento
Execute um processo de eliminação de duplicação em uma atividade de correspondência que faz parte de um projeto de qualidade de dados.

Elaborando uma política de correspondência

Você prepara a base de dados de conhecimento para executar a correspondência criando uma política de correspondência na base de dados de conhecimento para definir como o DQS atribui probabilidade de correspondência. Uma política de correspondência consiste em uma ou mais regras de correspondência que identificam quais domínios serão usados quando o DQS avalia o quão bem um registro corresponde a outro e especifica o peso que cada valor de domínio carrega na avaliação de correspondência. Você especifica na regra se os valores de domínio devem ser uma correspondência exata ou podem ser apenas semelhantes, e com que grau de semelhança. Você também especifica se uma correspondência de domínio é um pré-requisito.

A atividade de política de correspondência no assistente de Gerenciamento de Base de Dados de Conhecimento analisa dados de exemplo aplicando cada regra de correspondência para comparar dois registros de cada vez em todo o intervalo de registros. Os registros cujas pontuações correspondentes são maiores do que um mínimo especificado são agrupados em clusters nos resultados correspondentes. Estes resultados correspondentes não são adicionados à base de conhecimentos; você os usa para ajustar as regras correspondentes. Criar uma política de correspondência pode ser um processo iterativo no qual você modifica regras de correspondência com base nos resultados correspondentes ou nas estatísticas de criação de perfil.

Você pode especificar para um domínio que as cadeias de caracteres de dados serão normalizadas quando você carregar dados da fonte de dados no domínio. Esse processo consiste na substituição de caracteres especiais por um nulo ou um espaço, o que geralmente remove a diferença entre duas cadeias de caracteres. Isso pode aumentar a precisão da correspondência e, muitas vezes, permitir que um resultado de correspondência ultrapasse o limite mínimo de correspondência, quando sem normalização ele não passaria.

Observação

Valores nulos nos campos correspondentes de dois registros serão considerados uma correspondência.

A política de correspondência é executada em domínios associados aos dados de exemplo. Você pode especificar se os dados são copiados da fonte de dados para a tabela de preparo e reindexados quando você executa a política de correspondência ou não. Você pode fazer isso ao criar a base de dados de conhecimento e ao executar o projeto correspondente. A não reindexação pode resultar em melhor desempenho. A reindexação não é necessária se o seguinte for verdadeiro: a política de correspondência não foi alterada e você não atualizou a fonte de dados, remapeou a política, selecionou uma nova fonte de dados ou mapeou um ou mais novos domínios.

Cada regra de correspondência é salva na base de dados de conhecimento quando é criada. No entanto, uma base de dados de conhecimento está disponível para uso em um projeto de qualidade de dados somente quando ele é publicado. Além disso, até que a base de dados de conhecimento seja publicada, as regras de correspondência nela contidas não podem ser alteradas por um usuário que não seja a pessoa que a criou.

Executando um projeto de pareamento

O DQS executa a eliminação da duplicação de dados comparando cada linha dos dados de origem com todas as outras, usando a política de correspondência definida na base de dados de conhecimento e produzindo uma probabilidade de que as linhas sejam correspondentes. Isso é feito em um projeto de qualidade de dados com um tipo de correspondência. A correspondência é uma das principais etapas de um projeto de qualidade de dados. É melhor realizado após a limpeza de dados, para que os dados a serem correspondidos estejam livres de erros. Antes de executar um processo de correspondência, você pode exportar os resultados do projeto de limpeza para uma tabela de dados ou arquivo de .csv e, em seguida, criar um projeto correspondente no qual você mapeia os resultados de limpeza para domínios no projeto correspondente.

Um projeto de correspondência de dados consiste num processo assistido por computador e num processo interativo. O projeto de correspondência aplica as regras de correspondência na política de correspondência à fonte de dados a ser avaliada. Esse processo avalia a probabilidade de que duas linhas sejam correspondentes em uma pontuação correspondente. Somente os registros com probabilidade de uma correspondência maior do que um valor definido pelo administrador de dados na política de correspondência serão considerados uma correspondência.

Quando o DQS executa a análise de correspondência, ele cria clusters de registros que o DQS considera correspondências. O DQS identifica aleatoriamente um dos registros em cada cluster como o registro pivotante ou principal. O administrador de dados verifica os resultados correspondentes e rejeita qualquer registro que não seja uma correspondência apropriada para um cluster. Em seguida, o administrador de dados seleciona uma regra de sobrevivência que o DQS usará para determinar o registro que sobreviverá ao processo de correspondência e substituirá os registros correspondentes. A regra de sobrevivência pode ser "Registo pivô" (o padrão), "registo mais completo e mais longo", "registo mais completo" ou "registo mais longo". O DQS determina o registro de sobrevivente (principal) em cada cluster com base em qual registro mais se aproxima dos critérios ou critérios na regra de sobrevivência. Se vários registros em um determinado cluster estiverem em conformidade com a regra de sobrevivência, o DQS selecionará um desses registros aleatoriamente. O DQS oferece a opção de exibir clusters que têm registros em comum como um único cluster selecionando "mostrar clusters não sobrepostos". Você deve executar o processo de correspondência para exibir os resultados de acordo com essa configuração.

Você pode exportar os resultados do processo de correspondência para uma tabela do SQL Server ou um arquivo .csv. Você pode exportar resultados correspondentes de duas formas: primeiro, os registros correspondentes e os registros incomparáveis, ou segundo, registros de sobrevivência que incluem apenas o registro de sobrevivente para um cluster e os resultados incomparáveis. Nos registros de sobrevivência, se o mesmo registro for identificado como sobrevivente para vários clusters, esse registro só será exportado uma vez.

Na presente seção

Você pode executar as seguintes tarefas relacionadas à correspondência no DQS:

Descrição da Tarefa	Tópico
Criar e testar regras de correspondência em uma política de correspondência	Criar uma política de correspondência
Executar correspondência em um projeto de qualidade de dados	Executar um projeto correspondente

Feedback

Esta página foi útil?

Last updated on 2025-05-20