Partilhar via


Executar um projeto correspondente

Aplica-se a:SQL Server

Importante

Os Serviços de Qualidade de Dados (DQS) foram removidos no SQL Server 2025 (17.x). Continuamos a oferecer suporte ao DQS no SQL Server 2022 (16.x) e em versões anteriores.

Este tópico descreve como executar a correspondência de dados no Data Quality Services (DQS). O processo de correspondência identifica clusters de registros correspondentes com base em regras de correspondência na política de correspondência, designa um registro de cada cluster como sobrevivente com base em uma regra de sobrevivência e exporta os resultados. O DQS executa o processo de correspondência, também chamado de desduplicação, num processo assistido por computador, mas o utilizador cria regras de correspondência de forma interativa e seleciona a regra de sobrevivência entre várias opções, o que lhe permite controlar o processo de correspondência.

A correspondência realiza-se em três estágios: um processo de mapeamento no qual se identifica a fonte de dados e mapeiam-se domínios para a fonte de dados, um processo de correspondência no qual se executa a análise de correspondência, e um processo de resiliência e exportação no qual se designa a regra de resiliência e exportam-se os resultados correspondentes. Cada um desses processos é executado em uma página separada do assistente de atividade de correspondência, permitindo que você vá e volte para páginas diferentes, execute novamente o processo e feche um processo de correspondência específico e, em seguida, retorne ao mesmo estágio do processo. O DQS fornece estatísticas sobre os dados de origem, as regras de correspondência e os resultados de correspondência que permitem tomar decisões informadas sobre a correspondência e refinar o processo de correspondência.

Você deve preparar-se para a correspondência de dados criando uma política de correspondência com uma ou mais regras de correspondência. Depois, aplique a política a dados de exemplo. O processo do projeto de correspondência é separado do processo de política de correspondência, e uma base de dados de conhecimento não é preenchida com o conhecimento correspondente obtido a partir do projeto correspondente. Para obter mais informações sobre como criar uma política de correspondência, consulte Criar uma política de correspondência.

Antes de começar

Pré-requisitos

  • Você deve ter criado uma base de dados de conhecimento com uma política de correspondência que consiste em uma ou mais regras correspondentes.

  • O Microsoft Excel deve ser instalado no computador Cliente Data Quality se os dados de origem a serem correspondidos estiverem em um arquivo do Excel. Caso contrário, você não poderá selecionar o arquivo do Excel na etapa de mapeamento. Os arquivos criados pelo Microsoft Excel podem ter uma extensão de .xlsx, .xlsou .csv. Se a versão de 64 bits do Excel for usada, somente arquivos do Excel 2003 (.xls) serão suportados; Os ficheiros do Excel 2007 ou 2010 (.xlsx) não são suportados. Se estiver a utilizar a versão de 64 bits do Excel 2007 ou 2010, guarde o ficheiro como um ficheiro .xls ou um ficheiro .csv ou instale uma versão de 32 bits do Excel.

Segurança

Permissões

Você deve ter a função dqs_kb_editor ou dqs_administrator no banco de dados DQS_MAIN para executar um projeto correspondente.

Primeiro passo: Iniciar um projeto de correspondência

Você executa a atividade correspondente em um projeto de qualidade de dados que você cria no aplicativo cliente DQS.

  1. Inicie o Data Quality Client. Para obter informações sobre como fazer isso, consulte Run the Data Quality Client Application.

  2. No ecrã inicial do Data Quality Client, clique em Novo Projeto de Qualidade de Dados para realizar emparelhamento num novo projeto de qualidade de dados. Insira um nome para o projeto de qualidade de dados, insira uma descrição e selecione a base de conhecimento que deseja utilizar para correspondência em Utilizar base de conhecimento. Clique em de correspondência para a atividade. Clique em Avançar para prosseguir para a fase de mapeamento.

  3. Clique em Abrir projeto de qualidade de dados para executar a correspondência em um projeto de qualidade de dados existente. Selecione o projeto e, em seguida, clique em Avançar. (Ou podes clicar num projeto em Projeto Recente de Qualidade de Dados.) Se abrires um projeto correspondente que foi fechado, prosseguirás para o estágio em que a atividade do projeto correspondente foi fechada (conforme indicado pela coluna Estado na tabela do projeto ou no nome do projeto em Projeto Recente de Qualidade de Dados). Se você abrir um projeto correspondente que foi concluído, você irá para a página Exportar (e não poderá voltar às telas anteriores).

Estágio de mapeamento

No estágio de mapeamento, você identifica a fonte dos dados nos quais executará a análise correspondente e mapeia colunas de origem para domínios para disponibilizar os domínios para a atividade correspondente.

  1. Na página Mapa, para executar a associação numa base de dados, mantenha Fonte de Dados como SQL Server, selecione a base de dados na qual deseja executar a associação e depois selecione a tabela. O banco de dados de origem deve estar presente na mesma instância do SQL Server que o servidor DQS. Caso contrário, ele não aparecerá na lista suspensa.

  2. Para executar a correspondência nos dados em uma folha de cálculo do Excel, selecione Arquivo do Excel para Fonte de Dados, clique Procurar e selecione o arquivo do Excel e deixe Usar primeira linha como cabeçalho selecionada, caso seja apropriado. Em Planilha, selecione a planilha no arquivo do Excel que será a fonte dos dados. O Excel deve ser instalado no computador Cliente Data Quality para selecionar um arquivo do Excel. Se o Excel não estiver instalado no computador Cliente Data Quality, o botão Procurar não estará disponível e você será notificado abaixo dessa caixa de texto de que o Excel não está instalado.

  3. Em Mapeamentos, selecione um campo da fonte de dados para Coluna de Origem, e em seguida, selecione o domínio correspondente. Repita para todos os domínios que você usa no processo de correspondência. Cada domínio definido na política de correspondência deve ser mapeado para a coluna de origem apropriada. A página Mapa exibe os domínios que foram definidos na política de correspondência e as regras na política de correspondência no painel direito.

    Observação

    Você pode mapear seus dados de origem para um domínio DQS somente se o tipo de dados de origem for suportado no DQS e corresponder ao tipo de dados de domínio DQS. Para obter informações sobre tipos de dados com suporte no DQS, consulte Supported SQL Server and SSIS Data Types for DQS Domains.

  4. Clique no controle mais (+) para adicionar uma linha à tabela Mapeamentos ou no controle menos (-) para remover uma linha.

  5. Clique em Visualizar fonte de dados para ver os dados na tabela ou vista do SQL Server que selecionou, ou na folha de cálculo do Excel que selecionou.

  6. Clique Exibir/Selecionar Domínios Compostos para exibir uma lista dos domínios compostos disponíveis na base de dados de conhecimento e selecione, conforme apropriado, para mapeamento.

  7. Clique Avançar para prosseguir para o estágio correspondente.

    Observação

    Clique Fechar para salvar o estágio do projeto correspondente e retornar à página inicial do DQS. Da próxima vez que abrir este projeto, este começará a partir da mesma fase. Clique Cancelar para encerrar a atividade correspondente, perder seu trabalho e retornar à página inicial do DQS.

Fase de Correspondência

Nesta etapa, você executa um processo de correspondência assistido por computador que mostra quantas correspondências existem nos dados de origem com base nas regras de correspondência. Esse processo gerará uma tabela de resultados correspondentes que mostra os clusters que o DQS identificou, cada registro no cluster com sua ID de registro e sua pontuação correspondente, e o registro principal inicial para o cluster. O registro principal no cluster é selecionado aleatoriamente. Você determina o registro sobrevivente selecionando a regra de sobrevivência na página Exportar quando executa o projeto correspondente. Cada linha adicional em um cluster é considerada uma correspondência; sua pontuação correspondente (em comparação com o registro principal) é fornecida na tabela de resultados. O número do cluster é o mesmo que o ID do registro principal no cluster.

Nos resultados correspondentes, você pode filtrar os dados desejados e rejeitar correspondências que não deseja. Você pode exibir dados de criação de perfil para o processo de correspondência como um todo, detalhes sobre as regras de correspondência aplicadas e estatísticas sobre os resultados correspondentes como um todo. O processo de correspondência pode identificar clusters sobrepostos ou não sobrepostos e, se estiver sendo executado várias vezes, pode ser executado em dados recém-copiados da origem e reindexados ou em dados anteriores.

  1. Na página Correspondência , selecione Clusters sobrepostos na lista suspensa para exibir os registos pivot e subsequentes para todos os clusters quando a correspondência for executada, mesmo que grupos de clusters partilhem registos. Selecione clusters não sobrepostos para exibir clusters que tenham registos em comum como se fossem um único cluster quando a correspondência for executada.

  2. Clique Recarregar dados da origem (o padrão) para copiar dados da fonte de dados para a tabela de preparo e reindexá-los quando executar o projeto de correspondência. Clique Executar em dados anteriores para executar um projeto correspondente sem copiar os dados para a tabela de preparo e reindexar os dados. Executar em dados anteriores está desabilitado para a primeira execução do projeto de correspondência ou se você alterar o mapeamento na página Mapa e pressionar Sim no pop-up seguinte. Em ambos os casos, você deve reindexar. Não é necessário reindexar se o projeto correspondente não tiver sido alterado. A execução em dados anteriores pode ajudar no desempenho.

  3. Clique em Iniciar para executar a correspondência na fonte de dados selecionada.

  4. Clique Parar se quiser parar o projeto correspondente e descartar os resultados.

  5. Após a conclusão do processo de correspondência, verifique se os clusters na tabela Resultados Correspondentes do são apropriados e exiba as estatísticas nas guias Profiler e Resultados Correspondentes para garantir que você está alcançando os resultados necessários. Exiba os registros correspondentes selecionando Correspondências para o Filtro ou visualize registros não correspondentes selecionando Não Correspondentes.

  6. Se tiver múltiplas regras de correspondência na política de correspondência, clique no separador Regras de Correspondência para identificar o ícone de cada regra. Em seguida, verifique qual regra identificou um registo como correspondente, identificando essa regra na coluna Regra da tabela Resultados da Correspondência.

  7. Ao selecionar um registo não pivô na tabela e clicar no ícone Exibir Detalhes (ou clicar duas vezes no registo), o DQS exibirá um pop-up denominado Detalhes da Pontuação de Correspondência, que exibe o registo clicado duas vezes e o seu registo pivô, e os respetivos valores dos seus campos, a pontuação entre eles e um detalhamento das contribuições da pontuação de correspondência de cada campo. Clicar duas vezes num registo dinâmico não exibirá a janela pop-up.

  8. Clique no ícone Recolher tudo para recolher os registos exibidos na tabela Resultados Correspondentes para incluir apenas o registo principal, não os registos duplicados. Clique Expandir Tudo para ampliar os registos exibidos na tabela de Resultados Correspondentes e incluir todos os registos duplicados.

  9. Para rejeitar um registo dos resultados correspondentes, clique na caixa de seleção Rejeitado do registo.

  10. Para alterar a pontuação mínima de correspondência que determina o nível de correspondência que um registro deve ter para ser exibido, selecione o ícone Pontuação mínima correspondente acima do lado direito da tabela e insira um número maior. A pontuação mínima correspondente é definida como 80% por padrão. Clique Atualizar para alterar o conteúdo da tabela.

  11. Após a conclusão da análise, o botão Iniciar se transforma em um botão Reiniciar. Clique Reiniciar para executar o projeto de análise novamente. No entanto, os resultados da análise anterior ainda não foram salvos, portanto, clicar Reiniciar fará com que os dados anteriores sejam perdidos. Para continuar, clique em Sim no popup. Como a análise está em execução, não saia da página ou o processo de análise será encerrado.

  12. Clique Avançar para prosseguir para o estágio de sobrevivência e exportação.

Estágio de sobrevivência e exportação

No processo de sobrevivência, o Data Quality Services determina um registo de sobrevivente para cada cluster, que substituirá os outros registos que lhe correspondem no cluster. Em seguida, exporta os resultados correspondentes e/ou de sobrevivência para uma tabela no banco de dados do SQL Server, um arquivo .csv ou um arquivo do Excel.

A sobrevivência é opcional. Você pode exportar os resultados sem executar a sobrevivência, caso em que o DQS usaria o registro de pivô designado na análise correspondente. Se dois ou mais registros em um cluster estiverem em conformidade com a regra de sobrevivência, o processo de sobrevivência selecionará o ID de registro mais baixo entre os registros conflitantes para ser o sobrevivente. Você pode exportar sobreviventes para diferentes arquivos ou tabelas usando diferentes regras de sobrevivência.

  1. Na página Exportar, selecione o destino para onde deseja exportar os dados correspondentes em Tipo de Destino: SQL Server, Arquivo CSVou Arquivo Excel.

    Importante

    Se você estiver usando a versão de 64 bits do Excel, não poderá exportar os dados correspondentes para um arquivo do Excel; você só pode exportar para um banco de dados do SQL Server ou para um arquivo .csv.

  2. Se você selecionou SQL Server para Tipo de Destino, selecione o banco de dados para o qual exportar os resultados em Nome do Banco de Dados.

    Importante

    O banco de dados de destino deve estar presente na mesma instância do SQL Server que o servidor DQS. Caso contrário, ele não aparecerá na lista suspensa.

  3. Marque a caixa de seleção Resultados Correspondentes, para exportar resultados correspondentes (consulte acima para obter uma explicação) para a tabela designada em um banco de dados do SQL Server ou para o arquivo designado .csv ou Excel. Marque a caixa de seleção Resultados de Sobrevivência para exportar os resultados de sobrevivência (veja acima para uma explicação) para a tabela designada em um banco de dados do SQL Server ou para o arquivo .csv ou Excel designado.

    Os seguintes itens serão exportados para resultados correspondentes:

    • Uma lista de clusters e os registros correspondentes em cada cluster, incluindo o nome da regra e a pontuação. O registro de pivô será marcado como "Pivot". Os clusters aparecerão primeiro na lista de exportação.

    • Uma lista dos registros incomparáveis, com "NULL" nas colunas Score e Rule Name. Esses registros serão anexados à lista de exportação após os clusters.

    Os seguintes itens serão exportados para resultados de sobrevivência:

    • Uma lista dos registros de sobreviventes, conforme determinado pelo processo de sobrevivência de acordo com a regra de sobrevivência. Esses registros aparecem em primeiro lugar na lista de exportação.

    • Uma lista dos registros incompatíveis que não estão incluídos nos clusters de registros correspondentes. Estes registos são anexados após os resultados dos sobreviventes.

  4. Se você selecionou SQL Server para Tipo de Destino, insira o nome das tabelas para as quais deseja exportar os resultados em Nome da Tabela. Se você exportar os resultados correspondentes e os resultados de sobrevivência, as tabelas de destino deverão ter nomes diferentes que sejam exclusivos do banco de dados.

  5. Se você selecionou de Arquivo CSV para Tipo de Destino, insira o arquivo e o caminho do arquivo CSV para o qual deseja exportar em Nome do Arquivo CSV.

  6. Se selecionou Arquivo do Excel para Tipo de Destino, insira o caminho e o nome do ficheiro Excel para a exportação em Nome do Ficheiro do Excel. Não é possível exportar para um ficheiro Excel se estiver a utilizar a versão de 64 bits do Excel.

  7. Selecione a regra de sobrevivência da seguinte maneira:

    • Selecione registo pivô (como padrão) para identificar o registo sobrevivente como o registo pivô inicial escolhido de forma arbitrária pelo DQS.

    • Selecione Registro mais completo e mais longo para identificar o registro sobrevivente como aquele com o maior número de campos preenchidos e com o maior número de termos em cada campo. Todos os campos de origem são verificados, mesmo os campos que não foram mapeados para um domínio na página Mapa .

    • Selecione a opção Registro mais completo para identificar o registro sobrevivente como aquele com o maior número de campos preenchidos. Um campo preenchido contém pelo menos um valor (string, numérico ou ambos). Todos os campos de origem são verificados, inclusive os que não foram mapeados para um domínio na página de Mapa. Um campo preenchido contém pelo menos um valor (string, numérico ou ambos).

    • Selecione Registro mais longo para identificar o registro sobrevivente como o que tem o maior número de termos nos seus campos de origem. Para determinar o comprimento de cada registro, o DQS verifica o comprimento dos termos em todos os campos de origem, mesmo os campos que não foram mapeados para um domínio na página Mapa.

  8. Verifique as estatísticas no separador do Profiler para assegurar que os resultados necessários estão a ser alcançados.

  9. Clique Exportar para exportar os resultados. Isso exibe uma caixa de diálogo Exportação correspondente que mostra o progresso e, em seguida, os resultados da exportação.

    • Se você selecionou SQL Server como destino de dados, uma nova tabela com o nome especificado será criada no banco de dados selecionado.

    • Se selecionou Arquivo CSV como o destino dos dados, um ficheiro .csv será criado no local indicado no computador do Data Quality Server com o nome do ficheiro especificado anteriormente na caixa Nome do ficheiro CSV.

    • Se selecionou Arquivo do Excel como destino de dados, um arquivo .xlsx será criado no local no computador do servidor de Qualidade dos Dados com o nome de arquivo especificado anteriormente na caixa de nome do arquivo do Excel .

  10. Verifique se a exportação foi concluída com êxito e clique em Fechar.

  11. Clique Concluir para finalizar o projeto correspondente.

    Observação

    Se você tiver concluído um projeto correspondente e, em seguida, usá-lo novamente, ele usará a base de dados de conhecimento em vigor quando foi publicado. Ele não usará quaisquer alterações que você fez na base de dados de conhecimento desde que você terminou o projeto. Para usar essas alterações ou para usar uma nova base de dados de conhecimento, você terá que criar um novo projeto correspondente. Por outro lado, se tiveres criado, mas não terminado, um projeto de correspondência, quaisquer alterações que tenhas publicado na política de correspondência serão aplicadas se executares a correspondência no projeto.

Acompanhamento: Depois de executar um projeto correspondente

Depois de executar um projeto correspondente, você pode alterar a política de correspondência na base de dados de conhecimento e criar e executar outro projeto correspondente com base na política de correspondência atualizada. Para obter mais informações, consulte Criar uma política de correspondência.

Guias Profiler e Resultados

As guias Profiler e Results contêm estatísticas para o processo de correspondência.

Aba Profiler

Clique no separador Profiler para exibir estatísticas para o banco de dados de origem e para cada um dos campos incluídos na regra da política. As estatísticas serão atualizadas à medida que a regra de política for executada. A definição de perfis irá ajudá-lo a avaliar a eficácia do processo de eliminação da duplicação, ajudando a determinar até que ponto o processo é capaz de melhorar a qualidade dos dados. A precisão na criação de perfis não é importante para um projeto de correspondência.

As estatísticas da base de dados de origem incluem o seguinte:

  • Records: O número total de registos na base de dados

  • Total de Valores: O número total de valores nos campos

  • Novos Valores: O número total de valores novos desde a execução anterior e sua porcentagem do total

  • Valores Únicos: O número total de valores exclusivos nos campos e sua porcentagem do todo

  • Novos Valores Exclusivos: O número total de valores exclusivos que são novos nos campos e sua porcentagem do todo

As estatísticas de campo incluem o seguinte:

  • Campo: Nome do campo que foi incluído nos mapeamentos.

  • Domain: Nome do domínio associado ao campo.

  • New: O número de novas correspondências encontradas e sua porcentagem do total

  • Unique: O número de registos únicos no campo e a percentagem deles do total

  • Completude: A percentagem de conclusão da execução da regra.

Notificações de política de correspondência

Para a atividade de política de correspondência, as seguintes condições resultam em notificações:

  • O campo está vazio em todos os registos; é recomendável eliminá-lo do mapeamento.

  • A pontuação de completude do campo é muito baixa; você pode querer eliminá-lo do mapeamento.

  • Todos os valores em um campo são inválidos; Você deve verificar o mapeamento e a relevância das regras de domínio para o conteúdo do campo.

  • Há um baixo nível de valores válidos no campo; Você deve verificar o mapeamento e a relevância das regras de domínio para o conteúdo do campo.

  • Existe um elevado nível de singularidade neste domínio. O uso deste campo na política de correspondência pode diminuir os resultados da correspondência.

Guia Regras de correspondência

Clique neste separador para exibir uma lista das regras na política de correspondência e as condições numa regra.

Lista de Regras
Exibe uma lista de todas as regras correspondentes na política de correspondência. Selecione uma das regras para visualizar as suas condições na tabela de regras correspondentes.

Tabela de regras de correspondência
Exibe cada condição na regra selecionada, incluindo domínio, valor de similaridade, peso e seleção de pré-requisitos.

Guia Resultados Correspondentes

Clique no separador Resultados Correspondentes para exibir estatísticas para a análise da origem de dados usando o conhecimento selecionado para o projeto e a regra ou regras correspondentes nessa base de dados de conhecimento. As estatísticas incluem o seguinte:

  • O número total de registos na base de dados

  • O número total de registros correspondentes no banco de dados

  • O número de registos na base de dados que não são considerados duplicados

  • O número de clusters descobertos

  • O tamanho médio do cluster (número de registros duplicados dividido pelo número de clusters)

  • O menor número de duplicatas em um cluster

  • O maior número de duplicatas em um cluster