Executar um projeto de alinhamento

Este tópico descreve como executar a correspondência de dados no DQS (Data Quality Services). O processo de correspondência identifica clusters de registros correspondentes com base em regras correspondentes na política de correspondência, designa um registro de cada cluster como o sobrevivente com base em uma regra de sobrevivência e exporta os resultados. O DQS executa o processo de reconciliação, também chamado de desduplicação, em um processo assistido por computador. No entanto, você cria as regras de correspondência de forma interativa e seleciona a regra de permanência entre várias opções, garantindo assim o controle do processo de reconciliação.

A correspondência é executada em três estágios: um processo de mapeamento no qual você identifica a fonte de dados e mapeia domínios para a fonte de dados, um processo de correspondência no qual você executa a análise correspondente e um processo de sobrevivência e exportação no qual você designa a regra de sobrevivência e exporta os resultados correspondentes. Cada um desses processos é executado em uma página separada do assistente de atividade de correspondência, permitindo que você navegue entre diferentes páginas, execute novamente o processo, feche um processo de correspondência específico e então retorne ao mesmo estágio do processo. O DQS fornece estatísticas sobre os dados de origem, as regras correspondentes e os resultados correspondentes que permitem que você tome decisões informadas sobre a correspondência e refinar o processo de correspondência.

Você deve se preparar para a correspondência criando uma política de correspondência com uma ou mais regras de correspondência e executando a política em dados de exemplo. O processo de projeto correspondente é separado do processo de política correspondente e uma base de dados de conhecimento não é preenchida com o conhecimento correspondente obtido do projeto correspondente. Para obter mais informações sobre como criar uma política de correspondência, consulte Criar uma política de correspondência.

Antes de começar

Pré-requisitos

Você deve ter criado uma base de dados de conhecimento com uma política correspondente que consiste em uma ou mais regras correspondentes.
O Microsoft Excel deverá ser instalado no computador Cliente de Qualidade de Dados se os dados de origem a serem correspondidos estiverem em um arquivo do Excel. Caso contrário, você não poderá selecionar o arquivo do Excel no estágio de mapeamento. Os arquivos criados pelo Microsoft Excel podem ter uma extensão de .xlsx, .xlsou .csv. Se a versão de 64 bits do Excel for usada, somente arquivos do Excel 2003 (.xls) serão compatíveis; Não há suporte para arquivos do Excel 2007 ou 2010 (.xlsx). Se você estiver usando a versão de 64 bits do Excel 2007 ou 2010, salve o arquivo como um arquivo .xls ou um arquivo .csv ou instale uma versão de 32 bits do Excel.

Segurança

Permissões

Você deve ter a função dqs_kb_editor ou dqs_administrator no banco de dados DQS_MAIN para executar um projeto correspondente.

Primeira etapa: iniciando um projeto de correspondência

Você executa a atividade correspondente em um projeto de qualidade de dados criado no aplicativo cliente DQS.

Iniciar o Cliente Data Quality. Para obter informações sobre como fazer isso, consulte Executar o aplicativo do Data Quality Client.
Na tela inicial do Cliente de Qualidade de Dados, clique em Novo Projeto de Qualidade de Dados para executar a correspondência em um novo projeto de qualidade de dados. Insira um nome para o projeto de qualidade de dados, insira uma descrição e selecione a base de conhecimentos que você deseja usar para correspondência em Usar base de conhecimentos. Clique em Combinação para a atividade. Clique em Avançar para prosseguir para o estágio de mapeamento.
Clique em Abrir projeto de qualidade de dados para executar a correspondência em um projeto de qualidade de dados existente. Selecione o projeto e clique em Avançar. (Ou você pode clicar em um projeto em Projeto de Qualidade de Dados Recentes.) Se você abrir um projeto correspondente que foi fechado, prosseguirá para o estágio em que a atividade de projeto correspondente foi fechada (conforme indicado pela coluna Estado na tabela do projeto ou no nome do projeto em Projeto de Qualidade de Dados Recentes). Se você abrir um projeto correspondente que foi concluído, você irá para a página Exportar (e não poderá voltar para as telas anteriores).

Estágio de Mapeamento

No estágio de mapeamento, você identifica a origem dos dados em que executará a análise correspondente e mapeia colunas de origem para domínios para disponibilizar os domínios para a atividade correspondente.

Na página Mapa , para executar a correspondência em um banco de dados, deixe a Fonte de Dados como SQL Server, selecione o banco de dados no qual você deseja executar a correspondência e selecione a tabela. O banco de dados de origem deve estar presente na mesma instância do SQL Server que o servidor DQS. Caso contrário, ele não aparecerá na lista suspensa.
Para executar a correspondência nos dados em uma planilha do Excel, selecione o Arquivo do Excel para Fonte de Dados, clique em Procurar e selecione o arquivo do Excel e deixe Usar a primeira linha como cabeçalho selecionado, se apropriado. Na Planilha, selecione a planilha no arquivo do Excel que será a fonte dos dados. O Excel deve ser instalado no computador Cliente de Qualidade de Dados para selecionar um arquivo do Excel. Se o Excel não estiver instalado no computador Cliente de Qualidade de Dados, o botão Procurar não estará disponível e você será notificado nesta caixa de texto informando que o Excel não está instalado.
Em Mapeamentos, selecione um campo na fonte de dados da Coluna de Origem e selecione o domínio correspondente. Repita para todos os domínios que você usa no processo de correspondência de domínios. Cada domínio definido na política de correspondência deve ser mapeado para a coluna de origem apropriada. A página Mapa exibe os domínios que foram definidos na política de correspondência e as regras na política de correspondência no painel direito.

Observação

Você pode mapear seus dados de origem para um domínio DQS somente se o tipo de dados de origem tiver suporte no DQS e corresponder ao tipo de dados de domínio DQS. Para obter informações sobre tipos de dados com suporte no DQS, consulte tipos de dados SSIS e SQL Server com suporte para domínios DQS.
Clique no controle de adição (+) para adicionar uma linha à tabela Mapeamentos ou ao controle de subtração (-) para remover uma linha.
Clique em Visualizar fonte de dados para ver os dados na tabela ou exibição do SQL Server que você selecionou ou a planilha do Excel selecionada.
Clique em Exibir/Selecionar Domínios Compostos para exibir uma lista dos domínios compostos disponíveis na base de dados de conhecimento e selecione conforme apropriado para mapeamento.
Clique em Avançar para prosseguir para o estágio correspondente.

Observação

Clique em Fechar para salvar o estágio do projeto correspondente e retorne à home page do DQS. Na próxima vez que você abrir esse projeto, ele começará no mesmo estágio. Clique em Cancelar para encerrar a atividade correspondente, perdendo seu trabalho e retornando à home page do DQS.

Estágio correspondente

Neste estágio, você executa um processo de correspondência assistida por computador que mostra quantas correspondências há nos dados de origem com base nas regras correspondentes. Esse processo gerará uma tabela de resultados correspondente que mostra os clusters identificados pelo DQS, cada registro no cluster com sua ID de registro e sua pontuação de correspondência e o registro principal inicial do cluster. O registro principal no cluster é selecionado aleatoriamente. Você determina o registro sobrevivente selecionando a regra de sobrevivência na página Exportar ao executar o projeto correspondente. Cada linha adicional em um cluster é considerada uma correspondência; sua pontuação correspondente (em comparação com o registro principal) é fornecida na tabela de resultados. O número do cluster é o mesmo que a ID do registro para o registro líder no cluster.

Nos resultados correspondentes, você pode filtrar os dados desejados e rejeitar correspondências que não deseja. Você pode exibir dados de criação de perfil para o processo de correspondência como um todo, detalhes sobre as regras correspondentes que são aplicadas e estatísticas sobre os resultados correspondentes como um todo. O processo de correspondência pode identificar clusters sobrepostos ou não sobrepostos e, se forem executados várias vezes, poderão ser executados em dados recém-copiados da origem e indexados novamente ou em dados anteriores.

Na página de Correspondência, selecione Clusters sobrepostos na lista suspensa para exibir os registros pivô e registros subsequentes de todos os clusters quando o processo de correspondência for executado, mesmo que grupos de clusters tenham registros em comum. Selecione Clusters não sobrepostos para exibir clusters que têm registros em comum como um único cluster quando a correspondência é executada.
Clique em Recarregar dados da origem (o padrão) para copiar dados da fonte de dados para a tabela de preparo e indexá-los novamente ao executar o projeto correspondente. Clique em Executar em dados anteriores para executar um projeto correspondente sem copiar os dados para a tabela de preparo e indexar novamente os dados. Executar em dados anteriores está desabilitado na primeira execução do projeto de correspondência, ou se você alterar o mapeamento na página Mapa e pressionar Sim no pop-up a seguir. Em ambos os casos, você deve indexar novamente. Não é necessário indexar novamente se o projeto correspondente não tiver sido alterado. Executar com base em dados anteriores pode melhorar o desempenho.
Clique em Iniciar para executar a correspondência na fonte de dados selecionada.
Clique em Parar se você quiser interromper o projeto correspondente e descartar os resultados.
Após a conclusão do processo de correspondência, verifique se os clusters na tabela Resultados Correspondentes são apropriados e exiba as estatísticas nas guias Criador de Perfil e Resultados Correspondentes para garantir que você esteja obtendo os resultados necessários. Exiba os registros correspondentes selecionando Matched for Filter ou exiba registros incompatíveis selecionando Unmatched.
Se você tiver várias regras de correspondência na política de correspondência, clique na guia Regras de Correspondência para identificar o ícone de cada regra e verifique qual regra identificou um registro como uma correspondência identificando a regra na coluna Regra da tabela Resultados Correspondentes .
Se você selecionar um registro não dinâmico na tabela e clicar no ícone Exibir Detalhes (ou clicar duas vezes no registro), o DQS exibirá um pop-up Detalhes da Pontuação Correspondente que exibe o registro clicado duas vezes e seu registro dinâmico (e os valores em todos os campos), a pontuação entre eles e um detalhamento das contribuições de pontuação correspondentes de cada campo. Clicar duas vezes em um registro dinâmico não exibirá o pop-up.
Clique no ícone Recolher Tudo para recolher os registros exibidos na tabela Resultados Correspondentes e incluir apenas o registro central, excluindo os registros duplicados. Clique em Expandir Tudo para expandir os registros exibidos na tabela Resultados Correspondentes para incluir todos os registros duplicados.
Para rejeitar um registro dos resultados correspondentes, clique na caixa de seleção Rejeitada para o registro.
Para alterar a pontuação mínima de correspondência que determina o nível de correspondência que um registro deve ter que ser exibido, selecione o ícone De Pontuação Mínima acima do lado direito da tabela e insira um número maior. A pontuação mínima de correspondência é definida como 80% por padrão. Clique em Atualizar para alterar o conteúdo da tabela.
Depois que a análise for concluída, o botão Iniciar se transformará em um botão Reiniciar . Clique em Reiniciar para executar o projeto de análise novamente. No entanto, os resultados da análise anterior ainda não foram salvos, portanto, clicar em Reiniciar fará com que os dados anteriores sejam perdidos. Para continuar, clique em Sim no pop-up. Como a análise está em execução, não saia da página ou o processo de análise será encerrado.
Clique em Avançar para prosseguir para o estágio de sobrevivência e exportação.

Estágio de sobrevivência e exportação

No processo de sobrevivência, o Serviço de Qualidade de Dados determina um registro de sobrevivente para cada cluster, que substituirá os outros registros correspondentes no cluster. Em seguida, exporta os resultados correspondentes e/ou de sobrevivência para uma tabela no banco de dados do SQL Server, um arquivo .csv ou um arquivo do Excel.

A sobrevivência é opcional. Você pode exportar os resultados sem executar a sobrevivência; nesse caso, o DQS usaria o registro dinâmico designado na análise correspondente. Se dois ou mais registros em um cluster cumprirem a regra de sobrevivência, o processo de sobrevivência selecionará a ID de registro mais baixa entre os registros conflitantes para ser o sobrevivente. Você pode exportar sobreviventes para diferentes arquivos ou tabelas usando regras de sobrevivência diferentes.

Na página Exportar , selecione o destino para o qual você deseja exportar os dados correspondentes no Tipo de Destino: SQL Server, Arquivo CSV ou Arquivo do Excel.

Importante

Se você estiver usando a versão de 64 bits do Excel, não poderá exportar os dados correspondentes para um arquivo do Excel; você pode exportar apenas para um banco de dados do SQL Server ou para um arquivo .csv.
Se você selecionou o SQL Server para Tipo de Destino, selecione o banco de dados para o qual exportar os resultados no Nome do Banco de Dados.

Importante

O banco de dados de destino deve estar presente na mesma instância do SQL Server que o servidor DQS. Caso contrário, ele não aparecerá na lista suspensa.
Marque a caixa de seleção de Resultados Correspondentes para exportar resultados correspondentes (consulte acima para obter uma explicação) para a tabela designada em um banco de dados do SQL Server ou para o arquivo designado .csv ou excel. Marque a caixa de seleção Resultados de Survivorship para exportar resultados de sobrevivência (consulte acima para obter uma explicação) para a tabela designada em um banco de dados do SQL Server ou para o arquivo designado .csv ou Excel.

O seguinte será exportado para correspondência de resultados:
- Uma lista de clusters e os registros correspondentes em cada cluster, incluindo o nome da regra e a pontuação. O registro pivô será marcado como "Pivot". Os clusters serão exibidos primeiro na lista de exportação.
- Uma lista dos registros sem correspondência, com "NULL" nas colunas Pontuação e Nome da Regra. Esses registros serão acrescentados à lista de exportação após os clusters.
O seguinte será exportado para resultados de sobrevivência:
- Lista de registros de sobreviventes, tal como determinado pelo processo de seleção de sobreviventes de acordo com a regra de seleção de sobreviventes. Esses registros aparecem primeiro na lista de exportação.
- Uma lista dos registros incompatíveis que não estão incluídos nos clusters de registros correspondentes. Esses registros são adicionados após os resultados de sobrevivência.
Se você selecionou o SQL Server para Tipo de Destino, insira o nome das tabelas para as quais deseja exportar os resultados no Nome da Tabela. Se você exportar resultados correspondentes e resultados de sobrevivência, as tabelas de destino deverão ter nomes diferentes exclusivos para o banco de dados.
Se você selecionou o Arquivo CSV para Tipo de Destino, insira o arquivo e o caminho do arquivo CSV para o qual deseja exportar no Nome do Arquivo CSV.
Se você selecionou o Arquivo do Excel para Tipo de Destino, insira o arquivo e o caminho para o arquivo do Excel para o qual deseja exportar no Nome do Arquivo do Excel. Você não poderá exportar para um arquivo do Excel se estiver usando a versão de 64 bits do Excel.
Selecione a regra de sobrevivência da seguinte maneira:
- Selecione o registro pivô (o padrão) para identificar o registro sobrevivente como o registro pivô inicial escolhido arbitrariamente pelo DQS.
- Selecione o registro mais completo e mais longo para identificar o registro sobrevivente como aquele com o maior número de campos preenchidos e tem o maior número de termos em cada campo. Todos os campos de origem são verificados, mesmo os campos que não foram mapeados para um domínio na página Mapa .
- Selecione o registro mais completo para identificar o registro sobrevivente como aquele com o maior número de campos preenchidos. Um campo preenchido contém pelo menos um valor (cadeia de caracteres, numérico ou ambos). Todos os campos de origem são verificados, mesmo os campos que não foram mapeados para um domínio na página Mapa. Um campo preenchido contém pelo menos um valor (cadeia de caracteres, numérico ou ambos).
- Selecione o registro mais longo para identificar o registro sobrevivente como aquele com o maior número de termos em seus campos de origem. Para determinar o comprimento de cada registro, o DQS verifica o comprimento dos termos em todos os campos de origem, mesmo os campos que não foram mapeados para um domínio na página Mapa .
Exiba as estatísticas na guia Criador de Perfil para garantir que você esteja obtendo os resultados necessários.
Clique em Exportar para exportar os resultados. Isso exibe uma caixa de diálogo Exportação Correspondente que mostra o progresso e, em seguida, os resultados da exportação.
- Se você selecionou o SQL Server como o destino de dados, uma nova tabela com o nome especificado será criada no banco de dados selecionado.
- Se você selecionou o Arquivo CSV como o destino de dados, um arquivo .csv será criado no local no computador do Servidor de Qualidade de Dados com o nome do arquivo especificado anteriormente na caixa de nome do arquivo Csv .
- Se você selecionou o Arquivo do Excel como o destino de dados, um arquivo .xlsx será criado no local no computador do Servidor de Qualidade de Dados com o nome do arquivo especificado anteriormente na caixa de nome de arquivo do Excel .
Verifique se a exportação foi concluída com êxito e clique em Fechar.
Clique em Concluir para concluir o projeto correspondente.

Observação

Se você tiver concluído um projeto correspondente e depois usá-lo novamente, ele usará a base de dados de conhecimento em vigor quando ele for publicado. Ele não usará nenhuma alteração feita na base de dados de conhecimento desde que você concluiu o projeto. Para usar essas alterações ou usar uma nova base de dados de conhecimento, você precisará criar um novo projeto correspondente. Por outro lado, se você tiver criado, mas não finalizado um projeto de correspondência, quaisquer modificações que você tenha publicado na política de correspondência serão aplicadas caso realize a correspondência no projeto.

Acompanhamento: depois de executar um projeto correspondente

Depois de executar um projeto correspondente, você pode alterar a política de correspondência na base de dados de conhecimento e criar e executar outro projeto correspondente com base na política de correspondência atualizada. Para obter mais informações, consulte Criar uma política de correspondência.

Abas Perfilador e Resultados

As guias Analisador de Perfil e Resultados contêm estatísticas para o processo de correspondência.

Guia Perfilador

Clique na guia Criador de Perfil para exibir estatísticas do banco de dados de origem e para cada campo incluído na regra de política. As estatísticas serão atualizadas à medida que a regra de política for executada. A criação de perfil ajudará você a avaliar a eficácia do processo de eliminação de duplicação, ajudando a determinar até que ponto o processo é capaz de melhorar a qualidade dos dados. A precisão na criação de perfil não é importante para um projeto de alinhamento.

As estatísticas do banco de dados de origem incluem o seguinte:

Registros: o número total de registros no banco de dados
Valores totais: o número total de valores nos campos
Novos Valores: o número total de valores novos desde a execução anterior e o percentual do todo
Valores exclusivos: o número total de valores exclusivos nos campos e sua porcentagem do todo
Novos Valores Exclusivos: o número total de valores exclusivos que são novos nos campos e sua porcentagem do todo

As estatísticas de campo incluem o seguinte:

Campo: nome do campo que foi incluído nos mapeamentos.
Domínio: nome do domínio mapeado para o campo.
Novo: O número de novas correspondências encontradas e sua porcentagem do total
Único: o número de registros únicos no campo e sua percentagem do total
Integridade: o percentual de conclusão da execução da regra.

Notificações de política correspondentes

Para a atividade de política correspondente, as seguintes condições resultam em notificações:

O campo está vazio em todos os registros; É recomendável eliminá-lo do mapeamento.
A pontuação de integridade do campo é muito baixa; talvez você queira eliminá-lo do mapeamento.
Todos os valores em um campo são inválidos; você deve verificar o mapeamento e a relevância das regras de domínio para o conteúdo do campo.
Há um baixo nível de valores válidos no campo; você deve verificar o mapeamento e a relevância das regras de domínio para o conteúdo do campo.
Há um alto nível de exclusividade neste campo. Utilizar este campo na política de correspondência pode diminuir os resultados de correspondência.

Aba Regras de Correspondência

Clique nesta guia para exibir uma lista das regras na política de correspondência e das condições de uma regra.

Lista de regras
Exibe uma lista de todas as regras correspondentes na política de correspondência. Selecione uma das regras para exibir as condições das regras na tabela Regra de Correspondência.

Tabela de regras correspondente
Exibe cada condição na regra selecionada, incluindo domínio, valor de similaridade, peso e seleção de pré-requisitos.

Aba de Resultados Correspondentes

Clique na guia Resultados correspondentes para exibir estatísticas para a análise da fonte de dados usando o conhecimento selecionado para o projeto e a regra ou regras correspondentes nessa base de dados de conhecimento. As estatísticas incluem o seguinte:

O número total de registros no banco de dados
O número total de registros correspondentes no banco de dados
O número de registros no banco de dados que não são considerados duplicados
O número de clusters descobertos
O tamanho médio do cluster (número de registros duplicados divididos por número de clusters)
O menor número de duplicatas em um cluster
O maior número de duplicatas em um cluster

Last updated on 2017-06-13

Compartilhar via