Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Aplica-se a:SQL Server
Importante
Os Serviços de Qualidade de Dados (DQS) foram removidos no SQL Server 2025 (17.x). Continuamos a oferecer suporte ao DQS no SQL Server 2022 (16.x) e em versões anteriores.
Este tópico descreve como limpar dados usando o conhecimento dos provedores de dados de referência. Embora todas as etapas de execução de uma atividade de limpeza continuem as mesmas para limpar os seus dados usando o conhecimento dos fornecedores de dados de referência, conforme explicado no Limpar dados usando o Conhecimento DQS (interno), este artigo fornece informações específicas para limpeza de dados usando o serviço de dados de referência no Data Quality Services (DQS).
Importante
Este artigo menciona serviços de dados de referência de terceiros que estavam disponíveis anteriormente no Azure DataMarket. O DataMarket e o Data Services - incluindo os dados de endereço da Melissa, por exemplo - foram descontinuados após 31/12/2016. Como resultado, você não pode mais executar os exemplos neste artigo com os serviços especificados do DataMarket. Você ainda pode usar serviços de dados de referência que estão disponíveis diretamente on-line de provedores de dados de referência de terceiros.
Quando você usa o recurso de serviço de dados de referência no DQS para limpar seus dados, o processo de limpeza do DQS envia os valores de domínio mapeados para o provedor de serviços de dados de referência como uma solicitação em lote. O serviço de dados de referência responde com as seguintes informações:
Correção sugerida
Confiança
Informações adicionais sobre o domínio mapeado. Os dados de referência também podem padronizar, analisar ou enriquecer a fonte com dados adicionais. Esta informação é fornecida em campos adicionais na resposta.
Depois de obter a resposta do serviço de dados de referência, o seguinte acontece no DQS durante a atividade de limpeza:
Com base nos valores de Limiar de Correção Automática e Min Confiança especificados durante o mapeamento dos domínios com o serviço de dados de referência, os valores de domínio são automaticamente corrigidos ou sugeridos conforme o nível de confiança.
Observação
Os valores de limite especificados durante o mapeamento de um domínio para um serviço de dados de referência são aplicados durante a limpeza de dados usando o conhecimento no serviço de dados de referência, e não os especificados na guia Configurações Gerais do na seção de Configuração do. Para obter informações sobre como especificar valores de limite para limpeza de dados de referência, consulte a etapa 9 em Anexar domínio ou domínio composto a dados de referência.
Os valores de domínio são categorizados da seguinte forma: Sugerido, Novo, Inválido, Corrigido e Correto.
Dados adicionais são anexados à fonte e as informações estão disponíveis junto com os dados limpos para exportação.
Antes de começar
Pré-requisitos
Você deve ter mapeado os domínios necessários em uma base de dados de conhecimento do DQS para o serviço de dados de referência apropriado. Além disso, a base de dados de conhecimento deve conter conhecimento sobre o tipo de dados que você deseja limpar. Por exemplo, se você quiser limpar seus dados de origem que contêm endereços dos EUA, deverá mapear seus domínios para um provedor de serviços de dados de referência que forneça dados de alta qualidade para endereços dos EUA. Para mais informações, consulte Associar Domínio ou Domínio Composto aos Dados de Referência.
Segurança
Permissões
Você deve ter a função dqs_kb_editor ou dqs_kb_operator no banco de dados DQS_MAIN para executar a limpeza de dados.
Limpe seus dados usando o conhecimento de dados de referência
Continuaremos com o mesmo exemplo de utilização dos domínios que mapeámos no tópico anterior, Anexar Domínio ou Domínio Composto a Dados de Referência, com o serviço Melissa Data no Azure Marketplace. Agora, usaremos os mesmos domínios para limpar alguns exemplos de endereços dos EUA. As etapas para limpar dados são as mesmas descritas em Limpar dados usando o conhecimento DQS interno. No entanto, chamaremos a sua atenção sempre que necessário durante o processo.
Crie um projeto de qualidade de dados e selecione a atividade Limpeza. Consulte Criar um Projeto de Qualidade de Dados.
Na página Mapa, mapeie os 4 domínios a seguir com as colunas apropriadas nos seus dados de origem: Linha de Endereço , Cidade , Estado , e Código Postal . Clique Avançar.
Observação
Como você mapeou todos os 4 domínios dentro da Verificação de Endereço domínio composto, a limpeza de dados agora será feita no nível de domínio composto e não no nível de domínio individual.
Na página Limpar, execute o processo de limpeza assistida por computador clicando em Iniciar. Depois que o processo de limpeza terminar, clique em Avançar.
Observação
Na página Cleanse, o DQS exibe informações sobre os domínios anexados ao serviço de referência de dados das seguintes duas maneiras:
- Uma mensagem é exibida abaixo do botão Iniciar: "Domínios <Domain1>, <Domain2>,... <DomainN> são limpos usando o provedor de serviços de dados de referência." Neste exemplo, a seguinte mensagem será exibida: "A verificação de endereço de domínio é limpa usando o provedor de serviços de dados de referência."
- Um ícone,
, é exibido na área Profiler em relação aos domínios anexados ao provedor de serviços de dados de referência. Neste exemplo, o ícone será exibido contra o domínio composto de Verificação de Endereço .
Na página Gerir e ver resultados, reveja os valores do seu domínio. O serviço de dados de referência pode exibir mais de uma sugestão, se disponível, para um valor dependendo do número máximo de sugestões especificado na caixa Candidatos Sugeridos durante o mapeamento do domínio para o serviço de dados de referência. Por exemplo, duas sugestões são exibidas para o seguinte endereço dos EUA:
Valor original:
Linha de endereço Cidade Estado Código Postal 1 msft caminho Redmond 98052 Valores sugeridos:
Linha de endereço Cidade Estado Código Postal 1 Maneira Microsoft Redmond WA 98052 Caixa Postal 1 Redmond WA 98073
Observação
Para domínios compostos, o DQS também destaca os domínios individuais em uma cor diferente que foram corrigidos durante o processo de limpeza assistida por computador. Por exemplo, neste caso, os domínios Address Line e State foram corrigidos e, portanto, destacados em ciano.
Depois de concluir a revisão de todos os valores de domínio, clique em Avançar para exportar os dados.
Na página Exportar, você notará que, além das informações regulares sobre a atividade de limpeza para cada domínio (Fonte, Motivo, Confiança e Status), há informações adicionais fornecidas pelo serviço de dados de referência Melissa Data sobre seus dados de endereço, como latitude e longitude do seu endereço, nome do condado, tipo de endereço (arranha-céus, rua, etc.), e assim por diante.
Exporte seus dados para o destino necessário (SQL Server, CSV ou Excel) e clique em Concluir para fechar o projeto.
Importante
Se você estiver usando a versão de 64 bits do Excel, não poderá exportar os dados limpos para um arquivo do Excel; você só pode exportar para um banco de dados do SQL Server ou para um arquivo .csv.