Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Aplica-se a:SQL Server
Importante
Os Serviços de Qualidade de Dados (DQS) foram removidos no SQL Server 2025 (17.x). Continuamos a oferecer suporte ao DQS no SQL Server 2022 (16.x) e em versões anteriores.
Este tópico descreve o que é uma base de dados de conhecimento no Data Quality Services (DQS). Para limpar dados, você tem que ter conhecimento sobre os dados. Para preparar o conhecimento para um projeto de qualidade de dados, crie e mantenha uma base de dados de conhecimento (KB) que o DQS pode usar para identificar dados incorretos ou inválidos. O DQS permite que você use processos assistidos por computador e interativos para criar, criar e atualizar sua base de conhecimento. O conhecimento em uma base de dados de conhecimento é mantido em domínios, cada um dos quais é específico para um campo de dados. A base de conhecimento é um repositório de conhecimento sobre os seus dados que lhe permite compreender os seus dados e manter a sua integridade.
As bases de conhecimento do DQS têm os seguintes benefícios:
Construir conhecimento sobre dados é um processo detalhado. O processo DQS de extrair conhecimento sobre dados automaticamente, a partir de dados de amostra, torna o processo muito mais fácil.
O sistema DQS permite que o utilizador veja a sua análise dos dados e enriqueça o conhecimento na base de conhecimento, criando regras e modificando valores de dados. Pode fazê-lo repetidamente para melhorar o conhecimento ao longo do tempo.
Você pode utilizar o conhecimento de qualidade de dados pré-existente baseando uma base de conhecimento em uma KB existente, importando conhecimento de domínio de arquivos para a KB, importando conhecimento de um projeto de volta para uma KB, ou usando a KB padrão do DQS, chamada DQS Data.
Pode garantir a qualidade dos seus dados comparando-os com os dados mantidos por um fornecedor de dados de referência.
Há uma separação clara entre criar uma base de dados de conhecimento e aplicá-la no processo de correção de dados, o que lhe dá flexibilidade na forma como você cria e atualiza a base de conhecimento.
O administrador de dados usa o aplicativo Cliente Data Quality para executar e controlar as etapas assistidas por computador e para executar as etapas interativas.
A ilustração a seguir exibe vários componentes em uma base de dados de conhecimento e um domínio no DQS:
Como criar e desenvolver uma base de conhecimento DQS
A criação de uma base de conhecimento do DQS envolve os seguintes processos e componentes:
Descoberta de Conhecimento
Um processo assistido por computador que integra conhecimento em uma base de conhecimento ao processar um conjunto de dados.
Gestão de Domínio
Um processo interativo que permite que o administrador de dados verifique e modifique o conhecimento que está em domínios da base de dados de conhecimento, cada um dos quais está associado a um campo de dados. Isso pode incluir a definição de propriedades em todo o campo, a criação de regras, a alteração de valores específicos, o uso de serviços de dados de referência ou a configuração de relações baseadas em termos ou entre campos.
Serviços de Dados de Referência
Um processo de gerenciamento de domínio que permite validar seus dados em relação aos dados mantidos e garantidos por um provedor de dados de referência.
Política de Correspondência
Uma política que define como o DQS processa registos para identificar possíveis duplicatas e não-coincidências, incorporada à base de conhecimento em um processo assistido por computador e interativo.
Descoberta de conhecimento
A criação da base de conhecimento é inicialmente um processo guiado por computador. A atividade de descoberta de conhecimento cria a base de dados de conhecimento analisando uma amostra de dados para critérios de qualidade de dados, procurando inconsistências de dados e erros de sintaxe e propondo alterações nos dados. Esta análise é baseada em algoritmos incorporados no DQS.
O administrador de dados prepara o processo vinculando uma base de dados de conhecimento a uma tabela ou exibição de banco de dados do SQL Server que contém dados de exemplo semelhantes aos dados que a base de dados de conhecimento será usada para analisar. Em seguida, o administrador de dados mapeia um domínio da base de dados de conhecimento para cada coluna de dados de exemplo a serem analisados. Um domínio pode ser um único domínio mapeado para um único campo ou pode ser um domínio composto que consiste em vários domínios únicos, cada um dos quais é mapeado para parte dos dados em um único campo (consulte "Domínios compostos" abaixo). Quando se executa a descoberta de conhecimento, o DQS extrai informações sobre a qualidade dos dados a partir dos dados amostrais para domínios na base de conhecimento. Ao executar a análise de descoberta de conhecimento, você terá uma base de dados de conhecimento com a qual poderá executar a correção de dados.
A base de conhecimento do DQS é extensível. A partir da atividade Descoberta de Conhecimento, você pode adicionar conhecimento interativamente à base de dados de conhecimento após a análise de descoberta de conhecimento assistida por computador. Você pode adicionar manualmente alterações de valor e importar valores de domínio de um arquivo do Excel. Além disso, você pode executar o processo de descoberta de conhecimento novamente em um ponto posterior se os dados no exemplo tiverem sido alterados. Você pode aplicar mais conhecimento de dentro da atividade de Gerenciamento de Domínio e de dentro da atividade de Correspondência de Dados (veja abaixo).
O processo de descoberta de conhecimento não precisa ser executado nos mesmos dados em que a correção de dados é executada. O DQS oferece a flexibilidade de criar conhecimento a partir de um conjunto de campos de banco de dados e aplicá-lo a um segundo conjunto de dados relacionados que precisam ser limpos. O administrador de dados pode criar uma nova base de dados de conhecimento a partir do zero, baseá-la em uma base de dados de conhecimento existente ou importar uma base de dados de conhecimento de um arquivo de dados. Você também pode executar novamente a descoberta de conhecimento em uma base de dados de conhecimento existente. Você pode manter várias bases de conhecimento em um único Data Quality Server. Você também pode conectar várias instâncias de um aplicativo à mesma base de dados de conhecimento. O DQS evita conflitos de simultaneidade bloqueando a base de dados de conhecimento para um usuário que a abre em uma sessão de gerenciamento de conhecimento.
Insensibilidade a maiúsculas e minúsculas no DQS
Os valores no DQS são insensíveis a maiúsculas e minúsculas. Isso significa que, quando o DQS executa descoberta de conhecimento, gerenciamento de domínio ou correspondência, ele não distingue valores por caso. Se você adicionar um valor na gestão de valor que difere de outro valor apenas por caso, eles serão considerados o mesmo valor, não sinônimos. Se dois valores que diferem apenas por caso forem comparados no processo de correspondência, eles serão considerados uma correspondência exata.
No entanto, você pode controlar o caso dos valores exportados nos resultados de limpeza. Para fazer isso, defina a propriedade Formatar saída como domínio (consulte Definir propriedades do domínio) e use a caixa de seleção Padronizar saída ao exportar resultados de limpeza (consulte Limpar dados usando conhecimento (interno) do DQS).
Gestão de Domínios
O gerenciamento de domínio permite que o administrador de dados altere e aumente interativamente os metadados gerados pela atividade de descoberta de conhecimento assistida por computador. Cada alteração feita é para um domínio da base de dados de conhecimento. Na atividade de gerenciamento de domínio, você pode fazer o seguinte:
Crie um novo domínio. O novo domínio pode ser vinculado ou copiado de um domínio existente.
Defina as propriedades do domínio que se aplicam a cada termo no domínio.
Aplique regras de domínio que executam validação ou padronização para um intervalo de valores que você define.
Aplique alterações interativamente a qualquer valor de dados específico no domínio.
Use o DQS Speller para verificar a sintaxe, ortografia e estrutura de frases dos valores de cadeia.
Importe um domínio de um arquivo de dados .dqs ou valores de domínio de um arquivo do Microsoft Excel.
Importe valores que foram encontrados por um processo de limpeza em um projeto de qualidade de dados de volta para uma base de dados de conhecimento.
Anexar um domínio aos dados de referência mantidos por um provedor de dados de referência, com o resultado de que os valores de domínio são comparados com os dados de referência para determinar sua integridade e correção. Você também pode definir as configurações do provedor de dados.
Aplique relações baseadas em termos para um único domínio.
Quando a atividade de gerenciamento de domínio for concluída, você poderá publicar a base de dados de conhecimento para uso em um projeto de dados.
Definindo propriedades de domínio
As propriedades do domínio definem e orientam o processamento que será aplicado aos valores associados. Você pode definir o tipo de dados e o idioma dos valores, especificar que os dados de origem serão limpos com o valor à esquerda (se essa opção estiver desmarcada, os dados de origem serão limpos com o termo correto, mas não com o valor à esquerda), garantir a padronização dos dados configurando a formatação que será aplicada quando os valores de dados no domínio forem de saída, e definir quais algoritmos (erro de sintaxe, ortografia e normalização de cadeia de caracteres) serão aplicados.
Serviços de dados de referência
No processo de gerenciamento de domínio, você pode anexar dados de referência online a um domínio. É assim que você compara os dados em seu domínio com os dados mantidos por um provedor de dados de referência. Você deve primeiro configurar o provedor de dados de referência por meio dos recursos de configuração do DQS na seção Administração do aplicativo Cliente Data Quality. Para obter mais informações, consulte Reference Data Services no DQS.
Aplicando regras de domínio
Você pode criar regras de domínio para validação de dados. Uma regra de domínio garante a precisão dos dados, desde uma restrição básica, como os possíveis termos que um valor de cadeia de caracteres pode ser, até uma expressão regular mais complexa, como as formas válidas de um endereço de email.
Para um domínio composto, você pode criar uma regra de CD que especifique uma relação entre um valor em um único domínio e um valor em outro domínio único, ambos partes de um domínio composto.
Definindo valores de domínio
Depois de criar uma base de dados de conhecimento, você pode preencher e exibir valores de dados em cada domínio da base de dados de conhecimento. Após a descoberta do conhecimento, o DQS mostrará quantas vezes cada termo aparece, qual é o status de cada termo e quaisquer correções que ele propõe. Você pode gerenciar esse conhecimento da seguinte maneira:
Alterar o status de um valor, tornando-o correto, com erro ou inválido
Adicionar um valor específico ou excluir um valor específico da base de dados de conhecimento
Alterar a relação de um valor para outro valor, incluindo a designação de um substituto para um termo que está em erro ou não é válido
Adicione, remova ou altere o conhecimento associado ao domínio.
Os valores podem ser criados especificamente pelo usuário ou como parte da descoberta de dados ou funcionalidades de importação. Isso permite alinhar o domínio ao negócio e o torna facilmente extensível.
Você pode definir valores de domínio na atividade de gerenciamento de domínio ou na etapa Gerenciar Valores de Domínio no final da atividade de descoberta de conhecimento. A funcionalidade de valor de domínio é a mesma em ambas as atividades.
Estabelecendo relações de termos
No gerenciamento de domínio, você pode especificar uma relação baseada em termos para um único domínio, especificando uma alteração para um único valor.
Domínios compostos
Um domínio composto é uma estrutura composta por dois ou mais domínios únicos que contêm conhecimento sobre dados comuns. Exemplos de dados que podem ser abordados por domínios compostos são o primeiro, o meio e os nomes de família em um campo de nome, e o número da casa e rua, cidade, estado, código postal e país/região em um campo de endereço. Quando você mapeia um único campo para um domínio composto, o DQS analisa os dados de um campo nos vários domínios que compõem o composto.
Às vezes, um único domínio não representa os dados de campo na íntegra. Agrupar dois ou mais domínios em um domínio composto pode permitir que você represente os dados de forma eficiente. A seguir estão as vantagens de usar domínios compostos:
Analisar os diferentes domínios individuais que compõem um domínio composto pode ser uma maneira mais eficaz de avaliar a qualidade dos dados.
Ao usar um domínio composto, você também pode criar regras entre domínios que permitem verificar se a relação entre os dados em vários domínios é apropriada. Por exemplo, você pode verificar se a string "London" em um domínio de cidade corresponde à string "Great Britain" em um domínio de país/região. Observe que as regras entre domínios são levadas em consideração após as regras de domínio.
Os dados em domínios compostos podem ser anexados a uma fonte de dados de referência, caso em que o domínio composto será enviado para o provedor de dados de referência. Isso geralmente é feito com dados de endereço.
A forma como os dados representados por um domínio composto são analisados é determinada pelas propriedades do domínio composto. Os dados podem ser analisados por um delimitador, pela ordem dos domínios ou com base no conhecimento nos domínios anexados ao domínio composto (selecionando a propriedade Usar análise baseada em conhecimento no domínio composto). Para obter mais informações, consulte Definir propriedades de domínio composto.
Os domínios compostos são gerenciados de forma diferente dos domínios individuais. Você não gerencia valores em um domínio composto; Você faz isso para os domínios únicos que compõem o domínio composto. No entanto, na lista de domínios na atividade Gerenciamento de Domínio, você pode ver as relações entre os diferentes valores em um domínio composto e as estatísticas que se aplicam a eles. Por exemplo, você pode ver quantas instâncias existem de um único endereço composto pelos mesmos cinco valores de cadeia de caracteres. Na etapa de Descoberta da atividade de Descoberta de Conhecimento, o perfilamento é executado nos domínios únicos dentro de um domínio composto, não no domínio composto. No entanto, na limpeza interativa, você limpa dados no domínio composto, não nos domínios únicos.
A correspondência pode ser realizada nos domínios únicos que compõem o domínio composto, mas não no domínio composto em si.
Correspondência de dados
Além de fazer alterações manuais em uma base de dados de conhecimento por meio do gerenciamento de domínio, você pode adicionar conhecimento correspondente a uma base de dados de conhecimento. Para preparar o DQS para o processo de desduplicação de dados, você deve criar uma política de correspondência que o DQS usará para calcular a probabilidade de uma correspondência. A política inclui uma ou mais regras de correspondência que o administrador de dados cria para identificar como o DQS deve comparar linhas de dados. O administrador de dados determina quais campos de dados na linha devem ser comparados e quanto peso cada campo deve ter na comparação. O administrador de dados também determinará quão alta deve ser a probabilidade para ser considerada uma correspondência. DQS adiciona as regras de correspondência de dados à base de conhecimento para executar a atividade de correspondência no projeto de qualidade de dados.
Para obter mais informações sobre a base de dados de conhecimento e a correspondência de dados, consulte Correspondência de dados.
Na presente seção
Você pode executar as seguintes operações em uma base de dados de conhecimento e seus domínios:
| Descrição da Operação | Tópico |
|---|---|
| Criar, abrir, adicionar conhecimento e executar descobertas em uma base de dados de conhecimento | Construindo uma Base de Conhecimento |
| Executar operações de importação e exportação em domínios e bases de conhecimento | Importando e exportando conhecimento |
| Criar um único domínio, uma regra de domínio, relações baseadas em termos e alterar valores de domínio | Gerenciando um domínio |
| Criar um domínio composto, criar uma regra entre domínios e usar relações de valor | Gerenciando um domínio composto |
| Utilizar a base de dados de conhecimento DQS Data predefinida incorporada no DQS | Usando a Base de Conhecimento Padrão do DQS |