Compartilhar via


Configurar e executar uma análise de qualidade de dados

As análises de qualidade dos dados analisam os recursos de dados com base nas regras de qualidade dos dados aplicadas e produzem uma classificação. Os responsáveis pelos dados podem utilizar essa classificação para avaliar o estado de funcionamento dos dados e resolver quaisquer problemas que possam estar a reduzir a qualidade dos seus dados.

Pré-requisitos

  • Para executar e agendar análises de avaliação da qualidade dos dados, os utilizadores precisam da função de responsável pela qualidade dos dados.
  • Atualmente, pode definir a conta do Microsoft Purview para permitir o acesso público ou o acesso à rede virtual gerida para que as análises de qualidade dos dados possam ser executadas.

Ciclo de vida da qualidade de dados

A análise da qualidade dos dados é o sétimo passo no ciclo de vida da qualidade de dados de um recurso de dados. Os passos anteriores são:

  1. Atribua permissões de administrador de qualidade de dados aos utilizadores no Catálogo unificado do Microsoft Purview para que possam utilizar todas as funcionalidades de qualidade dos dados.
  2. Registe e analise uma origem de dados no Mapa de Dados do Microsoft Purview.
  3. Adicionar o recurso de dados a um produto de dados
  4. Configure uma ligação de origem de dados para preparar a sua origem para a avaliação da qualidade dos dados.
  5. Configure e execute a criação de perfis de dados para um recurso na sua origem de dados.
    1. Quando a criação de perfis estiver concluída, procure os resultados de cada coluna no recurso de dados para compreender a estrutura e o estado atuais dos seus dados.
  6. Configure regras de qualidade de dados com base nos resultados da criação de perfis e aplique-as ao recurso de dados.

Origens de dados multicloud suportadas

Navegue no documento de origem de dados suportado para ver a lista de origens de dados suportadas, incluindo formatos de ficheiro para criação de perfis de dados e análise da qualidade dos dados, com e sem suporte de rede virtual.

Importante

A qualidade dos dados do ficheiro Parquet foi concebida para suportar:

  1. Um diretório com o Ficheiro de Peça Parquet. Por exemplo: ./Sales/{Parquet Part Files}. O Nome Completamente Qualificado tem de seguir https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Certifique-se de que não existem {n} padrões na estrutura de diretório/subdiretório. Tem de ser um FQN direto que conduz a {SparkPartitions}.
  2. Um diretório com Ficheiros Parquet Particionados, particionado por Colunas no conjunto de dados, como dados de vendas particionados por ano e mês. Por exemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Ambos os cenários essenciais, que apresentam um esquema de conjunto de dados parquet consistente, são suportados. Limitação: Não foi concebido para ou não suporta N Hierarquias arbitrárias de Diretórios com Ficheiros Parquet. Recomendamos a apresentação de dados na estrutura construída (1) ou (2).

Métodos de autenticação suportados

Atualmente, o Microsoft Purview só pode executar análises de qualidade de dados através da opção Identidade Gerida como autenticação. Os serviços de qualidade de dados são executados no Apache Spark 3.4 e no Delta Lake 2.4. Para obter mais informações sobre as regiões suportadas, veja Descrição geral da qualidade dos dados.

Importante

  • Se atualizar o esquema na origem de dados, terá de executar novamente a análise do mapa de dados antes de executar uma análise de qualidade de dados. Também pode utilizar a funcionalidade de importação de esquemas a partir da página de descrição geral da qualidade dos dados.
  • A importação de esquemas não é suportada para origens de dados em execução no ponto final Rede Virtual gerido ou privado.
  • A rede virtual não é suportada para o Google BigQuery.

Executar uma análise de qualidade de dados

  1. Configure uma ligação de origem de dados para os recursos que está a analisar relativamente à qualidade dos dados , caso ainda não o tenha feito.

  2. Em Catálogo unificado, selecione Gestão do Estado de Funcionamento e, em seguida, selecione Qualidade dos dados.

  3. Selecione um domínio de governação na lista.

  4. Selecione um produto de dados para avaliar a qualidade dos dados dos recursos de dados associados a esse produto.

  5. Selecione o nome de um recurso de dados, que o leva à página Descrição Geral da qualidade dos dados.

  6. Procure as regras de qualidade de dados existentes e adicione novas regras ao selecionar Regras. Navegue no esquema do recurso de dados ao selecionar Esquema. Ative ou desative as regras que adicionou.

  7. Execute a análise de qualidade ao selecionar Executar análise de qualidade na página de descrição geral.

  8. Enquanto a análise está em execução, pode controlar o progresso da página de monitorização da qualidade dos dados no domínio de governação.

Agendar análises de qualidade de dados

Embora possa executar análises de qualidade de dados numa base ad hoc ao selecionar Executar análise de qualidade, em cenários de produção, é provável que os dados de origem sejam constantemente atualizados. Deve monitorizar regularmente a qualidade dos dados para detetar quaisquer problemas. Automatizar o processo de análise ajuda-o a gerir atualizações regulares de análises de qualidade.

  1. Em Catálogo unificado, selecione Gestão do Estado de Funcionamento e, em seguida, selecione Qualidade dos dados.

  2. Selecione um domínio de governação na lista.

  3. Selecione Gerir e, em seguida, selecione Análises agendadas.

  4. Preencha o formulário na página Criar análise agendada . Adicione um nome e uma descrição para a origem que está a configurar a agenda.

  5. Selecione Continuar.

  6. No separador Âmbito , selecione produtos e recursos de dados individuais ou todos os produtos de dados e recursos de dados de todo o domínio de governação.

  7. Selecione Continuar.

  8. Defina uma agenda com base nas suas preferências e selecione Continuar.

  9. No separador Rever , selecione Guardar (ou Guardar e executar para testar imediatamente) para concluir o agendamento da análise de avaliação da qualidade dos dados.

Pode monitorizar as análises agendadas na página de monitorização da tarefa de qualidade de dados no separador Análises .

Observação

Não pode adicionar mais de 30 recursos em todos os produtos de dados numa única agenda. Crie várias agendas para 30 recursos por lote. Pode configurar para executar várias agendas na mesma janela de tempo.

Eliminar análises e histórico de qualidade de dados anteriores

Quando remove um recurso de dados de um produto de dados, se esse recurso de dados tiver uma classificação de qualidade de dados, primeiro tem de eliminar a classificação de qualidade dos dados e, em seguida, remover o recurso de dados do produto de dados.

Quando elimina dados do histórico de qualidade de dados, remove o histórico de perfis, o histórico de análise da qualidade dos dados e as regras de qualidade dos dados, mas as ações de qualidade dos dados não são eliminadas.

Siga os passos abaixo para eliminar análises de qualidade de dados anteriores de um recurso de dados:

  1. Em Catálogo unificado, selecione Gestão do Estado de Funcionamento e, em seguida, selecione Qualidade dos dados.
  2. Selecione um domínio de governação na lista.
  3. Selecione o produto de dados na lista.
  4. Selecione o recurso de dados na lista para navegar na página Descrição geral da qualidade dos dados.
  5. Selecione as reticências (...) no canto superior direito da página Descrição geral da qualidade dos dados.
  6. Selecione Eliminar dados de qualidade de dados para eliminar o histórico de execuções de qualidade de dados.

Observação

  • Utilize Eliminar dados de qualidade de dados para execuções de testes, execuções de qualidade de dados com erro ou se estiver a remover um recurso de dados de um produto de dados.
  • O sistema armazena até 50 instantâneos de criação de perfis de qualidade de dados e histórico de avaliação da qualidade dos dados. Se quiser eliminar uma snapshot específica, selecione a execução do histórico pretendido e selecione o ícone eliminar.

Importação de esquema

Se o tipo de dados num esquema for indefinido, definido incorretamente ou alterado na origem, a tarefa de qualidade dos dados poderá falhar. Se falhar, reimporte o esquema com a capacidade de importação do esquema. A importação de esquemas é suportada para origens de dados em redes públicas e por trás de pontos finais privados. As origens de dados suportadas estão listadas em Origens de dados e formatos de ficheiro suportados para a qualidade dos dados. Para importar um esquema a partir das origens de dados, siga estes passos:

  • Selecione Qualidade dos dados em Gestão do Estado de Funcionamento.
  • Selecione um domínio empresarial, selecione um produto de dados e, em seguida, selecione um recurso de dados desse produto de dados. Chega à página de descrição geral da qualidade dos dados.
  • Selecione Esquema e, em seguida, selecione o botão de alternar Gestão de esquemas .
  • Selecione Importar esquema para importar o esquema.

Próximas etapas