Partilhar via


Configurar e executar a criação de perfis de dados para um recurso de dados

A criação de perfis de dados é o processo de examinar os dados disponíveis em diferentes origens de dados e recolher estatísticas e informações sobre estes dados. A criação de perfis de dados ajuda-o a avaliar o nível de qualidade dos dados de acordo com um conjunto definido de objetivos. Se os dados forem de má qualidade ou forem geridos em estruturas que não podem ser integradas para satisfazer as necessidades da organização, os processos empresariais e a tomada de decisões sofrem. A criação de perfis de dados permite-lhe compreender a fiabilidade e a qualidade dos seus dados, que é um pré-requisito para tomar decisões orientadas por dados que impulsionam as receitas e promovem o crescimento.

Pré-requisitos

  • Para executar e agendar análises de avaliação da qualidade dos dados, os utilizadores têm de ter a função de responsável pela qualidade dos dados.
  • Atualmente, pode definir a conta do Microsoft Purview para permitir o acesso público ou o acesso à rede virtual gerida para que as análises de qualidade dos dados possam ser executadas.

Ciclo de vida da qualidade de dados

A criação de perfis de dados é o quinto passo no ciclo de vida da qualidade de dados de um recurso de dados. Os passos anteriores são:

  1. Atribua permissões de administrador de qualidade de dados aos utilizadores no Catálogo unificado para utilizar todas as funcionalidades de qualidade de dados.
  2. Registe e analise uma origem de dados no Mapa de Dados do Purview.
  3. Adicionar o recurso de dados a um produto de dados
  4. Configure uma ligação de origem de dados para preparar a sua origem para a avaliação da qualidade dos dados.

Origens de dados multicloud suportadas

Navegue no documento de origem de dados suportado para ver a lista de origens de dados suportadas, incluindo formatos de ficheiro para criação de perfis de dados e análise da qualidade dos dados, com e sem suporte de rede virtual.

Importante

A qualidade dos dados do ficheiro Parquet foi concebida para suportar:

  1. Um diretório com o Ficheiro de Peça Parquet. Por exemplo: ./Sales/{Parquet Part Files}. O Nome Completamente Qualificado tem de seguir https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Certifique-se de que não tem {n} padrões na estrutura de diretório ou subdiretório; tem de ser um FQN direto que conduza a {SparkPartitions}.
  2. Um diretório com Ficheiros Parquet Particionados, particionado por colunas no conjunto de dados, como dados de vendas particionados por ano e mês. Por exemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Ambos os cenários essenciais, que apresentam um esquema de conjunto de dados Parquet consistente, são suportados. Limitação: Não foi concebido para ou não suporta N hierarquias arbitrárias de diretórios com ficheiros Parquet. Recomendamos a apresentação de dados na estrutura construída (1) ou (2).

Métodos de autenticação suportados

Atualmente, o Microsoft Purview só pode executar análises de qualidade de dados através da opção Identidade Gerida como autenticação. Os serviços de qualidade de dados são executados no Apache Spark 3.4 e no Delta Lake 2.4. Para obter mais informações sobre as regiões suportadas, veja a descrição geral da qualidade dos dados.

Importante

  • Se atualizar o esquema na origem de dados, terá de executar novamente uma análise do Mapa de Dados antes de executar uma criação de perfis de dados. Pode importar o esquema da página de descrição geral da qualidade dos dados através da funcionalidade de importação de esquemas. Se a origem de dados estiver em execução na rede virtual gerida ou no ponto final privado, a funcionalidade de importação de esquema não é suportada.
  • A rede virtual não é suportada para Azure Databricks, Google BigQuery e Snowflake.
  • Na versão atual, pode criar perfis para 50 colunas por lote. Se o recurso de dados tiver mais de 50 colunas, pode criar perfis para colunas adicionais em mais lotes.
  • Se uma coluna contiver um valor distinto, não crie perfis para essa coluna. Uma coluna com valores distintos não pode criar uma distribuição normal.

Passos para configurar a tarefa de criação de perfis de dados

  1. Configure uma ligação de origem de dados para os recursos que está a analisar relativamente à qualidade dos dados , caso ainda não o tenha feito.

  2. Em Catálogo unificado do Microsoft Purview, selecione Gestão do Estado de Funcionamento e, em seguida, selecione Qualidade dos dados.

  3. Selecione um domínio de governação na lista.

  4. Selecione um produto de dados para criar um perfil de um recurso de dados ligado a esse produto.

  5. Selecione um recurso de dados para navegar para a página Descrição geral da qualidade dos dados para criação de perfis.

  6. Selecione o botão Perfil para executar a tarefa de criação de perfis para o recurso de dados selecionado.

  7. O motor de recomendação de IA sugere colunas potencialmente importantes para executar a criação de perfis de dados. Pode desselecionar as colunas recomendadas e/ou selecionar mais colunas para criar perfis.

  8. Depois de selecionar as colunas relevantes, selecione Executar Perfil.

  9. Enquanto a tarefa está em execução, pode controlar o progresso da página de monitorização da qualidade dos dados no domínio de governação.

  10. Quando a tarefa estiver concluída, selecione o separador Perfil no menu esquerdo da página de qualidade de dados do recurso para listar procurar o resultado da criação de perfis e snapshot estatísticas. Podem existir várias páginas de resultados de perfil consoante o número de colunas que os recursos de dados têm.

  11. Procure os resultados da criação de perfis e as medidas estatísticas de cada coluna.

Compreender os resultados da criação de perfis

  • Mínimo: comprimento mínimo dos carateres na coluna.
  • Máximo: comprimento máximo dos carateres na coluna.
  • Distribuição: distribuição normal dos seus dados.
  • Valores exclusivos: valores que não se repetem; são únicos.
  • Valores duplicados: valores que se repetem mais do que uma vez.
  • Valores vazios/em branco: a coluna está em branco ou vazia.
  • Nulo: valores nulos na coluna.
  • Média: média do valor ou média aritmética.
  • Standard desvio: uma medida estatística que quantifica a quantidade de variação ou dispersão num conjunto de valores.

Próximas etapas

  1. Configure regras de qualidade de dados com base nos resultados da criação de perfis e aplique-as ao recurso de dados.
  2. Configure e execute uma análise de qualidade de dados num produto de dados para avaliar a qualidade de todos os recursos suportados no produto de dados.
  3. Reveja os resultados da análise para avaliar a qualidade atual dos dados do produto de dados.