Compartilhar via


Descrição geral da qualidade dos dados no Catálogo unificado do Microsoft Purview

A qualidade dos dados no Catálogo unificado do Microsoft Purview capacita os proprietários de dados e domínios de governação a avaliar e supervisionar a qualidade do respetivo ecossistema de dados, facilitando ações direcionadas de melhoria. No panorama atual orientado pela IA, a fiabilidade dos dados afeta diretamente a precisão das informações e recomendações orientadas por IA. Sem dados fidedignos, existe o risco de corroer a confiança nos sistemas de IA e impedir a sua adoção.

A má qualidade dos dados ou as estruturas de dados incompatíveis podem dificultar os processos empresariais e as capacidades de tomada de decisões. A qualidade dos dados no Catálogo unificado resolve estes desafios ao oferecer aos utilizadores a capacidade de avaliar a qualidade dos dados através de regras sem código ou de baixo código, incluindo regras OOB (out-of-the-box) e regras geradas por IA. Estas regras são aplicadas ao nível da coluna e agregadas para fornecer pontuações nos níveis de recursos de dados, produtos de dados e domínios de governação, garantindo a visibilidade ponto a ponto da qualidade dos dados em cada domínio.

A qualidade dos dados no Microsoft Purview também incorpora capacidades de criação de perfis de dados com tecnologia de IA, recomendando colunas para criação de perfis e permitindo que a intervenção humana refine estas recomendações. Este processo iterativo não só melhora a precisão da criação de perfis de dados, como também contribui para a melhoria contínua dos modelos de IA subjacentes.

Ao aplicar a qualidade dos dados, as organizações podem medir, monitorizar e melhorar eficazmente a qualidade dos seus recursos de dados, reforçando a fiabilidade das informações orientadas por IA e fomentando a confiança nos processos de tomada de decisões baseados em IA.

Ciclo de vida da qualidade de dados

  1. Atribua permissões de administrador de qualidade de dados aos utilizadores no Catálogo unificado para utilizar todas as funcionalidades de qualidade de dados.
  2. Registe e analise uma origem de dados no Mapa de Dados do Microsoft Purview.
  3. Adicionar o recurso de dados a um produto de dados
  4. Configure uma ligação de origem de dados para preparar a sua origem para a avaliação da qualidade dos dados.
  5. Configure e execute a criação de perfis de dados para um recurso na sua origem de dados.
    1. Quando a criação de perfis estiver concluída, procure os resultados de cada coluna no recurso de dados para compreender a estrutura e o estado atuais dos seus dados.
  6. Configure regras de qualidade de dados com base nos resultados da criação de perfis e aplique-as ao recurso de dados.
  7. Configure e execute uma análise de qualidade de dados num produto de dados para avaliar a qualidade de todos os recursos suportados no produto de dados.
  8. Reveja os resultados da análise para avaliar a qualidade atual dos dados do produto de dados.
  9. Repita os passos 5 a 8 periodicamente ao longo do ciclo de vida do recurso de dados para garantir que mantém a qualidade.
  10. Monitorizar continuamente a qualidade dos dados
    1. Reveja as ações de qualidade dos dados para identificar e resolve problemas.
    2. Defina notificações de qualidade de dados para alertá-lo para problemas de qualidade.

Regiões de qualidade de dados suportadas

A qualidade dos dados é atualmente suportada nas seguintes regiões.

Origens de dados multicloud suportadas

Veja a lista de origens de dados suportadas.

Importante

A qualidade dos dados dos ficheiros Parquet foi concebida para suportar:

  1. Um diretório com o Ficheiro de Peça Parquet. Por exemplo: ./Sales/{Parquet Part Files}. O nome completamente qualificado tem de seguir https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Certifique-se de que o diretório e a estrutura do subdiretório não incluem {n} padrões. Em vez disso, utilize um FQN direto que conduza a {SparkPartitions}.
  2. Um diretório com ficheiros Parquet particionados, particionado por colunas no conjunto de dados, como dados de vendas particionados por ano e mês. Por exemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Ambos os cenários essenciais, que apresentam um esquema de conjunto de dados Parquet consistente, são suportados. Limitação: A qualidade dos dados não foi concebida para suportar hierarquias arbitrárias de diretórios com ficheiros Parquet. Recomendamos que apresente dados na estrutura construída (1) ou (2).

Atualmente, o Microsoft Purview só pode executar análises de qualidade de dados com a Identidade Gerida como uma opção de autenticação. Os serviços de qualidade de dados são executados no Apache Spark 3.4 e no Delta Lake 2.4.

Funcionalidades de qualidade de dados

  • Configuração da ligação da origem de dados
    • Configure a ligação para permitir que a aplicação SaaS de qualidade de dados do Microsoft Purview tenha acesso de leitura aos dados para análise e criação de perfis de qualidade.
    • O Microsoft Purview utiliza a Identidade Gerida como uma opção de autenticação.
  • Criação de perfil de dados
    • Experiência de criação de perfis de dados ativada para IA.
    • Snapshot estatística padrão da indústria (distribuição, min, máx., desvio padrão, exclusividade, conclusão, duplicado e muito mais).
    • Desagregar medidas de criação de perfis ao nível da coluna.
  • Regras de qualidade de dados
    • Regras de configuração inicial para medir seis dimensões de qualidade de dados padrões da indústria (integridade, consistência, conformidade, precisão, frescura e exclusividade).
    • As funcionalidades de criação de regras personalizadas incluem o número de funções e valores de expressão fora da caixa.
    • Regras geradas automaticamente com experiência integrada de IA.
  • Análise da qualidade dos dados
    • Selecione e atribua regras a colunas para análise da qualidade dos dados.
    • Aplique a regra de atualização de dados ao nível da entidade ou da tabela para medir o SLA de atualização de dados.
    • Agendar tarefa de análise da qualidade dos dados para o período de tempo (hora a hora, diariamente, semanalmente, mensalmente e muito mais).
  • Monitorização de tarefas de qualidade de dados
    • Ative a monitorização da tarefa de qualidade dos dados status (ativa, concluída, falhada e muito mais).
    • Ativar a navegação no histórico de análise da qualidade dos dados.
  • Classificação da qualidade dos dados
    • Classificação da qualidade dos dados ao nível da regra (qual é a classificação de qualidade de uma regra aplicada a uma coluna).
    • Classificação da qualidade dos dados para recursos de dados, produtos de dados e domínios de governação (um domínio de governação pode ter muitos produtos de dados, um produto de dados pode ter muitos recursos de dados, um recurso de dados pode ter muitas colunas de dados).
  • Alertas de qualidade de dados
    • Configure alertas para notificar os proprietários de dados e os responsáveis pelos dados se o limiar de qualidade dos dados não tiver sido esperado.
    • Configure o alias de e-mail ou o grupo de distribuição para enviar a notificação sobre problemas de qualidade de dados.
  • Ações de qualidade de dados
    • O centro de ações para a qualidade dos dados com ações para lidar com estados de anomalias de qualidade de dados, incluindo consultas de diagnóstico do responsável pela qualidade dos dados para zero nos dados específicos a corrigir para cada estado de anomalia.
  • Rede virtual gerenciada de qualidade de dados
    • Uma rede virtual gerida pela qualidade dos dados que se liga a pontos finais privados às origens de dados do Microsoft Azure.

Residência e encriptação de dados

A conta de Armazenamento Gerido da Microsoft armazena metadados de qualidade de dados e resumo da criação de perfis. Armazena-os na mesma região que a origem de dados, pelo que a residência dos dados permanece intacta. Todos os dados são encriptados. O arquivo de dados de utilizador regional do Fornecedor de Recursos do Purview é utilizado para metadados. Processa toda a encriptação e é comum em todos os serviços do Purview. Se quiser ter mais controlo sobre a encriptação de dados com uma chave de encriptação (CMK) gerida pelo cliente, utilize um processo separado. Saiba mais sobre a Chave de Cliente do Microsoft Purview.

Preços de computação de qualidade de dados

A utilização da qualidade dos dados é faturada com base nos medidores pay as you go da Unidade de Processamento de Governação de Dados (DGPU). Encontre detalhes sobre como os preços são calculados para a qualidade dos dados.

Limitação

  • A rede virtual ainda não é suportada para o Google Big Query.

Próximas etapas

  1. Atribua permissões de administrador de qualidade de dados aos utilizadores no Catálogo unificado para que possam utilizar todas as funcionalidades de qualidade dos dados.
  2. Configure uma ligação de origem de dados para preparar a sua origem para uma avaliação da qualidade dos dados.
  3. Configure e execute a criação de perfis de dados para um recurso na sua origem de dados.