Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo descreve o perfil de dados. Ele fornece uma visão geral dos componentes e do uso da criação de perfil de dados.
O perfil de dados fornece estatísticas resumidas para uma tabela, computando métricas de perfil ao longo do tempo para que você possa visualizar facilmente as tendências históricas. É útil para o monitoramento aprofundado de todas as principais métricas para tabelas selecionadas. Você também pode usá-lo para acompanhar o desempenho de modelos de aprendizado de máquina e pontos de extremidade de serviço de modelo criando o perfil de tabelas de inferência que contêm entradas e previsões de modelo. O diagrama mostra o fluxo de dados através de dados e pipelines de ML no Databricks e como se pode usar a perfilagem para rastrear continuamente a qualidade dos dados e o desempenho do modelo.
Porquê utilizar a definição de perfis de dados?
As métricas quantitativas ajudam a acompanhar e confirmar a qualidade e a consistência dos seus dados ao longo do tempo. Quando você deteta alterações na distribuição de dados da tabela ou no desempenho do modelo correspondente, as tabelas criadas pela criação de perfil de dados podem capturar e alertá-lo sobre a alteração e podem ajudá-lo a identificar a causa.
A criação de perfis de dados ajuda-o a responder a perguntas como as seguintes:
- Como é a integridade dos dados e como ela muda ao longo do tempo? Por exemplo, qual é a fração de valores nulos ou zero nos dados atuais e ela aumentou?
- Como é a distribuição estatística dos dados e como ela muda ao longo do tempo? Por exemplo, o que é o percentil 90 de uma coluna numérica? Ou, o que é a distribuição de valores em uma coluna categórica e como ela difere de ontem?
- Existe desvio entre os dados atuais e uma linha de base conhecida, ou entre janelas de tempo sucessivas dos dados?
- Como é a distribuição estatística ou desvio de um subconjunto ou fatia dos dados?
- Como as entradas e previsões do modelo de ML estão mudando ao longo do tempo?
- Qual é a tendência de desempenho do modelo ao longo do tempo? A versão A do modelo tem um desempenho melhor do que a versão B?
Além disso, a criação de perfil de dados permite controlar a granularidade de tempo das observações e configurar métricas personalizadas.
Requerimentos
- Seu espaço de trabalho deve estar habilitado para o Unity Catalog e você deve ter acesso ao Databricks SQL.
- Para ativar o perfil de dados, deve ter os seguintes privilégios:
-
USE CATALOGno catálogo eUSE SCHEMAno esquema que contém a tabela. -
SELECTna mesa. -
MANAGEno catálogo, esquema ou tabela.
-
Observação
A criação de perfil de dados usa computação sem servidor para trabalhos, mas não exige que sua conta esteja habilitada para computação sem servidor. Para obter informações sobre como controlar despesas, consulte Exibir despesas de monitoramento de qualidade de dados.
Como funciona a criação de perfis de dados
Para criar o perfil de uma tabela, crie um perfil anexado à tabela. Para criar o perfil de desempenho de um modelo de aprendizado de máquina, anexe o perfil a uma tabela de inferência que contém as entradas do modelo e as previsões correspondentes.
O perfilamento de dados fornece os seguintes tipos de análise: séries temporais, inferência e captura instantânea.
| Tipo de perfil | Description |
|---|---|
| Séries cronológicas | Utilize para tabelas que contêm um conjunto de dados de série temporal com base numa coluna de data e hora. A perfilagem calcula métricas de qualidade de dados em janelas temporais da série temporal. |
| Inferência | Use para tabelas que contêm o log de solicitações para um modelo. Cada linha é uma solicitação, com colunas para o carimbo de data/hora, as entradas do modelo, a previsão correspondente e o rótulo (opcional) de verdade básica. A perfilização compara o desempenho do modelo e as métricas de qualidade dos dados em intervalos baseados no tempo do registo de solicitações. |
| Instantâneo | Use para todos os outros tipos de tabelas. O perfilamento calcula as métricas de qualidade de dados em todos os dados da tabela. A tabela completa é processada a cada atualização. |
Esta seção descreve brevemente as tabelas de entrada usadas pela criação de perfil de dados e as tabelas métricas que ela produz. O diagrama mostra a relação entre as tabelas de entrada, as tabelas métricas, o perfil e o painel.
Tabela primária e tabela de linha de base
Além da tabela a ser perfilada, chamada de "tabela primária", você pode, opcionalmente, especificar uma tabela de linha de base para usar como referência para medir o desvio ou a mudança nos valores ao longo do tempo. Uma tabela de linha de base é útil quando você tem uma amostra da aparência esperada dos dados. A ideia é que o desvio seja então calculado em relação aos valores e distribuições de dados esperados.
O quadro de base deve conter um conjunto de dados que reflita a qualidade esperada dos dados de cálculo, em termos de distribuições estatísticas, distribuições de colunas individuais, valores em falta e outras características. Ele deve corresponder ao esquema da tabela perfilada. A exceção é a coluna de data e hora para tabelas usadas com séries temporais ou perfis de inferência. Se faltarem colunas na tabela primária ou na tabela de linha de base, o profiler usará heurísticas de esforço máximo para calcular as métricas de saída.
Para perfis que usam um perfil instantâneo, a tabela de linha de base deve conter um instantâneo dos dados em que a distribuição representa um padrão de qualidade aceitável. Por exemplo, em dados de distribuição de notas, pode-se definir a linha de base para uma classe anterior onde as notas foram distribuídas uniformemente.
Para perfis que usam um perfil de série temporal, a tabela de linha de base deve conter dados que representam janelas de tempo onde as distribuições de dados representam um padrão de qualidade aceitável. Por exemplo, em dados meteorológicos, você pode definir a linha de base para uma semana, mês ou ano em que a temperatura estava próxima das temperaturas normais esperadas.
Para perfis que usam um perfil de inferência, uma boa escolha para uma linha de base são os dados que foram usados para treinar ou validar o modelo que está sendo perfilado. Desta forma, os usuários podem ser alertados quando os dados se desviaram em relação ao que o modelo foi treinado e validado. Esta tabela deve conter as mesmas colunas de recursos que a tabela primária e, adicionalmente, deve ter as mesmas model_id_col que foram especificadas para o InferenceLog da tabela primária para que os dados sejam agregados de forma consistente. Idealmente, o teste ou conjunto de validação usado para avaliar o modelo deve ser usado para garantir métricas de qualidade do modelo comparáveis.
Tabelas métricas e painel
A criação de perfil cria duas tabelas métricas e um painel. Os valores de métricas são calculados para toda a tabela e para as janelas de tempo e subconjuntos de dados (ou "fatias") que você especifica ao criar o perfil. Além disso, para análise de inferência, as métricas são calculadas para cada ID de modelo. Para obter mais detalhes sobre as tabelas métricas, consulte Tabelas métricas de criação de perfil de dados.
- A tabela de métricas de perfil contém estatísticas resumidas. Consulte o esquema da tabela de métricas de perfil.
- A tabela de métricas de desvio contém estatísticas relacionadas ao desvio dos dados ao longo do tempo. Se uma tabela de linha de base for fornecida, o desvio também será perfilado em relação aos valores da linha de base. Consulte o esquema da tabela de métricas de deriva.
As tabelas métricas são tabelas Delta e são armazenadas em um esquema de catálogo Unity que você especificar. Você pode exibir essas tabelas usando a interface do usuário do Databricks, consultá-las usando o Databricks SQL e criar painéis e alertas com base nelas.
Para cada perfil, o Databricks cria automaticamente um painel para ajudá-lo a visualizar e apresentar os resultados do perfil. O painel é totalmente personalizável. Consulte Dashboards.
Limitações
- Somente tabelas Delta são suportadas para criação de perfil, e a tabela deve ser um dos seguintes tipos de tabela: tabelas gerenciadas, tabelas externas, exibições, exibições materializadas ou tabelas de streaming.
- Os perfis criados sobre visualizações materializadas não suportam processamento incremental.
- Nem todas as regiões são suportadas. Para obter suporte regional, consulte a coluna Perfil de dados na tabela Disponibilidade de recursos de IA e aprendizado de máquina.
- Os perfis criados usando as séries temporais ou os modos de análise de inferência só computam métricas nos últimos 30 dias. Se você precisar ajustar isso, entre em contato com sua equipe de conta Databricks.
Comece a usar a perfilagem de dados
Consulte os seguintes artigos para começar:
- Crie um perfil usando a interface do usuário do Databricks.
- Crie um perfil de dados usando a API.
- Tabelas de métricas de perfilização de dados.
- Painel de perfilagem de dados.
- Alertas de perfil.
- Use métricas personalizadas com perfilamento de dados.
- Tabelas de inferência para monitoramento e depuração de modelos.
- Monitore a equidade e a parcialidade dos modelos de classificação.
- Consulte o material de referência para a API de criação de perfil de dados.
- Exemplos de blocos de notas.