Compartilhar via


Classificação de dados

Importante

Esse recurso está em Visualização Pública.

Esta página descreve como usar a Classificação de Dados do Databricks no Catálogo do Unity para classificar e marcar automaticamente dados confidenciais em seu catálogo.

Os catálogos de dados podem ter uma grande quantidade de dados, geralmente contendo dados confidenciais conhecidos e desconhecidos. É fundamental que as equipes de dados entendam que tipo de dados confidenciais existem em cada tabela para que possam governar e democratizar o acesso a esses dados.

Para resolver esse problema, a Classificação de Dados do Databricks usa um agente de IA para classificar e marcar tabelas automaticamente em seu catálogo. Isso permite que você descubra dados confidenciais e aplique controles de governança sobre os resultados, usando ferramentas como o ABAC (controle de acesso baseado em atributo) do Catálogo do Unity. Para obter uma lista de marcas com suporte, consulte marcas de classificação com suporte.

Usando esse recurso, você pode:

  • Classificar dados: o mecanismo usa um sistema de IA agente para classificar e marcar automaticamente todas as tabelas no Catálogo do Unity.
  • Otimizar o custo por meio da verificação inteligente: o sistema determina de forma inteligente quando verificar seus dados aproveitando o Catálogo do Unity e o Mecanismo de Inteligência de Dados. Isso significa que a verificação é incremental e otimizada para garantir que todos os novos dados sejam classificados sem configuração manual.
  • Examinar e proteger dados confidenciais: a exibição de resultados ajuda você a exibir resultados de classificação e proteger dados confidenciais marcando e criando políticas de controle de acesso para cada classe.

Importante

A Classificação de Dados do Databricks usa o armazenamento padrão para armazenar resultados de classificação. Você não é cobrado pelo armazenamento.

A Classificação de Dados do Databricks usa um LLM (modelo de linguagem grande) para ajudar na classificação.

Requisitos

Observação

A classificação de dados é um recurso de visualização no nível do workspace e só pode ser gerenciada por um workspace ou administrador de conta. Para obter instruções, consulte Gerenciar visualizações do Azure Databricks.

Importante

O modelo que alimenta essa função é disponibilizado usando AS APIs de modelo do Mosaic AI Serving Foundation. O Llama 3.1 é licenciado sob a Licença da Comunidade Llama 3.1, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Consulte as licenças e os termos do desenvolvedor de modelo aplicável para obter mais informações.

Se surgirem modelos no futuro com melhor desempenho de acordo com os parâmetros de comparação internos do Databricks, o Databricks poderá alterar os modelos e atualizar a documentação.

  • Você deve ter a computação sem servidor habilitada. Consulte Conectar-se ao computador sem servidor.
  • Para habilitar a classificação de dados, você deve possuir o catálogo ou ter os privilégios USE_CATALOG e MANAGE nele.
  • Para exibir a tabela de resultados, você deve ter as seguintes permissões: USE CATALOG, USE SCHEMA e SELECT na tabela. Consulte a tabela do sistema de resultados.

Usar a classificação de dados

Para usar a classificação de dados em um catálogo:

  1. Navegue até o catálogo e clique na guia Detalhes .

    Guia Detalhes da página do catálogo no Explorador de Catálogo.

  2. Clique na alternância de Classificação de Dados para habilitá-la.

  3. A caixa de diálogo Habilitar Classificação de Dados é exibida. Por padrão, todos os esquemas são incluídos. Para incluir apenas alguns esquemas, selecione-os no menu suspenso Esquemas para incluir.

    Modal de configurações para Classificação de Dados.

  4. Clique em Habilitar.

Isso cria um trabalho em segundo plano que examina incrementalmente todas as tabelas no catálogo ou esquemas selecionados.

O motor de classificação depende do scanner inteligente para determinar quando examinar uma tabela. As novas tabelas e colunas em um catálogo normalmente são verificadas dentro de 24 horas após a criação.

Exibir resultados de classificação

Para exibir os resultados da classificação, clique em Ver resultados ao lado da alternância.

Botão Ver resultados para Classificação de Dados.

Uma página de resultados é aberta, mostrando os resultados de classificação para todas as tabelas no catálogo. Para selecionar um catálogo diferente, use o seletor no canto superior esquerdo da página. Um sql warehouse sem servidor é necessário e aparece no canto superior direito da página.

A página de resultados lista todas as marcas de classificação que foram identificadas no catálogo. Todas as políticas ABAC existentes que fazem referência a marcas do sistema de classificação de dados (class.xx) aparecem na tabela.

Página de resultados mostrando a tabela de classes detectadas.

Para examinar os resultados de uma marca de classificação específica, clique em Examinar na coluna mais à direita da linha correspondente.

Resultados mostrando colunas com classificações detectadas.

Um painel é exibido, exibindo as tabelas para as quais a classificação de dados detectou a marca de classificação com alta confiança. Examine as tabelas, as colunas e os valores de exemplo. Os valores de exemplo só aparecerão se você tiver acesso à tabela de resultados. Consulte a tabela do sistema de resultados.

Se as colunas identificadas corresponderem às suas expectativas, você poderá habilitar a marcação automática para a marca de classificação deste catálogo. Quando a marcação automática está habilitada, todas as detecções existentes e futuras dessa classificação são marcadas.

Para habilitar a marcação automática, alterne a marca automática com .... Posteriormente, você pode desabilitar a marcação automática usando a mesma alternância. Quando você desabilitar a marcação, nenhuma marca futura é aplicada, mas as marcas existentes não são removidas.

Observação

Quando você habilita a marcação automática, as marcas não são preenchidas novamente imediatamente. Eles serão populados na próxima varredura, que deve entrar em vigor dentro de 24 horas. As classificações subsequentes serão etiquetadas imediatamente.

A tabela do sistema de resultados

A classificação de dados cria uma tabela do sistema nomeada system.data_classification.results para armazenar resultados que, por padrão, são acessíveis apenas para o administrador da conta. O administrador da conta pode compartilhar essa tabela. A tabela só é acessível quando você usa computação sem servidor. Para obter detalhes sobre essa tabela, consulte a referência da tabela do sistema de classificação de dados.

Importante

A tabela system.data_classification.results de resultados contém todos os resultados de classificação em todo o metastore e inclui valores de exemplo de tabelas em cada catálogo. Você só deve compartilhar essa tabela com usuários com privilégios para ver os resultados de classificação em todo o metastore, incluindo valores de exemplo.

As permissões a seguir são necessárias para exibir a tabela de resultados: USE CATALOG e USE SCHEMA, além disso SELECT , na tabela. Os usuários com MANAGE ou SELECT acesso a um catálogo podem ver os resultados na página, mas não podem ver valores de exemplo.

Configurar controles de governança com base nos resultados da classificação de dados

Mascarar dados confidenciais usando uma política ABAC

O Databricks recomenda usar o ABAC (controle de acesso baseado em atributo) do Catálogo do Unity para criar controles de governança com base nos resultados de classificação de dados.

Para criar uma política, clique em Nova política. O formulário de política é pré-preenchido para mascarar colunas com a etiqueta de classificação em revisão. Para mascarar os dados, especifique qualquer função de mascaramento registrada no Catálogo do Unity e clique em Salvar.

Você também pode criar uma política que abrange várias tags de classificação, alterando quando a coluna para encontra a condição e fornecendo várias tags.

Por exemplo, para criar uma política chamada "Confidencial" que mascara qualquer nome, email ou número de telefone, defina que a atende à condição como hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number").

Descoberta e exclusão do GDPR

Este notebook de exemplo mostra como você pode usar a classificação de dados para ajudar na descoberta e exclusão de dados para conformidade com o RGPD.

Descoberta e exclusão de RGPD usando o notebook de classificação de dados

Obter laptop

Como lidar com etiquetas incorretas

Se os dados estiverem marcados incorretamente, você poderá remover manualmente a marca. A marca não será reaplicada em verificações futuras.

Para remover uma tag usando a interface gráfica, navegue até a tabela do Catalog Explorer e edite as tags de coluna.

Para remover uma tag usando SQL:

ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')

Erros de escaneamento

Se ocorrerem erros durante a verificação, um botão Erros aparecerá no canto superior direito da tabela de resultados.

Página resultados com o botão Erros no canto superior direito da tabela.

Clique no botão para exibir as tabelas que falharam na verificação e nas mensagens de erro associadas.

Erros de varredura da tabela de classificação de dados.

Por padrão, as falhas que ocorreram para tabelas individuais são puladas e tentadas novamente no dia seguinte.

Exibir despesas de Classificação de Dados

Para entender como a Classificação de Dados é cobrada, consulte a página de preços. Você pode exibir despesas relacionadas à Classificação de Dados executando uma consulta ou exibindo o painel de uso.

Observação

A verificação inicial é mais dispendiosa do que as verificações subsequentes no mesmo catálogo, pois essas verificações são incrementais e normalmente incorrem em custos mais baixos.

Exibir o uso da tabela do sistema system.billing.usage

Você pode consultar as despesas de Classificação de Dados de system.billing.usage. Os campos created_by e catalog_id podem ser usados opcionalmente para dividir os custos:

  • created_by: Inclua para ver os custos atribuídos ao usuário que iniciou a utilização.
  • catalog_id: inclua para ver os custos por catálogo. A ID do catálogo é mostrada na system.data_classification.results tabela.

Exemplo de consulta para os últimos 30 dias:

SELECT
   usage_date,
   identity_metadata.created_by,
   usage_metadata.catalog_id,
   SUM(usage_quantity) AS dbus
FROM
   system.billing.usage
WHERE
   usage_date >= DATE_SUB(CURRENT_DATE(), 30)
  AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
   usage_date,
   created_by,
   catalog_id
ORDER BY
   usage_date DESC,
   created_by;

Exibir o uso do painel de uso

Se você já tiver um painel de uso configurado em seu workspace, poderá usá-lo para filtrar o uso selecionando o Projeto de Origem de Cobrança rotulado como "Classificação de Dados". Se você não tiver um painel de uso configurado, poderá importar um e aplicar a mesma filtragem. Para obter detalhes, consulte Dashboards de uso.

Tags de classificação suportadas

As tabelas a seguir listam as marcas governadas pelo sistema compatíveis com a Classificação de Dados.

Marcas disponíveis para clientes globais

Classe Descrição
class.credit_card Número do cartão de crédito
class.email_address Endereço de email
class.iban_code Número da Conta Bancária Internacional (IBAN)
class.ip_address Endereço de protocolo da Internet (IPv4 ou IPv6)
class.location Localização
class.name Nome de uma pessoa
class.phone_number Número de telefone
class.url URL
class.us_bank_number Número do banco dos EUA
classe.licenca_motorista_eua Carteira de habilitação dos EUA
class.us_itin Número de identificação de contribuinte individual dos EUA
classe.us_passaporte Passaporte dos EUA
class.us_ssn Número da Previdência Social dos EUA
class.vin Número de identificação do veículo (VIN)

Etiquetas disponíveis para clientes europeus

Esses marcadores estão disponíveis em espaços de trabalho em regiões da Europa.

Classe Descrição
class.de_id_card Número do cartão de ID alemão (Personalausweisnummer)
class.de_svnr Número do seguro social alemão (Sozialversicherungsnummer)
class.de_tax_id Identificação fiscal alemã (Steueridentifikationsnummer)
class.uk_nhs Número do NHS (Serviço Nacional de Saúde do Reino Unido)
class.uk_nino Número do Seguro Nacional do Reino Unido (NINO)

Etiquetas disponíveis para clientes australianos

Essas marcas estão disponíveis em espaços de trabalho em regiões na Austrália.

Classe Descrição
class.au_medicare Número do cartão australiano do Medicare
class.au_tfn Número do arquivo fiscal australiano (TFN)

Limitações

  • Não há suporte para exibições e exibições de métrica . Se a exibição for baseada em tabelas existentes, o Databricks recomendará classificar as tabelas subjacentes para ver se elas contêm dados confidenciais.