Partilhar via


Classificação de dados

Importante

Este recurso está no Public Preview.

Esta página descreve como usar a Classificação de Dados Databricks no Catálogo Unity para classificar e marcar automaticamente dados confidenciais em seu catálogo.

Os catálogos de dados podem ter uma vasta quantidade de dados, muitas vezes contendo dados confidenciais conhecidos e desconhecidos. É fundamental que as equipes de dados entendam que tipo de dados confidenciais existem em cada tabela para que possam governar e democratizar o acesso a esses dados.

Para resolver esse problema, o Databricks Data Classification usa um agente de IA para classificar e marcar tabelas automaticamente em seu catálogo. Isso permite que você descubra dados confidenciais e aplique controles de governança sobre os resultados, usando ferramentas como o controle de acesso baseado em atributos (ABAC) do Unity Catalog. Para obter uma lista de tags suportadas, consulte Tags de classificação suportadas.

Com esta funcionalidade, pode:

  • Classificar dados: o mecanismo usa um sistema de IA agentic para classificar e marcar automaticamente quaisquer tabelas no Unity Catalog.
  • Otimize os custos por meio da varredura inteligente: O sistema determina inteligentemente quando escanear os seus dados, aproveitando o Unity Catalog e o Data Intelligence Engine. Isso significa que a verificação é incremental e otimizada para garantir que todos os novos dados sejam classificados sem configuração manual.
  • Revisar e proteger dados confidenciais: a exibição de resultados ajuda você a exibir resultados de classificação e proteger dados confidenciais marcando e criando políticas de controle de acesso para cada classe.

Importante

A Classificação de Dados do Databricks usa o armazenamento padrão para armazenar resultados de classificação. Não lhe é cobrado pelo armazenamento.

O Databricks Data Classification usa um modelo de linguagem grande (LLM) para ajudar na classificação.

Requerimentos

Observação

A classificação de dados é um recurso de visualização no nível do espaço de trabalho e só pode ser gerenciada por um administrador de espaço de trabalho ou de conta. Para obter instruções, consulte Gerenciar visualizações do Azure Databricks.

Importante

O modelo que alimenta essa função é disponibilizado usando APIs do Mosaic AI Model Serving Foundation Model. Llama 3.1 está licenciado sob a Llama 3.1 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Consulte Licenças e termos aplicáveis para desenvolvedores de modelos para obter mais informações.

Se surgirem no futuro modelos com melhor desempenho de acordo com os benchmarks internos da Databricks, a Databricks poderá alterar os modelos e atualizar a documentação.

  • Você deve ter a computação sem servidor habilitada. Consulte como se conectar à computação sem servidor.
  • Para habilitar a classificação de dados, deves possuir o catálogo ou teres os privilégios USE_CATALOG e MANAGE sobre ele.
  • Para exibir a tabela de resultados, você deve ter as seguintes permissões: USE CATALOG e USE SCHEMA, mais SELECT na tabela. Consulte a tabela do sistema de resultados.

Usar classificação de dados

Para usar a classificação de dados em um catálogo:

  1. Navegue até o catálogo e clique na guia Detalhes .

    Guia Detalhes da página do catálogo no Gerenciador de Catálogos.

  2. Clique no botão Classificação de dados para ativá-la.

  3. A caixa de diálogo Ativar classificação de dados é exibida. Por padrão, todos os esquemas são incluídos. Para incluir apenas alguns esquemas, selecione-os no menu suspenso Esquemas a serem incluídos .

    Configurações modais para Classificação de Dados.

  4. Clique em Ativar.

Isso cria um trabalho em segundo plano que verifica incrementalmente todas as tabelas no catálogo ou esquemas selecionados.

O mecanismo de classificação depende da análise inteligente para determinar quando digitalizar uma tabela. Novas tabelas e colunas em um catálogo normalmente são verificadas dentro de 24 horas após serem criadas.

Ver os resultados da classificação

Para exibir os resultados da classificação, clique em Ver resultados ao lado da alternância.

Consulte o botão de resultados para Classificação de dados.

Uma página de resultados é aberta, mostrando os resultados de classificação para todas as tabelas no catálogo. Para selecionar um catálogo diferente, use o seletor no canto superior esquerdo da página. Um SQL warehouse sem servidor é necessário e aparece no canto superior direito da página.

A página de resultados lista todas as marcas de classificação que foram identificadas no catálogo. Todas as políticas ABAC existentes que fazem referência a tags do sistema de classificação de dados (class.xx) aparecem na tabela.

Página de resultados mostrando a tabela de classes detetadas.

Para rever os resultados de uma etiqueta de classificação específica, clique em Rever na coluna mais à direita da linha correspondente.

Resultados mostrando colunas com classificações detetadas.

Um painel é exibido, exibindo as tabelas para as quais a classificação de dados detetou a marca de classificação com alta confiança. Analise as tabelas, colunas e valores de exemplo. Os valores de exemplo só aparecem se você tiver acesso à tabela de resultados. Consulte a tabela do sistema de resultados.

Se as colunas identificadas corresponderem às suas expectativas, você poderá habilitar a marcação automática para a tag de classificação deste catálogo. Quando a marcação automática está ativada, todas as deteções existentes e futuras dessa classificação são marcadas.

Para ativar a etiquetagem automática, alterne a etiqueta automática com .... Mais tarde, você pode desativar a marcação automática usando a mesma alternância. Quando você desabilita a marcação, nenhuma tag futura é aplicada, mas as tags existentes não são removidas.

Observação

Quando você ativa a marcação automática, as tags não são preenchidas imediatamente. Eles serão preenchidos na próxima varredura, que deve entrar em vigor dentro de 24 horas. As classificações subsequentes serão marcadas imediatamente.

A tabela do sistema de resultados

A classificação de dados cria uma tabela do sistema nomeada system.data_classification.results para armazenar resultados que, por padrão, são acessíveis apenas ao administrador da conta. O administrador da conta pode partilhar esta tabela. A tabela só é acessível quando você usa computação sem servidor. Para obter detalhes sobre esta tabela, consulte Referência da tabela do sistema de classificação de dados.

Importante

A tabela system.data_classification.results de resultados contém todos os resultados de classificação em todo o metastore e inclui valores de amostra de tabelas em cada catálogo. Você só deve compartilhar essa tabela com usuários privilegiados para ver os resultados de classificação em todo o metastore, incluindo valores de exemplo.

As seguintes permissões são necessárias para exibir a tabela de resultados: USE CATALOG e USE SCHEMA, mais SELECT na tabela. Os usuários com MANAGE ou SELECT acesso a um catálogo podem ver os resultados na página, mas não podem ver valores de exemplo.

Configurar controles de governança com base nos resultados da classificação de dados

Mascarar dados confidenciais usando uma política ABAC

O Databricks recomenda o uso do controle de acesso baseado em atributos (ABAC) do Unity Catalog para criar controles de governança com base nos resultados da classificação de dados.

Para criar uma política, clique em Nova política. O formulário da política é pré-preenchido para que as colunas sejam mascaradas enquanto a tag de classificação é revisada. Para mascarar os dados, especifique qualquer função de mascaramento registrada no Unity Catalog e clique em Salvar.

Você também pode criar uma política que abranja várias tags de classificação, alterando a coluna Quando para atender à condição e fornecendo várias tags.

Por exemplo, para criar uma política chamada "Confidencial" que mascara qualquer nome, e-mail ou número de telefone, defina a condição de atendimento como hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number").

Deteção e eliminação do RGPD

Este bloco de anotações de exemplo mostra como você pode usar a classificação de dados para ajudar na descoberta e exclusão de dados para conformidade com o GDPR.

Descoberta e exclusão do GDPR usando o bloco de anotações de classificação de dados

Obter caderno

Como lidar com tags incorretas

Se os dados estiverem marcados incorretamente, você poderá removê-los manualmente. A tag não será reaplicada em verificações futuras.

Para remover uma tag usando a interface do usuário, navegue até a tabela no Gerenciador de Catálogos e edite as tags de coluna.

Para remover uma tag usando SQL:

ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')

Erros de verificação

Se ocorrer algum erro durante a verificação, um botão Erros será exibido no canto superior direito da tabela de resultados.

Página de resultados com o botão Erros no canto superior direito da tabela.

Clique no botão para exibir as tabelas que falharam na verificação e as mensagens de erro associadas.

Erros de verificação da tabela de classificação de dados.

Por padrão, as falhas que ocorreram em tabelas individuais são ignoradas e repetidas no dia seguinte.

Ver despesas de classificação de dados

Para entender como a Classificação de Dados é cobrada, consulte a página de preços. Você pode exibir despesas relacionadas à Classificação de Dados executando uma consulta ou exibindo o painel de uso.

Observação

A verificação inicial é mais cara do que as verificações subsequentes no mesmo catálogo, pois essas verificações são incrementais e normalmente incorrem em custos mais baixos.

Ver a utilização a partir da tabela do sistema system.billing.usage

Pode verificar as despesas de classificação de dados a partir de system.billing.usage. Os campos created_by e catalog_id podem ser usados opcionalmente para decompor custos:

  • created_by: Incluir para ver os custos pelo utilizador que iniciou a utilização.
  • catalog_id: Inclua para ver os custos por catálogo. O ID do catálogo é mostrado na system.data_classification.results tabela.

Exemplo de consulta para os últimos 30 dias:

SELECT
   usage_date,
   identity_metadata.created_by,
   usage_metadata.catalog_id,
   SUM(usage_quantity) AS dbus
FROM
   system.billing.usage
WHERE
   usage_date >= DATE_SUB(CURRENT_DATE(), 30)
  AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
   usage_date,
   created_by,
   catalog_id
ORDER BY
   usage_date DESC,
   created_by;

Ver a utilização a partir do painel de utilização

Se você já tiver um painel de uso configurado em seu espaço de trabalho, poderá usá-lo para filtrar o uso selecionando o Projeto de Origem de Faturamento rotulado como "Classificação de Dados". Se você não tiver um painel de uso configurado, poderá importar um e aplicar a mesma filtragem. Para obter detalhes, consulte Painéis de uso.

Tags de classificação suportadas

As tabelas seguintes listam as etiquetas governadas pelo Sistema suportadas pela Classificação de Dados.

Etiquetas disponíveis para clientes globais

Classe Descrição
class.credit_card Número do cartão de crédito
class.email_address Endereço de e-mail
class.iban_code Número internacional de conta bancária (IBAN)
class.ip_address Endereço de Protocolo Internet (IPv4 ou IPv6)
class.localização Localização
class.name Nome de uma pessoa
class.phone_number Número de telefone
class.url URL
class.us_bank_number Número do banco nos EUA
class.us_driver_license Carteira de motorista dos EUA
class.us_itin Número de identificação fiscal individual dos EUA
class.us_passport Passaporte dos EUA
class.us_ssn Número de Segurança Social dos EUA
class.vin Número de Identificação do Veículo (VIN)

Etiquetas disponíveis para clientes europeus

Estas etiquetas estão disponíveis em espaços de trabalho em regiões da Europa.

Classe Descrição
class.de_id_card Número do cartão de identificação alemão (Personalausweisnummer)
class.de_svnr Número de seguro social alemão (Sozialversicherungsnummer)
class.de_numero_de_identificacao_fiscal ID fiscal alemão (Steueridentifikationsnummer)
class.uk_nhs Número do Serviço Nacional de Saúde (NHS) do Reino Unido
class.uk_nino Número de Segurança Nacional do Reino Unido (NINO)

Etiquetas disponíveis para clientes australianos

Estas etiquetas estão disponíveis em espaços de trabalho em regiões da Austrália.

Classe Descrição
class.au_medicare Número do cartão Medicare Australiano
class.au_tfn Número de Registo Fiscal Australiano (TFN)

Limitações

  • Não têm suporte visualizações e visões métricas. Se a exibição for baseada em tabelas existentes, o Databricks recomenda classificar as tabelas subjacentes para ver se elas contêm dados confidenciais.