Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Esta página descreve como usar a Classificação de Dados Databricks no Catálogo Unity para classificar e marcar automaticamente dados confidenciais em seu catálogo.
Os catálogos de dados podem ter uma vasta quantidade de dados, muitas vezes contendo dados confidenciais conhecidos e desconhecidos. É fundamental que as equipes de dados entendam que tipo de dados confidenciais existem em cada tabela para que possam governar e democratizar o acesso a esses dados.
Para resolver esse problema, o Databricks Data Classification usa um agente de IA para classificar e marcar tabelas automaticamente em seu catálogo. Isso permite que você descubra dados confidenciais e aplique controles de governança sobre os resultados, usando ferramentas como o controle de acesso baseado em atributos (ABAC) do Unity Catalog. Para obter uma lista de tags suportadas, consulte Tags de classificação suportadas.
Com esta funcionalidade, pode:
- Classificar dados: o mecanismo usa um sistema de IA agentic para classificar e marcar automaticamente quaisquer tabelas no Unity Catalog.
- Otimize os custos por meio da varredura inteligente: O sistema determina inteligentemente quando escanear os seus dados, aproveitando o Unity Catalog e o Data Intelligence Engine. Isso significa que a verificação é incremental e otimizada para garantir que todos os novos dados sejam classificados sem configuração manual.
- Revisar e proteger dados confidenciais: a exibição de resultados ajuda você a exibir resultados de classificação e proteger dados confidenciais marcando e criando políticas de controle de acesso para cada classe.
Importante
A Classificação de Dados do Databricks usa o armazenamento padrão para armazenar resultados de classificação. Não lhe é cobrado pelo armazenamento.
O Databricks Data Classification usa um modelo de linguagem grande (LLM) para ajudar na classificação.
Requerimentos
Observação
A classificação de dados é um recurso de visualização no nível do espaço de trabalho e só pode ser gerenciada por um administrador de espaço de trabalho ou de conta. Para obter instruções, consulte Gerenciar visualizações do Azure Databricks.
Importante
O modelo que alimenta essa função é disponibilizado usando APIs do Mosaic AI Model Serving Foundation Model. Llama 3.1 está licenciado sob a Llama 3.1 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Consulte Licenças e termos aplicáveis para desenvolvedores de modelos para obter mais informações.
Se surgirem no futuro modelos com melhor desempenho de acordo com os benchmarks internos da Databricks, a Databricks poderá alterar os modelos e atualizar a documentação.
- Você deve ter a computação sem servidor habilitada. Consulte como se conectar à computação sem servidor.
- Para habilitar a classificação de dados, deves possuir o catálogo ou teres os privilégios
USE_CATALOGeMANAGEsobre ele. - Para exibir a tabela de resultados, você deve ter as seguintes permissões:
USE CATALOGeUSE SCHEMA, maisSELECTna tabela. Consulte a tabela do sistema de resultados.
Usar classificação de dados
Para usar a classificação de dados em um catálogo:
Navegue até o catálogo e clique na guia Detalhes .
Clique no botão Classificação de dados para ativá-la.
A caixa de diálogo Ativar classificação de dados é exibida. Por padrão, todos os esquemas são incluídos. Para incluir apenas alguns esquemas, selecione-os no menu suspenso Esquemas a serem incluídos .
Clique em Ativar.
Isso cria um trabalho em segundo plano que verifica incrementalmente todas as tabelas no catálogo ou esquemas selecionados.
O mecanismo de classificação depende da análise inteligente para determinar quando digitalizar uma tabela. Novas tabelas e colunas em um catálogo normalmente são verificadas dentro de 24 horas após serem criadas.
Ver os resultados da classificação
Para exibir os resultados da classificação, clique em Ver resultados ao lado da alternância.
Uma página de resultados é aberta, mostrando os resultados de classificação para todas as tabelas no catálogo. Para selecionar um catálogo diferente, use o seletor no canto superior esquerdo da página. Um SQL warehouse sem servidor é necessário e aparece no canto superior direito da página.
A página de resultados lista todas as marcas de classificação que foram identificadas no catálogo. Todas as políticas ABAC existentes que fazem referência a tags do sistema de classificação de dados (class.xx) aparecem na tabela.
Para rever os resultados de uma etiqueta de classificação específica, clique em Rever na coluna mais à direita da linha correspondente.
Um painel é exibido, exibindo as tabelas para as quais a classificação de dados detetou a marca de classificação com alta confiança. Analise as tabelas, colunas e valores de exemplo. Os valores de exemplo só aparecem se você tiver acesso à tabela de resultados. Consulte a tabela do sistema de resultados.
Se as colunas identificadas corresponderem às suas expectativas, você poderá habilitar a marcação automática para a tag de classificação deste catálogo. Quando a marcação automática está ativada, todas as deteções existentes e futuras dessa classificação são marcadas.
Para ativar a etiquetagem automática, alterne a etiqueta automática com .... Mais tarde, você pode desativar a marcação automática usando a mesma alternância. Quando você desabilita a marcação, nenhuma tag futura é aplicada, mas as tags existentes não são removidas.
Observação
Quando você ativa a marcação automática, as tags não são preenchidas imediatamente. Eles serão preenchidos na próxima varredura, que deve entrar em vigor dentro de 24 horas. As classificações subsequentes serão marcadas imediatamente.
A tabela do sistema de resultados
A classificação de dados cria uma tabela do sistema nomeada system.data_classification.results para armazenar resultados que, por padrão, são acessíveis apenas ao administrador da conta. O administrador da conta pode partilhar esta tabela. A tabela só é acessível quando você usa computação sem servidor. Para obter detalhes sobre esta tabela, consulte Referência da tabela do sistema de classificação de dados.
Importante
A tabela system.data_classification.results de resultados contém todos os resultados de classificação em todo o metastore e inclui valores de amostra de tabelas em cada catálogo. Você só deve compartilhar essa tabela com usuários privilegiados para ver os resultados de classificação em todo o metastore, incluindo valores de exemplo.
As seguintes permissões são necessárias para exibir a tabela de resultados: USE CATALOG e USE SCHEMA, mais SELECT na tabela. Os usuários com MANAGE ou SELECT acesso a um catálogo podem ver os resultados na página, mas não podem ver valores de exemplo.
Configurar controles de governança com base nos resultados da classificação de dados
Mascarar dados confidenciais usando uma política ABAC
O Databricks recomenda o uso do controle de acesso baseado em atributos (ABAC) do Unity Catalog para criar controles de governança com base nos resultados da classificação de dados.
Para criar uma política, clique em Nova política. O formulário da política é pré-preenchido para que as colunas sejam mascaradas enquanto a tag de classificação é revisada. Para mascarar os dados, especifique qualquer função de mascaramento registrada no Unity Catalog e clique em Salvar.
Você também pode criar uma política que abranja várias tags de classificação, alterando a coluna Quando para atender à condição e fornecendo várias tags.
Por exemplo, para criar uma política chamada "Confidencial" que mascara qualquer nome, e-mail ou número de telefone, defina a condição de atendimento como hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number").
Deteção e eliminação do RGPD
Este bloco de anotações de exemplo mostra como você pode usar a classificação de dados para ajudar na descoberta e exclusão de dados para conformidade com o GDPR.
Descoberta e exclusão do GDPR usando o bloco de anotações de classificação de dados
Como lidar com tags incorretas
Se os dados estiverem marcados incorretamente, você poderá removê-los manualmente. A tag não será reaplicada em verificações futuras.
Para remover uma tag usando a interface do usuário, navegue até a tabela no Gerenciador de Catálogos e edite as tags de coluna.
Para remover uma tag usando SQL:
ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')
Erros de verificação
Se ocorrer algum erro durante a verificação, um botão Erros será exibido no canto superior direito da tabela de resultados.
Clique no botão para exibir as tabelas que falharam na verificação e as mensagens de erro associadas.
Por padrão, as falhas que ocorreram em tabelas individuais são ignoradas e repetidas no dia seguinte.
Ver despesas de classificação de dados
Para entender como a Classificação de Dados é cobrada, consulte a página de preços. Você pode exibir despesas relacionadas à Classificação de Dados executando uma consulta ou exibindo o painel de uso.
Observação
A verificação inicial é mais cara do que as verificações subsequentes no mesmo catálogo, pois essas verificações são incrementais e normalmente incorrem em custos mais baixos.
Ver a utilização a partir da tabela do sistema system.billing.usage
Pode verificar as despesas de classificação de dados a partir de system.billing.usage. Os campos created_by e catalog_id podem ser usados opcionalmente para decompor custos:
-
created_by: Incluir para ver os custos pelo utilizador que iniciou a utilização. -
catalog_id: Inclua para ver os custos por catálogo. O ID do catálogo é mostrado nasystem.data_classification.resultstabela.
Exemplo de consulta para os últimos 30 dias:
SELECT
usage_date,
identity_metadata.created_by,
usage_metadata.catalog_id,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
created_by,
catalog_id
ORDER BY
usage_date DESC,
created_by;
Ver a utilização a partir do painel de utilização
Se você já tiver um painel de uso configurado em seu espaço de trabalho, poderá usá-lo para filtrar o uso selecionando o Projeto de Origem de Faturamento rotulado como "Classificação de Dados". Se você não tiver um painel de uso configurado, poderá importar um e aplicar a mesma filtragem. Para obter detalhes, consulte Painéis de uso.
Tags de classificação suportadas
As tabelas seguintes listam as etiquetas governadas pelo Sistema suportadas pela Classificação de Dados.
Etiquetas disponíveis para clientes globais
| Classe | Descrição |
|---|---|
| class.credit_card | Número do cartão de crédito |
| class.email_address | Endereço de e-mail |
| class.iban_code | Número internacional de conta bancária (IBAN) |
| class.ip_address | Endereço de Protocolo Internet (IPv4 ou IPv6) |
| class.localização | Localização |
| class.name | Nome de uma pessoa |
| class.phone_number | Número de telefone |
| class.url | URL |
| class.us_bank_number | Número do banco nos EUA |
| class.us_driver_license | Carteira de motorista dos EUA |
| class.us_itin | Número de identificação fiscal individual dos EUA |
| class.us_passport | Passaporte dos EUA |
| class.us_ssn | Número de Segurança Social dos EUA |
| class.vin | Número de Identificação do Veículo (VIN) |
Etiquetas disponíveis para clientes europeus
Estas etiquetas estão disponíveis em espaços de trabalho em regiões da Europa.
| Classe | Descrição |
|---|---|
| class.de_id_card | Número do cartão de identificação alemão (Personalausweisnummer) |
| class.de_svnr | Número de seguro social alemão (Sozialversicherungsnummer) |
| class.de_numero_de_identificacao_fiscal | ID fiscal alemão (Steueridentifikationsnummer) |
| class.uk_nhs | Número do Serviço Nacional de Saúde (NHS) do Reino Unido |
| class.uk_nino | Número de Segurança Nacional do Reino Unido (NINO) |
Etiquetas disponíveis para clientes australianos
Estas etiquetas estão disponíveis em espaços de trabalho em regiões da Austrália.
| Classe | Descrição |
|---|---|
| class.au_medicare | Número do cartão Medicare Australiano |
| class.au_tfn | Número de Registo Fiscal Australiano (TFN) |
Limitações
- Não têm suporte visualizações e visões métricas. Se a exibição for baseada em tabelas existentes, o Databricks recomenda classificar as tabelas subjacentes para ver se elas contêm dados confidenciais.