Governança de dados usando Unity Catalog e Microsoft Purview
A governança de dados é fundamental para garantir que os dados dentro de uma organização sejam gerenciados de forma segura, eficiente e em conformidade com as regulamentações.
Em muitas organizações, os dados são distribuídos entre bancos de dados, data warehouses, data lakes e até mesmo vários catálogos. Também existe em diversos formatos como Parquet, CSV e Delta Lake. Além de dados estruturados em tabelas, há também dados não estruturados em arquivos, juntamente com outros ativos, como modelos de aprendizado de máquina, notebooks e painéis que exigem gerenciamento e governança. Essa fragmentação cria silos entre fontes, formatos e tipos de ativos.
Esses desafios de governança afetam diretamente o valor que as organizações podem derivar dos dados e da IA:
A governança fragmentada aumenta os riscos de conformidade, segurança e qualidade de dados, ao mesmo tempo em que cria ineficiências operacionais à medida que as equipes lutam para manter uma visão consistente de seus ambientes de dados e IA.
A conectividade limitada pode resultar na dependência do fornecedor e dificultar a adoção de novas tecnologias à medida que os requisitos mudam. A fraca interoperabilidade também complica a colaboração e o dimensionamento, muitas vezes levando a custos mais elevados decorrentes da utilização de várias ferramentas e da duplicação de dados entre sistemas.
A falta de inteligência integrada restringe o uso mais amplo de dados e plataformas de IA, particularmente para usuários não técnicos. Isso retarda a inovação, atrasa a tomada de decisões e impede que as organizações percebam plenamente os benefícios de seus investimentos em dados e IA.
O Azure Databricks, combinado com o Unity Catalog e o Microsoft Purview, fornece uma solução robusta para gerenciar e controlar dados de forma eficaz.
Catálogo do Unity
O Unity Catalog fornece uma maneira centralizada de gerenciar acesso, descoberta, linhagem, logs de auditoria e monitoramento de qualidade em dados e ativos de IA no Azure Databricks. Aplica-se de forma consistente em todos os espaços de trabalho de uma região.
O metastore é o contêiner de metadados de nível superior; Ele contém informações sobre ativos de dados e as permissões que os governam. Normalmente, você tem um metastore por região, e vários espaços de trabalho podem compartilhar esse metastore.
O Unity Catalog organiza ativos de dados usando uma hierarquia estruturada de três níveis:
catalog.schema.table_or_other_object
- Os catálogos agrupam ativos normalmente alinhados a equipes ou ambientes.
- Esquemas (também conhecidos como bancos de dados) são subdivisões dentro de catálogos, organizando ativos de forma mais granular — por exemplo, por projeto ou caso de uso.
- Os objetos em esquemas incluem tabelas (gerenciadas ou externas), exibições, volumes, funções e modelos.
As tabelas podem ser gerenciadas ou externas. Com tabelas gerenciadas, o Unity Catalog lida com governança e armazenamento (sempre no formato Delta Lake). Com tabelas externas, o Unity Catalog gerencia o acesso a partir do Databricks, mas o ciclo de vida/armazenamento dos dados é gerenciado externamente. Isto suporta vários formatos (Delta, CSV, JSON, Parquet, etc.)
O Unity Catalog implementa um controle de acesso refinado por meio de comandos ANSI SQL em vários níveis — metastore, catálogo, esquema, até linhas e colunas. Por exemplo, o comando a seguir dá ao grupo de usuários 'finance-team' a permissão para criar novas tabelas no 'myschema' dentro do banco de dados 'mycatalog'.
GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;
Explorar ativos de dados no Unity Catalog é simples. Você pode usar o Catalog Explorer e uma interface de pesquisa para encontrar o que precisa. Para ajudá-lo, os ativos têm tags, comentários e até descrições geradas por IA. Depois de encontrar um ativo de dados, você pode usar recursos como linhagem, insights de tabela e diagramas de Relacionamento de Entidade para obter uma melhor compreensão dele.
O Catálogo Unity fornece uma imagem completa do histórico dos seus dados. Regista acessos, registos de auditoria e proveniência — até ao nível da coluna.
Na maioria das contas, o Unity Catalog é ativado por padrão quando você cria um espaço de trabalho. Você pode começar a usar o Unity Catalog com as configurações padrão. No entanto, há configurações opcionais que você pode querer habilitar.
Microsoft Purview
O Microsoft Purview é um serviço de governança de dados que permite gerenciar e supervisionar dados em sistemas locais, várias nuvens e plataformas SaaS. Ele inclui recursos como descoberta de dados, classificação, rastreamento de linhagem e governança de acesso.
Quando integrado ao Azure Databricks e ao Unity Catalog, o Purview pode descobrir dados do Lakehouse e ingerir seus metadados no Mapa de Dados. Isso permite que você aplique governança consistente em todo o seu ambiente de dados, enquanto atua como um catálogo central que reúne metadados de diferentes fontes.
Com essa integração, você pode:
- Realizar varredura no Azure Databricks em redes públicas e privadas, potenciado pelo runtime de integração totalmente gerido do Microsoft Purview.
- Analise todo o metastore do Unity Catalog ou opte por verificar apenas catálogos seletivos.
- Extraia um conjunto abrangente de metadados do Unity Catalog, abrangendo detalhes do metastore, catálogos, esquemas, tabelas/visualizações e colunas.
- Classifique automaticamente os dados com base em regras internas de classificação do sistema ou regras de classificação personalizadas definidas pelo usuário para identificar dados confidenciais.
- Obtenha visibilidade detalhada da linhagem de dados, mostrando como os dados são transformados e movidos em diferentes sistemas e processos, inclusive no Azure Databricks.
- Execute a verificação sob demanda ou em uma programação recorrente diária/semanal/mensal.
Além disso, o Microsoft Purview pode verificar o metastore do Hive no nível do espaço de trabalho no Azure Databricks.