Governança de dados usando o Catálogo do Unity e Microsoft Purview
A governança de dados é essencial para garantir que os dados em uma organização sejam gerenciados de forma segura, eficiente e em conformidade com as regulamentações.
Em muitas organizações, os dados são distribuídos entre bancos de dados, data warehouses, data lakes e até mesmo vários catálogos. Ele também existe em formatos diversos, como Parquet, CSV e Delta Lake. Além dos dados estruturados em tabelas, também há dados não estruturados em arquivos, juntamente com outros ativos, como modelos de machine learning, notebooks e dashboards que exigem gerenciamento e governança. Essa fragmentação cria silos entre fontes, formatos e tipos de ativos.
Esses desafios de governança afetam diretamente o valor que as organizações podem derivar dos dados e da IA:
A governança fragmentada aumenta a conformidade, a segurança e os riscos de qualidade dos dados, ao mesmo tempo em que cria ineficiências operacionais à medida que as equipes lutam para manter uma visão consistente de seus dados e ambientes de IA.
A conectividade limitada pode resultar no bloqueio do fornecedor e dificultar a adoção de novas tecnologias à medida que os requisitos mudam. A baixa interoperabilidade também complica a colaboração e o dimensionamento, muitas vezes levando a custos mais altos do uso de várias ferramentas e duplicação de dados entre sistemas.
A falta de inteligência interna restringe o uso mais amplo de dados e plataformas de IA, especialmente para usuários não técnicos. Isso retarda a inovação, atrasa a tomada de decisões e impede que as organizações percebam completamente os benefícios de seus dados e investimentos em IA.
O Azure Databricks, combinado com o Catálogo do Unity e o Microsoft Purview, fornece uma solução robusta para gerenciar e governar dados com eficiência.
Catálogo do Unity
O Catálogo do Unity fornece uma maneira centralizada de gerenciar o acesso, a descoberta, a linhagem, os logs de auditoria e o monitoramento de qualidade entre dados e ativos de IA no Azure Databricks. Ele se aplica consistentemente em todos os workspaces em uma região.
O metastore é o contêiner de metadados de nível superior; contém informações sobre ativos de dados e as permissões que os regem. Normalmente, você tem um metastore por região e vários workspaces podem compartilhar esse metastore.
O Catálogo do Unity organiza ativos de dados usando uma hierarquia estruturada de três níveis:
catalog.schema.table_or_other_object
- Catálogos agrupam ativos normalmente alinhados a equipes ou ambientes.
- Esquemas (também conhecidos como bancos de dados) são subdivisões dentro de catálogos, organizando ativos de forma mais granular , por exemplo, por projeto ou caso de uso.
- Os objetos em esquemas incluem tabelas (gerenciadas ou externas), exibições, volumes, funções e modelos.
As tabelas podem ser gerenciadas ou externas. Com tabelas gerenciadas, o Catálogo do Unity lida com governança e armazenamento (sempre formato Delta Lake). Com tabelas externas, o Catálogo do Unity gerencia o acesso do Databricks, mas o ciclo de vida/armazenamento de dados é gerenciado externamente. Isso dá suporte a vários formatos (Delta, CSV, JSON, Parquet, etc.)
O Catálogo do Unity implementa o controle de acesso refinado por meio de comandos SQL ANSI em vários níveis : metastore, catálogo, esquema, até linhas e colunas. Por exemplo, o comando a seguir fornece ao grupo de usuários 'finance-team' a permissão para criar novas tabelas no 'myschema' dentro do banco de dados 'mycatalog'.
GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;
Explorar ativos de dados no Catálogo do Unity é simples. Você pode usar o Gerenciador de Catálogos e uma interface de pesquisa para encontrar o que precisa. Para ajudá-lo, os ativos têm marcas, comentários e até descrições geradas por IA. Depois de encontrar um ativo de dados, você pode usar recursos como linhagem, insights de tabela e diagramas de Relação de Entidade para obter uma melhor compreensão dele.
O Catálogo do Unity fornece uma imagem completa do histórico de seus dados. Ele registra o acesso, as trilhas de auditoria e a linhagem—até o nível da coluna.
Na maioria das contas, o Catálogo do Unity é habilitado por padrão quando você cria um espaço de trabalho. Você pode começar a usar o Catálogo do Unity com as configurações padrão. No entanto, há configurações opcionais que talvez você queira habilitar.
Microsoft Purview
O Microsoft Purview é um serviço de governança de dados que permite gerenciar e supervisionar dados em sistemas locais, várias nuvens e plataformas SaaS. Ele inclui recursos como descoberta de dados, classificação, acompanhamento de linhagem e governança de acesso.
Quando integrado ao Catálogo do Azure Databricks e do Unity, o Purview pode descobrir dados do Lakehouse e ingerir seus metadados no Mapa de Dados. Isso permite que você aplique uma governança consistente em todo o ambiente de dados, ao mesmo tempo em que atua como um catálogo central que reúne metadados de diferentes fontes.
Com essa integração, você pode:
- Examine o Azure Databricks em redes públicas e privadas, alimentadas pelo runtime de integração do Microsoft Purview totalmente gerenciado.
- Escaneie todo o Unity Catalog metastore ou escolha escanear apenas catálogos seletivos.
- Extraia um conjunto abrangente de metadados do Catálogo do Unity, incluindo detalhes de metastore, catálogos, esquemas, tabelas/exibições e colunas, etc.
- Classifique automaticamente os dados com base em regras internas de classificação do sistema ou regras de classificação personalizadas definidas pelo usuário para identificar dados confidenciais.
- Obtenha visibilidade detalhada da linhagem de dados, mostrando como os dados são transformados e movidos entre diferentes sistemas e processos, inclusive no Azure Databricks.
- Execute a verificação sob demanda ou em um agendamento recorrente diário/semanal/mensal.
Além disso, o Microsoft Purview pode verificar o Metastore Hive no nível do espaço de trabalho no Azure Databricks.