Gobierno de datos mediante Unity Catalog y Microsoft Purview

Completado

El gobierno de datos es fundamental para garantizar que los datos de una organización se administran de forma segura, eficaz y conforme a las normativas.

En muchas organizaciones, los datos se distribuyen entre bases de datos, almacenes de datos, lagos de datos e incluso varios catálogos. También existe en diversos formatos como Parquet, CSV y Delta Lake. Además de los datos estructurados en tablas, también hay datos no estructurados en archivos, junto con otros recursos, como modelos de aprendizaje automático, cuadernos y paneles que requieren administración y gobernanza. Esta fragmentación crea silos entre orígenes, formatos y tipos de recursos.

Estos desafíos de gobernanza afectan directamente a los valores que las organizaciones pueden derivar de datos e inteligencia artificial:

  • La gobernanza fragmentada aumenta los riesgos de cumplimiento, seguridad y calidad de los datos, al tiempo que la creación de ineficiencias operativas a medida que los equipos tienen dificultades para mantener una vista coherente de sus datos y entornos de inteligencia artificial.

  • La conectividad limitada puede dar lugar a un bloqueo de proveedor y dificultar la adopción de nuevas tecnologías a medida que cambian los requisitos. La interoperabilidad deficiente también complica la colaboración y el escalado, lo que suele dar lugar a mayores costos del uso de varias herramientas y la duplicación de datos entre sistemas.

  • Una falta de inteligencia integrada restringe el uso más amplio de las plataformas de datos e inteligencia artificial, especialmente para los usuarios no técnicos. Esto ralentiza la innovación, retrasa la toma de decisiones y evita que las organizaciones realicen completamente las ventajas de sus datos e inversiones en inteligencia artificial.

Azure Databricks, combinado con Unity Catalog y Microsoft Purview, proporciona una solución sólida para administrar y gobernar datos de manera eficaz.

Catálogo de Unity

Unity Catalog proporciona una manera centralizada de administrar el acceso, la detección, el linaje, los registros de auditoría y la supervisión de calidad en los recursos de datos e inteligencia artificial dentro de Azure Databricks. Se aplica de forma coherente en todas las áreas de trabajo de una región.

Diagrama de los componentes del catálogo de Unity.

El metastore es el contenedor de metadatos de nivel superior; contiene información sobre los recursos de datos y los permisos que los rigen. Normalmente, tiene un metastore por región y varias áreas de trabajo pueden compartir ese metastore.

Unity Catalog organiza los recursos de datos mediante una jerarquía estructurada de tres niveles:

catalog.schema.table_or_other_object
  • Los catálogos agrupan activos normalmente alineados con equipos o entornos.
  • Los esquemas (también conocidos como bases de datos) son subdivisiones dentro de catálogos, la organización de recursos de forma más granular, por ejemplo, por proyecto o caso de uso.
  • Los objetos de esquemas incluyen tablas (administradas o externas), vistas, volúmenes, funciones y modelos.

Las tablas pueden ser gestionadas o externas. Con las tablas administradas, el catálogo de Unity controla la gobernanza y el almacenamiento (siempre en formato Delta Lake). Con tablas externas, el Catálogo de Unity gestiona el acceso proporcionado por Databricks, pero el ciclo de vida del almacenamiento de datos se administra externamente. Esto admite varios formatos (Delta, CSV, JSON, Parquet, etc.)

Unity Catalog implementa un control de acceso granular a través de comandos SQL ANSI en varios niveles: metastore, catálogo, esquema, hasta filas y columnas. Por ejemplo, el siguiente comando concede al grupo de usuarios "finance-team" el permiso para crear nuevas tablas en la base de datos "myschema" dentro de la base de datos "mycatalog".

GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;

Explorar recursos de datos en el Catálogo de Unity es sencillo. Puede usar el Explorador de catálogos y una interfaz de búsqueda para encontrar lo que necesita. Para ayudarle, los recursos tienen etiquetas, comentarios e incluso descripciones generadas por IA. Una vez que encuentre un recurso de datos, puede usar características como linaje, información de tabla y diagramas de relación de entidades para obtener una mejor comprensión de él.

El catálogo de Unity proporciona una imagen completa del historial de los datos. Registra el acceso, los registros de auditoría y el linaje de datos, hasta el nivel de columna.

En la mayoría de las cuentas, Unity Catalog está habilitado de forma predeterminada al crear un área de trabajo. Puede empezar a usar el catálogo de Unity con la configuración predeterminada. Sin embargo, hay configuraciones opcionales que es posible que desee habilitar.

Microsoft Purview

Microsoft Purview es un servicio de gobernanza de datos que le permite administrar y supervisar datos en sistemas locales, varias nubes y plataformas SaaS. Incluye características como la detección de datos, la clasificación, el seguimiento de linaje y la gobernanza del acceso.

Cuando se integra con Azure Databricks y Unity Catalog, Purview puede detectar datos de Lakehouse e ingerir sus metadatos en el mapa de datos. Esto le permite aplicar una gobernanza coherente en todo el entorno de datos, a la vez que actúa como catálogo central que reúne metadatos de diferentes orígenes.

Con esta integración, puede hacer lo siguiente:

  • Escanear Azure Databricks tanto en redes públicas como privadas, con la tecnología del entorno de ejecución de integración de Microsoft Purview, totalmente administrado.
  • Examine toda la tienda de metadatos del catálogo de Unity o elija examinar solo catálogos selectivos.
  • Extraiga un conjunto de metadatos completo del Unity Catalog, incluidos detalles de metastore, catálogos, esquemas, tablas/vistas y columnas, etc.
  • Clasifique automáticamente los datos en función de las reglas de clasificación del sistema integradas o las reglas de clasificación personalizadas definidas por el usuario para identificar datos confidenciales.
  • Obtenga visibilidad detallada del linaje de datos, que muestra cómo se transforman y mueven los datos entre distintos sistemas y procesos, incluidos en Azure Databricks.
  • Ejecute el examen a petición o en una programación periódica diaria, semanal o mensual.

Captura de pantalla de Microsoft Purview en la que se muestran los metadatos de una tabla de Azure Databricks.

Además, Microsoft Purview puede examinar el metastore de Hive a nivel de área de trabajo en Azure Databricks.