Compartir a través de


Colaboración y detección de datos en el almacén de lago

Databricks permite una colaboración segura y controlada entre cargas de trabajo de datos, análisis e inteligencia artificial en Lakehouse. Con el catálogo de Unity y protocolos abiertos como Delta Sharing, los equipos pueden detectar, compartir y analizar datos a gran escala, al tiempo que mantienen la gobernanza, la auditabilidad y la privacidad en todos los casos de uso y colaboradores.

Administración de permisos a gran escala

El catálogo de Unity proporciona a los administradores una ubicación unificada para asignar permisos para catálogos, bases de datos, tablas y vistas a grupos de usuarios. Los privilegios y metastores se comparten entre espacios de trabajo, lo que permite a los administradores establecer permisos seguros una vez en grupos sincronizados desde proveedores de identidad y saber que los usuarios finales solo tienen acceso a los datos adecuados en cualquier espacio de trabajo de Azure Databricks al que accedan.

El catálogo de Unity también permite a los administradores definir credenciales de almacenamiento, un método seguro para almacenar y compartir permisos en la infraestructura de almacenamiento en la nube. Puede conceder privilegios en estos elementos securables para permitir que los usuarios de la organización definan ubicaciones externas frente a ubicaciones de almacenamiento de objetos en la nube, permitiendo que los ingenieros de datos se autogestionen nuevas cargas de trabajo sin necesidad de proporcionar permisos elevados en las consolas de la cuenta de nube.

Detección de datos en Azure Databricks

Los usuarios pueden examinar los objetos de datos disponibles en el catálogo de Unity mediante Explorador de catálogos. El Explorador de catálogos usa los privilegios configurados por los administradores del catálogo de Unity para asegurarse de que los usuarios solo pueden ver catálogos, bases de datos, tablas y vistas que tienen permisos para consultar. Una vez que los usuarios encuentren un conjunto de datos de interés, pueden revisar los nombres y tipos de campo, leer comentarios en tablas y campos individuales y obtener una vista previa de un ejemplo de los datos. Los usuarios también pueden revisar el historial completo de la tabla para comprender cuándo y cómo han cambiado los datos, y la característica de linaje permite a los usuarios realizar un seguimiento de cómo se derivan determinados conjuntos de datos de trabajos ascendentes y se usan en trabajos de bajada.

Las credenciales de almacenamiento y las ubicaciones externas también se muestran en el Explorador de catálogos, lo que permite a cada usuario ver los privilegios que necesitan leer y escribir datos en ubicaciones y recursos disponibles.

Aceleración del tiempo de producción con el almacén de lago

Azure Databricks admite cargas de trabajo en SQL, Python, Scala y R, lo que permite a los usuarios con diversos conjuntos de aptitudes y conocimientos técnicos usar sus conocimientos para derivar información analítica. Puede usar todos los lenguajes admitidos por Azure Databricks para definir trabajos de producción y los cuadernos pueden usar una combinación de lenguajes. Esto significa que puedes promover consultas escritas por analistas de SQL para ETL de último kilómetro en código de ingeniería de datos de producción sin casi ningún esfuerzo. Las consultas y cargas de trabajo definidas por personas de toda la organización usan los mismos conjuntos de datos, por lo que no es necesario conciliar los nombres de campo ni asegurarse de que los paneles estén actualizados antes de compartir código y resultados con otros equipos. Puede compartir código, cuadernos, consultas y paneles de forma segura, todo ello con la misma infraestructura de nube escalable y definida en los mismos orígenes de datos mantenidos.