Compartir a través de


Deshabilitación del acceso al metastore de Hive usado por el área de trabajo de Azure Databricks

En esta página se describe cómo deshabilitar el acceso directo al metastore de Hive heredado que usa el área de trabajo de Azure Databricks, ya sea el metastore de Hive local del área de trabajo o un metastore externo de Hive. Cuando haya completado la migración del Unity Catalog o haya federado su metastore de Hive como un catálogo externo gobernado por Unity Catalog, puede usar una configuración sencilla de administrador de área de trabajo para evitar que los usuarios evadan Unity Catalog y accedan a las tablas registradas en el metastore de Hive.

El catálogo de Unity no rige los datos en el metastore de Hive. Deshabilitar el acceso directo al metastore de Hive es un paso importante en el proceso de migración al catálogo de Unity y asegurarse de aprovechar al máximo la gobernanza de datos del Catálogo de Unity. Puede deshabilitar el acceso directo y continuar consultando las tablas administradas por su metastore de Hive aprovechando la federación de metastore de Hive. Puede federar las tablas del metastore de Hive antes o después de deshabilitar el acceso directo al metastore de Hive desde el área de trabajo. Consulte Actualización de un área de trabajo existente a Catálogo de Unity y Federación de metastore Hive: habilite el Catálogo de Unity para administrar las tablas registradas en un metastore Hive.

Importante

Incluso después de migrar a Unity Catalog, los clústeres de proceso de Azure Databricks se conectan a la metastore de Hive de forma predeterminada, a menos que deshabilite explícitamente el acceso a metastore de Hive. Para evitar que el mantenimiento del metastore de Hive afecte a las cargas de trabajo del catálogo de Unity, puede deshabilitar el acceso directo a la tienda de metadatos de Hive para todos los clústeres y cargas de trabajo a la vez (deshabilitar todo el acceso directo a la metastore de Hive) o usar una configuración de Spark para deshabilitar el acceso en clúster por clúster (deshabilitar todo el acceso directo a la metastore de Hive).

Para deshabilitar el acceso al metastore de Hive en el nivel de cuenta de las nuevas áreas de trabajo, use la opción Deshabilitar la cuenta de características heredadas .

Antes de comenzar: ¿cuándo debe deshabilitar la metastore heredada?

Antes de deshabilitar el metastore heredado de Hive, debe cumplir con los siguientes requisitos:

  • Ha terminado de migrar todas las tablas registradas en el metastore heredado al catálogo de Unity, o ha usado siempre el catálogo de Unity y nunca el metastore de Hive heredado.
  • Desea obligar a sus usuarios a dejar de usar tablas registradas en el metastore heredado.
  • Ha actualizado todos los trabajos a Databricks Runtime 13.3 LTS o superior.

¿Qué ocurre cuando deshabilita el metastore heredado?

Una vez que hayas deshabilitado el metastore heredado:

  • Los trabajos que se ejecuten en tablas registradas en el metastore de Hive no se realizarán correctamente.

  • La reserva está deshabilitada.

  • Se producirá un error en los trabajos que se ejecutan en las versiones de Databricks Runtime inferiores a la 13.3.

    Actualmente, los trabajos en ejecución seguirán funcionando hasta que sean terminados, pero los reinicios en dichos clústeres fallarán.

  • El encabezado Legacy y el catálogo hive_metastore desaparecen del panel explorador del Explorador de catálogos.

  • Se producirá un error en los comandos SQL que intentan mostrar el contenido del hive_metastore catálogo.

Note

Deshabilitar el acceso heredado no impide que los usuarios usen credenciales de nivel de clúster, como las entidades de servicio, que están disponibles en un clúster. Databricks recomienda quitar dichas credenciales de los clústeres.

Los clusters sin aislamiento compartido no respetan la configuración de deshabilitación heredada del metastore de Hive. Para evitar que los usuarios creen y usen dichos clústeres, habilite la opción Aplicar aislamiento de usuario para el área de trabajo. Consulte Aplicación de tipos de clúster de aislamiento de usuario en un espacio de trabajo.

Deshabilitar todo el acceso directo al metastore de Hive

Deshabilite la metastore de Hive heredada del espacio de trabajo mediante la configuración de Desactivar acceso heredado del administrador del espacio de trabajo.

  1. Como administrador del área de trabajo, inicie sesión en tu área de trabajo de Azure Databricks.
  2. Haga clic en el menú perfil de usuario de la parte superior derecha y seleccione Configuración en el menú.
  3. Vaya a Administrador del espacio de trabajo > Seguridad.
  4. Establezca Deshabilitar el acceso heredado a Deshabilitado: no se pueden usar las características de acceso heredadas.
  5. Para asegurarse de que la nueva configuración ha tenido efecto, espere aproximadamente cinco minutos.
  6. Reinicie todos los clústeres en ejecución.

Deshabilitación del acceso para clústeres de proceso individuales

También puede deshabilitar gradualmente el acceso directo al metastore de Hive, cada clúster por separado. Este enfoque puede ser útil durante una migración del catálogo de Unity cuando quiera reducir la dependencia del metastore de Hive de manera incremental hasta poder deshabilitarlo para toda el área de trabajo.

Para deshabilitar el acceso directo, establezca las siguientes configuraciones de Spark en el clúster:

spark.databricks.unityCatalogOnlyMode True
spark.databricks.sql.initial.catalog.namespace <catalog-name>

Reemplace <catalog-name> por el nombre de un catálogo de Unity Catalog que existe en su metastore. Al habilitar el modo de solo catálogo de Unity, también debe establecer un catálogo inicial porque el clúster ya no puede usar hive_metastore como catálogo predeterminado.