Compartir a través de


Tutorial: Configuración de bases de datos reflejadas de Microsoft Fabric desde Azure Databricks

La creación de reflejo de la base de datos en Microsoft Fabric es una tecnología empresarial, basada en la nube, cero ETL y SaaS. Esta guía le ayuda a establecer una base de datos reflejada de Azure Databricks, que crea una copia de solo lectura y replicada continuamente de los datos de Azure Databricks en OneLake.

Prerrequisitos

  • Debe habilitar el acceso a datos externos en el metastore. Para obtener más información, consulte Habilitación del acceso a datos externos en el metastore.
  • Cree o use un área de trabajo de Azure Databricks existente con el catálogo de Unity habilitado.
  • Debe tener el EXTERNAL USE SCHEMA privilegio en el esquema del catálogo de Unity que contiene las tablas a las que se tendrá acceso desde Fabric.
  • Debe usar el modelo de permisos de Fabric para establecer controles de acceso para catálogos, esquemas y tablas en Fabric.
  • Las áreas de trabajo de Azure Databricks no pueden estar detrás de un punto de conexión privado.

Creación de una base de datos reflejada desde Azure Databricks

Siga estos pasos para crear una nueva base de datos reflejada desde el catálogo de Unity de Azure Databricks.

  1. Navegue a https://powerbi.com.

  2. Seleccione + New (+ Nuevo ) y, a continuación, mirrored Azure Databricks catalog (Catálogo de Azure Databricks reflejado).

    Captura de pantalla del portal de Tejido de un nuevo elemento reflejado de Azure Databricks.

  3. Seleccione una conexión existente si tiene una configurada.

    • Si no tiene una conexión existente, cree una nueva conexión y escriba todos los detalles. Puede autenticarse en el área de trabajo de Azure Databricks mediante "Cuenta de organización" o "Entidad de servicio". Para crear una conexión, debe ser un usuario o un administrador del área de trabajo de Azure Databricks.
    • Para acceder a las cuentas de Azure Data Lake Storage (ADLS) Gen2 detrás de un firewall, debe seguir los pasos para habilitar el acceso de seguridad de red para la cuenta de Azure Data Lake Storage Gen2 más adelante en este artículo.
  4. Una vez que se conecte a un área de trabajo de Azure Databricks, en la página Elegir tablas de un catálogo de Databricks , podrá seleccionar el catálogo, los esquemas y las tablas a través de la lista de inclusión y exclusión que desea agregar y acceder desde Microsoft Fabric. Elija el catálogo y sus esquemas y tablas relacionados que quiera agregar al área de trabajo de Fabric.

    • Solo puede ver los catálogos, esquemas y tablas a los que tiene acceso según los privilegios que se les conceden según el modelo de privilegios descrito en Privilegios del catálogo de Unity y objetos protegibles.
    • De forma predeterminada, se habilita la sincronización automática de cambios futuros del catálogo para el esquema seleccionado . Para más información, consulte Creación de reflejo del catálogo de Unity de Azure Databricks.
    • Cuando haya realizado las selecciones, seleccione Siguiente.
  5. De forma predeterminada, el nombre del elemento será el nombre del catálogo que intenta agregar a Fabric. En la página Revisar y crear , puede revisar los detalles y, opcionalmente, cambiar el nombre del elemento de base de datos reflejado, que debe ser único en el área de trabajo. Selecciona Crear.

  6. También se crea un elemento de catálogo de Databricks y, para cada tabla, también se crea un acceso directo de tipo de Databricks correspondiente.

    • No se muestran los esquemas que no tienen ninguna tabla.
  7. También puede ver una vista previa de los datos al acceder a un acceso directo seleccionando el punto de conexión de SQL Analytics. Abra el elemento punto de conexión de SQL Analytics para iniciar la página Explorador y Editor de consultas. Puede consultar las tablas reflejadas de Azure Databricks con T-SQL en el Editor de SQL.

Creación de accesos directos de Lakehouse al elemento de catálogo de Databricks

También puede crear accesos directos desde Lakehouse al elemento de catálogo de Databricks para usar los datos de Lakehouse y usar Cuadernos de Spark.

  1. En primer lugar, creamos una casa de lago. Si ya tiene una instancia de Lakehouse en esta área de trabajo, puede usar una instancia de Lakehouse existente.
    1. Seleccione el área de trabajo en el menú de navegación.
    2. Seleccione + NewLakehouse (+ New >Lakehouse).
    3. Proporcione un nombre para lakehouse en el campo Nombre y seleccione Crear.
  2. En la vista Explorador de su instancia de Lakehouse, en el menú Obtener datos del lago , en Cargar datos en el lago, seleccione el botón Nuevo acceso directo .
  3. Seleccione Microsoft OneLake. Seleccione un catálogo. Este es el elemento de datos que creó en los pasos anteriores. Luego, selecciona Siguiente.
  4. Seleccione tablas en el esquema y seleccione Siguiente.
  5. Selecciona Crear.
  6. Los accesos directos ahora están disponibles en Lakehouse para usarlos con los demás datos de Lakehouse. También puede usar Cuadernos y Spark para realizar el procesamiento de datos en los datos de estas tablas de catálogo que agregó desde el área de trabajo de Azure Databricks.

Crear un modelo semántico

Puede crear un modelo semántico de Power BI basado en el elemento reflejado y agregar o quitar tablas manualmente. Para más información sobre cómo crear y administrar modelos semánticos, consulte Creación de un modelo semántico de Power BI.

Para obtener la mejor experiencia, se recomienda usar el explorador Microsoft Edge para tareas de modelado semántico.

Administración de las relaciones del modelo semántico

Una vez que haya creado un nuevo modelo semántico basado en la base de datos reflejada,

  1. Seleccione Diseños de modelo en el Explorador del área de trabajo.
  2. Una vez seleccionados los diseños de modelo, se le presenta un gráfico de las tablas que se incluyeron como parte del modelo semántico.
  3. Para crear relaciones entre tablas, arrastre un nombre de columna de una tabla a otro nombre de columna de otra tabla. Se presenta un elemento emergente para identificar la relación y la cardinalidad de las tablas.

Habilitación del acceso de seguridad de red para la cuenta de Azure Data Lake Storage Gen2

En esta sección se explica cómo configurar la seguridad de red para la cuenta de Azure Data Lake Storage (ADLS) Gen2, cuando se configura un firewall de Azure Storage

Prerrequisitos

  • Cree o use un área de trabajo de Azure Databricks existente con el catálogo de Unity habilitado.
  • Para habilitar el tipo de autenticación de identidad del área de trabajo (recomendado), el área de trabajo de Fabric debe estar asociada a cualquier capacidad de F. Para crear una identidad de área de trabajo, consulte Autenticación con identidad del área de trabajo.
  • Esta sección es para llegar a una cuenta de almacenamiento de Azure Data Lake Storage (ADLS) Gen2 detrás de un firewall de Azure Storage. No se admite el almacenamiento del área de trabajo de Azure Databricks detrás de un firewall de Azure Storage.
  • Un catálogo debe estar asociado a una sola cuenta de almacenamiento.

Habilitación del acceso a la seguridad de red

  1. Al crear un nuevo catálogo de Azure Databricks reflejado, en el paso Elegir datos , seleccione la pestaña Seguridad de red .

    Captura de pantalla de la pestaña Seguridad de red en Databricks.

  2. Seleccione una conexión existente a la cuenta de almacenamiento si tiene una configurada. 

    • Si no tiene una conexión ADLS existente, cree una nueva conexión.  
    • La dirección URL del punto de conexión de almacenamiento es donde se almacenan los datos del catálogo seleccionado. El punto de conexión debe ser la carpeta específica donde se almacenan los datos, en lugar de especificar el punto de conexión que debe estar en el nivel de cuenta de almacenamiento. Por ejemplo, proporcione https://<storage account>.dfs.core.windows.net/container1/folder1 en lugar de https://<storage account>.dfs.core.windows.net/.
    • Proporcione las credenciales de conexión. Los tipos de autenticación admitidos son cuenta organizativa, entidad de servicio e identidad del área de trabajo (recomendado).
  3. En Azure Portal, proporcione derechos de acceso a la cuenta de almacenamiento en función del tipo de autenticación que ha seleccionado en el paso anterior. Vaya a la cuenta de almacenamiento en Azure Portal. Seleccione Control de acceso (IAM) . Seleccione +Agregar y Agregar asignación de roles. Para más información, consulte Asignación de roles de Azure mediante Azure Portal.

    • Si especificó la cuenta de almacenamiento como parte de la conexión, el objeto de autenticación elegido debe tener el rol Lector de datos de Storage Blob en la cuenta de almacenamiento. 
    • Si especificó un contenedor específico como parte de la conexión, el objeto de autenticación elegido debe tener el rol Lector de datos de blobs de almacenamiento en el contenedor.  
    • Si especificó una carpeta específica dentro de un contenedor (recomendado), el objeto de autenticación elegido debe tener read (R) y Execute (E) en el nivel de carpeta. Si usa la entidad de servicio o la identidad del área de trabajo como tipo de autenticación, debe conceder permisos de ejecución de entidad de servicio o identidad del área de trabajo a la carpeta raíz del contenedor y a cada carpeta de la jerarquía de carpetas que conducen a la carpeta que especificó. 

    Para obtener más información y pasos para conceder acceso a ADLS, consulte Control de acceso de ADLS.

  4. Habilite el acceso al área de trabajo de confianza para acceder a las cuentas de Azure Data Lake Storage (ADLS) Gen2 habilitadas para firewall de forma segura. El acceso al área de trabajo de confianza requiere la creación de una conexión directamente a la cuenta de almacenamiento de ADLS que se puede usar independientemente de la conexión del área de trabajo de Azure Databricks. Para más información, consulte Bases de datos reflejadas de Secure Fabric desde Azure Databricks.

  5. Se crea un acceso directo a las tablas del catálogo de Unity para las tablas cuyo nombre de cuenta de almacenamiento coincide con la cuenta de almacenamiento especificada en la conexión de ADLS. En el caso de las tablas cuyo nombre de cuenta de almacenamiento no coincide con la cuenta de almacenamiento especificada en la conexión de ADLS, no se crearán accesos directos para esas tablas. 

Importante

Si planea usar la conexión de ADLS fuera de los escenarios de elementos de catálogo de Azure Databricks reflejados, también debe proporcionar el rol delegador de blobs de storage en la cuenta de almacenamiento.

Habilitación de la seguridad de OneLake en el elemento De Databricks reflejado

Asigne las directivas del Catálogo de Unity (UC) a la seguridad de Microsoft OneLake siguiendo estos pasos:

  1. Sincronice el grupo Entra y aplique permisos en el catálogo de Unity. En Azure Databricks, use Administración automática de identidades para sincronizar un grupo de identificadores de Entra de Microsoft y concederle los privilegios necesarios del catálogo de Unity, por ejemplo, USE, BROWSE, SELECT en el catálogo o las tablas pertinentes.
  2. Asigne un rol de acceso a datos de OneLake. En el área de trabajo Tejido, cree un rol de acceso a datos para los datos recién reflejados. Agregue el mismo grupo Entra a este rol y conceda acceso de lectura a los accesos directos de OneLake correspondientes a las tablas de Azure Databricks. Puede empezar a trabajar con la seguridad de nivel de tabla inmediatamente en el botón Administrar seguridad de OneLake de la cinta de opciones. Asegúrese de mantener sincronizadas las configuraciones de acceso a medida que evolucionan las estructuras de catálogo y los permisos. Para obtener más información, consulte el modelo de control de acceso a datos (versión preliminar) de OneLake.