Compartir a través de


¿Cuál es la estructura de almacenamiento para los flujos de datos analíticos?

Los flujos de datos analíticos almacenan datos y metadatos en Azure Data Lake Storage. Los flujos de datos usan una estructura estándar para almacenar y describir los datos creados en el lago, que se denominan carpetas de Common Data Model. En este artículo, obtendrá más información sobre el estándar de almacenamiento que usan los flujos de datos en segundo plano.

El almacenamiento necesita una estructura para un flujo de datos analítico

Si el flujo de datos es estándar, los datos se almacenan en Dataverse. Dataverse es como un sistema de base de datos; tiene el concepto de tablas, vistas, etc. Dataverse es una opción de almacenamiento de datos estructurado que usan los flujos de datos estándar.

Sin embargo, cuando el flujo de datos es analítico, los datos se almacenan en Azure Data Lake Storage. Los datos y metadatos de un flujo de datos se almacenan en una carpeta Common Data Model. Dado que una cuenta de almacenamiento puede tener varios flujos de datos almacenados en él, se introduce una jerarquía de carpetas y subcarpetas para ayudar a organizar los datos. Según el producto en el que se creó el flujo de datos, las carpetas y subcarpetas podrían representar áreas de trabajo (o entornos) y, a continuación, la carpeta Common Data Model del flujo de datos. Dentro de la carpeta Common Data Model, se almacenan tanto el esquema como los datos de las tablas de flujo de datos. Esta estructura sigue los estándares definidos para Common Data Model.

Diagrama de un flujo de datos analítico que almacena los datos en la estructura common Data Model.

¿Qué es la estructura de almacenamiento de Common Data Model?

Common Data Model es una estructura de metadatos definida para aportar conformidad y coherencia para el uso de datos en varias plataformas. Common Data Model no es almacenamiento de datos, es la forma en que se almacenan y definen los datos.

Las carpetas de Common Data Model definen cómo se debe almacenar el esquema de una tabla y sus datos. En Azure Data Lake Storage, los datos se organizan en carpetas. Las carpetas pueden representar un área de trabajo o un entorno. En esas carpetas, se crean subcarpetas para cada flujo de datos.

Captura de pantalla de la estructura de carpetas del área de trabajo.

¿Qué hay en una carpeta de flujo de datos?

Cada carpeta de flujo de datos contiene una subcarpeta para cada tabla y un archivo de metadatos denominado model.json.

Diagrama de la carpeta Common Data Model con subcarpetas para cada tabla y archivos de datos.

El archivo de metadatos: model.json

El model.json archivo es la definición de metadatos del flujo de datos. Este archivo es el que contiene todos los metadatos del flujo de datos. Incluye una lista de tablas, las columnas y sus tipos de datos en cada tabla, la relación entre tablas, etc. Puede exportar este archivo desde un flujo de datos fácilmente, incluso si no tiene acceso a la estructura de carpetas de Common Data Model.

Captura de pantalla de una lista de flujos de datos que muestra cómo exportar el archivo model.json desde un flujo de datos.

Puede usar este archivo JSON para migrar (o importar) el flujo de datos a otra área de trabajo o entorno.

Captura de pantalla de la página de creación del flujo de datos con la selección Importar modelo resaltada.

Para obtener información exacta sobre lo que incluye el archivo de metadatos de model.json, vaya al archivo de metadatos (model.json) para Common Data Model.

Archivos de datos

Además del archivo de metadatos, la carpeta de flujo de datos incluye otras subcarpetas. Un flujo de datos almacena los datos de cada tabla en una subcarpeta cuyo nombre es el de la tabla. Los datos de una tabla pueden dividirse en varias particiones de datos, almacenadas en formato CSV.

Cómo ver o acceder a carpetas de Common Data Model

Si usa flujos de datos que usan el almacenamiento proporcionado por el producto en el que se crearon, no tiene acceso a esas carpetas directamente. En tales casos, la obtención de datos de los flujos de datos requiere usar el conector de flujo de datos de Microsoft Power Platform disponible en la experiencia Obtener datos en el servicio Power BI, Power Apps y productos de Dynamics 35 Customer Insights, o en Power BI Desktop.

Captura de pantalla de la página Elegir origen de datos con el conector de flujos de datos de Power Platform resaltado.

Para obtener información sobre cómo funcionan los flujos de datos y la integración interna de Data Lake Storage, vaya a Flujos de datos e integración de Azure Data Lake (versión preliminar).

Si su organización habilitó flujos de datos para aprovechar la cuenta de almacenamiento de Data Lake y se seleccionó como destino de carga para los flujos de datos, todavía puede obtener datos del flujo de datos usando el conector de flujo de datos de Power Platform como se mencionó anteriormente. Pero también puede acceder a la carpeta Common Data Model del flujo de datos directamente a través del lago, incluso fuera de las herramientas y servicios de Power Platform. El acceso al lago es posible a través de Azure Portal, el Explorador de Microsoft Azure Storage o cualquier otro servicio o experiencia que admita Azure Data Lake Storage. Para obtener más información, vaya a Conectar Azure Data Lake Storage Gen2 para almacenamiento para flujos de datos.