Compartir a través de


Uso del proceso con particiones en Dataflow Gen2 (versión preliminar)

Nota:

El cómputo particionado está actualmente en versión preliminar y solo está disponible en Dataflow Gen2 con CI/CD.

El proceso con particiones es una funcionalidad del motor de Dataflow Gen2 que permite que partes de la lógica de flujo de datos se ejecuten en paralelo, lo que reduce el tiempo para completar sus evaluaciones.

Escenarios donde los objetivos de cálculo están particionados en los que el motor de flujo de datos puede integrar eficazmente las operaciones que pueden particionar la fuente de datos y procesar cada partición en paralelo. Por ejemplo, en un escenario en el que te conectas a varios archivos almacenados en Azure Data Lake Storage Gen2, puedes particionar la lista de archivos de tu origen, recuperar eficazmente la lista particionada de archivos mediante el plegado de consultas, usar la experiencia de combinar archivos y procesar todos los archivos en paralelo.

Nota:

Solo los conectores para Azure Data Lake Storage Gen2, Fabric Lakehouse, Folder y Azure Blob Storage emiten el script correcto para usar el proceso con particiones. El conector para SharePoint no lo admite actualmente.

Cómo configurar la computación particionada

Para poder usar esta funcionalidad, debe:

Habilitación de la configuración del flujo de datos

Dentro de la pestaña Inicio de la cinta de opciones, seleccione el botón Opciones para mostrar su cuadro de diálogo. Vaya a la sección Escala y habilite la configuración con la opción Permitir el uso de cómputo particionado.

Captura de pantalla de la configuración de proceso con particiones dentro de la sección de escalado del cuadro de diálogo de opciones.

La habilitación de esta opción tiene dos propósitos:

  • Permite que Dataflow use el cómputo con particiones si se descubre a través de tus scripts de consulta.

  • Experiencias como la función de combinar archivos ahora crearán automáticamente claves de partición que se pueden usar para particiones computadas.

También debe habilitar la configuración en la sección Privacidad para Permitir la combinación de datos de varios orígenes.

Consulta con clave de partición

Nota:

Para usar cómputo particionado, asegúrese de que la consulta esté configurada para ser preparada.

Después de habilitar la configuración, puede usar la funcionalidad de combinar archivos para un origen de datos que use la vista del sistema de archivos, como en Azure Data Lake Storage Gen2. Cuando finalice la experiencia de combinación de archivos, observará que la consulta tiene un paso Agregado personalizado, que tiene un script similar al siguiente:

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Este script, y específicamente el withPartitionKey componente, impulsa la lógica sobre cómo el flujo de datos intenta particionar los datos y cómo intenta evaluar las cosas en paralelo.

Puede usar la función Table.PartitionKey en el paso Agregado personalizado. Esta función devuelve la clave de partición de la tabla especificada. Para el caso anterior, es la columna RelativePath. Puede obtener una lista distinta de los valores de esa columna para comprender todas las particiones que se usarán durante la ejecución del flujo de datos.

Importante

Es importante que la columna de clave de partición permanezca en la consulta para que se aplique la computación particionada.

Consideraciones y recomendaciones

  • En escenarios en los que el origen de datos no admite el plegado de las transformaciones de los archivos, se recomienda elegir cómputo particionado en lugar de una copia rápida.

  • Para obtener el mejor rendimiento, use este método para cargar datos directamente en el almacenamiento provisional como destino o en fabric Warehouse.

  • Utilice el archivo de transformación de ejemplo de la función Combinar archivos para introducir transformaciones que deben producirse en cada archivo.

  • La computación particionada solo es compatible con un subconjunto de transformaciones. El rendimiento puede variar en función del origen y del conjunto de transformaciones usadas.

  • La facturación de la ejecución del flujo de datos se basa en el consumo de unidad de capacidad (CU).