Compartir a través de


Copia rápida en Dataflow Gen2

La copia rápida le ayuda a mover grandes cantidades de datos más rápido en Dataflow Gen2. Piense en ello como cambiar a un motor más eficaz cuando necesite controlar terabytes de datos.

Cuando trabaje con flujos de datos, primero debe ingerir datos y, después, transformarlos. Con el escalado horizontal del flujo de datos mediante el cómputo de SQL DW, puede transformar los datos a gran escala. La copia rápida gestiona la importación de datos al ofrecer una experiencia de flujo de datos sencilla junto con el potente backend de la actividad de copia en la canalización.

Así es como funciona: Después de habilitar la copia rápida, los flujos de datos cambian automáticamente al back-end más rápido cuando el tamaño de los datos supera un umbral determinado. No es necesario cambiar nada al compilar los flujos de datos. Una vez que se actualice el flujo de datos, puede comprobar el historial de actualizaciones de flujo de datos para determinar si se utilizó una copia rápida, observando el tipo de motor de procesamiento que aparece allí.

Si habilita la opción Requerir copia rápida , la actualización del flujo de datos se detiene si la copia rápida no se puede usar por algún motivo. Esto le ayuda a evitar esperar un límite de tiempo y puede ser útil al depurar. Puede usar los indicadores de copia rápida en el panel de pasos de consulta para comprobar si la consulta se puede ejecutar con copia rápida.

Captura de pantalla que muestra dónde aparece el indicador de copia rápida en el panel de pasos de consulta.

Prerequisites

Para poder usar una copia rápida, necesitará lo siguiente:

  • Una capacidad de Tejido
  • Para los datos de archivo: archivos CSV o Parquet que tienen al menos 100 MB y se almacenan en Azure Data Lake Storage (ADLS) Gen2 o Blob Storage
  • Para las bases de datos (incluido Azure SQL DB y PostgreSQL): 5 millones de filas o más de datos en el origen de datos

Note

Puede omitir el umbral para forzar la copia rápida seleccionando la opción Requerir copia rápida .

Compatibilidad con conectores

La copia rápida funciona con estos conectores de Dataflow Gen2:

  • ADLS Gen2
  • Blob Storage
  • Base de datos de Azure SQL
  • Lakehouse
  • PostgreSQL
  • SQL Server en las instalaciones
  • Warehouse
  • Oracle
  • Snowflake
  • La base de datos SQL de Fabric

Limitaciones de transformación

Al conectarse a orígenes de archivos, la actividad de copia solo admite estas transformaciones:

  • Combinar archivos
  • Seleccionar columnas
  • Cambiar tipos de datos
  • Cambio del nombre de una columna
  • Quitar una columna

Si necesita otras transformaciones, puede dividir el trabajo en consultas independientes. Cree una consulta para obtener los datos y otra consulta que haga referencia a la primera. De este modo, puede usar DW compute para las transformaciones.

En el caso de los orígenes SQL, cualquier transformación que forme parte de la consulta nativa funciona correctamente.

Destinos de salida

En este momento, la copia rápida solo admite la carga directamente en un destino de Lakehouse. Si desea usar un destino de salida diferente, puede almacenar provisionalmente la consulta en primer lugar y hacer referencia a ella en una consulta posterior con el destino preferido.

Cómo usar la copia rápida

Aquí se muestra cómo configurar y usar la copia rápida:

  1. En Fabric, vaya a un área de trabajo Premium y cree un flujo de datos Gen2.

  2. En la pestaña Inicio del nuevo flujo de datos, seleccione Opciones:

    Captura de pantalla que muestra dónde seleccionar las opciones de Dataflow Gen2 en la pestaña Inicio.

  3. En el cuadro de diálogo Opciones , seleccione la pestaña Escala y active Permitir el uso de conectores de copia rápida. Cierre el cuadro de diálogo Opciones cuando haya terminado.

    Captura de pantalla que muestra dónde habilitar la copia rápida en la pestaña Escala del cuadro de diálogo Opciones.

  4. Seleccione Obtener datos, elija el origen de ADLS Gen2 y rellene los detalles del contenedor.

  5. Seleccione el botón Combinar .

    Captura de pantalla que muestra la ventana Vista previa de los datos de la carpeta con la opción Combinar resaltada.

  6. Para asegurarse de que la copia rápida funciona, solo aplique las transformaciones enumeradas en la sección Compatibilidad del conector . Si necesita otras transformaciones, almacene provisionalmente primero los datos y haga referencia a la consulta almacenada provisionalmente en una consulta posterior. Aplique las demás transformaciones a la consulta a la que se hace referencia.

  7. (Opcional) Para requerir una copia rápida para la consulta, haga clic con el botón derecho en la consulta y seleccione Requerir copia rápida.

    Captura de pantalla que muestra dónde seleccionar la opción Requerir copia rápida en el menú contextual de una consulta.

  8. (Opcional) En este momento, solo puede configurar una instancia de Lakehouse como destino de salida. Para cualquier otro destino, almacene provisionalmente la consulta y haga referencia a ella más adelante en otra consulta en la que pueda generar una salida a cualquier origen.

  9. Compruebe los indicadores de copia rápida para asegurarse de que la consulta se puede ejecutar con una copia rápida. Si es posible, el tipo Engine muestra CopyActivity.

    Captura de pantalla que muestra los detalles de la actualización que indican que se ha usado el motor CopyActivity de pipeline.

  10. Publicar el flujo de datos.

  11. Una vez completada la actualización, compruebe que se usó la copia rápida.

Cómo dividir la consulta para usar la copia rápida

Al trabajar con grandes cantidades de datos, puede obtener el mejor rendimiento mediante la copia rápida para ingerir los datos inicialmente en una etapa de preparación y, a continuación, transformarlos a gran escala con el cómputo de SQL DW.

Los indicadores de copia rápida le ayudan a determinar cómo dividir su consulta en dos etapas: la ingestión de datos hacia el área de almacenamiento provisional y la transformación a gran escala con la computación de SQL DW. Intente trasladar la mayor parte posible de la evaluación de consultas a la copia rápida para la ingesta de datos. Cuando los indicadores de copia rápida muestran que los pasos restantes no se pueden ejecutar con copia rápida, puede dividir el resto de la consulta con el almacenamiento provisional habilitado.

Indicadores de diagnóstico por etapas

Indicator Icon Description
Este paso se evaluará utilizando una copia rápida El indicador de copia rápida muestra que la consulta hasta este paso admite una copia rápida.
Este paso no es compatible con la copia rápida El indicador de copia rápida muestra que este paso no admite la copia rápida.
Una o más pasos de la consulta no son compatibles con la copia rápida El indicador de copia rápida muestra que algunos pasos de esta consulta admiten la copia rápida, mientras que otros no. Para optimizar, divida la consulta: pasos amarillos (posiblemente compatibles con la copia rápida) y pasos rojos (no compatibles).

Instrucciones paso a paso

Después de completar la lógica de transformación de datos en Dataflow Gen2, el indicador de copia rápida evalúa cada paso para averiguar cuántos pasos pueden usar la copia rápida para mejorar el rendimiento.

En este ejemplo, el último paso muestra un ícono rojo, lo que significa que el paso Agrupar Por no es compatible con la copia rápida. Sin embargo, todos los pasos anteriores con iconos amarillos pueden ser compatibles con una copia rápida.

Captura de pantalla que muestra el contenido de la primera consulta con el último paso en rojo.

Si publica y ejecuta Dataflow Gen2 en este momento, no usará el motor de copia rápido para cargar los datos.

Captura de pantalla que muestra el resultado de la consulta sin una copia rápida habilitada.

Para usar el motor de copia rápido y mejorar el rendimiento de Dataflow Gen2, puede dividir la consulta en dos partes: la ingesta de datos para el almacenamiento provisional y la transformación a gran escala con el proceso de SQL DW. A continuación se muestra cómo hacerlo:

  1. Elimine las transformaciones que muestren iconos rojos (lo que significa que no son compatibles con la copia rápida) junto con el destino (si ha definido uno).

    Captura de pantalla que muestra la primera consulta, donde eliminó los pasos que no admiten la copia rápida.

  2. El indicador de copia rápida ahora muestra verde para los pasos restantes, lo que significa que la primera consulta puede usar una copia rápida para mejorar el rendimiento.

    Haga clic con el botón derecho en la primera consulta, seleccione Habilitar almacenamiento provisional y haga clic con el botón derecho en la primera consulta de nuevo y seleccione Referencia.

    Captura de pantalla que muestra las selecciones necesarias para hacer referencia a la consulta de copia rápida con una segunda consulta.

  3. En la nueva consulta a la que se hace referencia, agregue la transformación "Agrupar por" y el destino (si procede).

  4. Publique y actualice el flujo de datos Gen2. Ahora tiene dos consultas en Dataflow Gen2, y la duración general es más corta.

    • La primera consulta ingiere datos en el almacenamiento provisional mediante una copia rápida.

    • La segunda consulta realiza transformaciones a gran escala mediante el proceso de SQL DW.

      Captura de pantalla de los detalles del estado de ejecución que muestra los resultados de la consulta.

    Los primeros detalles de la consulta:

    Captura de pantalla que muestra los resultados de la ingesta de datos.

    Los detalles de la segunda consulta:

    Captura de pantalla que muestra los resultados de los pasos de transformación.

Limitaciones conocidas

Estas son las limitaciones actuales para la copia rápida:

  • Necesita una puerta de enlace de datos local versión 3000.214.2 o posterior para admitir la copia rápida.
  • No se admite el esquema fijo.
  • No se admite el destino basado en esquemas