Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
La copia rápida le ayuda a mover grandes cantidades de datos más rápido en Dataflow Gen2. Piense en ello como cambiar a un motor más eficaz cuando necesite controlar terabytes de datos.
Cuando trabaje con flujos de datos, primero debe ingerir datos y, después, transformarlos. Con el escalado horizontal del flujo de datos mediante el cómputo de SQL DW, puede transformar los datos a gran escala. La copia rápida gestiona la importación de datos al ofrecer una experiencia de flujo de datos sencilla junto con el potente backend de la actividad de copia en la canalización.
Así es como funciona: Después de habilitar la copia rápida, los flujos de datos cambian automáticamente al back-end más rápido cuando el tamaño de los datos supera un umbral determinado. No es necesario cambiar nada al compilar los flujos de datos. Una vez que se actualice el flujo de datos, puede comprobar el historial de actualizaciones de flujo de datos para determinar si se utilizó una copia rápida, observando el tipo de motor de procesamiento que aparece allí.
Si habilita la opción Requerir copia rápida , la actualización del flujo de datos se detiene si la copia rápida no se puede usar por algún motivo. Esto le ayuda a evitar esperar un límite de tiempo y puede ser útil al depurar. Puede usar los indicadores de copia rápida en el panel de pasos de consulta para comprobar si la consulta se puede ejecutar con copia rápida.
Prerequisites
Para poder usar una copia rápida, necesitará lo siguiente:
- Una capacidad de Tejido
- Para los datos de archivo: archivos CSV o Parquet que tienen al menos 100 MB y se almacenan en Azure Data Lake Storage (ADLS) Gen2 o Blob Storage
- Para las bases de datos (incluido Azure SQL DB y PostgreSQL): 5 millones de filas o más de datos en el origen de datos
Note
Puede omitir el umbral para forzar la copia rápida seleccionando la opción Requerir copia rápida .
Compatibilidad con conectores
La copia rápida funciona con estos conectores de Dataflow Gen2:
- ADLS Gen2
- Blob Storage
- Base de datos de Azure SQL
- Lakehouse
- PostgreSQL
- SQL Server en las instalaciones
- Warehouse
- Oracle
- Snowflake
- La base de datos SQL de Fabric
Limitaciones de transformación
Al conectarse a orígenes de archivos, la actividad de copia solo admite estas transformaciones:
- Combinar archivos
- Seleccionar columnas
- Cambiar tipos de datos
- Cambio del nombre de una columna
- Quitar una columna
Si necesita otras transformaciones, puede dividir el trabajo en consultas independientes. Cree una consulta para obtener los datos y otra consulta que haga referencia a la primera. De este modo, puede usar DW compute para las transformaciones.
En el caso de los orígenes SQL, cualquier transformación que forme parte de la consulta nativa funciona correctamente.
Destinos de salida
En este momento, la copia rápida solo admite la carga directamente en un destino de Lakehouse. Si desea usar un destino de salida diferente, puede almacenar provisionalmente la consulta en primer lugar y hacer referencia a ella en una consulta posterior con el destino preferido.
Cómo usar la copia rápida
Aquí se muestra cómo configurar y usar la copia rápida:
En Fabric, vaya a un área de trabajo Premium y cree un flujo de datos Gen2.
En la pestaña Inicio del nuevo flujo de datos, seleccione Opciones:
En el cuadro de diálogo Opciones , seleccione la pestaña Escala y active Permitir el uso de conectores de copia rápida. Cierre el cuadro de diálogo Opciones cuando haya terminado.
Seleccione Obtener datos, elija el origen de ADLS Gen2 y rellene los detalles del contenedor.
Seleccione el botón Combinar .
Para asegurarse de que la copia rápida funciona, solo aplique las transformaciones enumeradas en la sección Compatibilidad del conector . Si necesita otras transformaciones, almacene provisionalmente primero los datos y haga referencia a la consulta almacenada provisionalmente en una consulta posterior. Aplique las demás transformaciones a la consulta a la que se hace referencia.
(Opcional) Para requerir una copia rápida para la consulta, haga clic con el botón derecho en la consulta y seleccione Requerir copia rápida.
(Opcional) En este momento, solo puede configurar una instancia de Lakehouse como destino de salida. Para cualquier otro destino, almacene provisionalmente la consulta y haga referencia a ella más adelante en otra consulta en la que pueda generar una salida a cualquier origen.
Compruebe los indicadores de copia rápida para asegurarse de que la consulta se puede ejecutar con una copia rápida. Si es posible, el tipo Engine muestra CopyActivity.
Publicar el flujo de datos.
Una vez completada la actualización, compruebe que se usó la copia rápida.
Cómo dividir la consulta para usar la copia rápida
Al trabajar con grandes cantidades de datos, puede obtener el mejor rendimiento mediante la copia rápida para ingerir los datos inicialmente en una etapa de preparación y, a continuación, transformarlos a gran escala con el cómputo de SQL DW.
Los indicadores de copia rápida le ayudan a determinar cómo dividir su consulta en dos etapas: la ingestión de datos hacia el área de almacenamiento provisional y la transformación a gran escala con la computación de SQL DW. Intente trasladar la mayor parte posible de la evaluación de consultas a la copia rápida para la ingesta de datos. Cuando los indicadores de copia rápida muestran que los pasos restantes no se pueden ejecutar con copia rápida, puede dividir el resto de la consulta con el almacenamiento provisional habilitado.
Indicadores de diagnóstico por etapas
| Indicator | Icon | Description |
|---|---|---|
| Este paso se evaluará utilizando una copia rápida |
|
El indicador de copia rápida muestra que la consulta hasta este paso admite una copia rápida. |
| Este paso no es compatible con la copia rápida |
|
El indicador de copia rápida muestra que este paso no admite la copia rápida. |
| Una o más pasos de la consulta no son compatibles con la copia rápida |
|
El indicador de copia rápida muestra que algunos pasos de esta consulta admiten la copia rápida, mientras que otros no. Para optimizar, divida la consulta: pasos amarillos (posiblemente compatibles con la copia rápida) y pasos rojos (no compatibles). |
Instrucciones paso a paso
Después de completar la lógica de transformación de datos en Dataflow Gen2, el indicador de copia rápida evalúa cada paso para averiguar cuántos pasos pueden usar la copia rápida para mejorar el rendimiento.
En este ejemplo, el último paso muestra un ícono rojo, lo que significa que el paso Agrupar Por no es compatible con la copia rápida. Sin embargo, todos los pasos anteriores con iconos amarillos pueden ser compatibles con una copia rápida.
Si publica y ejecuta Dataflow Gen2 en este momento, no usará el motor de copia rápido para cargar los datos.
Para usar el motor de copia rápido y mejorar el rendimiento de Dataflow Gen2, puede dividir la consulta en dos partes: la ingesta de datos para el almacenamiento provisional y la transformación a gran escala con el proceso de SQL DW. A continuación se muestra cómo hacerlo:
Elimine las transformaciones que muestren iconos rojos (lo que significa que no son compatibles con la copia rápida) junto con el destino (si ha definido uno).
El indicador de copia rápida ahora muestra verde para los pasos restantes, lo que significa que la primera consulta puede usar una copia rápida para mejorar el rendimiento.
Haga clic con el botón derecho en la primera consulta, seleccione Habilitar almacenamiento provisional y haga clic con el botón derecho en la primera consulta de nuevo y seleccione Referencia.
En la nueva consulta a la que se hace referencia, agregue la transformación "Agrupar por" y el destino (si procede).
Publique y actualice el flujo de datos Gen2. Ahora tiene dos consultas en Dataflow Gen2, y la duración general es más corta.
La primera consulta ingiere datos en el almacenamiento provisional mediante una copia rápida.
La segunda consulta realiza transformaciones a gran escala mediante el proceso de SQL DW.
Los primeros detalles de la consulta:
Los detalles de la segunda consulta:
Limitaciones conocidas
Estas son las limitaciones actuales para la copia rápida:
- Necesita una puerta de enlace de datos local versión 3000.214.2 o posterior para admitir la copia rápida.
- No se admite el esquema fijo.
- No se admite el destino basado en esquemas