Compartir a través de


Actualización incremental para orígenes de datos de Data Lake Storage

La actualización incremental de las fuentes de datos basadas en Azure Data Lake Storage ofrece las siguientes ventajas:

  • Actualizaciones más rápidas - Solo se actualizan los datos que han cambiado. Por ejemplo, puede actualizar solo los últimos cinco días de un conjunto de datos histórico.
  • Mayor fiabilidad - Con actualizaciones más pequeñas, no necesita mantener conexiones a sistemas de origen volátiles durante tanto tiempo, lo que reduce el riesgo de problemas de conexión.
  • Reducción del consumo de recursos - Actualizar solo un subconjunto de sus datos totales brinda un uso más eficiente de los recursos informáticos y disminuye la huella ambiental.

Configurar la actualización incremental para orígenes de datos de Azure Data Lake Storage

Microsoft recomienda el formato Delta Lake para obtener el mejor rendimiento y resultados al trabajar con grandes conjuntos de datos. Customer Insights - Data ofrece un conector optimizado para datos formateados en Delta Lake. Los procesos internos, como la unificación, se optimizan para procesar incrementalmente solo los datos modificados, lo que resulta en tiempos de procesamiento más cortos.

Para usar la incorporación y actualización incrementales para una tabla de Data Lake, configure esa tabla cuando agregue o edite un origen de datos de Azure Data Lake. La carpeta de datos de la tabla debe contener las siguientes carpetas:

  • FullData: carpeta que debe tener archivos de datos que contengan registros iniciales
  • IncrementalData: carpeta con carpetas de jerarquía de fecha/hora en formato aaaa/mm/dd/hh que contiene las actualizaciones incrementales. Se espera que las carpetas de año, mes, día y hora tengan cuatro y dos dígitos respectivamente. hh representa la hora UTC de las actualizaciones y contiene las carpetas Upserts y Deletes carpetas. Upserts contiene archivos de datos con actualizaciones de registros existentes o registros nuevos. Deletes contiene archivos de datos con registros que se eliminarán.

Orden de procesamiento de datos incrementales

El sistema procesa los archivos en la carpeta IncrementalDatadespués de que finalice la hora UTC especificada. Por ejemplo, si el sistema comienza a procesar la actualización incremental el 21 de enero de 2023 a las 8:15 a. m., se procesan todos los archivos que están en la carpeta 2023/01/21/07 (que representa archivos de datos almacenados de 7 a. m. a 8 a. m.). Cualquier archivo en la carpeta 2023/01/21/08 (que representa la hora actual en la que aún se están generando los archivos) no se procesa hasta la siguiente ejecución.

Si hay dos registros para una clave principal, una inserción y una eliminación, Customer Insights - Data utiliza el registro con la última fecha de modificación. Por ejemplo, si la marca de tiempo de eliminación es 2023-01-21T08:00:00 y la marca de tiempo de inserción es 2023-01-21T08:30:00, utiliza el registro de inserción. Si la eliminación ocurrió después de la inserción, el sistema asume que el registro está eliminado.

Configurar la actualización incremental para orígenes de datos de Azure Data Lake

  1. Al agregar o editar un origen de datos, navegue hasta el panel Atributos para la tabla.

  2. Revisar los atributos. Asegúrese de que un atributo de fecha de creación o última actualización esté configurado con un Formato de datos dateTime y un Tipo semántico Calendar.Date. Edite el atributo si es necesario y seleccione Hecho.

  3. En el panel Seleccionar tablas, edite la tabla. La casilla de verificación Ingesta incremental está seleccionada.

    Configurar tablas en un origen de datos para actualización incremental.

    1. Busque la carpeta raíz que contiene los archivos .csv o .parquet para obtener datos completos, actualizaciones de datos incrementales y eliminaciones de datos incrementales.
    2. Introduzca la extensión para los datos completos y ambos archivos incrementales (.csv o .parquet).
    3. Para archivos .csv, seleccione el delimitador de columna y si desea que la primera fila del archivo sea un encabezado de columna.
    4. Seleccione Guardar.
  4. Para Última actualización, seleccione el atributo de fecha y hora.

  5. Si la Clave principal no está seleccionada, seleccione la clave principal. La clave principal es un atributo exclusivo de la tabla. Para que un atributo pueda ser una clave principal válida, no debe incluir valores duplicados, no deben faltar valores ni debe haber valores nulos. Los atributos de tipo de datos de cadena, entero y GUID se admiten como claves principales.

  6. Seleccione Cerrar para guardar y cerrar el panel.

  7. Continúe agregando o editando el origen de datos.

Ejecutar una única actualización completa para orígenes de datos de Azure Data Lake

Después de configurar una actualización incremental para orígenes de datos de Azure Data Lake, hay ocasiones en las que es necesario procesar los datos con una actualización completa. La carpeta de datos completos configurada para la actualización incremental debe contener la ubicación de los datos completos.

  1. Cuando edite el origen de datos, vaya al panel Seleccionar tablas y edite la tabla que desea actualizar.

  2. En el panel Editar tabla, desplácese hasta la casilla de verificación Ejecutar actualización completa única y selecciónela.

    Configurar tabla en un origen de datos para una actualización puntual.

  3. Para Procesar archivos incrementales desde, especifique la fecha y la hora para conservar los archivos incrementales. Esto inicia el procesamiento de los datos completos más los datos incrementales a partir de la fecha y hora especificadas. Por ejemplo, si desea realizar una actualización/reposición parcial de datos hasta finales de noviembre y conservar los datos incrementales desde principios de diciembre hasta hoy (30 de diciembre), ingrese el 1 de diciembre. Para reemplazar todos los datos e ignorar los datos en la carpeta incremental, especifique una fecha futura.

  4. Seleccione Cerrar para guardar y cerrar el panel.

  5. Seleccione Guardar para aplicar los cambios y volver a la página Orígenes de datos. El origen de datos está en estado Actualizando, realizando una actualización completa.