Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Las transformaciones de acceso directo convierten archivos sin procesar (CSV, Parquet y JSON) en tablas Delta que permanecen siempre sincronizadas con los datos de origen. La transformación es ejecutada por Fabric Spark compute, que copia los datos a los que hace referencia un acceso directo de OneLake en una tabla Delta administrada, por lo que no tiene que desarrollar y orquestar canalizaciones tradicionales de extracción, transformación y carga (ETL) usted mismo. Con el manejo automático de esquemas, capacidades de aplanamiento profundo y compatibilidad con diversos formatos de compresión, las transformaciones rápidas eliminan la complejidad de crear y mantener canalizaciones ETL.
Note
Las transformaciones de acceso directo se encuentran actualmente en versión preliminar pública y están sujetas a cambios.
¿Por qué usar transformaciones de atajos?
- Sin canalizaciones manuales : Fabric copia y convierte automáticamente los archivos de origen en formato Delta; No es necesario organizar las cargas incrementales.
- Actualización frecuente : Fabric comprueba el acceso directo cada 2 minutos y sincroniza los cambios casi inmediatamente.
- Abierto y listo para análisis : la salida es una tabla de Delta Lake que cualquier motor compatible con Apache Spark puede consultar.
- Gobernanza unificada : el acceso directo hereda el linaje, los permisos y las directivas de Microsoft Purview.
- Basado en Spark – transforma la compilación para escalar.
Prerequisites
| Requirement | Details |
|---|---|
| Microsoft Fabric Código de Producto | Capacidad o prueba que admite cargas de trabajo de Lakehouse. |
| Datos de origen | Carpeta que contiene archivos CSV, Parquet o JSON homogéneos. |
| Rol de área de trabajo | Colaborador o superior. |
Orígenes, formatos y destinos admitidos
Se admiten todos los orígenes de datos admitidos en OneLake.
| Formato de archivo de origen | Destino | Extensiones admitidas | Tipos de compresión admitidos | Notas |
|---|---|---|---|---|
| CSV (UTF-8, UTF-16) | Tabla de Delta Lake en la carpeta Lakehouse/Tables | .csv, .txt(separado por delimitador), .tsv(separado por tabulaciones), .psv(separado por barras verticales) | .csv.gz,.csv.bz2 | A partir de la fecha, .csv.zip y .csv.snappy no son compatibles. |
| Parquet | Tabla de Delta Lake en la carpeta Lakehouse/Tables | .parquet | .parquet.snappy,.parquet.gzip,.parquet.lz4,.parquet.brotli,.parquet.zstd | |
| JSON | Tabla de Delta Lake en la carpeta Lakehouse/Tables | .json,.jsonl,.ndjson | .json.gz,.json.bz2,.jsonl.gz,.ndjson.gz,.jsonl.bz2,.ndjson.bz2 | .json.zip, .json.snappy no son compatibles hasta la fecha |
- La compatibilidad con archivos de Excel forma parte de la hoja de ruta
- Transformaciones de IA disponibles para admitir formatos de archivo no estructurados (.txt, .doc, .docx) con el caso de uso de Text Analytics en funcionamiento y con más mejoras por venir.
Configurar una transformación de acceso directo
En tu lakehouse, seleccione Nuevo acceso directo de tabla en la sección Tablas, que es la transformación de acceso directo (vista previa) y elija su origen de datos (por ejemplo, Azure Data Lake, Azure Blob Storage, Dataverse, Amazon S3, GCP, SharePoint, OneDrive, etc.).
Elegir archivo, Configurar transformación y crear acceso directo : vaya a un acceso directo de OneLake existente que apunte a la carpeta con los archivos CSV, configure los parámetros e inicie la creación.
- Delimitador en archivos CSV: seleccione el carácter usado para separar columnas (coma, punto y coma, canalización, tabulación, ampersand, espacio).
- Primera fila como encabezados : indique si la primera fila contiene nombres de columna.
- Nombre del método abreviado de tabla : proporcione un nombre descriptivo; Fabric lo crea en /Tables.
Haga un seguimiento de las actualizaciones y vea los registros para mayor transparencia en Administrar el centro de supervisión de acceso directo.
El cómputo de Fabric Spark copia los datos en una tabla Delta y muestra el progreso en el panel Administrar acceso directo. Las transformaciones rápidas están disponibles en elementos de Lakehouse. Crean tablas de Delta Lake en la carpeta Lakehouse/Tables .
Funcionamiento de la sincronización
Después de la carga inicial, Fabric Spark compute:
- Sondea el destino del acceso directo cada 2 minutos.
- Detecta archivos nuevos o modificados y anexa o sobrescribe filas en consecuencia.
- Detecta los archivos eliminados y quita las filas correspondientes.
Supervisión y solución de problemas
Las transformaciones de atajos incluyen supervisión y manejo de errores para ayudarle a seguir el estado de la ingestión de datos y diagnosticar problemas.
- Abra el lakehouse y haga clic con el botón derecho en el acceso directo que impulsa la transformación.
- Seleccione Administrar acceso directo.
- En el panel de detalles, puede ver:
- Estado : último resultado del examen y estado de sincronización actual.
-
Historial de actualizaciones : lista cronológica de operaciones de sincronización con recuentos de filas y detalles de errores.
- Vea más detalles en los registros para solucionar problemas
Note
Pausar o eliminar la transformación de esta pestaña es una característica próxima que forma parte de la hoja de ruta.
Limitaciones
Limitaciones actuales de las transformaciones de atajos:
- Solo se admiten formatos de archivo CSV, Parquet y JSON .
- Los archivos deben compartir un esquema idéntico; todavía no se admite el desfase de esquema.
- Las transformaciones están optimizadas para lectura; las instrucciones MERGE INTO o DELETE directamente en la tabla están bloqueadas.
- Disponible solo en elementos de Lakehouse (no almacenes ni bases de datos KQL).
- Tipos de datos no admitidos para CSV: Columnas de tipo de datos mixtos, Timestamp_Nanos, Tipos lógicos complejos: MAP/LIST/STRUCT, binario sin formato
- Tipos de datos no admitidos para Parquet: Timestamp_nanos, Decimal con INT32/INT64, INT96, tipos enteros sin asignar - UINT_8/UINT_16/UINT_64, tipos lógicos complejos - MAP/LIST/STRUCT
- Tipos de datos no admitidos para JSON: Tipos de datos mixtos en una matriz, blobs binarios sin formato dentro de JSON, Timestamp_Nanos
- Aplanamiento del tipo de datos Array en JSON: El tipo de datos Array se conservará en la delta table y los datos serán accesibles con Spark SQL & Pyspark, donde para otras transformaciones se podrían usar las Fabric Materialized Lake Views para la silver layer.
- Formato de origen: solo se admiten archivos CSV, JSON y Parquet a partir de la fecha.
- Profundidad de aplanamiento en JSON: las estructuras anidadas se aplanan hasta cinco niveles de profundidad. El anidamiento más profundo requiere preprocesamiento.
- Operaciones de escritura: las transformaciones están optimizadas para lectura; No se admiten instrucciones DIRECT MERGE INTO o DELETE en la tabla de destino de transformación.
- Disponibilidad del área de trabajo: disponible solo en elementos de Lakehouse (no en almacenes de datos ni bases de datos KQL).
- Coherencia del esquema de archivo: los archivos deben compartir un esquema idéntico.
Note
Agregar compatibilidad con algunas de las características mencionadas y reducir las limitaciones es parte de nuestra hoja de ruta. Realice un seguimiento de nuestras comunicaciones de lanzamiento para obtener más actualizaciones adicionales.
Limpieza
Para detener la sincronización, elimine la transformación de acceso directo de la interfaz de usuario de Lakehouse.
Al eliminar la transformación no se quitan los archivos subyacentes.