Partager via


Transformations des fichiers raccourcis

Les transformations de raccourci convertissent les fichiers bruts (CSV, Parquet et JSON) en tables Delta qui restent toujours synchronisées avec les données sources. La transformation est exécutée par le calcul Fabric Spark, qui copie les données référencées par un raccourci OneLake dans une table Delta managée afin de ne pas avoir à générer et orchestrer des pipelines d’extraction, de transformation, de chargement (ETL) traditionnels vous-même. Avec la gestion automatique des schémas, les fonctionnalités d’aplatissement profond et la prise en charge de plusieurs formats de compression, les transformations de raccourci éliminent la complexité de la création et de la maintenance des pipelines ETL.

Note

Les transformations de raccourci sont actuellement en préversion publique et sont susceptibles de changer.

Pourquoi utiliser des transformations de raccourci ?

  • Aucun pipeline manuel : Fabric copie et convertit automatiquement les fichiers sources au format Delta ; vous n’avez pas besoin d’orchestrer les charges incrémentielles.
  • Actualisation fréquente : Fabric vérifie le raccourci toutes les 2 minutes et synchronise les modifications presque immédiatement.
  • Open &analytics-ready : la sortie est une table Delta Lake que n’importe quel moteur compatible Apache Spark peut interroger.
  • Gouvernance unifiée : le raccourci hérite de l'héritage OneLake, des autorisations et des stratégies Microsoft Purview.
  • Basé sur Spark : transformations adaptées à la mise à l'échelle.

Prerequisites

Requirement Details
Microsoft Fabric SKU Capacité ou essai qui prend en charge les charges de travail Lakehouse.
Données sources Dossier qui contient des fichiers CSV, Parquet ou JSON homogènes.
Rôle d’espace de travail Contributeur ou supérieur.

Sources, formats et destinations pris en charge

Toutes les sources de données prises en charge dans OneLake sont prises en charge.

Format de fichier source Destination Extensions prises en charge Types de compression pris en charge Remarques
CSV (UTF-8, UTF-16) Table Delta Lake dans le dossier Lakehouse / Tables .csv,.txt(délimiteur),.tsv(séparé par des tabulations),.psv(séparé par des tuyaux), .csv.gz,.csv.bz2 .csv.zip, .csv.snappy ne sont pas pris en charge à ce jour
Parquet Table Delta Lake dans le dossier Lakehouse / Tables .parquet .parquet.snappy,.parquet.gzip,.parquet.lz4,.parquet.brotli,.parquet.zstd
JSON Table Delta Lake dans le dossier Lakehouse / Tables .json,.jsonl,.ndjson .json.gz,.json.bz2,.jsonl.gz,.ndjson.gz,.jsonl.bz2,.ndjson.bz2 .json.zip, .json.snappy ne sont pas pris en charge à ce jour
  • La prise en charge des fichiers Excel fait partie de la feuille de route
  • Transformations IA disponibles pour prendre en charge les formats de fichiers non structurés (.txt, .doc, .docx) avec le cas d’usage Analyse de texte en direct avec d’autres améliorations à venir

Configurer une transformation de raccourci

  1. Dans votre lakehouse, sélectionnez Nouveau raccourci de table dans la section Tables, ce qui constitue la transformation de raccourci (aperçu), et choisissez votre source (par exemple, Azure Data Lake, Stockage Blob Azure, Dataverse, Amazon S3, GCP, SharePoint, OneDrive, etc.).

    Capture d’écran montrant la création de « raccourci de table ».

  2. Choisissez un fichier, configurez la transformation et créez un raccourci : accédez à un raccourci OneLake existant qui pointe vers le dossier avec vos fichiers CSV, configurez les paramètres et lancez la création.

    • Délimiteur dans les fichiers CSV : sélectionnez le caractère utilisé pour séparer les colonnes (virgule, point-virgule, canal, tabulation, ampersand, espace).
    • Première ligne en tant qu’en-têtes : indiquez si la première ligne contient des noms de colonnes.
    • Nom du raccourci de table : fournissez un nom convivial ; Fabric le crée sous /Tables.
  3. Suivez les actualisations et affichez les journaux pour garantir la transparence dans le hub de supervision Manage Shortcut.

Le calcul Fabric Spark copie les données dans une table Delta et affiche la progression dans le volet Gérer les raccourcis . Les transformations de raccourci sont disponibles dans les éléments Lakehouse. Ils créent des tables Delta Lake dans le dossier Lakehouse /Tables .

Fonctionnement de la synchronisation

Après le chargement initial, l'instance de calcul Fabric Spark :

  • Échantillonne la cible de raccourci toutes les 2 minutes.
  • Détecte les fichiers nouveaux ou modifiés et ajoute ou remplace les lignes en conséquence.
  • Détecte les fichiers supprimés et supprime les lignes correspondantes.

Superviser et dépanner

Les transformations de raccourci incluent la surveillance et la gestion des erreurs pour vous aider à suivre l’état d’ingestion et à diagnostiquer les problèmes.

  1. Ouvrez le lakehouse et cliquez avec le bouton droit sur le raccourci qui alimente votre transformation.
  2. Sélectionnez Gérer le raccourci.
  3. Dans le volet d’informations, vous pouvez afficher :
    • État : résultat de la dernière analyse et état de synchronisation actuel.
    • Historique des actualisations : liste chronologique des opérations de synchronisation avec le nombre de lignes et tous les détails d’erreur. Capture d’écran montrant « hub de surveillance » pour afficher l’état de la transformation.
  4. Consultez plus de détails dans les journaux pour résoudre les problèmes capture d’écran montrant comment accéder au « fichier journal ».

Note

Suspendre ou supprimer la transformation depuis cet onglet fait partie des fonctionnalités à venir de la feuille de route

Limites

Limitations actuelles des transformations de raccourci :

  • Seuls les formats de fichiers CSV, Parquet, JSON sont pris en charge.
  • Les fichiers doivent partager un schéma identique ; La dérive de schéma n’est pas encore prise en charge.
  • Les transformations sont optimisées en lecture ; Les instructions MERGE INTO ou DELETE directement sur la table sont bloquées.
  • Disponible uniquement dans les objets Lakehouse (pas dans les entrepôts ou les bases de données KQL).
  • Types de données non pris en charge pour CSV : Colonnes de type de données mixtes, Timestamp_Nanos, types logiques complexes - MAP/LIST/STRUCT, binaire brut
  • Type de données non supporté pour Parquet : Timestamp_nanos, Decimal avec INT32/INT64, INT96, types entiers non attribués - UINT_8/UINT_16/UINT_64, types logiques complexes - MAP/LIST/STRUCT)
  • Types de données non pris en charge pour JSON : Types de données mixtes dans un tableau, objets blob binaires bruts dans JSON, Timestamp_Nanos
  • Aplatissement du type de données d'array dans JSON : Le type de données d'array doit être conservé dans la table Delta, et les données sont accessibles avec Spark SQL et Pyspark, où des transformations supplémentaires via Fabric Materialized Lake Views peuvent être utilisées pour la couche Silver.
  • Format source : Seuls les fichiers CSV, JSON et Parquet sont pris en charge à ce jour.
  • Profondeur d’aplatissement au format JSON : les structures imbriquées sont aplates jusqu’à cinq niveaux de profondeur. L’imbrication plus approfondie nécessite le prétraitement.
  • Opérations d’écriture : les transformations sont optimisées en lecture ; les instructions MERGE INTO ou DELETE directes sur la table cible de transformation ne sont pas prises en charge.
  • Disponibilité de l’espace de travail : disponible uniquement dans les éléments Lakehouse (pas les entrepôts de données ou les bases de données KQL).
  • Cohérence du schéma de fichier : les fichiers doivent partager un schéma identique.

Note

L’ajout de la prise en charge de certains des éléments ci-dessus et à réduire les limitations fait partie de notre feuille de route. Suivez nos communications de publication pour obtenir d’autres mises à jour.

Nettoyage

Pour arrêter la synchronisation, supprimez la transformation de raccourci de l’interface utilisateur lakehouse.
La suppression de la transformation ne supprime pas les fichiers sous-jacents.