Partager via


Formats de données pris en charge par Azure Synapse Data Explorer pour l’ingestion (préversion)

Important

Azure Synapse Analytics Data Explorer (version préliminaire) sera retiré le 7 octobre 2025. Après cette date, les charges de travail exécutées sur Synapse Data Explorer seront supprimées et les données d’application associées seront perdues. Nous vous recommandons vivement de migrer vers Eventhouse dans Microsoft Fabric.

Le programme Microsoft Cloud Migration Factory (CMF) est conçu pour aider les clients à migrer vers Fabric. Le programme offre des ressources clavier pratiques sans coût pour le client. Ces ressources sont affectées pendant une période de 6 à 8 semaines, avec une étendue prédéfinie et acceptée. Les nominations des clients sont acceptées par l’équipe de compte Microsoft ou directement en envoyant une demande d’aide à l’équipe CMF.

L’ingestion des données est le processus par lequel les données sont ajoutées à une table et sont disponibles pour la requête dans l’Explorateur de données. Pour toutes les méthodes d’ingestion autres que l’ingestion à partir d’une requête, les données doivent être dans l’un des formats pris en charge. Le tableau suivant répertorie et décrit les formats pris en charge par l’Explorateur de données pour l’ingestion de données.

Note

Avant d’ingérer des données, vérifiez que celles-ci sont correctement mises en forme et qu’elles définissent les champs attendus. Nous vous recommandons d’utiliser votre validateur habituel pour vérifier que le format est valide. Par exemple, vous pouvez trouver les validateurs suivants utiles pour la vérification des fichiers CSV ou JSON :

Pour plus d’informations sur la raison pour laquelle l’ingestion peut échouer, consultez échecs d’ingestion et codes d’erreur d’ingestion dans l’Explorateur de données.

Format Extension Descriptif
ApacheAvro .avro Format AVRO avec prise en charge des types logiques. Les codecs de compression suivants sont pris en charge : null, deflate et snappy. L’implémentation du lecteur du format apacheavro est basée sur la apacheavro officielle.
Avro .avro Implémentation héritée du format AVRO basée sur la bibliothèque .NET. Les codecs de compression suivants sont pris en charge : null, deflate (pour snappy, utilisez le format de données ApacheAvro).
CSV .csv Fichier texte avec des valeurs séparées par des virgules (,). Consultez RFC 4180 : Common Format and MIME Type for Comma-Separated Values (CSV) Files.
JSON .json Fichier texte avec des objets JSON délimités par \n ou \r\n. Consultez JSON Lines (JSONL).
MultiJSON .multijson Fichier texte avec un tableau JSON de sacs de propriétés (chacun représentant un enregistrement) ou un nombre quelconque de sacs de propriétés délimités par des espaces blancs ou \n\r\n. Chaque conteneur de propriétés peut être réparti sur plusieurs lignes. Ce format est préféré à JSON, sauf si les données ne sont pas des sacs de propriétés.
ORC .orc Fichier ORC.
Parquet .parquet Fichier Parquet.
PSV .psv Fichier texte avec des valeurs séparées par des barres verticales (|).
RAW .raw Fichier texte dont le contenu entier est une valeur de chaîne unique.
SCsv .scsv Fichier texte avec des valeurs séparées par des points-virgules (;).
SOHsv .sohsv Fichier texte avec des valeurs séparées par SOH. (SOH est le point de code ASCII 1 ; ce format est utilisé par Hive sur HDInsight.)
TSV .tsv Fichier texte avec des valeurs séparées par des tabulations (\t).
TSVE .tsv Fichier texte avec des valeurs séparées par des tabulations (\t). Une barre oblique inverse (\) est utilisée pour l’échappement.
TXT .txt Fichier texte dont les lignes sont délimitées par \n. Les lignes vides sont ignorées.
W3CLOGFILE .log Format du fichier journal web standardisé par le W3C.

Formats de compression de données pris en charge

Les objets blob et les fichiers peuvent être compressés par l’un des algorithmes de compression suivants :

Compression Extension
GZip .gz
Code postal .zip

Indiquez la compression en ajoutant l’extension au nom de l’objet blob ou du fichier.

Par exemple:

  • MyData.csv.zip indique un objet blob ou un fichier au format CSV, compressé avec ZIP (archive ou fichier unique)
  • MyData.json.gz indique un objet blob ou un fichier au format JSON, compressé avec GZip.

Les noms d’objets blob ou de fichiers qui n’incluent pas les extensions de format mais simplement la compression (par exemple, MyData.zip) sont également pris en charge. Dans ce cas, le format de fichier doit être spécifié en tant que propriété d’ingestion, car il ne peut pas être déduit.

Note

  • Certains formats de compression assurent le suivi de l’extension de fichier d’origine dans le cadre du flux compressé. Cette extension est généralement ignorée lors du processus de vérification du format de fichier. S’il n’est pas possible de déterminer le format de fichier à partir du nom de l’objet blob ou du fichier (compressé), vous devez le spécifier par le biais de la propriété d’ingestion format.
  • Il ne faut pas confondre avec le codec de compression interne (niveau de bloc) employé par les formats Parquet, AVRO et ORC. Le nom de la compression interne est généralement ajouté à un nom de fichier avant l’extension de format de fichier, par exemple file1.gz.parquet, file1.snappy.avro, etc.

Étapes suivantes