Partilhar via


Formatos de dados suportados pelo Azure Synapse Data Explorer para ingestão (Preview)

Importante

O Azure Synapse Analytics Data Explorer (Visualização) será desativado em 7 de outubro de 2025. Após essa data, as cargas de trabalho em execução no Synapse Data Explorer serão excluídas e os dados do aplicativo associados serão perdidos. É altamente recomendável migrar para o Eventhouse no Microsoft Fabric.

O programa Microsoft Cloud Migration Factory (CMF) foi projetado para ajudar os clientes na migração para o Fabric. O programa oferece recursos práticos de teclado sem nenhum custo para o cliente. Estes recursos são atribuídos por um período de 6-8 semanas, com um âmbito pré-definido e acordado. As nomeações de clientes são aceites pela equipa da conta Microsoft ou diretamente através do envio de um pedido de ajuda à equipa CMF.

A ingestão de dados é o processo pelo qual os dados são adicionados a uma tabela e disponibilizados para consulta no Explorador de Dados. Para todos os métodos de ingestão, exceto ingest-from-query, os dados devem estar em um dos formatos suportados. A tabela seguinte lista e descreve os formatos que o Data Explorer suporta para a ingestão de dados.

Observação

Antes de ingerir dados, certifique-se de que os dados estão formatados corretamente e define os campos esperados. Recomendamos usar o seu validador preferido para confirmar que o formato é válido. Por exemplo, você pode achar os seguintes validadores úteis para verificar arquivos CSV ou JSON:

Para mais informações sobre porque a ingestão pode falhar, consulte Falhas de ingestão e códigos de erro de ingestão no Data Explorer.

Formato Extension Description
ApacheAvro .avro Um formato AVRO com suporte para tipos lógicos. Os seguintes codecs de compressão são suportados: null, deflatee snappy. A implementação do apacheavro formato pelo leitor é baseada na biblioteca oficial Apache Avro.
Avro .avro Uma implementação herdada para o formato AVRO baseado na biblioteca .NET. Os seguintes codecs de compressão são suportados: null, deflate (for snappy - use ApacheAvro o formato de dados).
CSV .csv Um arquivo de texto com valores separados por vírgulas (,). Consulte RFC 4180: Common Format and MIME Type for Comma-Separated Values (CSV) Files.
JSON .json Um arquivo de texto com objetos JSON delimitados por \n ou \r\n. Consulte Linhas JSON (JSONL).
MultiJSON .multijson Um ficheiro de texto com um array JSON de conjuntos de propriedades (cada um representando um registo), ou qualquer número de conjuntos de propriedades delimitados por espaços em branco, \n ou \r\n. Cada saco de propriedade pode ser espalhado em várias linhas. Este formato é preferido a JSON, a menos que os dados não sejam 'property bags'.
ORC .orc Um arquivo ORC.
Parquet .parquet Um arquivo Parquet.
PSV .psv Um arquivo de texto com valores separados por pipe (|).
RAW .raw Um arquivo de texto cujo conteúdo inteiro é um único valor de cadeia de caracteres.
SCsv .scsv Um arquivo de texto com valores separados por ponto-e-vírgula (;).
SOHsv .sohsv Um arquivo de texto com valores separados por SOH. (SOH é o ponto de código ASCII 1; este formato é usado pelo Hive no HDInsight.)
TSV .tsv Um arquivo de texto com valores separados por tabulações (\t).
TSVE .tsv Um arquivo de texto com valores separados por tabulações (\t). Um caractere de barra invertida (\) é usado para escapar.
TXT .txt Um arquivo de texto com linhas delimitadas por \n. Linhas vazias são ignoradas.
W3CLOGFILE .log Formato de arquivo de log da Web padronizado pelo W3C.

Formatos de compressão de dados suportados

Blobs e arquivos podem ser compactados através de qualquer um dos seguintes algoritmos de compactação:

Compression Extension
GZip .gz
Código Postal .zip

Indique a compactação anexando a extensão ao nome do blob ou arquivo.

Por exemplo:

  • MyData.csv.zip indica um blob ou um ficheiro formatado como CSV, comprimido com ZIP (arquivo ou um único ficheiro)
  • MyData.json.gz indica um blob ou um ficheiro formatado como JSON, comprimido com GZip.

Blob ou nomes de arquivo que não incluem as extensões de formato, mas apenas compactação (por exemplo, MyData.zip) também são suportados. Neste caso, o formato do ficheiro deve ser especificado como uma propriedade de ingestão porque não pode ser inferido.

Observação

  • Alguns formatos de compressão mantêm o controle da extensão de arquivo original como parte do fluxo compactado. Esta extensão é geralmente ignorada para determinar o formato de arquivo. Se o formato de arquivo não puder ser determinado a partir do blob (compactado) ou nome de arquivo, ele deverá ser especificado por meio da format propriedade ingestion.
  • Não deve ser confundido com o codec de compressão interno (nível chunk) usado pelos Parquet, AVRO e ORC formatos. O nome de compressão interna é geralmente adicionado a um nome de arquivo antes da extensão do formato de arquivo, por exemplo: file1.gz.parquet, file1.snappy.avro, etc.

Próximos passos