Formatos de dados compatíveis com o Data Explorer do Azure Synapse para ingestão (versão prévia)

Importante

O Azure Synapse Analytics Data Explorer (versão prévia) será desativado em 7 de outubro de 2025. Após essa data, as cargas de trabalho em execução no Synapse Data Explorer serão excluídas e os dados do aplicativo associado serão perdidos. É altamente recomendável migrar para o Eventhouse no Microsoft Fabric.

O programa CMF (Microsoft Cloud Migration Factory) foi projetado para ajudar os clientes na migração para o Fabric. O programa oferece recursos práticos de teclado sem custo para o cliente. Esses recursos são atribuídos por um período de 6 a 8 semanas, com um escopo predefinido e acordado. As nomeações de clientes são aceitas da equipe de conta da Microsoft ou diretamente enviando uma solicitação de ajuda à equipe do CMF.

A ingestão de dados é o processo pelo qual os dados são adicionados a uma tabela e disponibilizados para consulta no Data Explorer. Para todos os métodos de ingestão diferentes da ingestão de consulta, os dados precisam estar em um dos formatos compatíveis. A tabela a seguir lista e descreve os formatos compatíveis com o Data Explorer para ingestão de dados.

Observação

Antes de ingerir dados, verifique se os dados estão formatados corretamente e definem os campos esperados. Recomendamos usar seu validador preferido para confirmar se o formato é válido. Por exemplo, os seguintes validadores podem ser úteis para verificar arquivos CSV ou JSON:

CSV: http://csvlint.io/
JSON: https://jsonlint.com/

Para obter mais informações sobre por que a ingestão pode falhar, consulte falhas de ingestão e códigos de erro de ingestão no Data Explorer.

Formato	Extension	Description
ApacheAvro	`.avro`	Um formato AVRO com suporte para tipos lógicos. Há suporte para os seguintes codecs de compactação: `null`, `deflate` e `snappy`. A implementação de leitor do formato `apacheavro` é baseada na `apacheavro`.
Avro	`.avro`	Uma implementação herdada para o formato AVRO com base na biblioteca .NET. Há suporte para os seguintes codecs de compactação: `null`, `deflate` (para `snappy`, use o formato de dados `ApacheAvro`).
CSV	`.csv`	Um arquivo de texto com valores separados por vírgulas (`,`). Confira RFC 4180: Formato comum e tipo MIME para arquivos CSV (valores separados por vírgula).
JSON	`.json`	Um arquivo de texto com objetos JSON delimitados por `\n` ou `\r\n`. Confira JSONL (Linhas JSON).
MultiJSON	`.multijson`	Um arquivo de texto com uma matriz JSON de conjuntos de propriedades (cada um representando um registro), ou qualquer número de conjuntos de propriedades delimitados por espaço em branco, `\n` ou `\r\n`. Cada recipiente de propriedades pode ser distribuído em várias linhas. Esse formato é preferido sobre `JSON`, a menos que os dados não sejam estruturas de bolsas de propriedades.
ORC	`.orc`	Um arquivo ORC.
Parquet	`.parquet`	Um arquivo Parquet.
PSV	`.psv`	Um arquivo de texto com valores separados por pipe (`\|`).
RAW	`.raw`	Um arquivo de texto cujo conteúdo inteiro é um valor de cadeia de caracteres único.
SCsv	`.scsv`	Um arquivo de texto com valores separados por ponto e vírgula (`;`).
SOHsv	`.sohsv`	Um arquivo de texto com valores separados por SOH. (SOH é o ponto de código ASCII 1; esse formato é usado pelo Hive no HDInsight.)
TSV	`.tsv`	Um arquivo de texto com valores separados por tabulações (`\t`).
TSVE	`.tsv`	Um arquivo de texto com valores separados por tabulações (`\t`). Um caractere de barra invertida (`\`) é usado para escapar.
TXT	`.txt`	Um arquivo de texto com linhas delimitadas por `\n`. Linhas vazias são ignoradas.
W3CLOGFILE	`.log`	Formato de arquivo de log da Web padronizado pelo W3C.

Formatos de compactação de dados compatíveis

Os blobs e os arquivos podem ser compactados por meio de um dos seguintes algoritmos de compactação:

Compression	Extension
GZip	.gz
Zip	.zip

Indique a compactação acrescentando a extensão ao nome do blob ou do arquivo.

Por exemplo:

MyData.csv.zip indica um blob ou um arquivo formatado como CSV, compactado em ZIP (arquivo ou um único arquivo)
MyData.json.gz indica um blob ou um arquivo formatado como JSON, compactado com GZip.

Também há suporte para nomes de blobs ou arquivos que não incluem as extensões de formato, mas apenas a compactação (por exemplo, MyData.zip). Nesse caso, o formato de arquivo deve ser especificado como uma propriedade de ingestão porque não pode ser inferido.

Observação

Alguns formatos de compactação controlam a extensão do arquivo original como parte do fluxo compactado. Essa extensão é geralmente ignorada para determinar o formato do arquivo. Se o formato do arquivo não puder ser determinado com base no nome do arquivo ou blob (compactado), ele deverá ser especificado por meio da propriedade de ingestão format.
Não deve ser confundido com o codec de compactação interno (nível de bloco) usado pelos formatos Parquet, AVRO e ORC. O nome de compactação interna normalmente é adicionado a um nome de arquivo antes da extensão de formato de arquivo, por exemplo: file1.gz.parquet, file1.snappy.avro etc.

Próximas etapas

Saiba mais sobre a ingestão de dados
Saiba mais sobre as propriedades de ingestão de dados

Last updated on 2025-03-24

Compartilhar via

Formatos de dados compatíveis com o Data Explorer do Azure Synapse para ingestão (versão prévia)

Formatos de compactação de dados compatíveis

Próximas etapas

Recursos adicionais