Partilhar via


Atalhos para transformações de ficheiros

Transformações de atalho convertem ficheiros brutos (CSV, Parquet e JSON) em tabelas Delta que permanecem sempre sincronizadas com os dados de origem. A transformação é executada pelo Fabric Spark compute, que copia os dados referenciados por um atalho OneLake para uma tabela Delta gerida, para que não tenhas de construir e orquestrar pipelines tradicionais de extração, transformação e carregamento (ETL) tu próprio. Com o tratamento automático de esquemas, capacidades de desdobramento profundo e suporte para múltiplos formatos de compressão, as transformações simplificadas eliminam a complexidade de construir e manter pipelines ETL.

Note

As transformações de atalho estão atualmente em pré-visualização pública e sujeitas a alterações.

Por que usar transformações de atalho?

  • Sem pipelines manuais – O Fabric copia e converte automaticamente os ficheiros de origem para o formato Delta; você não precisa gerir cargas incrementais.
  • Atualização frequente – O Fabric verifica o atalho a cada 2 minutos e sincroniza quaisquer alterações quase imediatamente.
  • Open & analytics-ready – A saída é uma tabela Delta Lake que qualquer mecanismo compatível com Apache Spark pode consultar.
  • Governação unificada – O atalho herda a linhagem OneLake, permissões e políticas Microsoft Purview.
  • Baseado em Spark – Cria transformações para escalabilidade.

Prerequisites

Requirement Details
Microsoft Fabric SKU Capacidade ou Ensaio que suporta cargas de trabalho em Lakehouse .
Fonte dos dados Uma pasta que contém ficheiros homogéneos CSV, Parquet ou JSON.
Função de espaço de trabalho Colaborador ou superior.

Fontes, formatos e destinos suportados

Todas as fontes de dados suportadas no OneLake são suportadas.

Formato de ficheiro fonte Destino Extensões Suportadas Tipos de compressão suportados Observações
CSV (UTF-8, UTF-16) Tabela Delta Lake na pasta Lakehouse / Tabelas .csv,.txt(delimitador),.tsv(separado por tabulação),.psv(separado por barras verticais) .csv.gz,.csv.bz2 .csv.zip,.csv.snappy não são suportados até à data
Parquet Tabela Delta Lake na pasta Lakehouse / Tables .parquet .parquet.snappy,.parquet.gzip,.parquet.lz4,.parquet.brotli,.parquet.zstd
JSON Tabela Delta Lake na pasta Lakehouse / Tabelas .json,.jsonl,.ndjson .json.gz,.json.bz2,.jsonl.gz,.ndjson.gz,.jsonl.bz2,.ndjson.bz2 .json.zip, .json.snappy não são suportados até à data
  • O suporte a ficheiros Excel faz parte do roteiro
  • Transformações de IA disponíveis para suportar formatos de ficheiro não estruturados (.txt, .doc, .docx) com o caso de utilização de Análise de Texto ativo e mais melhorias a caminho

Configurar uma transformação de atalho

  1. No seu lakehouse, selecione Atalho de Nova Tabela na secção de Tabelas, que é uma transformação de Atalho (pré-visualização), e escolha a sua origem (por exemplo, Azure Data Lake, Azure Blob Storage, Dataverse, Amazon S3, GCP, SharePoint, OneDrive, etc.).

    Captura de ecrã que mostra a criação de 'atalho de tabela'.

  2. Escolha ficheiro, configure transformação e crie atalhos – navegue até um atalho OneLake existente que aponte para a pasta com os seus ficheiros CSV, configure parâmetros e inicie a criação.

    • Delimitador em ficheiros CSV – Selecione o carácter usado para separar colunas (vírgula, ponto e vírgula, barra vertical, tabulação, ampersand, espaço).
    • Primeira linha como cabeçalhos – Indique se a primeira linha contém nomes de coluna.
    • Nome do atalho da tabela – Fornecer um nome amigável; A Fabric cria-o em /Tables.
  3. Acompanhar atualizações e visualizar registos para transparência no hub de monitorização Gerenciar Atalhos.

O Fabric Spark compute copia os dados para uma tabela Delta e mostra o progresso no painel de gerir atalhos. Transformações de atalho estão disponíveis em itens do Lakehouse. Eles criam tabelas Delta Lake na pasta Lakehouse / Tabelas .

Como funciona a sincronização

Após a carga inicial, o Fabric Spark calcula:

  • Sonda o atalho alvo a cada 2 minutos.
  • Deteta arquivos novos ou modificados e acrescenta ou substitui linhas de acordo.
  • Deteta ficheiros eliminados e remove as linhas correspondentes.

Monitorar e solucionar problemas

As transformações de atalhos incluem monitorização e tratamento de erros para ajudar a acompanhar o estado da ingestão e diagnosticar problemas.

  1. Abre a casa do lago e clica com o botão direito no atalho que alimenta a tua transformação.
  2. Selecionar Gestão de atalho.
  3. No painel de detalhes, pode ver:
    • Estado – Resultado da última varredura e estado atual da sincronização.
    • Histórico de atualização – Lista cronológica de operações de sincronização com contagem de linhas e quaisquer detalhes de erro. Captura de ecrã que mostra 'hub de monitorização' para visualizar o estado da transformação.
  4. Veja mais detalhes nos registos para resolver os problemas na captura de ecrã que mostra como aceder ao 'ficheiro de registo' para resolver o problema.

Note

Pausa ou Elimina a transformação desta aba é uma funcionalidade futura que faz parte do plano de desenvolvimento

Limitações

Limitações atuais das transformações de atalho:

  • Apenas são suportados formatos de ficheiros CSV, Parquet e JSON .
  • Os ficheiros devem partilhar um esquema idêntico; A deriva de esquemas ainda não é suportada.
  • As transformações são otimizadas para leitura; As instruções MERGE INTO ou DELETE diretamente na tabela são bloqueadas.
  • Disponível apenas em itens Lakehouse (não em Warehouses ou bases de dados KQL).
  • Tipos de dados não suportados para CSV: Colunas de tipos de dados mistos, Timestamp_Nanos, Tipos lógicos complexos - MAP/LIST/STRUCT, Binário bruto
  • Tipo de dado não suportado para Parquet: Timestamp_nanos, Decimal com INT32/INT64, INT96, Tipos inteiros não atribuídos - UINT_8/UINT_16/UINT_64, Tipos lógicos complexos - MAP/LIST/STRUCT)
  • Tipos de dados não suportados para JSON: Tipos de dados mistos num array, blobs binários brutos dentro de JSON, Timestamp_Nanos
  • Achatamento do tipo de dados Array em JSON: O tipo de dados do array deve ser mantido na tabela delta e os dados acessíveis com Spark SQL & Pyspark, onde, para transformações futuras, as Vistas de Lago Materializadas de Tecido poderão ser usadas para a camada de prata
  • Formato de origem: Apenas ficheiros CSV, JSON e Parquet são suportados até à data.
  • Profundidade de achatamento em JSON: Estruturas aninhadas são achatadas até cinco níveis de profundidade. O aninhamento mais profundo requer pré-processamento.
  • Operações de escrita: As transformações são otimizadas para leitura; instruções diretas MERGE INTO ou DELETE na tabela alvo de transformação não são suportadas.
  • Disponibilidade de espaços de trabalho: Disponível apenas em itens Lakehouse (não em Data Warehouses ou bases de dados KQL).
  • Consistência do esquema do ficheiro: Os ficheiros devem partilhar um esquema idêntico.

Note

Adicionar suporte para algumas das opções acima e reduzir limitações faz parte do nosso roteiro. Acompanhe as nossas comunicações de lançamento para mais atualizações.

Limpeza

Para interromper a sincronização, exclua o atalho de transformação da interface do usuário do lakehouse.
A exclusão da transformação não remove os arquivos subjacentes.