Compartilhar via


Transformações de arquivos de atalhos

As transformações de atalho convertem arquivos brutos (CSV, Parquet e JSON) em tabelas Delta que permanecem sempre em sincronia com os dados de origem. A transformação é executada pela computação do Fabric Spark, que copia os dados referenciados por um atalho do OneLake em uma tabela Delta gerenciada para que você não precise criar e orquestrar pipelines de ETL (extração, transformação, carregamento) tradicionais por conta própria. Com o tratamento automático de esquemas, recursos de nivelamento profundo e suporte para vários formatos de compactação, as transformações de atalho eliminam a complexidade de compilar e manter pipelines ETL.

Note

As transformações de atalho estão atualmente em versão prévia pública e estão sujeitas a alterações.

Por que usar transformações de atalho?

  • Nenhum pipeline manual – o Fabric copia e converte automaticamente os arquivos de origem no formato Delta; você não precisa orquestrar cargas incrementais.
  • Atualização frequente – O Fabric verifica o atalho a cada 2 minutos e sincroniza as alterações quase imediatamente.
  • Aberto & pronto para análise – A saída é uma tabela Delta Lake que pode ser consultada por qualquer mecanismo compatível com Apache Spark.
  • Governança unificada – O atalho herda a linhagem do OneLake, as permissões e as políticas do Microsoft Purview.
  • Baseado em Spark – Transforma o processo de build para escalabilidade.

Prerequisites

Requirement Details
Microsoft Fabric SKU Capacidade ou avaliação que dá suporte a cargas de trabalho do Lakehouse.
Dados de origem Uma pasta que contém arquivos CSV, Parquet ou JSON homogêneos.
Função de workspace Colaborador ou superior.

Fontes, formatos e destinos com suporte

Todas as fontes de dados com suporte no OneLake têm suporte.

Formato do arquivo de origem Destino Extensões com suporte Tipos de compactação com suporte Anotações
CSV (UTF-8, UTF-16) Tabela Delta Lake na pasta Lakehouse/Tables .csv, .txt(delimitador), .tsv(separado por tabulação), .psv(separado por barra vertical) .csv.gz,.csv.bz2 .csv.zip, .csv.snappy não têm suporte no momento.
Parquet Tabela Delta Lake na pasta Lakehouse/Tables .parquet .parquet.snappy,.parquet.gzip,.parquet.lz4,.parquet.brotli,.parquet.zstd
JSON Tabela Delta Lake na pasta Lakehouse/Tables .json,.jsonl,.ndjson .json.gz,.json.bz2,.jsonl.gz,.ndjson.gz,.jsonl.bz2,.ndjson.bz2 .json.zip, .json.snappy não têm suporte até a data
  • O suporte a arquivos do Excel faz parte do roteiro
  • Transformações de IA disponíveis para dar suporte a formatos de arquivo não estruturados (.txt, .doc, .docx) com o caso de uso da Análise de Texto ao vivo com mais aprimoramentos futuros

Configuração de um atalho de transformação

  1. Em seu lakehouse, na seção Tabelas, selecione Novo Atalho de Tabela, que é a transformação Atalho (versão prévia) e escolha sua origem (por exemplo, Azure Data Lake, Armazenamento de Blobs do Azure, Dataverse, Amazon S3, GCP, SharePoint, OneDrive etc.).

    Captura de tela que mostra a criação de

  2. Escolha arquivo, Configurar transformação &criar atalho – navegue até um atalho existente do OneLake que aponta para a pasta com seus arquivos CSV, configure parâmetros e inicie a criação.

    • Delimitador em arquivos CSV – Selecione o caractere usado para separar colunas (vírgula, ponto-e-vírgula, barra vertical, tabulação, ampersand, espaço).
    • Primeira linha como cabeçalhos – indique se a primeira linha contém nomes de coluna.
    • Nome do Atalho de Tabela – Fornecer um nome amigável; Fabric cria-o em /Tables.
  3. Acompanhe as atualizações e visualize os logs para obter transparência no hub de monitoramento de atalhos do sistema.

A computação do Fabric Spark copia os dados em uma tabela Delta e mostra o progresso no painel Gerenciar atalho . Transformações de atalho estão disponíveis nos itens do Lakehouse. Eles criam tabelas Delta Lake na pasta Lakehouse/Tables .

Como funciona a sincronização

Após a carga inicial, a computação do Fabric Spark:

  • Verifica o destino do atalho a cada dois minutos.
  • Detecta arquivos novos ou modificados e acrescenta ou substitui linhas adequadamente.
  • Detecta arquivos excluídos e remove linhas correspondentes.

Monitorar e solucionar problemas

As transformações de atalho incluem monitoramento e tratamento de erros para ajudá-lo a controlar o status da ingestão e diagnosticar problemas.

  1. Abra o lakehouse e clique com o botão direito do mouse no atalho que alimenta sua transformação.
  2. Selecione Gerenciar atalho.
  3. No painel de detalhes, você pode exibir:
    • Status – Último resultado da verificação e estado de sincronização atual.
    • Histórico de atualizações – lista cronológica de operações de sincronização com contagens de linhas e quaisquer detalhes de erro. Captura de tela que mostra o
  4. Exiba mais detalhes nos registros para solucionar problemas Captura de tela que mostra como acessar o 'arquivo de log' para solucionar problemas.

Note

Pausar ou Excluir a transformação desta guia é um recurso futuro planejado no roadmap

Limitações

Limitações atuais de transformações de atalho:

  • Há suporte apenas para formatos de arquivo CSV, Parquet, JSON .
  • Os arquivos devem compartilhar um esquema idêntico; variação de esquema não é suportada.
  • As transformações são otimizadas para leitura; instruções MERGE INTO ou DELETE diretamente sobre a tabela são bloqueadas.
  • Disponível apenas em itens do Lakehouse (não em armazéns ou bancos de dados KQL).
  • Tipos de dados sem suporte para CSV: Colunas de tipo de dados mistos, Timestamp_Nanos, tipos lógicos complexos – MAP/LIST/STRUCT, binário bruto
  • Tipo de dados sem suporte para Parquet: Timestamp_nanos, Decimal com INT32/INT64, INT96, tipos inteiros não atribuídos – UINT_8/UINT_16/UINT_64, tipos lógicos complexos – MAP/LIST/STRUCT)
  • Tipos de dados sem suporte para JSON: Tipos de dados mistos em uma matriz, blobs binários brutos dentro do JSON, Timestamp_Nanos
  • Nivelamento do tipo de dados Array no JSON: O tipo de dados Array deve ser mantido na tabela delta e os dados acessíveis com o Spark SQL & Pyspark, onde, para outras transformações, o Fabric Materialized Lake Views pode ser usado para a camada de prata.
  • Formato de origem: há suporte apenas para arquivos CSV, JSON e Parquet a partir da data.
  • Profundidade de nivelamento em JSON: as estruturas aninhadas são achatadas em até cinco níveis de profundidade. O aninhamento mais profundo requer pré-processamento.
  • Operações de gravação: as transformações são otimizadas para leitura; Não há suporte para instruções DIRECT MERGE INTO ou DELETE na tabela de destino de transformação.
  • Disponibilidade do workspace: Disponível apenas em itens do Lakehouse (não disponível em Data Warehouses ou bancos de dados KQL).
  • Consistência do esquema de arquivo: os arquivos devem compartilhar um esquema idêntico.

Note

Adicionar suporte para alguns dos itens acima e reduzir limitações faz parte do nosso roteiro. Acompanhe nossas comunicações de lançamento para obter mais atualizações.

Limpeza

Para interromper a sincronização, exclua a transformação de atalho da interface do usuário do lakehouse.
Excluir a transformação não remove os arquivos subjacentes.