Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
A poda dinâmica de arquivos pode melhorar significativamente o desempenho de muitas consultas em tabelas Delta Lake. Gatilhos para poda dinâmica de arquivos para consultas que contêm instruções de filtro ou cláusulas WHERE. Você deve usar o cálculo habilitado para o Photon para usar a poda de arquivo dinâmico nas instruções MERGE, UPDATE e DELETE. Somente SELECT declarações aproveitam a poda dinâmica de arquivos quando o Photon não é utilizado.
A poda de arquivo dinâmico é especialmente eficiente para tabelas não particionadas ou para junções em colunas não particionadas. O impacto no desempenho da poda dinâmica de arquivos geralmente está correlacionado ao agrupamento de dados, portanto, considere usar o Z-Ordering para maximizar o benefício.
Para o contexto e os casos de uso da poda dinâmica de arquivos, consulte Consultas SQL mais rápidas no Delta Lake com poda dinâmica de arquivos.
Configuração
A poda de arquivo dinâmico é controlada pelas seguintes opções de configuração do Apache Spark:
-
spark.databricks.optimizer.dynamicFilePruning(o padrão étrue): o sinalizador principal que direciona o otimizador para aplicar filtros de forma eficiente. Quando definido comofalse, a poda dinâmica de arquivo não estará em vigor. -
spark.databricks.optimizer.deltaTableSizeThreshold(o padrão é10,000,000,000 bytes (10 GB)): representa o tamanho mínimo (em bytes) da tabela Delta no lado de sondagem da junção necessário para ativar a poda dinâmica de arquivos. Se o lado do probe não for muito grande, provavelmente não vale a pena aplicar os filtros e podemos simplesmente varrer toda a tabela. Você pode encontrar o tamanho de uma tabela Delta executando oDESCRIBE DETAIL table_namecomando e examinando asizeInBytescoluna. -
spark.databricks.optimizer.deltaTableFilesThreshold(o padrão é10): representa o número de arquivos da tabela Delta no lado do probe da junção necessária para disparar o pruning dinâmico de arquivos. Se a tabela lateral da sondagem contém menos arquivos do que o limiar, a poda de arquivo dinâmico não é ativada. Se uma tabela tiver apenas alguns arquivos, provavelmente não vale a pena habilitar a poda dinâmica de arquivo. Você pode encontrar o tamanho de uma tabela Delta executando oDESCRIBE DETAIL table_namecomando e examinando anumFilescoluna.