Usar Pipelines Declarativos do Lakeflow Spark com metastore legado do Hive

Este artigo detalha configurações e limitações específicas aos Pipelines Declarativos do Lakeflow Spark configurados para publicar dados no metastore do Hive herdado. O Databricks recomenda usar o Catálogo do Unity para todos os novos pipelines. Consulte Usar o Catálogo do Unity com pipelines.

Observação

Este artigo discute a funcionalidade do modo de publicação padrão atual para pipelines. Pipelines criados antes de 5 de fevereiro de 2025 podem usar o modo de publicação herdado e o esquema virtual LIVE. Confira Esquema LIVE (herdado).

Como consultar tabelas de streaming e exibições materializadas no metastore herdado do Hive

Após a conclusão de uma atualização, você pode exibir o esquema e as tabelas, consultar os dados ou usá-los em aplicativos downstream.

Depois de publicadas, as tabelas de Pipelines Declarativos do Lakeflow Spark podem ser consultadas de qualquer ambiente com acesso ao esquema de destino. Isso inclui o DATAbricks SQL, notebooks e outros Pipelines Declarativos do Lakeflow Spark.

Importante

Quando você cria uma configuração target, somente as tabelas e os metadados associados são publicados. As exibições não são publicadas no metastore.

Configurar um pipeline para publicar no metastore do Hive

Para publicar no metastore do Hive herdado, escolha Usar o Metastore do Hive emopções avançadas ao criar um novo pipeline (talvez seja necessário escolher Ver mais para ver a opção). Você deve especificar um esquema de destino padrão ao publicar no metastore do Hive. Consulte Configurar Pipelines.

Especificar um local de armazenamento

Você pode especificar um local de armazenamento para um pipeline que publica no metastore do Hive. A principal motivação para especificar um local é controlar o local de armazenamento de objetos para dados gravados pelo pipeline. O Databricks recomenda sempre especificar um local de armazenamento para evitar gravar na raiz do DBFS.

Como todas as tabelas, dados, pontos de verificação e metadados dos Pipelines Declarativos do Lakeflow Spark são totalmente gerenciados pelo Lakeflow Spark Declarative Pipelines, a maior parte da interação com os conjuntos de dados do Lakeflow Spark Declarative Pipelines ocorre por meio de tabelas registradas no metastore do Hive ou no Catálogo do Unity.

Configuração de armazenamento em nuvem

Para acessar o armazenamento do Azure, você deve configurar os parâmetros necessários, incluindo tokens de acesso, usando configurações spark.conf em suas configurações de cluster. Para obter um exemplo de como configurar o acesso a uma conta de armazenamento do ADLS (Azure Data Lake Storage), consulte Acessar com segurança as credenciais de armazenamento com segredos em um pipeline.

Trabalhar com o log de eventos para pipelines de metastore do Hive

Se o pipeline publicar tabelas no metastore do Hive, o log de eventos é armazenado no /system/events sob o storage local. Por exemplo, se você tiver configurado a configuração do pipeline storage como /Users/username/data, o log de eventos será armazenado no /Users/username/data/system/events caminho no DBFS.

Se você não tiver configurado a storage configuração, o local do log de eventos padrão será /pipelines/<pipeline-id>/system/events no DBFS. Por exemplo, se o ID do seu pipeline for 91de5e48-35ed-11ec-8d3d-0242ac130003, o local de armazenamento será /pipelines/91de5e48-35ed-11ec-8d3d-0242ac130003/system/events.

Você pode criar um modo de exibição para simplificar a consulta ao log de eventos. O exemplo a seguir cria uma exibição temporária chamada event_log_raw. Essa exibição é usada nas consultas de log de eventos de exemplo incluídas neste artigo:

CREATE OR REPLACE TEMP VIEW event_log_raw
AS SELECT * FROM delta.`<event-log-path>`;

Substitua <event-log-path> pelo local do log de eventos.

Cada instância de uma execução de pipeline é chamada de atualização. Você geralmente deseja extrair informações para a atualização mais recente. Execute a consulta a seguir para localizar o identificador para a atualização mais recente e salvá-lo no modo de exibição latest_update_id temporário. Essa exibição é usada nas consultas de log de eventos de exemplo incluídas neste artigo:

CREATE OR REPLACE TEMP VIEW latest_update AS
SELECT origin.update_id AS id
FROM event_log_raw
WHERE event_type = 'create_update'
ORDER BY timestamp DESC
LIMIT 1;

Você pode consultar o log de eventos em um notebook do Azure Databricks ou no editor do SQL. Use um notebook ou o editor SQL para executar as consultas de exemplo de logs de eventos.

Exemplo de notebooks de código-fonte de pipeline para workspaces sem o Catálogo do Unity

Você pode importar os notebooks a seguir para um workspace do Azure Databricks sem o Unity Catalog habilitado e usá-los para implantar pipelines declarativos do Lakeflow Spark. Importe o notebook do idioma escolhido e especifique o caminho no campo Código-fonte ao configurar um pipeline com a opção de armazenamento de metastore do Hive. Consulte Configurar Pipelines.

Comece com

Obter laptop

Comece com

Obter laptop

Comentários

Esta página foi útil?

Last updated on 2025-11-13

Compartilhar via

Usar Pipelines Declarativos do Lakeflow Spark com metastore legado do Hive

Como consultar tabelas de streaming e exibições materializadas no metastore herdado do Hive

Configurar um pipeline para publicar no metastore do Hive

Especificar um local de armazenamento

Configuração de armazenamento em nuvem

Trabalhar com o log de eventos para pipelines de metastore do Hive

Exemplo de notebooks de código-fonte de pipeline para workspaces sem o Catálogo do Unity

Comece com

Comece com

Comentários

Recursos adicionais