Referência à tabela de histórico de consultas do sistema

Important

Esta tabela do sistema está em Public Preview.

Este artigo inclui informações sobre a tabela do sistema de histórico de consultas, incluindo um resumo do esquema da tabela.

Caminho da tabela: Esta tabela do sistema encontra-se em system.query.history.

Usando a tabela de histórico de consultas

A tabela de histórico de consultas inclui registos para consultas executadas usando SQL warehouses ou computação sem servidor para blocos de anotações e trabalhos . A tabela inclui registros de toda a conta de todos os espaços de trabalho na mesma região a partir da qual você acessa a tabela.

Por padrão, apenas os administradores têm acesso à tabela do sistema. Se você quiser compartilhar os dados da tabela com um usuário ou grupo, o Databricks recomenda a criação de uma exibição dinâmica para cada usuário ou grupo. Consulte Criar uma vista dinâmica.

Esquema da tabela do sistema do histórico de consultas

A tabela de histórico de consultas usa o seguinte esquema:

Nome da coluna	Tipo de dados	Description	Example
`account_id`	cadeia (de caracteres)	ID da conta.	`11e22ba4-87b9-4cc2` `-9770-d10b894b7118`
`workspace_id`	cadeia (de caracteres)	A ID do espaço de trabalho onde a consulta foi executada.	`1234567890123456`
`statement_id`	cadeia (de caracteres)	O ID que identifica exclusivamente a execução da instrução. Você pode usar essa ID para localizar a execução da instrução na interface do usuário do Histórico de Consultas.	`7a99b43c-b46c-432b` `-b0a7-814217701909`
`session_id`	cadeia (de caracteres)	O ID da sessão do Spark.	`01234567-cr06-a2mp` `-t0nd-a14ecfb5a9c2`
`execution_status`	cadeia (de caracteres)	O estado de rescisão da declaração. Os valores possíveis são: `FINISHED`: a execução foi bem sucedida `FAILED`: a execução falhou com o motivo da falha descrito na mensagem de erro que acompanha o documento `CANCELED`: a execução foi cancelada	`FINISHED`
`compute`	estrutura	Um struct que representa o tipo de recurso de computação usado para executar a instrução e a ID do recurso, quando aplicável. O `type` valor será ou `WAREHOUSESERVERLESS_COMPUTE`.	`{` `type: WAREHOUSE,` `cluster_id: NULL,` `warehouse_id: ec58ee3772e8d305` `}`
`executed_by_user_id`	cadeia (de caracteres)	A ID do usuário que executou a instrução.	`2967555311742259`
`executed_by`	cadeia (de caracteres)	O endereço de e-mail ou nome de usuário do usuário que executou a instrução.	`example@databricks.com`
`statement_text`	cadeia (de caracteres)	Texto da instrução SQL. Se você configurou chaves gerenciadas pelo cliente, `statement_text` está vazio. Devido a limitações de armazenamento, valores de texto de instrução mais longos são compactados. Mesmo com a compressão, você pode atingir um limite de caracteres.	`SELECT 1`
`statement_type`	cadeia (de caracteres)	O tipo de instrução. Por exemplo: `ALTER`, `COPY`e `INSERT`.	`SELECT`
`error_message`	cadeia (de caracteres)	Mensagem descrevendo a condição de erro. Se você configurou chaves gerenciadas pelo cliente, `error_message` está vazio.	`[INSUFFICIENT_PERMISSIONS]` `Insufficient privileges:` `User does not have` `permission SELECT on table` `'default.nyctaxi_trips'.`
`client_application`	cadeia (de caracteres)	Aplicativo cliente que executou a instrução. Por exemplo: Databricks SQL Editor, Tableau e Power BI. Este campo é derivado de informações fornecidas por aplicativos cliente. Embora se espere que os valores permaneçam estáticos ao longo do tempo, isso não pode ser garantido.	`Databricks SQL Editor`
`client_driver`	cadeia (de caracteres)	O conector usado para se conectar ao Databricks para executar a instrução. Por exemplo: Databricks SQL Driver for Go, Databricks ODBC Driver, Databricks JDBC Driver.	`Databricks JDBC Driver`
`cache_origin_statement_id`	cadeia (de caracteres)	Para resultados de consulta obtidos do cache, este campo contém a ID da instrução da consulta que originalmente inseriu o resultado no cache. Se o resultado da consulta não for recuperado do cache, este campo conterá a ID da instrução da própria consulta.	`01f034de-5e17-162d` `-a176-1f319b12707b`
`total_duration_ms`	bigint	Tempo total de execução da instrução em milissegundos (excluindo o tempo de busca de resultados).	`1`
`waiting_for_compute_duration_ms`	bigint	Tempo gasto aguardando que os recursos de computação sejam provisionados em milissegundos.	`1`
`waiting_at_capacity_duration_ms`	bigint	Tempo gasto na fila de espera pela capacidade de computação disponível em milissegundos.	`1`
`execution_duration_ms`	bigint	Tempo gasto na execução da instrução em milissegundos.	`1`
`compilation_duration_ms`	bigint	Tempo gasto carregando metadados e otimizando a instrução em milissegundos.	`1`
`total_task_duration_ms`	bigint	A soma de todas as durações de tarefas em milissegundos. Esse tempo representa o tempo combinado necessário para executar a consulta em todos os núcleos de todos os nós. Pode ser significativamente maior do que a duração do relógio de parede se várias tarefas forem executadas em paralelo. Pode ser menor do que a duração do relógio de parede se as tarefas aguardarem pelos nós disponíveis.	`1`
`result_fetch_duration_ms`	bigint	Tempo gasto, em milissegundos, para buscar os resultados da instrução após a conclusão da execução.	`1`
`start_time`	carimbo de data/hora	A hora em que a Databricks recebeu a solicitação. As informações de fuso horário são registradas no final do valor com `+00:00` representando UTC.	`2022-12-05T00:00:00.000+0000`
`end_time`	carimbo de data/hora	A hora em que a execução da instrução terminou, excluindo o tempo de busca de resultados. As informações de fuso horário são registradas no final do valor com `+00:00` representando UTC.	`2022-12-05T00:00:00.000+00:00`
`update_time`	carimbo de data/hora	A última vez que a declaração recebeu uma atualização de progresso. As informações de fuso horário são registradas no final do valor com `+00:00` representando UTC.	`2022-12-05T00:00:00.000+00:00`
`read_partitions`	bigint	O número de partições lidas após a poda.	`1`
`pruned_files`	bigint	O número de arquivos removidos.	`1`
`read_files`	bigint	O número de arquivos lidos após a poda.	`1`
`read_rows`	bigint	Número total de linhas lidas pela instrução.	`1`
`produced_rows`	bigint	Número total de linhas retornadas pela instrução.	`1`
`read_bytes`	bigint	Tamanho total dos dados lidos pela instrução em bytes.	`1`
`read_io_cache_percent`	int	A porcentagem de bytes de dados persistentes lidos do cache de E/S.	`50`
`from_result_cache`	boolean	`TRUE` indica que o resultado da instrução foi obtido no cache.	`TRUE`
`spilled_local_bytes`	bigint	Tamanho dos dados, em bytes, gravados temporariamente no disco durante a execução da instrução.	`1`
`written_bytes`	bigint	O tamanho em bytes de dados persistentes gravados no armazenamento de objetos na nuvem.	`1`
`written_rows`	bigint	O número de linhas de dados persistentes gravados no armazenamento de objetos na nuvem.	`1`
`written_files`	bigint	Número de arquivos de dados persistentes gravados no armazenamento de objetos na nuvem.	`1`
`shuffle_read_bytes`	bigint	A quantidade total de dados em bytes enviados pela rede.	`1`
`query_source`	estrutura	Uma estrutura que contém pares chave-valor que representam entidades Databricks que estiveram envolvidas na execução desta instrução, como tarefas, blocos de anotações ou painéis. Este campo regista apenas entidades Databricks.	`{` `alert_id: 81191d77-184f-4c4e-9998-b6a4b5f4cef1,` `sql_query_id: null,` `dashboard_id: null,` `notebook_id: null,` `job_info: {` `job_id: 12781233243479,` `job_run_id: null,` `job_task_run_id: 110373910199121` `},` `legacy_dashboard_id: null,` `genie_space_id: null` `}`
`query_parameters`	estrutura	Uma estrutura que contém parâmetros nomeados e posicionais usados em consultas parametrizadas. Os parâmetros nomeados são representados como pares chave-valor que mapeiam os nomes de parâmetros aos valores. Os parâmetros posicionais são representados como uma lista onde o índice indica a posição do parâmetro. Apenas um tipo (nomeado ou posicional) pode estar presente ao mesmo tempo.	`{` `named_parameters: {` `"param-1": 1,` `"param-2": "hello"` `},` `pos_parameters: null,` `is_truncated: false` `}`
`executed_as`	cadeia (de caracteres)	O nome do usuário ou entidade de serviço cujo privilégio foi usado para executar a instrução.	`example@databricks.com`
`executed_as_user_id`	cadeia (de caracteres)	A ID do usuário ou entidade de serviço cujo privilégio foi usado para executar a instrução.	`2967555311742259`

Exibir o perfil de consulta para um registro

Para navegar até o perfil de consulta de uma consulta com base em um registro na tabela de histórico de consultas, faça o seguinte:

Identifique o registo de interesse e, em seguida, copie o statement_id.
Faça referência ao registro workspace_id para garantir que você esteja conectado ao mesmo espaço de trabalho que o registro.
Clique no Histórico de consultas na barra lateral do espaço de trabalho.
No campo ID da declaração, cole o statement_id no registro.
Clique no nome de uma consulta. Uma visão geral das métricas de consulta é exibida.
Clique em Ver perfil de consulta.

Noções básicas sobre query_source coluna

A query_source coluna contém um conjunto de identificadores exclusivos de entidades do Azure Databricks envolvidas na execução da instrução.

Se a query_source coluna contiver vários IDs, isso significa que a execução da instrução foi acionada por várias entidades. Por exemplo, um resultado de trabalho pode disparar um alerta que chama uma consulta SQL. Neste exemplo, todos os três IDs serão preenchidos em query_source. Os valores desta coluna não são ordenados por ordem de execução.

As possíveis fontes de consulta são:

alert_id: Declaração acionada a partir de um alerta
sql_query_id: Instrução executada a partir desta sessão do editor SQL
dashboard_id: Declaração executada a partir do painel de controlo
legacy_dashboard_id: Declaração executada a partir de um dashboard legado
genie_space_id: Declaração executada a partir de um espaço Genie
notebook_id: Declaração executada a partir de um notebook
job_info.job_id: instrução executada dentro de um trabalho
job_info.job_run_id: instrução executada a partir de uma execução de uma tarefa
job_info.job_task_run_id: instrução executada dentro de uma tarefa de trabalho executada

Combinações válidas de query_source

Os exemplos a seguir mostram como a query_source coluna é preenchida dependendo de como a consulta é executada:

As consultas executadas durante uma execução de trabalho incluem uma estrutura preenchida job_info :

{
alert_id: null,
sql_query_id: null,
dashboard_id: null,
notebook_id: null,
job_info: {
job_id: 64361233243479,
job_run_id: null,
job_task_run_id: 110378410199121
},
legacy_dashboard_id: null,
genie_space_id: null
}
As consultas de painéis herdados incluem um sql_query_id e legacy_dashboard_id:

{
alert_id: null,
sql_query_id: 7336ab80-1a3d-46d4-9c79-e27c45ce9a15,
dashboard_id: null,
notebook_id: null,
job_info: null,
legacy_dashboard_id: 1a735c96-4e9c-4370-8cd7-5814295d534c,
genie_space_id: null
}
Consultas dos alertas incluem sql_query_id e alert_id:

{
alert_id: e906c0c6-2bcc-473a-a5d7-f18b2aee6e34,
sql_query_id: 7336ab80-1a3d-46d4-9c79-e27c45ce9a15,
dashboard_id: null,
notebook_id: null,
job_info: null,
legacy_dashboard_id: null,
genie_space_id: null
}
As consultas dos painéis incluem um dashboard_id, mas não job_info:

{
alert_id: null,
sql_query_id: null,
dashboard_id: 887406461287882,
notebook_id: null,
job_info: null,
legacy_dashboard_id: null,
genie_space_id: null
}

Materializar o histórico de consultas a partir do seu metastore

O código a seguir pode ser usado para agendar uma tarefa para executar a cada hora, diariamente ou semanalmente, para materializar o histórico de consultas de um metastore. Ajuste as variáveis HISTORY_TABLE_PATH e LOOKUP_PERIOD_DAYS de acordo.

from delta.tables import *
from pyspark.sql.functions import *
from pyspark.sql.types import *

HISTORY_TABLE_PATH = "jacek.default.history"
# Adjust the lookup period according to your job schedule
LOOKUP_PERIOD_DAYS = 1

def table_exists(table_name):
    try:
        spark.sql(f"describe table {table_name}")
        return True
    except Exception:
        return False

def save_as_table(table_path, df, schema, pk_columns):
    deltaTable = (
        DeltaTable.createIfNotExists(spark)
        .tableName(table_path)
        .addColumns(schema)
        .execute()
    )

    merge_statement = " AND ".join([f"logs.{col}=newLogs.{col}" for col in pk_columns])

    result = (
        deltaTable.alias("logs")
        .merge(
            df.alias("newLogs"),
            f"{merge_statement}",
        )
        .whenNotMatchedInsertAll()
        .whenMatchedUpdateAll()
        .execute()
    )
    result.show()

def main():
    df = spark.read.table("system.query.history")
    if table_exists(HISTORY_TABLE_PATH):
        df = df.filter(f"update_time >= CURRENT_DATE() - INTERVAL {LOOKUP_PERIOD_DAYS} days")
    else:
        print(f"Table {HISTORY_TABLE_PATH} does not exist. Proceeding to copy the whole source table.")

    save_as_table(
        HISTORY_TABLE_PATH,
        df,
        df.schema,
        ["workspace_id", "statement_id"]
    )

main()

Analise a popularidade da tabela, incluindo consultas em cache

A tabela de linhagem do sistema não gera registos para resultados de consulta do cache de resultados. Por isso, você deve unir a tabela de histórico de consultas com a tabela do sistema de linhagem de tabela para incluir consultas em cache em sua análise.

Por exemplo, a consulta a seguir recupera tabelas com consultas que excedem uma hora de tempo de execução nos últimos 7 dias:

SELECT
    t.source_table_full_name,
    COUNT(*) AS num_of_queries_over_hour
FROM
    system.query.history h
    INNER JOIN system.access.table_lineage t
        ON t.statement_id = h.cache_origin_statement_id
WHERE
    h.total_duration_ms > 3600000
    AND t.event_time > CURRENT_TIMESTAMP() - INTERVAL 7 DAYS
    AND t.source_table_full_name IS NOT NULL
GROUP BY t.source_table_full_name
ORDER BY 2 DESC;

Feedback

Esta página foi útil?

Last updated on 2025-08-04