Use marcos de referência em um espaço Genie

Esta página explica como usar benchmarks para avaliar a precisão do seu espaço Genie.

Visão geral

Os benchmarks permitem que você crie um conjunto de perguntas de teste que você pode executar para avaliar a precisão geral da resposta do Genie. Um conjunto bem concebido de benchmarks que abrangem as perguntas mais frequentes dos utilizadores ajuda a avaliar a precisão do seu espaço Genie à medida que o refina. Cada espaço Genie pode conter até 500 perguntas de referência.

As perguntas de avaliação funcionam como novas conversas. Eles não transmitem o mesmo contexto que uma conversa organizada do Genie. Cada pergunta é processada como uma nova consulta, usando as instruções definidas no espaço, incluindo qualquer exemplo fornecido de funções SQL e SQL.

Exemplos de benchmarks com precisão reportada em nove perguntas.

Adicionar perguntas de referência

As perguntas de referência devem refletir diferentes maneiras de formular as perguntas comuns que seus usuários fazem. Você pode usá-los para verificar a resposta do Genie a variações no fraseado das perguntas ou diferentes formatos de perguntas.

Ao criar uma pergunta de referência, você pode, opcionalmente, incluir uma consulta SQL cujo conjunto de resultados é a resposta correta. Durante as execuções de benchmark, a precisão é avaliada comparando o conjunto de resultados da sua consulta SQL com o gerado pelo Genie. Você também pode usar as funções SQL do Unity Catalog como respostas padrão de referência para benchmarks.

Para adicionar uma pergunta de referência:

Perto da parte superior do espaço Genie, clique em Benchmarks.
Clique em Adicionar benchmark.
No campo Pergunta, insira uma pergunta de referência para testar.
(Opcional) Forneça uma consulta SQL que responda à pergunta. Você pode escrever a sua própria consulta escrevendo no campo de texto Resposta SQL, incluindo funções SQL do Unity Catalog. Como alternativa, clique em Gerar SQL para que o Genie escreva a consulta SQL para você. Use uma instrução SQL que responda com precisão à pergunta inserida.

Nota

Esta etapa é recomendada. Somente as perguntas que incluem este exemplo de instrução SQL podem ser avaliadas automaticamente quanto à precisão. Quaisquer perguntas que não incluam uma Resposta SQL requerem revisão manual para serem pontuadas. Se você usar o botão Gerar SQL , revise a instrução para ter certeza de que ela está respondendo com precisão à pergunta.
(Opcional) Clique Executar para executar a consulta e visualizar os resultados.
Quando terminar de editar, clique em Adicionar benchmark.
Para atualizar uma pergunta depois de salvar, clique no para abrir a caixa de diálogo Atualizar pergunta.

Use critérios de referência para testar perguntas alternativas

Ao avaliar a precisão do seu espaço Genie, é importante estruturar testes para refletir cenários realistas. Os usuários podem fazer a mesma pergunta de maneiras diferentes. O Databricks recomenda adicionar vários sintagmas da mesma pergunta e usar o mesmo exemplo SQL em seus testes de benchmark para avaliar totalmente a precisão. A maioria dos espaços Genie devem incluir entre duas e quatro formulações da mesma pergunta.

Realizar perguntas de benchmark

Os usuários com pelo menos permissões CAN EDIT em um espaço Genie podem executar uma avaliação de benchmark a qualquer momento. Você pode executar todas as perguntas de referência ou selecionar um subconjunto de perguntas para testar.

Para cada pergunta, o Genie interpreta a entrada, gera SQL e retorna resultados. O SQL gerado e os resultados são então comparados com a Resposta SQL definida na pergunta de benchmark.

Para executar todas as perguntas de referência:

Perto da parte superior do espaço Genie, clique em Benchmarks.
Clique em Executar benchmarks para iniciar a execução do teste.

Para executar um subconjunto de perguntas de referência:

Perto da parte superior do espaço Genie, clique em Benchmarks.
Marque as caixas de seleção ao lado das perguntas que deseja testar.
Clique em Executar seleção para iniciar execução do teste nas perguntas selecionadas.

Você também pode selecionar um subconjunto de perguntas de um resultado de benchmark anterior e executar novamente essas perguntas específicas para testar melhorias.

Os benchmarks continuam a ser executados quando você navega para fora da página. Você pode verificar os resultados na guia Avaliação quando a execução estiver concluída.

Interpretar classificações

Os seguintes critérios determinam como as respostas do Genie são classificadas:

Condition	Rating
O Genie gera SQL que corresponde exatamente à resposta SQL fornecida	Bom
O Genie gera um conjunto de resultados que corresponde exatamente ao conjunto de resultados produzido pela Resposta SQL	Bom
O Genie gera um conjunto de resultados com os mesmos dados da Resposta SQL , mas classificados de forma diferente	Bom
O Genie gera um conjunto de resultados com valores numéricos que arredondam para os mesmos 4 dígitos significativos da Resposta SQL	Bom
O Genie gera SQL que produz um conjunto de resultados vazio ou retorna um erro	Ruim
O Genie gera um conjunto de resultados que inclui colunas extras em comparação com o conjunto de resultados produzido pela Resposta SQL	Ruim
O Genie gera um resultado de célula única que é diferente do resultado de célula única produzido pela Resposta SQL	Ruim

Revisão manual necessária: as respostas são marcadas com esse rótulo quando o Genie não pode avaliar a correção ou quando os resultados da consulta gerados pelo Genie não contêm uma correspondência exata com os resultados da resposta SQL fornecida. Todas as perguntas de referência que não incluam uma Resposta SQL devem ser revisadas manualmente.

Aceda a avaliações de benchmark

Você pode acessar todas as suas avaliações de benchmark para acompanhar a precisão em seu espaço Genie ao longo do tempo. Quando você abre os Benchmarks de um espaço, uma lista com carimbo de data/hora de execuções de avaliação aparece na guia Avaliações . Se não forem encontradas execuções de avaliação, consulte Adicionar perguntas de referência ou Executar perguntas de referência.

Tela de avaliações conforme descrito no texto a seguir.

A guia Avaliações mostra uma visão geral das avaliações e do seu desempenho, conforme reportado nas seguintes categorias:

Nome da avaliação: carimbo de data/hora que indica quando ocorreu uma sessão de avaliação. Clique no carimbo de data/hora para ver os detalhes dessa avaliação. Status de execução: Indica se a avaliação foi concluída, pausada ou malsucedida. Se uma execução de avaliação incluir perguntas de referência que não tenham respostas SQL predefinidas, ela será marcada para revisão nesta coluna. Precisão: Uma avaliação numérica da precisão em todas as perguntas de referência. Para processos de avaliação que exigem revisão manual, a medição da precisão aparece somente depois que as perguntas foram revisadas. Criado por: Indica o nome do usuário que executou a avaliação.

Rever avaliações individuais

Pode rever avaliações individuais para obter uma visão detalhada de cada resposta. Você pode editar a avaliação para qualquer pergunta e atualizar todos os itens que precisam de revisão manual.

Para rever avaliações individuais:

Perto da parte superior do espaço Genie, clique em Benchmarks.
Clique na data/hora de qualquer avaliação na coluna Nome da avaliação para abrir uma exibição detalhada da execução do teste.
Use a lista de perguntas no lado esquerdo da tela para ver uma visão detalhada de cada pergunta.
Analise e compare a resposta de saída do Modelo com a resposta de verdade fundamental.

Para resultados classificados como incorretos, aparece uma explicação descrevendo por que o resultado foi classificado como Ruim. Isso ajuda você a entender as diferenças específicas entre a saída gerada e a verdade de base esperada.

Nota

Os resultados destas respostas aparecem nos detalhes da avaliação durante uma semana. Após uma semana, os resultados já não são visíveis. A instrução SQL gerada e a instrução SQL de exemplo permanecem.
Clique em Atualizar verdade de base para salvar a resposta como o novo Ground truth para esta pergunta. Isso é útil se nenhuma verdade fundamentada existir, ou se a resposta for melhor ou mais precisa do que a declaração de verdade básica existente.
Clique no rótulo para editar a avaliação.

Marque cada resultado como Bom ou Ruim para obter uma pontuação precisa para esta avaliação.

Feedback

Esta página foi útil?

Last updated on 2025-10-23