Partilhar via


Mosaic AI Vetor Search: Guia de gestão de custos

Este artigo descreve como gerenciar efetivamente seus custos ao usar o Mosaic AI Vetor Search. Abrange os seguintes tópicos:

  • Noções básicas sobre índice de pesquisa vetorial e ponto final.
  • Faturação e monitorização da utilização.
  • Modos de sincronização.
  • Melhores práticas para otimizar custos.

Para identificar e excluir pontos de extremidade vazios, consulte Identificar e excluir pontos de extremidade vazios da Pesquisa Vetorial.

Noções básicas do Mosaic AI Vetor Search

O Mosaic AI Vetor Search é composto por:

  • Índices de pesquisa vetorial: Os índices armazenam seus vetores para pesquisa e recuperação.
  • Pontos de extremidade de pesquisa vetorial: cada ponto de extremidade hospeda um ou mais índices para atender consultas. Você pode ter vários índices disponibilizados em um único endpoint, e um endpoint pode servir até 50 índices. Em muitos casos, você pode combinar cargas de trabalho menores em um único ponto de extremidade para reduzir os custos totais.

Como a pesquisa vetorial é precificada

O Databricks oferece duas opções de ponto final:

  • Pontos finais padrão. Uma unidade de pesquisa vetorial cobre até 2 milhões de vetores de dimensão 768 (ou equivalente). Por exemplo, se você tiver 1 milhão de vetores de dimensão 1536, isso também contará como uma unidade.

  • Pontos de extremidade otimizados para armazenamento. Uma unidade de pesquisa vetorial cobre até 64 milhões de vetores de dimensão 768 (ou equivalente).

Para ambas as opções, cada endpoint tem um preço base e é dimensionado automaticamente para corresponder ao tamanho total dos índices que está a servir.

  • Os pontos de extremidade padrão não são reduzidos automaticamente. Mesmo se você excluir vetores ou reduzir o tamanho de seus índices, você continuará pagando pela maior capacidade até fazer alterações manualmente.
  • Os endpoints otimizados para armazenamento diminuem automaticamente quando um índice é excluído. O tamanho mínimo para um ponto de extremidade é uma unidade de pesquisa vetorial.

Importante

Os pontos de extremidade padrão não são reduzidos automaticamente. Se sua contagem de vetores cair significativamente (por exemplo, de 4 milhões para 1,5 milhão de vetores), você continuará a pagar pela maior capacidade (duas unidades de pesquisa vetorial neste exemplo) até excluir o ponto de extremidade e criar um novo. Isso só é verdade para endpoints padrão. Os endpoints otimizados para armazenamento diminuem automaticamente.

Como monitorizar a utilização e os custos

O Databricks fornece uma tabela de uso faturável, painéis de uso e políticas de orçamento para ajudá-lo a monitorar o uso e os custos da Pesquisa Vetorial.

Tabela de utilização faturável

Aqui está um exemplo de consulta da tabela de uso faturável:

WITH all_vector_search_usage AS (
  SELECT *,
         CASE WHEN usage_metadata.endpoint_name IS NULL THEN 'ingest'
              WHEN usage_type = "STORAGE_SPACE" THEN 'storage'
              ELSE 'serving'
         END as workload_type
    FROM system.billing.usage
   WHERE billing_origin_product = 'VECTOR_SEARCH'
),

daily_dbus AS (
  SELECT
    workspace_id,
    cloud,
    usage_date,
    workload_type,
    usage_metadata.endpoint_name as vector_search_endpoint,
    CASE WHEN workload_type = 'serving' THEN SUM(usage_quantity)
         WHEN workload_type = 'ingest' THEN SUM(usage_quantity)
         ELSE null
         END as dbus,
    CASE WHEN workload_type = 'storage' THEN SUM(usage_quantity)
         ELSE null
         END as dsus
  FROM all_vector_search_usage
  GROUP BY 1,2,3,4,5
  ORDER BY 1,2,3,4,5 DESC
)
SELECT * FROM daily_dbus;

Para obter mais detalhes sobre a tabela de uso faturável, consulte Referência da tabela do sistema de uso faturável.

Consultas adicionais estão no bloco de anotações de exemplo a seguir.

Bloco de notas para consultas em tabelas do sistema de pesquisa vetorial

Obter caderno

Painéis de utilização

Para obter informações sobre painéis de uso que você pode importar para obter informações sobre drivers de custo, incluindo o uso para pesquisa vetorial, consulte Painéis de uso.

Políticas orçamentais

As políticas de orçamento permitem que os administradores agrupem e filtrem registros de cobrança em todos os produtos sem servidor do Azure Databricks e fornecem uma interface do usuário dedicada para controlar os gastos. Para saber como aplicar uma política de orçamento a um ponto de extremidade de pesquisa vetorial, consulte Mosaic AI Vetor Search: Budget policies. Para obter informações gerais e detalhes sobre como criar e gerenciar políticas de orçamento, consulte Uso de atributos com políticas de orçamento sem servidor.

Como gerenciar os custos de sincronização de índice

Você pode configurar seu índice para atualizar de duas maneiras:

  • Sincronização acionada: você chama a API ou o SDK do Python para disparar uma atualização de índice. Esta é a opção mais rentável.
  • Sincronização contínua: o índice é atualizado automaticamente com alterações da tabela Delta de origem com latência quase em tempo real. Isso custa mais porque um cluster de streaming é provisionado para lidar com a sincronização. Se atualizações quase em tempo real com segundos de latência não forem críticas, considere usar o Trigger Sync para reduzir custos.

Melhores práticas para a gestão de custos

  • Combine cargas de trabalho num único endpoint: Se antecipar um baixo QPS em todos os índices, pode combinar os seus índices num único endpoint para evitar os custos de múltiplos endpoints base. Consulte o guia de desempenho da Pesquisa Vetorial para obter mais detalhes.
  • Monitorar o uso: use as tabelas de faturamento do sistema e os painéis de uso internos para controlar a capacidade, o uso e os custos.
  • Para pontos de extremidade padrão, reduza manualmente: Como explicado acima, para pontos de extremidade padrão, você deve excluir o ponto de extremidade e recriá-lo se sua contagem de vetores cair abaixo de um limite de capacidade anterior que você não precisa mais. Os endpoints otimizados para armazenamento diminuem automaticamente quando um índice é excluído.
  • Escolha o modo de sincronização correto: use a sincronização acionada em vez da sincronização contínua sempre que possível, para reduzir os custos de streaming.
  • Identificar e excluir pontos de extremidade vazios: consulte Identificar e excluir pontos de extremidade vazios da Pesquisa Vetorial.

Recursos adicionais