Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo descreve como gerenciar efetivamente seus custos ao usar a Pesquisa de Vetor de IA do Mosaico. Ela abrange os seguintes tópicos:
- Noções básicas sobre índice e ponto de extremidade de busca em vetores.
- Monitoramento de cobrança e uso.
- Modos de sincronização.
- Práticas recomendadas para otimizar os custos.
Para identificar e excluir pontos de extremidade vazios, consulte Identificar e excluir pontos de extremidade vazios da Pesquisa de Vetores.
Noções básicas sobre a Pesquisa Vetorial de IA da Mosaic
A Busca Vetorial de IA do Mosaic é composta por:
- Índices de pesquisa de vetor: os índices armazenam seus vetores para pesquisa e recuperação.
- Pontos de extremidade de busca em vetores: cada ponto de extremidade hospeda um ou mais índices para consulta. Você pode ter vários índices atendidos em um único ponto de extremidade e um ponto de extremidade pode atender até 50 índices. Em muitos casos, você pode combinar cargas de trabalho menores em um único ponto de extremidade para reduzir os custos totais.
Como a busca em vetores é cobrada
Databricks oferece duas opções de ponto de extremidade:
Pontos de extremidade padrão. Uma unidade de pesquisa de vetor abrange até 2 milhões de vetores da dimensão 768 (ou o equivalente). Por exemplo, se você tiver 1 milhão de vetores da dimensão 1536, isso também conta como uma unidade.
Pontos de extremidade otimizados para armazenamento. Uma unidade de pesquisa de vetor abrange até 64 milhões de vetores da dimensão 768 (ou o equivalente).
Para ambas as opções, cada endpoint tem um preço base e ajusta-se automaticamente para acompanhar o tamanho total dos índices que está servindo.
- Os pontos de extremidade padrão não são reduzidos automaticamente. Mesmo que você exclua vetores ou reduza o tamanho de seus índices, você continuará pagando pela maior capacidade até fazer alterações manualmente.
- Os pontos de extremidade otimizados para armazenamento são reduzidos de forma automática e gradativa quando um índice é excluído. O tamanho mínimo para um ponto de extremidade é uma unidade de pesquisa vetorial.
Importante
Os pontos de extremidade padrão não são reduzidos automaticamente. Se a contagem de vetores cair significativamente (por exemplo, de 4 milhões para 1,5 milhão de vetores), você continuará pagando pela maior capacidade (duas unidades de pesquisa de vetor neste exemplo) até excluir o ponto de extremidade e criar um novo. Isso só é válido para pontos de extremidade padrão. Os pontos de extremidade com otimização de armazenamento são reduzidos automaticamente.
Como monitorar o uso e os custos
O Databricks fornece uma tabela de uso faturável, painéis de uso e políticas de orçamento para ajudá-lo a monitorar o uso e os custos da Pesquisa de Vetor.
Tabela de uso faturável
Aqui está um exemplo de consulta da tabela de uso faturável:
WITH all_vector_search_usage AS (
SELECT *,
CASE WHEN usage_metadata.endpoint_name IS NULL THEN 'ingest'
WHEN usage_type = "STORAGE_SPACE" THEN 'storage'
ELSE 'serving'
END as workload_type
FROM system.billing.usage
WHERE billing_origin_product = 'VECTOR_SEARCH'
),
daily_dbus AS (
SELECT
workspace_id,
cloud,
usage_date,
workload_type,
usage_metadata.endpoint_name as vector_search_endpoint,
CASE WHEN workload_type = 'serving' THEN SUM(usage_quantity)
WHEN workload_type = 'ingest' THEN SUM(usage_quantity)
ELSE null
END as dbus,
CASE WHEN workload_type = 'storage' THEN SUM(usage_quantity)
ELSE null
END as dsus
FROM all_vector_search_usage
GROUP BY 1,2,3,4,5
ORDER BY 1,2,3,4,5 DESC
)
SELECT * FROM daily_dbus;
Para obter mais detalhes sobre a tabela de uso faturável, consulte a referência da tabela do sistema de uso faturável.
Há consultas adicionais no notebook de exemplo a seguir.
Notebook de consulta de tabelas do sistema de busca em vetores
Painéis de uso
Para obter informações sobre os painéis de uso que você pode importar para obter insights sobre os fatores de custo, incluindo o uso da busca em vetores, confira Painéis de uso.
Políticas de orçamento
As políticas de orçamento permitem que os administradores agrupem e filtrem registros de cobrança em todos os produtos sem servidor do Azure Databricks e forneçam uma interface do usuário dedicada para controlar os gastos. Para aprender a aplicar uma política de orçamento a um endpoint de pesquisa vetorial, consulte Mosaic AI Vector Search: Políticas de orçamento. Para obter informações gerais e detalhes sobre como criar e gerenciar políticas de orçamento, consulte o uso de atributos com políticas de orçamento sem servidor.
Como gerenciar os custos de sincronização de índice
Você pode configurar seu índice para atualizar de duas maneiras:
- Sincronização disparada: você chama a API ou o SDK do Python para disparar uma atualização de índice. Essa é a opção mais econômica.
- Sincronização Contínua: o índice é atualizado automaticamente com alterações da tabela Delta de origem com latência quase em tempo real. Isso custa mais porque um cluster de streaming é provisionado para lidar com a sincronização. Se atualizações quase em tempo real com segundos de latência não forem críticas, considere usar a Sincronização Disparada para reduzir os custos.
Práticas recomendadas para gerenciamento de custos
- Combine cargas de trabalho em um único ponto de extremidade: se você prever QPS baixo em todos os índices, poderá combinar seus índices em um único ponto de extremidade para evitar vários custos de ponto de extremidade base. Consulte o guia de desempenho da Pesquisa de Vector para obter mais detalhes.
- Monitorar o uso: use as tabelas de cobrança do sistema e os painéis de uso internos para controlar a capacidade, o uso e os custos.
- Para pontos de extremidade padrão, reduza manualmente: conforme explicado acima, para pontos de extremidade padrão, você deve excluir o ponto de extremidade e recriá-lo se a contagem de vetores estiver abaixo de um limite de capacidade anterior que você não precisa mais. Os pontos de extremidade otimizados para armazenamento são reduzidos de forma automática e gradativa quando um índice é excluído.
- Escolha o modo de sincronização correto: use a Sincronização Disparada em vez da Sincronização Contínua sempre que possível, para reduzir os custos de streaming.
- Identificar e excluir pontos de extremidade vazios: consulte Identificar e excluir pontos de extremidade vazios da Pesquisa de Vetores.
Recursos adicionais
- Preços da Busca Vetorial da Mosaic AI
- Painéis de uso e instruções
- Entre em contato com sua equipe de conta do Databricks se quiser obter orientações adicionais sobre como prever seu uso ou aproveitar as ferramentas de estimativa de custos específicas para suas cargas de trabalho.