Obter respostas em cache de solicitações de API de modelo de linguagem grande

APLICA-SE A: Todas as camadas de gerenciamento de API

Use a política para executar a llm-semantic-cache-lookup pesquisa de cache de respostas a solicitações de API LLM (modelo de linguagem grande) a partir de um cache externo configurado, com base na proximidade vetorial do prompt a solicitações anteriores e em um limite de pontuação especificado. O cache de resposta reduz a largura de banda e os requisitos de processamento impostos à API LLM de back-end e reduz a latência percebida pelos consumidores de API.

Nota

Essa política deve ter respostas de cache correspondentes à política de solicitações de API de modelo de linguagem grande.
Para obter os pré-requisitos e as etapas para habilitar o cache semântico, consulte Habilitar cache semântico para APIs LLM no Gerenciamento de API do Azure.

Nota

Defina os elementos da política e os elementos filho na ordem fornecida na declaração de política. Saiba mais sobre como definir ou editar políticas de Gerenciamento de API.

Modelos suportados

Use a política com APIs LLM adicionadas ao Gerenciamento de API do Azure que estão disponíveis por meio da API de Inferência de Modelo de IA do Azure ou com modelos compatíveis com OpenAI servidos por meio de provedores de inferência de terceiros.

Declaração de política

<llm-semantic-cache-lookup
    score-threshold="score threshold to return cached response"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>

Atributos

Atributo	Descrição	Necessário	Predefinição
limiar-pontuação	O limite de pontuação define o quão próximo um prompt de entrada deve corresponder a um prompt armazenado em cache para retornar sua resposta armazenada. O valor varia de 0,0 a 1,0. Valores mais baixos exigem maior semelhança semântica para uma correspondência. Mais informações.	Sim	N/A
incorporações-backend-id	Back-end ID para incorporar chamada de API.	Sim	N/A
incorporações-backend-auth	Autenticação usada para incorporar back-end de API.	Sim. Deve ser definido como `system-assigned`.	N/A
ignorar-sistema-mensagens	Booleano. Quando definido como `true` (recomendado), remove as mensagens do sistema de um prompt de conclusão de bate-papo antes de avaliar a semelhança do cache.	Não	falso
contagem máxima de mensagens	Se especificado, número de mensagens de diálogo restantes após as quais o cache é ignorado.	Não	N/A

Elementos

Nome	Descrição	Necessário
variar-por	Uma expressão personalizada determinada em tempo de execução cujo valor particiona o cache. Se vários `vary-by` elementos forem adicionados, os valores serão concatenados para criar uma combinação exclusiva.	Não

Utilização

Secções políticas: entrada
Escopos da política: global, produto, API, operação
Gateways: clássico, v2, consumo, auto-hospedado

Notas de utilização

Esta política só pode ser utilizada uma vez numa secção de política.
Ajuste o valor de score-threshold baseado em seu aplicativo para garantir que a sensibilidade certa seja usada para determinar quando retornar respostas em cache para consultas. Comece com um valor baixo, como 0,05, e ajuste para otimizar a proporção de acertos de cache para erros.
Limite de pontuação acima de 0,2 pode levar a incompatibilidade de cache. Considere o uso de um valor mais baixo para casos de uso confidenciais.
Controle o acesso entre usuários às entradas de cache especificando vary-by com identificadores específicos de usuário ou grupo de usuários.
O modelo de incorporações deve ter capacidade e tamanho de contexto suficientes para acomodar o volume e os prompts do prompt.
Considere adicionar a política llm-content-safety com escudo imediato para proteger contra ataques imediatos.
Recomendamos configurar uma política de limite de taxa (ou política de limite de taxa por chave ) imediatamente após qualquer pesquisa de cache. Isso ajuda a evitar que o serviço de back-end fique sobrecarregado se o cache não estiver disponível.

Exemplos

Exemplo com a política llm-semantic-cache-store correspondente

O exemplo a seguir mostra como usar a llm-semantic-cache-lookup política junto com a llm-semantic-cache-store política para recuperar respostas em cache semanticamente semelhantes com um limite de pontuação de similaridade de 0,05. Os valores armazenados em cache são particionados pela ID de assinatura do chamador.

Nota

Adicione uma política de limite de taxa (ou política de limite de taxa por chave ) após a pesquisa de cache para ajudar a limitar o número de chamadas e evitar sobrecarga no serviço backend caso a cache não esteja disponível.

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Para obter mais informações sobre como trabalhar com políticas, consulte:

Tutorial: Transforme e proteja sua API
Referência de política para uma lista completa de declarações de política e suas configurações
Expressões de política
Definir ou editar políticas
Reutilizar configurações de política
Recompra de trechos de política
Política de recompra de parques infantis
Kit de ferramentas de política de Gerenciamento de API do Azure
Obtenha assistência do Copilot para criar, explicar e resolver problemas com políticas

Feedback

Esta página foi útil?

Last updated on 2025-10-31

Partilhar via

Obter respostas em cache de solicitações de API de modelo de linguagem grande

Modelos suportados

Declaração de política

Atributos

Elementos

Utilização

Notas de utilização

Exemplos

Exemplo com a política llm-semantic-cache-store correspondente

Políticas relacionadas

Conteúdos relacionados

Feedback

Recursos adicionais