Compartilhar via


Exemplos de inferência de API serverless para Foundry Models

Observação

Este documento refere-se ao portal do Microsoft Foundry (clássico ).

🔍 Exiba a documentação do Microsoft Foundry (novo) para saber mais sobre o novo portal.

O catálogo de modelos do Foundry oferece uma grande seleção de Modelos do Microsoft Foundry de uma ampla gama de provedores. Você tem várias opções para implantar modelos do catálogo de modelos. Este artigo lista exemplos de inferência para implantações de API sem servidor.

Important

Os modelos que estão em versão prévia são marcados como versão prévia em seus cartões de modelo no catálogo de modelos.

Para executar a inferência com os modelos, alguns modelos como TimeGEN-1 da Nixtla e Cohere rerank exigem que você use APIs personalizadas dos provedores de modelo. Outros dão suporte à inferência usando a API de Inferência de Modelo. Você pode encontrar mais detalhes sobre modelos individuais examinando seus cartões de modelo no catálogo de modelos do portal do Foundry.

Cohere

A família de modelos Cohere inclui vários modelos otimizados para casos de uso diferentes, incluindo conclusões de chat e inserções.

Exemplos de inferência: comando coerente e inserção

A tabela a seguir fornece links para exemplos de como usar modelos cohere.

Description Linguagem Sample
Solicitações da Web Bash Command-RCommand-R+
cohere-embed.ipynb
Pacote de inferência da IA do Azure para C# C# Link
Pacote de inferência da IA do Azure para JavaScript JavaScript Link
Pacote de inferência da IA do Azure para Python Python Link
SDK do OpenAI (experimental) Python Link
LangChain Python Link
Cohere SDK Python Command
Embed
LiteLLM SDK Python Link

Geração Aumentada de Recuperação (RAG) e exemplos de uso da ferramenta: comando coerente e inserção

Description Packages Sample
Crie um índice de vetor local da Pesquisa de Similaridade de IA do Facebook (FAISS), usando as inserções do Cohere - Langchain langchain, langchain_cohere cohere_faiss_langchain_embed.ipynb
Use o Comando Cohere R/R+ para responder às perguntas dos dados no índice de vetores FAISS local - Langchain langchain, langchain_cohere command_faiss_langchain.ipynb
Use o Cohere Command R/R+ para responder às perguntas utilizando dados em um índice vetorial de busca por IA do Langchain langchain, langchain_cohere cohere-aisearch-langchain-rag.ipynb
Use o Comando Cohere R/R+ para responder às perguntas dos dados no índice vetorial de pesquisa de IA - SDK do Cohere cohere, azure_search_documents cohere-aisearch-rag.ipynb
Comando R+ ferramenta/chamada de função, usando o LangChain cohere, langchain, langchain_cohere command_tools-langchain.ipynb

reclassificação do Cohere

Para executar a inferência com modelos reclassificados do Cohere, você precisará usar as APIs de reclassificado personalizadas do Cohere. Para obter mais informações sobre o modelo de reclassificado do Cohere e suas funcionalidades, consulte Cohere rerank.

Preços de modelos reclassificados do Cohere

As consultas, para não serem confundidas com a consulta de um usuário, são um medidor de preços que se refere ao custo associado aos tokens usados como entrada para inferência de um modelo Cohere Rerank. Cohere conta uma única unidade de pesquisa como uma consulta com até 100 documentos a serem classificados. Documentos com mais de 500 tokens (para Cohere-rerank-v3.5) ou mais de 4.096 tokens (para Cohere-rerank-v3-English e Cohere-rerank-v3-multilingual) ao incluir o comprimento da consulta de pesquisa são divididos em várias partes, em que cada parte conta como um único documento.

Consulte a coleção de modelos Cohere no portal do Foundry.

Core42

A tabela a seguir fornece links para exemplos de como usar modelos de Jais.

Description Linguagem Sample
Pacote de inferência da IA do Azure para C# C# Link
Pacote de inferência da IA do Azure para JavaScript JavaScript Link
Pacote de inferência da IA do Azure para Python Python Link

DeepSeek

A família de modelos DeepSeek inclui o DeepSeek-R1, que se destaca em tarefas de raciocínio usando um processo de treinamento passo a passo, como linguagem, raciocínio científico e tarefas de codificação, DeepSeek-V3-0324, um modelo de linguagem MoE (Mistura de Especialistas) e muito mais.

A tabela a seguir fornece links para exemplos de como usar modelos DeepSeek.

Description Linguagem Sample
Pacote de inferência da IA do Azure para Python Python Link
Pacote de inferência da IA do Azure para JavaScript JavaScript Link
Pacote de inferência da IA do Azure para C# C# Link
Pacote de inferência de IA do Azure para Java Java Link

Meta

Os modelos e ferramentas do Meta Llama são uma coleção de modelos gerativos de IA para raciocínio textual e visual, pré-treinados e ajustados. A linha de modelos Meta é escalada para incluir:

  • SLM (pequenos modelos de linguagem) como modelos base 1B e 3B e instrução para inferência no dispositivo e borda
  • LLM (grandes modelos de linguagem) de tamanho médio, como modelos de base e instrução de 7B, 8B e 70B
  • Modelos de alto desempenho, como o Meta Llama 3.1-405B Instruct, para casos de uso de geração de dados sintéticos e destilação.
  • Modelos nativamente multimodais de alto desempenho, Llama 4 Scout e Llama 4 Maverick, aproveitam uma arquitetura de mistura de especialistas para oferecer desempenho líder do setor na compreensão de texto e imagem.

A tabela a seguir fornece links para exemplos de como usar modelos Meta Llama.

Description Linguagem Sample
Solicitação CURL Bash Link
Pacote de inferência da IA do Azure para C# C# Link
Pacote de inferência da IA do Azure para JavaScript JavaScript Link
Pacote de inferência da IA do Azure para Python Python Link
Solicitações da Web do Python Python Link
SDK do OpenAI (experimental) Python Link
LangChain Python Link
LiteLLM Python Link

Microsoft

Os modelos da Microsoft incluem vários grupos de modelos, como modelos mai, modelos Phi, modelos de IA de serviços de saúde e muito mais. Para ver todos os modelos disponíveis da Microsoft, exiba a coleção de modelos da Microsoft no portal do Foundry.

A tabela a seguir fornece links para exemplos de como usar modelos da Microsoft.

Description Linguagem Sample
Pacote de inferência da IA do Azure para C# C# Link
Pacote de inferência da IA do Azure para JavaScript JavaScript Link
Pacote de inferência da IA do Azure para Python Python Link
LangChain Python Link
Llama-Index Python Link

Consulte a coleção de modelos da Microsoft no portal do Foundry.

Mistral IA

O Mistral AI oferece duas categorias de modelos, especificamente:

  • Modelos Premium: incluem modelos Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) e Ministral 3B e estão disponíveis como APIs sem servidor com cobrança baseada em token paga conforme o uso.
  • Modelos abertos: incluem Mistral-small-2503, Codestral e Mistral Nemo (que estão disponíveis como APIs sem servidor com cobrança por token e pague conforme o uso), e Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 e Mistral-7B-v01 (que estão disponíveis para download e execução em endpoints gerenciados e auto-hospedados).

A tabela a seguir fornece links para exemplos de como usar modelos do Mistral.

Description Linguagem Sample
Solicitação CURL Bash Link
Pacote de inferência da IA do Azure para C# C# Link
Pacote de inferência da IA do Azure para JavaScript JavaScript Link
Pacote de inferência da IA do Azure para Python Python Link
Solicitações da Web do Python Python Link
SDK do OpenAI (experimental) Python Exemplo de SDK do Mistral – OpenAI
LangChain Python Exemplo de Mistral – LangChain
Mistral IA Python Mistral – Exemplo de IA do Mistral
LiteLLM Python Exemplo de Mistral – LiteLLM

Nixtla

O TimeGEN-1 da Nixtla é um modelo de previsão e detecção de anomalias pré-treinado para dados de séries temporais. O TimeGEN-1 pode produzir previsões precisas para novas séries temporais sem treinamento, usando apenas valores históricos e covariáveis exógenas como entradas.

Para executar a inferência, o TimeGEN-1 exige que você use a API de inferência personalizada do Nixtla. Para obter mais informações sobre o modelo TimeGEN-1 e suas funcionalidades, consulte Nixtla.

Estimar o número de tokens necessários

Antes de criar uma implantação do TimeGEN-1, é útil estimar o número de tokens que você planeja consumir e pelos quais será faturado. Um token corresponde a um ponto de dados em seu conjunto de dados de entrada ou conjunto de dados de saída.

Suponha que você tenha o seguinte conjunto de dados de série temporal de entrada:

Unique_id Timestamp Variável de destino Variável exógena 1 Variável exógena 2
BE 2016-10-22 00:00:00 70.00 49593.0 57253.0
BE 2016-10-22 01:00:00 37.10 46073.0 51887.0

Para determinar o número de tokens, multiplique o número de linhas (neste exemplo, duas) e o número de colunas usadas para previsão, sem contar as colunas unique_id e timestamp (neste exemplo, três) para obter um total de seis tokens.

Dado o seguinte conjunto de dados de saída:

Unique_id Timestamp Variável de destino prevista
BE 2016-10-22 02:00:00 46.57
BE 2016-10-22 03:00:00 48.57

Você também pode determinar o número de tokens contando o número de pontos de dados retornados após a previsão de dados. Neste exemplo, o número de tokens é dois.

Estimar preços com base em tokens

Há quatro medidores de preços que determinam o preço que você paga. Esses medidores são os seguintes:

Medidor de preços Description
paygo-inference-input-tokens Custos associados aos tokens usados como entrada para inferência quando finetune_steps = 0
paygo-inference-output-tokens Custos associados aos tokens usados como saída para inferência quando finetune_steps = 0
paygo-finetuned-model-inference-input-tokens Custos associados aos tokens usados como entrada para inferência quando finetune_steps> 0
paygo-finetuned-model-inference-output-tokens Custos associados aos tokens usados como saída para inferência quando finetune_steps> 0

Consulte a coleção de modelos Nixtla no portal do Foundry.

IA de estabilidade

Modelos de IA de estabilidade implantados por meio da implantação de API sem servidor implementam a API de Inferência de Modelo na rota /image/generations. Para obter exemplos de como usar modelos de IA de estabilidade, confira os seguintes exemplos:

Navegador Gretel

O Gretel Navigator emprega uma arquitetura de IA composta especificamente projetada para dados sintéticos, combinando os principais SLMs (modelos de linguagem de software livre) ajustados em mais de 10 domínios do setor. Esse sistema criado com finalidade cria conjuntos de dados diversos e específicos do domínio em escalas de centenas a milhões de exemplos. O sistema também preserva relações estatísticas complexas e oferece maior velocidade e exatidão em comparação com a criação manual de dados.

Description Linguagem Sample
Pacote de inferência da IA do Azure para JavaScript JavaScript Link
Pacote de inferência da IA do Azure para Python Python Link