Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Observação
Este documento refere-se ao portal Microsoft Foundry (clássico).
🔍 Consulte a documentação (nova) da Microsoft Foundry para saber mais sobre o novo portal.
O catálogo de modelos da Foundry oferece uma grande seleção de modelos Microsoft Foundry de uma vasta gama de fornecedores. Você tem várias opções para implantar modelos do catálogo. Este artigo lista exemplos de inferência para implantações de API sem servidor.
Important
Os modelos que estão em pré-visualização são marcados como pré-visualização nos respetivos cartões de modelo no catálogo de modelos.
Para realizar inferências com os modelos, alguns modelos, como o TimeGEN-1 da Nixtla e a reclassificação Cohere , exigem que você use APIs personalizadas dos provedores de modelos. Outros oferecem suporte à inferência usando a API de inferência de modelo. Pode encontrar mais detalhes sobre modelos individuais ao rever os seus cartões de modelos no catálogo de modelos do portal Foundry.
Cohere
A família de modelos Cohere inclui vários modelos otimizados para diferentes casos de uso, incluindo reclassificação, conclusão de bate-papo e modelos de incorporação.
Exemplos de inferência: comando Cohere e embed
A tabela a seguir fornece links para exemplos de como usar modelos Cohere.
| Description | Linguagem | Sample |
|---|---|---|
| Pedidos Web | Bash |
Command-RCommand-R+ cohere-embed.ipynb |
| Pacote de inferência do Azure AI para C# | C# | Link |
| Pacote Azure AI Inference para JavaScript | JavaScript | Link |
| Pacote de inferência do Azure AI para Python | Python | Link |
| OpenAI SDK (experimental) | Python | Link |
| LangChain | Python | Link |
| Cohere SDK | Python |
Command Embed |
| LiteLLM SDK | Python | Link |
Exemplos de Geração Aprimorada por Recuperação (RAG) e uso de ferramentas: comando Cohere e inserção
| Description | Packages | Sample |
|---|---|---|
| Crie um índice vetorial local de pesquisa de semelhança da IA do Facebook (FAISS), usando os embeddings da Cohere - Langchain |
langchain, langchain_cohere |
cohere_faiss_langchain_embed.ipynb |
| Use o comando Cohere R/R+ para responder a perguntas de dados no índice vetorial FAISS local - Langchain |
langchain, langchain_cohere |
command_faiss_langchain.ipynb |
| Use o comando Cohere R/R+ para responder a perguntas de dados no índice vetorial de pesquisa de IA - Langchain |
langchain, langchain_cohere |
cohere-aisearch-langchain-rag.ipynb |
| Use o Cohere Command R/R+ para responder a perguntas de dados no índice de vetores de pesquisa de IA - Cohere SDK |
cohere, azure_search_documents |
cohere-aisearch-rag.ipynb |
| Chamada de ferramenta/função Command R+, usando LangChain |
cohere, langchain, langchain_cohere |
command_tools-langchain.ipynb |
Reclassificação de Cohere
Para realizar inferências com modelos de reclassificação Cohere, é necessário usar as APIs de reclassificação personalizadas da Cohere. Para obter mais informações sobre o modelo de reclassificação Cohere e seus recursos, consulte Reclassificação Cohere.
Preços de modelos de reclassificação da Cohere
Consultas, não deve ser confundido com uma consulta de um utilizador, refere-se a um indicador de preços que está relacionado com o custo dos tokens usados como entrada para a inferência de um modelo Cohere Rerank. Cohere conta uma única unidade de pesquisa como uma consulta com até 100 documentos a serem classificados. Documentos com mais de 500 tokens (para Cohere-rerank-v3.5) ou mais de 4096 tokens (para Cohere-rerank-v3-English e Cohere-rerank-v3-multilingual) ao incluir o comprimento da consulta de pesquisa são divididos em vários blocos, onde cada bloco conta como um único documento.
Consulte a coleção de modelos Cohere no portal Foundry.
Core42
A tabela a seguir fornece links para exemplos de como usar modelos Jais.
| Description | Linguagem | Sample |
|---|---|---|
| Pacote de inferência do Azure AI para C# | C# | Link |
| Pacote Azure AI Inference para JavaScript | JavaScript | Link |
| Pacote de inferência do Azure AI para Python | Python | Link |
DeepSeek
A família de modelos DeepSeek inclui o DeepSeek-R1, que se destaca em tarefas de raciocínio usando um processo de treinamento passo a passo, como linguagem, raciocínio científico e tarefas de codificação, DeepSeek-V3-0324, um modelo de linguagem Mix-of-Experts (MoE) e muito mais.
A tabela a seguir fornece links para exemplos de como usar modelos DeepSeek.
| Description | Linguagem | Sample |
|---|---|---|
| Pacote de inferência do Azure AI para Python | Python | Link |
| Pacote Azure AI Inference para JavaScript | JavaScript | Link |
| Pacote de inferência do Azure AI para C# | C# | Link |
| Pacote Azure AI Inference para Java | Java | Link |
Meta
Os modelos e ferramentas Meta Llama são uma coleção de modelos de raciocínio generativo de texto e imagem de IA pré-treinados e ajustados. A gama de metamodelos é dimensionada para incluir:
- Modelos de linguagem reduzidos (SLMs), como os modelos Base e Instrução 1B e 3B para inferência em dispositivos e na periferia
- Modelos de linguagem de grande porte médio (LLMs) como os modelos 7B, 8B e 70B Base e Instruct
- Modelos de alto desempenho, como o Meta Llama 3.1-405B Instruct, para geração de dados sintéticos e aplicações de destilação.
- Modelos multimodais nativos de alto desempenho, Llama 4 Scout e Llama 4 Maverick, aproveitam uma arquitetura mista de especialistas para oferecer desempenho líder do setor em compreensão de texto e imagem.
A tabela a seguir fornece links para exemplos de como usar modelos Meta Llama.
| Description | Linguagem | Sample |
|---|---|---|
| Solicitação CURL | Bash | Link |
| Pacote de inferência do Azure AI para C# | C# | Link |
| Pacote Azure AI Inference para JavaScript | JavaScript | Link |
| Pacote de inferência do Azure AI para Python | Python | Link |
| Solicitações da Web Python | Python | Link |
| OpenAI SDK (experimental) | Python | Link |
| LangChain | Python | Link |
| LiteLLM | Python | Link |
Microsoft
Os modelos da Microsoft incluem vários grupos de modelos, como modelos MAI, modelos Phi, modelos de IA para cuidados de saúde e muito mais. Para ver todos os modelos Microsoft disponíveis, consulte a coleção de modelos Microsoft no portal Foundry.
A tabela a seguir fornece links para exemplos de como usar modelos da Microsoft.
| Description | Linguagem | Sample |
|---|---|---|
| Pacote de inferência do Azure AI para C# | C# | Link |
| Pacote Azure AI Inference para JavaScript | JavaScript | Link |
| Pacote de inferência do Azure AI para Python | Python | Link |
| LangChain | Python | Link |
| Llama-Index | Python | Link |
Consulte a coleção de modelos da Microsoft no portal Foundry.
Mistral IA
Mistral AI oferece duas categorias de modelos, a saber:
- Modelos premium: Estes incluem os modelos Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) e Ministral 3B, e estão disponíveis como APIs sem servidor com faturação baseada em tokens pay-as-you-go.
- Modelos abertos: Estes incluem Mistral-small-2503, Codestral e Mistral Nemo (que estão disponíveis como APIs sem servidor com faturamento baseado em token pré-pago) e Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 e Mistral-7B-v01 (que estão disponíveis para download e execução em endpoints gerenciados auto-hospedados).
A tabela a seguir fornece links para exemplos de como usar modelos Mistral.
| Description | Linguagem | Sample |
|---|---|---|
| Solicitação CURL | Bash | Link |
| Pacote de inferência do Azure AI para C# | C# | Link |
| Pacote Azure AI Inference para JavaScript | JavaScript | Link |
| Pacote de inferência do Azure AI para Python | Python | Link |
| Solicitações da Web Python | Python | Link |
| OpenAI SDK (experimental) | Python | Mistral - Exemplo do OpenAI SDK |
| LangChain | Python | Mistral - Amostra de LangChain |
| Mistral IA | Python | Mistral - Exemplar do Mistral AI |
| LiteLLM | Python | Mistral - Amostra de LiteLLM |
Nixtla
O TimeGEN-1 da Nixtla é um modelo generativo de previsão e deteção de anomalias pré-treinado para dados de séries temporais. O TimeGEN-1 pode produzir previsões precisas para novas séries temporais sem treinamento, usando apenas valores históricos e covariáveis exógenas como entradas.
Para executar a inferência, o TimeGEN-1 requer que você use a API de inferência personalizada do Nixtla. Para obter mais informações sobre o modelo TimeGEN-1 e seus recursos, consulte Nixtla.
Estimar o número de tokens necessários
Antes de criar uma implementação do TimeGEN-1, é útil estimar o número de tokens que se planeia consumir e pelos quais será cobrado. Um token corresponde a um ponto de dados em seu conjunto de dados de entrada ou conjunto de dados de saída.
Suponha que você tenha o seguinte conjunto de dados de série temporal de entrada:
| Unique_id | Timestamp | Variável de destino | Variável Exógena 1 | Variável Exógena 2 |
|---|---|---|---|---|
| BE | 2016-10-22 00:00:00 | 70.00 | 49593.0 | 57253.0 |
| BE | 2016-10-22 01:00:00 | 37.10 | 46073.0 | 51887.0 |
Para determinar o número de tokens, multiplique o número de linhas (neste exemplo, duas) e o número de colunas usadas para previsão, sem contar as colunas de unique_id e carimbo de data/hora (neste exemplo, três) para obter um total de seis tokens.
Dado o seguinte conjunto de dados de saída:
| Unique_id | Timestamp | Variável de Alvo Prevista |
|---|---|---|
| BE | 2016-10-22 02:00:00 | 46.57 |
| BE | 2016-10-22 03:00:00 | 48.57 |
Você também pode determinar o número de tokens contando o número de pontos de dados retornados após a previsão de dados. Neste exemplo, o número de tokens é dois.
Estimar preços com base em tokens
Existem quatro medidores de preços que determinam o preço que você paga. Estes medidores são os seguintes:
| Medidor de Preços | Description |
|---|---|
| paygo-inference-input-tokens | Custos associados aos tokens usados como entrada para inferência quando finetune_steps = 0 |
| paygo-inference-output-tokens | Custos associados aos tokens usados como saída para inferência quando finetune_steps = 0 |
| paygo-finetuned-model-inference-input-tokens | Custos associados aos tokens usados como entrada para inferência quando finetune_steps> 0 |
| paygo-finetuned-model-inference-output-tokens | Custos associados aos tokens usados como saída para inferência quando finetune_steps> 0 |
Consulte a coleção de modelos Nixtla no portal Foundry.
IA de estabilidade
Os modelos de IA de estabilidade implantados por meio da implantação de API sem servidor implementam a API de Inferência de Modelo na rota /image/generations.
Para obter exemplos de como usar modelos de IA de estabilidade, consulte os seguintes exemplos:
- Use o OpenAI SDK com modelos de IA de estabilidade para solicitações de texto para imagem
- Usar a biblioteca Requests com modelos da Stability AI para pedidos de conversão de texto em imagem
- Use a biblioteca Requests com o Stable Diffusion 3.5 Large para requisições de transformação de imagem para imagem
- Exemplo de uma resposta de geração de imagem totalmente codificada
Navegador Gretel
O Gretel Navigator emprega uma arquitetura de IA composta especificamente projetada para dados sintéticos, combinando os principais modelos de linguagem pequena (SLMs) de código aberto ajustados em mais de 10 domínios da indústria. Este sistema criado especificamente cria conjuntos de dados diversificados e específicos do domínio em escalas de centenas a milhões de exemplos. O sistema também preserva relações estatísticas complexas e oferece maior velocidade e precisão em comparação com a criação manual de dados.
| Description | Linguagem | Sample |
|---|---|---|
| Pacote Azure AI Inference para JavaScript | JavaScript | Link |
| Pacote de inferência do Azure AI para Python | Python | Link |