Visão geral da implementação para os Modelos Microsoft Foundry

Observação

Este documento refere-se ao portal Microsoft Foundry (clássico).

🔍 Consulte a documentação (nova) da Microsoft Foundry para saber mais sobre o novo portal.

O catálogo de modelos no Microsoft Foundry é o centro para descobrir e utilizar uma vasta gama de Modelos Foundry para construir aplicações de IA generativa. Você precisa implantar modelos para disponibilizá-los para receber solicitações de inferência. A Foundry oferece um conjunto abrangente de opções de implementação para Modelos Foundry, dependendo das suas necessidades e requisitos de modelo.

Opções de implantação

O Foundry oferece várias opções de implementação dependendo do tipo de modelos e recursos que precisa de fornecer. As seguintes opções de implantação estão disponíveis:

Implementação padrão nos recursos da Foundry
Implementação para endpoints de API sem servidor
Implantação em computações gerenciadas

O portal da Foundry pode escolher automaticamente uma opção de implementação com base no seu ambiente e configuração. Use os recursos da Foundry para a implementação sempre que possível. Modelos que suportam múltiplas opções de implementação usam recursos do Foundry como padrão para implementação. Para acessar outras opções de implantação, use a CLI do Azure ou o SDK do Azure Machine Learning para implantação.

Implementação padrão nos recursos da Foundry

Os recursos Foundry (anteriormente referidos como recursos Azure AI Services) são a opção de implementação preferida no Foundry. Ele oferece a mais ampla gama de recursos, incluindo processamento regional, de zona de dados ou global, e oferece opções de taxa de transferência padrão e provisionada (PTU). Os modelos topo de gama em Foundry Models suportam esta opção de implementação.

Esta opção de implantação está disponível em:

Recursos da fundição
Recursos do Azure OpenAI¹
Hub Azure AI, quando ligado a um recurso Foundry

¹Se utilizar recursos do Azure OpenAI, o catálogo de modelos mostrará apenas Azure OpenAI em Foundry Models para implantação. Podes obter a lista completa de Modelos de Foundry ao atualizar para um recurso de Foundry.

Para começar com a implementação padrão nos recursos da Foundry, consulte Como: Implementar modelos para os Modelos da Foundry.

Endpoint de API sem servidor

Essa opção de implantação está disponível somente nosrecursos do hub de IA do Azure. Ele permite que você crie pontos de extremidade dedicados para hospedar o modelo, acessíveis por meio de uma API. Os Modelos Foundry suportam APIs serverless com faturação pay-as-you-go, e pode apenas criar implementações regionais para essas APIs serverless.

Para começar com a implementação num ponto final de API sem servidor, consulte Implementar modelos como implementações de API sem servidor.

Computação sob gestão

Essa opção de implantação está disponível somente nosrecursos do hub de IA do Azure. Ele permite que você crie um ponto de extremidade dedicado para hospedar o modelo em uma computação dedicada. Você precisa ter uma cota de computação na sua subscrição para hospedar o modelo e é cobrado por tempo de atividade da computação.

A implantação de computação gerenciada é necessária para coleções de modelos que incluem:

Rosto abraçado
Microsserviços de inferência NVIDIA (NIMs)
Modelos industriais (Saifr, Rockwell, Bayer, Cerence, Sight Machine, Page AI, SDAIA)
Databricks
Modelos à medida

Para começar, veja Como implementar e realizar inferência em uma implementação de computação gerida e Implementar Foundry Models para computação gerida com faturação conforme o uso.

Recursos para as opções de implantação

Use implementações padrão nos recursos da Foundry sempre que possível. Essa opção de implantação fornece o maior número de recursos entre as opções de implantação disponíveis. A tabela a seguir lista detalhes sobre recursos específicos para cada opção de implantação:

Capacidade	Implementação padrão nos recursos da Foundry	Endpoint de API sem servidor	Computação sob gestão
Que modelos podem ser implementados?	Modelos de Fundição	Modelos de fundição com faturação pré-paga	Modelos abertos e personalizados
Recurso de implantação	Recurso da fundição	Projeto de IA (no recurso de hub de IA)	Projeto de IA (no recurso de hub de IA)
Requer Hubs de IA	Não	Sim	Sim
Opções de processamento de dados	Regionais Zona de dados A nível mundial	Regionais	Regionais
Rede privada	Sim	Sim	Sim
Filtragem de conteúdos	Sim	Sim	Não
Filtragem de conteúdo personalizada	Sim	Não	Não
Autenticação sem chave	Sim	Não	Não
Bases de faturação	Utilização de tokens & unidades de taxa de transferência provisionadas	Uso de token²	Horas de núcleo de computação³

² Uma infraestrutura mínima de endpoint é cobrada por minuto. Você não é cobrado pela infraestrutura que hospeda o modelo na implantação sem servidor. Depois de excluir o ponto de extremidade, não serão cobrados mais custos.

³ A cobrança é feita por minuto, dependendo da camada do produto e do número de instâncias usadas na implantação desde o momento da criação. Depois de excluir o ponto de extremidade, não serão cobrados mais custos.

Feedback

Esta página foi útil?

Last updated on 2025-11-18