Partilhar via


Visão geral da implementação para os Modelos Microsoft Foundry

Observação

Este documento refere-se ao portal Microsoft Foundry (clássico).

🔍 Consulte a documentação (nova) da Microsoft Foundry para saber mais sobre o novo portal.

O catálogo de modelos no Microsoft Foundry é o centro para descobrir e utilizar uma vasta gama de Modelos Foundry para construir aplicações de IA generativa. Você precisa implantar modelos para disponibilizá-los para receber solicitações de inferência. A Foundry oferece um conjunto abrangente de opções de implementação para Modelos Foundry, dependendo das suas necessidades e requisitos de modelo.

Opções de implantação

O Foundry oferece várias opções de implementação dependendo do tipo de modelos e recursos que precisa de fornecer. As seguintes opções de implantação estão disponíveis:

  • Implementação padrão nos recursos da Foundry
  • Implementação para endpoints de API sem servidor
  • Implantação em computações gerenciadas

O portal da Foundry pode escolher automaticamente uma opção de implementação com base no seu ambiente e configuração. Use os recursos da Foundry para a implementação sempre que possível. Modelos que suportam múltiplas opções de implementação usam recursos do Foundry como padrão para implementação. Para acessar outras opções de implantação, use a CLI do Azure ou o SDK do Azure Machine Learning para implantação.

Implementação padrão nos recursos da Foundry

Os recursos Foundry (anteriormente referidos como recursos Azure AI Services) são a opção de implementação preferida no Foundry. Ele oferece a mais ampla gama de recursos, incluindo processamento regional, de zona de dados ou global, e oferece opções de taxa de transferência padrão e provisionada (PTU). Os modelos topo de gama em Foundry Models suportam esta opção de implementação.

Esta opção de implantação está disponível em:

  • Recursos da fundição
  • Recursos do Azure OpenAI1
  • Hub Azure AI, quando ligado a um recurso Foundry

1Se utilizar recursos do Azure OpenAI, o catálogo de modelos mostrará apenas Azure OpenAI em Foundry Models para implantação. Podes obter a lista completa de Modelos de Foundry ao atualizar para um recurso de Foundry.

Para começar com a implementação padrão nos recursos da Foundry, consulte Como: Implementar modelos para os Modelos da Foundry.

Endpoint de API sem servidor

Essa opção de implantação está disponível somente nosrecursos do hub de IA do Azure. Ele permite que você crie pontos de extremidade dedicados para hospedar o modelo, acessíveis por meio de uma API. Os Modelos Foundry suportam APIs serverless com faturação pay-as-you-go, e pode apenas criar implementações regionais para essas APIs serverless.

Para começar com a implementação num ponto final de API sem servidor, consulte Implementar modelos como implementações de API sem servidor.

Computação sob gestão

Essa opção de implantação está disponível somente nosrecursos do hub de IA do Azure. Ele permite que você crie um ponto de extremidade dedicado para hospedar o modelo em uma computação dedicada. Você precisa ter uma cota de computação na sua subscrição para hospedar o modelo e é cobrado por tempo de atividade da computação.

A implantação de computação gerenciada é necessária para coleções de modelos que incluem:

  • Rosto abraçado
  • Microsserviços de inferência NVIDIA (NIMs)
  • Modelos industriais (Saifr, Rockwell, Bayer, Cerence, Sight Machine, Page AI, SDAIA)
  • Databricks
  • Modelos à medida

Para começar, veja Como implementar e realizar inferência em uma implementação de computação gerida e Implementar Foundry Models para computação gerida com faturação conforme o uso.

Recursos para as opções de implantação

Use implementações padrão nos recursos da Foundry sempre que possível. Essa opção de implantação fornece o maior número de recursos entre as opções de implantação disponíveis. A tabela a seguir lista detalhes sobre recursos específicos para cada opção de implantação:

Capacidade Implementação padrão nos recursos da Foundry Endpoint de API sem servidor Computação sob gestão
Que modelos podem ser implementados? Modelos de Fundição Modelos de fundição com faturação pré-paga Modelos abertos e personalizados
Recurso de implantação Recurso da fundição Projeto de IA (no recurso de hub de IA) Projeto de IA (no recurso de hub de IA)
Requer Hubs de IA Não Sim Sim
Opções de processamento de dados Regionais
Zona de dados
A nível mundial
Regionais Regionais
Rede privada Sim Sim Sim
Filtragem de conteúdos Sim Sim Não
Filtragem de conteúdo personalizada Sim Não Não
Autenticação sem chave Sim Não Não
Bases de faturação Utilização de tokens & unidades de taxa de transferência provisionadas Uso de token2 Horas de núcleo de computação3

2 Uma infraestrutura mínima de endpoint é cobrada por minuto. Você não é cobrado pela infraestrutura que hospeda o modelo na implantação sem servidor. Depois de excluir o ponto de extremidade, não serão cobrados mais custos.

3 A cobrança é feita por minuto, dependendo da camada do produto e do número de instâncias usadas na implantação desde o momento da criação. Depois de excluir o ponto de extremidade, não serão cobrados mais custos.