Compartilhar via


Visão geral da implantação para modelos do Microsoft Foundry

Observação

Este documento refere-se ao portal do Microsoft Foundry (clássico ).

🔍 Exiba a documentação do Microsoft Foundry (novo) para saber mais sobre o novo portal.

O catálogo de modelos no Microsoft Foundry é o hub para descobrir e usar uma ampla gama de Modelos de Foundry para a criação de aplicativos de IA generativos. Você precisa implantar modelos para disponibilizá-los para receber solicitações de inferência. A Foundry oferece um conjunto abrangente de opções de implantação para Modelos Foundry, dependendo de suas necessidades e requisitos de modelo.

Opções de implantação

A Foundry fornece várias opções de implantação, dependendo do tipo de modelos e recursos necessários para provisionar. As seguintes opções de implantação estão disponíveis:

  • Implantação padrão nos recursos do Foundry
  • Implantação em pontos de extremidade de API sem servidor
  • Implantação em ambientes computacionais gerenciados

O portal Foundry pode escolher automaticamente uma opção de implantação com base em seu ambiente e configuração. Use os recursos do Foundry para implantação sempre que possível. Modelos que dão suporte a várias opções de implantação utilizam, por padrão, os recursos do Foundry para a implantação. Para acessar outras opções de implantação, use a CLI do Azure ou o SDK do Azure Machine Learning para implantação.

Implantação padrão nos recursos do Foundry

Os recursos do Foundry (anteriormente conhecidos como recursos dos Serviços de IA do Azure) são a opção de implantação preferida no Foundry. Ele oferece a maior variedade de recursos, incluindo processamento regional, de zona de dados ou global, e oferece opções de PTU (taxa de transferência padrão e provisionada). Modelos flagship nos Modelos Foundry dão suporte a essa opção de implantação.

Esta opção de implantação está disponível em:

  • Recursos de fundição
  • Recursos do Azure OpenAI1
  • Hub de IA do Azure, quando conectado a um recurso do Foundry

1Se você usar recursos do Azure OpenAI, o catálogo de modelos mostrará apenas o Azure OpenAI em Modelos do Foundry para implantação. Você pode obter a lista completa de Modelos da Fábrica atualizando para um recurso Foundry.

Para iniciar com a implantação padrão em recursos do Foundry, confira Como implantar modelos no Foundry Models.

Endpoint de API sem servidor

Essa opção de implantação só está disponível nosrecursos do hub de IA do Azure. Ele permite que você crie pontos de extremidade dedicados para hospedar o modelo, acessíveis por meio de uma API. Os Modelos da Fábrica dão suporte a pontos de extremidade de API sem servidor com cobrança de pagamento conforme o uso, e você só pode criar implantações regionais para pontos de extremidade de API sem servidor.

Para começar a usar a implantação em um ponto de extremidade de API sem servidor, confira Implantar modelos como implantações de API sem servidor.

Computação gerenciada

Essa opção de implantação só está disponível nosrecursos do hub de IA do Azure. Ele permite que você crie um ponto de extremidade dedicado para hospedar o modelo em uma computação dedicada. Você precisa ter uma cota de recursos computacionais em sua assinatura para hospedar o modelo, e você será cobrado pelo tempo de atividade dos recursos computacionais.

A implantação de computação gerenciada é necessária para coleções de modelos que incluem:

  • Abraçando o rosto
  • Microsserviços de Inferência da NVIDIA (NIMs)
  • Modelos da indústria (Saifr, Rockwell, Bayer, Cerence, Sight Machine, Page AI, SDAIA)
  • Databricks
  • Modelos personalizados

Para começar, confira Como implementar e inferir uma implantação de computação gerenciada e Implantar modelos Foundry para computação gerenciada com cobrança paga conforme o uso.

Recursos para as opções de implantação

Utilize Implantações padrão em recursos do Foundry sempre que possível. Essa opção de implantação fornece a maioria dos recursos entre as opções de implantação disponíveis. A tabela a seguir lista detalhes sobre recursos específicos para cada opção de implantação:

Capacidade Implantação padrão nos recursos do Foundry Ponto de extremidade da API sem servidor Computação gerenciada
Quais modelos podem ser implantados? Modelos Foundry Modelos Foundry com cobrança de pagamento conforme o uso Modelos abertos e personalizados
Recurso de implantação Recurso do Foundry Projeto de IA (no recurso do hub de IA) Projeto de IA (no recurso do hub de IA)
Requer Hubs de IA Não Sim Sim
Opções de processamento de dados Regional
Zona de dados
Global
Regional Regional
Rede privada Sim Sim Sim
Filtragem de conteúdo Sim Sim Não
Filtragem de conteúdo personalizado Sim Não Não
Autenticação sem chave Sim Não Não
Bases de faturamento Uso de token & unidades de taxa de transferência provisionadas Uso de token2 Horas principais de computação3

2 Uma infraestrutura mínima de ponto de extremidade é cobrada por minuto. Você não é cobrado pela infraestrutura que hospeda o modelo na implantação sem servidor. Depois de excluir o ponto de extremidade, nenhum encargo adicional será acumulado.

3 A cobrança é por minuto, dependendo da camada do produto e do número de instâncias usadas na implementação desde o momento da criação. Depois de excluir o ponto de extremidade, nenhum encargo adicional será acumulado.