Partilhar via


Implante modelos como implantações de API sem servidor

Observação

Este documento refere-se ao portal Microsoft Foundry (clássico).

🔍 Consulte a documentação (nova) da Microsoft Foundry para saber mais sobre o novo portal.

Importante

Os itens marcados como (pré-visualização) neste artigo estão neste momento em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para trabalhos em produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

Neste artigo, aprende como implementar um Modelo Microsoft Foundry como uma implementação de API serverless. Determinados modelos no catálogo de modelos podem ser implantados como uma implantação de API sem servidor. Esse tipo de implantação fornece uma maneira de consumir modelos como uma API sem hospedá-los em sua assinatura, mantendo a segurança e a conformidade corporativas de que as organizações precisam. Essa opção de implantação não exige cota da sua assinatura.

Embora a implementação de APIs serverless seja uma opção para implementar Modelos Foundry, recomendamos que implemente os Modelos Foundry em recursos Foundry.

Observação

Recomendamos que implemente os Modelos Microsoft Foundry nos recursos do Foundry para que possa consumir as suas implementações no recurso através de um único endpoint com a mesma autenticação e esquema para gerar inferência. O ponto de extremidade segue a API de Inferência de Modelo de IA do Azure que todos os Modelos Foundry suportam. Para saber como implementar um Modelo Foundry nos recursos Foundry, consulte Adicionar e configurar modelos nos Modelos Foundry.

Pré-requisitos

  • Uma subscrição do Azure com um método de pagamento válido. As subscrições gratuitas ou de avaliação do Azure não funcionarão. Se você não tiver uma assinatura do Azure, crie uma conta paga do Azure para começar.

  • Se você não tiver um, crie um projeto baseado em hub.

  • Certifique-se de que a funcionalidade Deploy models to Foundry resources (pré-visualização) está desligada no portal Foundry. Quando esse recurso está ativado, as implantações de API sem servidor não estão disponíveis no portal.

    Uma captura de ecrã do portal da Foundry a mostrar onde desativar a implantação nos recursos da Foundry.

  • Os Modelos de Parceiros e Comunidade requerem acesso ao Azure Marketplace, enquanto os Modelos Vendidos Diretamente pelo Azure não têm esta exigência. Certifique-se de que tem as permissões necessárias para subscrever ofertas de modelo no Azure Marketplace.

  • Os controlos de acesso baseados em funções Azure (Azure RBAC) são usados para conceder acesso às operações no portal Foundry. Para executar as etapas neste artigo, sua conta de usuário deve receber a função de Desenvolvedor do Azure AI no grupo de recursos. Para mais informações sobre permissões, consulte Controlo de acesso baseado em funções no portal Foundry.

  • Pode usar qualquer navegador web compatível para navegar no Foundry.

Encontre o seu modelo no catálogo de modelos

  1. Inicie sessão no Microsoft Foundry. Certifica-te de que a opção do New Foundry está desligada. Estes passos referem-se à Foundry (clássico).
  2. Se ainda não estiver no seu projeto, selecione-o.
  3. Selecione Catálogo de modelos no painel esquerdo.
  1. Selecione o cartão modelo do modelo que você deseja implantar. Neste artigo, você seleciona um modelo DeepSeek-R1 .

  2. Selecione Usar este modelo para abrir a janela de implantação da API sem servidor , onde você pode exibir a guia Preços e termos .

  3. No assistente de implantação, nomeie a implantação. A opção Filtro de conteúdo (visualização) está ativada por padrão. Deixe a configuração padrão para o serviço detetar conteúdo nocivo, como conteúdo de ódio, automutilação, sexual e violento. Para mais informações sobre filtragem de conteúdos, consulte filtragem de conteúdos no portal Foundry.

    Captura de ecrã a mostrar o assistente de implementação de um modelo vendido diretamente pelo Azure.

Implantar o modelo em uma API sem servidor

Nesta seção, você cria um ponto de extremidade para seu modelo.

  1. No assistente de implantação, selecione Implantar. Aguarde até que a implantação esteja pronta e você seja redirecionado para a página Implantações.

  2. Para ver os pontos de extremidade implantados em seu projeto, na seção Meus ativos do painel esquerdo, selecione Modelos + pontos de extremidade.

  3. O ponto de extremidade criado usa autenticação de chave para autorização. Para obter as chaves associadas a um endpoint específico, siga estes passos:

    1. Selecione a implantação e anote o URI e a chave de destino do ponto de extremidade.

    2. Utilize essas credenciais para acionar a implementação e gerar previsões.

  4. Se precisar consumir esta implementação a partir de um projeto ou hub diferente, ou planeia utilizar o Prompt flow para criar aplicações inteligentes, precisa criar uma ligação à implantação da API sem servidor. Para saber como configurar uma implantação de API sem servidor existente em um novo projeto ou hub, consulte Consumir implantação de API sem servidor implantada de um projeto diferente ou do fluxo de prompt.

    Sugestão

    Se estiver a usar o Prompt flow no mesmo projeto ou hub onde a implementação foi efetuada, ainda precisará de criar a conexão.

Usar a implantação de API sem servidor

Modelos implementados em Azure Machine Learning e Foundry em implementações de APIs serverless suportam a API Azure AI Model Inference , que expõe um conjunto comum de capacidades para modelos fundamentais e que pode ser usada por programadores para consumir previsões de um conjunto diversificado de modelos de forma uniforme e consistente.

Leia mais sobre os recursos dessa API e como você pode usá-la ao criar aplicativos.

Excluir pontos de extremidade e assinaturas

Sugestão

Como pode personalizar o painel esquerdo no portal Microsoft Foundry, pode ver itens diferentes dos mostrados nestes passos. Se não encontrar o que procura, selecione ... Mais informações na parte inferior do painel esquerdo.

Você pode excluir assinaturas de modelo e pontos de extremidade. A eliminação de uma subscrição de modelo faz com que qualquer ponto de extremidade associado se torne inativo e inutilizável.

Para excluir uma implantação de API sem servidor:

  1. Vai à Foundry.
  2. Aceda ao seu projeto.
  3. Na seção Meus ativos, selecione Modelos + pontos de extremidade.
  4. Abra a implantação que você deseja excluir.
  5. Selecione Eliminar.

Para excluir a assinatura de modelo associada:

  1. Vá para o portal do Azure
  2. Navegue até o grupo de recursos ao qual o projeto pertence.
  3. No filtro Tipo, selecione SaaS.
  4. Selecione a subscrição que quer eliminar.
  5. Selecione Eliminar.
  • Para trabalhar com o Foundry, instale a CLI do Azure e a extensão ML para o Azure Machine Learning.

    az extension add -n ml
    

    Se já tiver a extensão instalada, certifique-se de que a versão mais recente está instalada.

    az extension update -n ml
    

    Uma vez instalada a extensão, configure-a:

    az account set --subscription <subscription>
    az configure --defaults workspace=<project-name> group=<resource-group> location=<location>
    

Encontre o seu modelo no catálogo de modelos

  1. Inicie sessão no Microsoft Foundry. Certifica-te de que a opção do New Foundry está desligada. Estes passos referem-se à Foundry (clássico).
  2. Se ainda não estiver no seu projeto, selecione-o.
  3. Selecione Catálogo de modelos no painel esquerdo.
  1. Selecione o cartão modelo do modelo que você deseja implantar. Neste artigo, você seleciona um modelo DeepSeek-R1 .

  2. Copie a ID do modelo sem incluir a versão do modelo, já que as implantações de API sem servidor sempre implantam a versão mais recente disponível do modelo. Por exemplo, para o ID azureml://registries/azureml-deepseek/models/DeepSeek-R1/versions/1do modelo , copie azureml://registries/azureml-deepseek/models/DeepSeek-R1.

    Uma captura de tela mostrando a página de detalhes de um modelo vendido diretamente pelo Azure.

As etapas nesta seção do artigo usam o modelo DeepSeek-R1 para ilustração. Os passos são os mesmos, quer esteja a utilizar Modelos Foundry vendidos diretamente pelo Azure ou pelos parceiros ou pela comunidade. Por exemplo, se você optar por implantar o modelo Cohere-command-r-08-2024 , poderá substituir as credenciais do modelo nos trechos de código pelas credenciais de Cohere.

Implantar o modelo em uma API sem servidor

Nesta seção, você cria um ponto de extremidade para seu modelo. Nomeie o ponto de extremidade DeepSeek-R1-qwerty.

  1. Crie o endpoint sem servidor.

    endpoint.yml

    name: DeepSeek-R1-qwerty
    model_id: azureml://registries/azureml-deepseek/models/DeepSeek-R1
    

    Use o ficheiro endpoint.yml para criar o endpoint:

    az ml serverless-endpoint create -f endpoint.yml
    
  2. A qualquer momento, podes ver os endpoints implantados no teu projeto.

    az ml serverless-endpoint list
    
  3. O ponto de extremidade criado usa autenticação de chave para autorização. Utilize os passos seguintes para obter as chaves associadas a um dado endpoint.

    az ml serverless-endpoint get-credentials -n DeepSeek-R1-qwerty
    
  4. Se precisar consumir esta implementação a partir de um projeto ou hub diferente, ou planeia utilizar o Prompt flow para criar aplicações inteligentes, precisa criar uma ligação à implantação da API sem servidor. Para saber como configurar uma implantação de API sem servidor existente em um novo projeto ou hub, consulte Consumir implantação de API sem servidor implantada de um projeto diferente ou do fluxo de prompt.

    Sugestão

    Se estiver a usar o Prompt flow no mesmo projeto ou hub onde a implementação foi efetuada, ainda precisará de criar a conexão.

Usar a implantação de API sem servidor

Modelos implementados em Azure Machine Learning e Foundry em implementações de APIs serverless suportam a API Azure AI Model Inference , que expõe um conjunto comum de capacidades para modelos fundamentais e que pode ser usada por programadores para consumir previsões de um conjunto diversificado de modelos de forma uniforme e consistente.

Leia mais sobre os recursos dessa API e como você pode usá-la ao criar aplicativos.

Excluir pontos de extremidade e assinaturas

Você pode excluir assinaturas de modelo e pontos de extremidade. A eliminação de uma subscrição de modelo faz com que qualquer ponto de extremidade associado se torne inativo e inutilizável.

Para excluir uma implantação de API sem servidor:

az ml serverless-endpoint delete \
    --name "DeepSeek-R1-qwerty"

Para excluir a assinatura de modelo associada:

az ml marketplace-subscription delete \
    --name "DeepSeek-R1"
  • Para trabalhar com o Foundry, instale o Azure Machine Learning SDK para Python.

    pip install -U azure-ai-ml
    

    Uma vez instalado, importe os namespaces necessários e crie um cliente conectado ao seu projeto:

    from azure.ai.ml import MLClient
    from azure.identity import InteractiveBrowserCredential
    from azure.ai.ml.entities import MarketplaceSubscription, ServerlessEndpoint
    
    client = MLClient(
        credential=InteractiveBrowserCredential(tenant_id="<tenant-id>"),
        subscription_id="<subscription-id>",
        resource_group_name="<resource-group>",
        workspace_name="<project-name>",
    )
    

Encontre o seu modelo no catálogo de modelos

  1. Inicie sessão no Microsoft Foundry. Certifica-te de que a opção do New Foundry está desligada. Estes passos referem-se à Foundry (clássico).
  2. Se ainda não estiver no seu projeto, selecione-o.
  3. Selecione Catálogo de modelos no painel esquerdo.
  1. Selecione o cartão modelo do modelo que você deseja implantar. Neste artigo, você seleciona um modelo DeepSeek-R1 .

  2. Copie a ID do modelo sem incluir a versão do modelo, já que as implantações de API sem servidor sempre implantam a versão mais recente disponível do modelo. Por exemplo, para o ID azureml://registries/azureml-deepseek/models/DeepSeek-R1/versions/1do modelo , copie azureml://registries/azureml-deepseek/models/DeepSeek-R1.

    Uma captura de tela mostrando a página de detalhes de um modelo vendido diretamente pelo Azure.

As etapas nesta seção do artigo usam o modelo DeepSeek-R1 para ilustração. Os passos são os mesmos, quer esteja a utilizar Modelos Foundry vendidos diretamente pelo Azure ou pelos parceiros ou pela comunidade. Por exemplo, se você optar por implantar o modelo Cohere-command-r-08-2024 , poderá substituir as credenciais do modelo nos trechos de código pelas credenciais de Cohere.

Implantar o modelo em uma API sem servidor

Nesta seção, você cria um ponto de extremidade para seu modelo. Nomeie o ponto de extremidade DeepSeek-R1-qwerty.

  1. Crie o endpoint sem servidor.

    endpoint_name="DeepSeek-R1-qwerty"
    
    serverless_endpoint = ServerlessEndpoint(
        name=endpoint_name,
        model_id=model_id
    )
    
    created_endpoint = client.serverless_endpoints.begin_create_or_update(
        serverless_endpoint
    ).result()
    
  2. A qualquer momento, podes ver os endpoints implantados no teu projeto.

    endpoint_name="DeepSeek-R1-qwerty"
    
    serverless_endpoint = ServerlessEndpoint(
        name=endpoint_name,
        model_id=model_id
    )
    
    created_endpoint = client.serverless_endpoints.begin_create_or_update(
        serverless_endpoint
    ).result()
    
  3. O ponto de extremidade criado usa autenticação de chave para autorização. Utilize os passos seguintes para obter as chaves associadas a um dado endpoint.

    endpoint_keys = client.serverless_endpoints.get_keys(endpoint_name)
    print(endpoint_keys.primary_key)
    print(endpoint_keys.secondary_key)
    
  4. Se precisar consumir esta implementação a partir de um projeto ou hub diferente, ou planeia utilizar o Prompt flow para criar aplicações inteligentes, precisa criar uma ligação à implantação da API sem servidor. Para saber como configurar uma implantação de API sem servidor existente em um novo projeto ou hub, consulte Consumir implantação de API sem servidor implantada de um projeto diferente ou do fluxo de prompt.

    Sugestão

    Se estiver a usar o Prompt flow no mesmo projeto ou hub onde a implementação foi efetuada, ainda precisará de criar a conexão.

Usar a implantação de API sem servidor

Modelos implementados em Azure Machine Learning e Foundry em implementações de APIs serverless suportam a API Azure AI Model Inference , que expõe um conjunto comum de capacidades para modelos fundamentais e que pode ser usada por programadores para consumir previsões de um conjunto diversificado de modelos de forma uniforme e consistente.

Leia mais sobre os recursos dessa API e como você pode usá-la ao criar aplicativos.

Excluir pontos de extremidade e assinaturas

Você pode excluir assinaturas de modelo e pontos de extremidade. A eliminação de uma subscrição de modelo faz com que qualquer ponto de extremidade associado se torne inativo e inutilizável.

client.serverless_endpoints.begin_delete(endpoint_name).wait()

Para excluir a assinatura de modelo associada:

client.marketplace_subscriptions.begin_delete(subscription_name).wait()
  • Para trabalhar com o Foundry, instale o Azure CLI conforme descrito no Azure CLI.

    Configure as seguintes variáveis de ambiente de acordo com suas configurações:

    RESOURCE_GROUP="serverless-models-dev"
    LOCATION="eastus2" 
    

Encontre o seu modelo no catálogo de modelos

  1. Inicie sessão no Microsoft Foundry. Certifica-te de que a opção do New Foundry está desligada. Estes passos referem-se à Foundry (clássico).
  2. Se ainda não estiver no seu projeto, selecione-o.
  3. Selecione Catálogo de modelos no painel esquerdo.
  1. Selecione o cartão modelo do modelo que você deseja implantar. Neste artigo, você seleciona um modelo DeepSeek-R1 .

  2. Copie a ID do modelo sem incluir a versão do modelo, já que as implantações de API sem servidor sempre implantam a versão mais recente disponível do modelo. Por exemplo, para o ID azureml://registries/azureml-deepseek/models/DeepSeek-R1/versions/1do modelo , copie azureml://registries/azureml-deepseek/models/DeepSeek-R1.

    Uma captura de tela mostrando a página de detalhes de um modelo vendido diretamente pelo Azure.

As etapas nesta seção do artigo usam o modelo DeepSeek-R1 para ilustração. Os passos são os mesmos, quer esteja a utilizar Modelos Foundry vendidos diretamente pelo Azure ou pelos parceiros ou pela comunidade. Por exemplo, se você optar por implantar o modelo Cohere-command-r-08-2024 , poderá substituir as credenciais do modelo nos trechos de código pelas credenciais de Cohere.

Implantar o modelo em uma API sem servidor

Nesta seção, você cria um ponto de extremidade para seu modelo. Nomeie o ponto de extremidade myserverless-text-1234ss.

  1. Crie o endpoint sem servidor. Use o seguinte modelo para criar um ponto de extremidade:

    serverless-endpoint.bicep

    param projectName string = 'my-project'
    param endpointName string = 'myserverless-text-1234ss'
    param location string = resourceGroup().location
    param modelId string = 'azureml://registries/azureml-deepseek/models/DeepSeek-R1'
    
    var modelName = substring(modelId, (lastIndexOf(modelId, '/') + 1))
    // Replace period character which is used in some model names (and is not valid in the subscription name)
    var sanitizedModelName = replace(modelName, '.', '')
    var subscriptionName = '${sanitizedModelName}-subscription'
    
    resource projectName_endpoint 'Microsoft.MachineLearningServices/workspaces/serverlessEndpoints@2024-04-01-preview' = {
      name: '${projectName}/${endpointName}'
      location: location
      sku: {
        name: 'Consumption'
      }
      properties: {
        modelSettings: {
          modelId: modelId
        }
      }
      dependsOn: [
        projectName_subscription
      ]
    }
    
    output endpointUri string = projectName_endpoint.properties.inferenceEndpoint.uri
    

    Crie a implantação da seguinte maneira:

    az deployment group create --resource-group $RESOURCE_GROUP --template-file model-subscription.bicep
    
  2. A qualquer momento, podes ver os endpoints implantados no teu projeto.

    Você pode usar as ferramentas de gerenciamento de recursos para consultar os recursos. O código a seguir usa a CLI do Azure:

    az resource list \
        --query "[?type=='Microsoft.MachineLearningServices/workspaces/serverlessEndpoints']"
    
  3. O ponto de extremidade criado usa autenticação de chave para autorização. Obtenha as chaves associadas ao ponto de extremidade fornecido usando APIs REST para consultar essas informações.

  4. Se precisar consumir esta implementação a partir de um projeto ou hub diferente, ou planeia utilizar o Prompt flow para criar aplicações inteligentes, precisa criar uma ligação à implantação da API sem servidor. Para saber como configurar uma implantação de API sem servidor existente em um novo projeto ou hub, consulte Consumir implantação de API sem servidor implantada de um projeto diferente ou do fluxo de prompt.

    Sugestão

    Se estiver a usar o Prompt flow no mesmo projeto ou hub onde a implementação foi efetuada, ainda precisará de criar a conexão.

Usar a implantação de API sem servidor

Modelos implementados em Azure Machine Learning e Foundry em implementações de APIs serverless suportam a API Azure AI Model Inference , que expõe um conjunto comum de capacidades para modelos fundamentais e que pode ser usada por programadores para consumir previsões de um conjunto diversificado de modelos de forma uniforme e consistente.

Leia mais sobre os recursos dessa API e como você pode usá-la ao criar aplicativos.

Excluir pontos de extremidade e assinaturas

Você pode excluir assinaturas de modelo e pontos de extremidade. A eliminação de uma subscrição de modelo faz com que qualquer ponto de extremidade associado se torne inativo e inutilizável.

Você pode usar as ferramentas de gerenciamento de recursos para gerenciar os recursos. O código a seguir usa a CLI do Azure:

az resource delete --name <resource-name>

Considerações sobre custo e quota para modelos Foundry desenvolvidos como API sem servidor

A quota é gerida por distribuição. Cada implementação tem um limite de taxa de 200 000 tokens por minuto e 1000 pedidos de API por minuto. Além disso, atualmente limitamos uma implantação por modelo e por projeto. Contacte o Suporte do Microsoft Azure se os limites de taxa atuais não forem suficientes para os seus cenários.

  • Você pode encontrar informações de preços para Modelos vendidos diretamente pelo Azure, na guia Preços e termos da janela de implantação da API sem servidor .

  • Modelos de Parceiros e Comunidade são oferecidos através do Azure Marketplace e integrados com o Foundry para uso. Você pode encontrar os preços do Azure Marketplace ao implantar ou ajustar esses modelos. Sempre que um projeto subscreve uma determinada oferta do Azure Marketplace, é criado um novo recurso para controlar os custos associados ao seu consumo. O mesmo recurso é usado para monitorizar os custos associados à inferência e à otimização; no entanto, estão disponíveis vários medidores para monitorizar cada cenário de forma independente. Para obter mais informações sobre como controlar custos, consulte Monitorar custos para modelos oferecidos por meio do Azure Marketplace.

Permissões necessárias para subscrever ofertas de modelos

Os controlos de acesso baseados em funções Azure (Azure RBAC) são usados para conceder acesso às operações no portal Foundry. Para executar as etapas neste artigo, sua conta de usuário deve receber a função de Proprietário, Colaborador ou Desenvolvedor do Azure AI para a assinatura do Azure. Em alternativa, pode ser atribuída à sua conta uma função personalizada com as seguintes permissões:

  • Na assinatura do Azure — para inscrever o espaço de trabalho na oferta do Azure Marketplace, uma vez para cada espaço de trabalho, por oferta:

    • Microsoft.MarketplaceOrdering/agreements/offers/plans/read
    • Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
    • Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
    • Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
    • Microsoft.SaaS/register/action
  • No grupo de recursos — para criar e utilizar o recurso SaaS:

    • Microsoft.SaaS/resources/read
    • Microsoft.SaaS/resources/write
  • No espaço de trabalho — para implementar pontos finais (a função de cientista de dados do Azure Machine Learning já contém essas permissões):

    • Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
    • Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*

Para mais informações sobre permissões, consulte Controlo de acesso baseado em funções no portal Foundry.