Tipos de implementação para modelos Microsoft Foundry

A Microsoft Foundry disponibiliza modelos utilizando o conceito de implementação de modelos em Foundry Services (anteriormente conhecido como Azure AI Services). As implantações de modelo também são recursos do Azure e, quando criadas, dão acesso a um determinado modelo em determinadas configurações. Essa configuração inclui a infraestrutura necessária para processar as solicitações.

Os modelos Foundry oferecem aos clientes opções de estrutura de alojamento que se ajustam aos seus padrões de negócio e utilização. Essas opções são traduzidas para diferentes tipos de implementações (ou SKUs) disponíveis no momento da implementação do modelo no recurso Foundry.

O serviço oferece dois tipos principais de implantações: padrão e provisionado. Para um determinado tipo de implantação, os clientes podem alinhar suas cargas de trabalho com seus requisitos de processamento de dados. Eles podem escolher uma geografia do Azure (Standard ou Provisioned-Managed), uma zona de dados especificada pela Microsoft (DataZone- Standard ou DataZone Provisioned-Managed) ou uma opção de processamento global (Global-Standard ou Global Provisioned-Managed).

Para modelos ajustados, um tipo de implantação adicional Developer fornece um meio econômico de avaliação de modelo personalizado, mas sem residência de dados.

Todas as implantações podem executar exatamente as mesmas operações de inferência, mas o faturamento, a escala e o desempenho são substancialmente diferentes. Como parte do design da solução, você precisa tomar decisões importantes em duas categorias:

Local de processamento de dados
Volume de chamadas

Locais de processamento de dados de implantação na fundição

Para implantações padrão, há três opções de tipo de implantação para escolher: global, zona de dados e geografia do Azure. Para implantações provisionadas, há duas opções de tipo de implantação para escolher: geografia global e do Azure. Recomendamos o Global Standard como ponto de partida.

Implantações globais

As implantações globais usam a infraestrutura global do Azure para rotear dinamicamente o tráfego do cliente para o datacenter com a melhor disponibilidade para as solicitações de inferência do cliente. Isso significa que o global oferece os mais altos limites de taxa de transferência inicial e a melhor disponibilidade do modelo, mas ainda fornece nosso SLA de tempo de atividade e baixa latência. Para cargas de trabalho de alto volume acima das camadas de uso especificadas no Standard e no Global Standard, você pode experimentar uma maior variação de latência. Para clientes que exigem a menor variação de latência no uso de grande carga de trabalho, recomendamos o uso de nossos tipos de implantação provisionada.

Nossas implantações globais são o primeiro local para todos os novos modelos e recursos. Dependendo do volume de chamadas, os clientes com requisitos de grande volume e baixa variação de latência devem considerar nossos tipos de implantação provisionada.

Implantações de zona de dados

Para qualquer tipo de implementação rotulado como Global, prompts e respostas podem ser processados em qualquer geografia onde o modelo Foundry relevante seja implementado. Saiba mais na secção "Disponibilidade da região do modelo por tipo de implementação" da Foundry Models vendida diretamente pela Azure.

Para qualquer tipo de implantação rotulado como DataZone, as solicitações e respostas podem ser processadas em qualquer geografia dentro da região de dados especificada, conforme definido pela Microsoft. Se criar uma implementação DataZone num recurso Foundry localizado nos Estados Unidos, as sugestões e respostas podem ser processadas em qualquer local dentro dos Estados Unidos. Se criar uma implementação de DataZone num recurso Foundry localizado num país membro da União Europeia, prompts e respostas podem ser processados nesse ou em qualquer outro país membro da União Europeia.

Para os tipos de implementação Global e DataZone, todos os dados armazenados em repouso, como os dados carregados, são armazenados na geografia designada pelo cliente. Apenas a localização do processamento é afetada quando um cliente utiliza um tipo de implementação Global ou DataZone num recurso Foundry; Os compromissos de processamento e conformidade de dados Azure mantêm-se aplicáveis.

Observação

Com os tipos de implantação Padrão Global e Padrão de Zona de Dados, se a região principal sofrer uma interrupção no serviço, todo o tráfego inicialmente roteado para essa região será afetado. Para saber mais, consulte o guia de continuidade de negócios e recuperação de desastres.

Padrão Global

Nome SKU no código: GlobalStandard

Importante

Os dados armazenados em repouso permanecem na geografia designada do Azure. No entanto, os dados podem ser processados para inferência em qualquer local da Foundry. Saiba mais sobre residência de dados.

As implementações globais estão disponíveis nos mesmos recursos da Foundry que os tipos de implantação não globais. No entanto, eles permitem que você use a infraestrutura global do Azure para rotear dinamicamente o tráfego para o datacenter com a melhor disponibilidade para cada solicitação. O Global Standard fornece a cota padrão mais alta e elimina a necessidade de balanceamento de carga em vários recursos.

Clientes com alto volume consistente podem experimentar maior variabilidade de latência. O limite é definido por modelo. Para saber mais, consulte a página Quotas. Para aplicações que exigem menor variação de latência sob cargas de trabalho elevadas, recomendamos a compra de largura de banda provisionada.

A implementação padrão global suporta o uso de processamento prioritário para desempenho fiável e de alta velocidade, com flexibilidade de pagar conforme o uso. Para saber mais, consulte Processamento Prioritário para modelos Foundry (pré-visualização).

Provisionamento Global

Nome SKU no código: GlobalProvisionedManaged

Importante

As implementações globais estão disponíveis nos mesmos recursos da Foundry que os tipos de implantação não globais. No entanto, eles permitem que você use a infraestrutura global do Azure para rotear dinamicamente o tráfego para o datacenter com a melhor disponibilidade para cada solicitação. As implantações provisionadas globais fornecem capacidade de processamento de modelo reservado para uma taxa de transferência alta e previsível usando a infraestrutura global do Azure.

Processo Global em Lote

Nome SKU no código: GlobalBatch

Importante

O Global Batch foi projetado para lidar eficientemente com tarefas de processamento de grande escala e alto volume. Você pode processar grupos assíncronos de solicitações com cota separada e um prazo de entrega de destino de 24 horas, a um custo 50% menor do que o Global Standard. Com o processamento em lote, em vez de enviar uma solicitação de cada vez, você envia um grande número de solicitações em um único arquivo. As solicitações de Lote Global possuem uma cota separada de tokens enfileirados, o que evita interrupções nas suas cargas de trabalho online.

Os principais casos de utilização incluem:

Processamento de dados em grande escala: analise rapidamente conjuntos de dados extensos em paralelo.
Geração de conteúdo: crie grandes volumes de texto, como descrições de produtos ou artigos.
Revisão e resumo de documentos: automatize a revisão e o resumo de documentos longos.
Automação do suporte ao cliente: Gerencie várias questões simultaneamente para obter respostas mais rápidas.
Extração e análise de dados: extraia e analise informações de grandes quantidades de dados não estruturados.
Tarefas de processamento de linguagem natural (NLP): execute tarefas como análise de sentimento ou tradução em grandes conjuntos de dados.
Marketing e personalização: Gere conteúdo personalizado e recomendações em escala.

Padrão de zona de dados

Nome SKU no código: DataZoneStandard

Importante

Os dados armazenados em repouso permanecem na geografia designada do Azure. No entanto, os dados podem ser processados para inferência em qualquer localização da Foundry dentro da zona de dados especificada pela Microsoft. Saiba mais sobre residência de dados.

As implementações do Data Zone Standard estão disponíveis no mesmo recurso Foundry que todos os outros tipos de implementação Foundry. No entanto, eles permitem que você use a infraestrutura global do Azure para rotear dinamicamente o tráfego para o datacenter dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação. O Data Zone Standard fornece cotas padrão mais altas do que nossos tipos de implantação baseados em geografia do Azure.

Clientes com alto volume consistente podem experimentar maior variabilidade de latência. O limite é definido por modelo. Para saber mais, consulte a página de cotas e limites. Para cargas de trabalho que exigem baixa variação de latência em grande volume, recomendamos o uso das ofertas de implantação provisionada.

A implementação padrão em zona de dados suporta o uso de processamento prioritário para um desempenho fiável e de alta velocidade, com a flexibilidade de pagar conforme se utiliza. Para saber mais, consulte Processamento Prioritário para modelos Foundry (pré-visualização).

Zona de dados provisionada

Nome SKU no código: DataZoneProvisionedManaged

Importante

As implementações provisionadas por Zona de Dados estão disponíveis no mesmo recurso Foundry que todos os outros tipos de implantação Foundry. No entanto, eles permitem que você use a infraestrutura global do Azure para rotear dinamicamente o tráfego para o datacenter dentro da zona de dados especificada pela Microsoft com a melhor disponibilidade para cada solicitação. As implantações provisionadas de zona de dados fornecem capacidade de processamento de modelo reservado para uma taxa de transferência alta e previsível usando a infraestrutura do Azure dentro da zona de dados especificada pela Microsoft.

Lote de zona de dados

Nome SKU no código: DataZoneBatch

Importante

As implantações Batch de Zona de Dados fornecem a mesma funcionalidade que as implantações Batch Globais. No entanto, eles permitem que você use a infraestrutura global do Azure para rotear dinamicamente o tráfego apenas para datacenters dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação.

Standard

Nome SKU no código: Standard

As implantações padrão fornecem um modelo de cobrança de pagamento por chamada no modelo escolhido. Este modelo pode ser uma maneira rápida de começar, porque você paga apenas pelo que consome. Os modelos disponíveis em cada região e a taxa de transferência podem ser limitados.

As implantações padrão são otimizadas para cargas de trabalho de baixo a médio volume com alta amplitude. Clientes com alto volume consistente podem experimentar maior variabilidade de latência.

Provisionado Regional

Nome SKU no código: ProvisionedManaged

As implantações provisionadas regionais permitem especificar a quantidade de taxa de transferência necessária numa implantação. Em seguida, o serviço aloca a capacidade de processamento de modelo necessária e garante que ela esteja pronta para você. A largura de banda é definida em termos de unidades de largura de banda provisionadas, que é uma forma normalizada de representar a largura de banda para a sua implantação. Cada par de versão do modelo requer quantidades diferentes de unidades de taxa de transferência provisionadas para implantar e fornece quantidades diferentes de taxa de transferência por unidade de taxa de transferência provisionada. Saiba mais no artigo sobre conceitos de taxa de transferência provisionada.

Desativar o acesso a implementações globais na sua subscrição

A Política do Azure ajuda a impor padrões organizacionais e a avaliar a conformidade em escala. Por meio de seu painel de conformidade, ele fornece uma visão agregada para avaliar o estado geral do ambiente, com a capacidade de detalhar a granularidade por recurso e por política. Também ajuda a fazer com que os recursos fiquem em conformidade através da remediação em massa dos recursos existentes e da reparação automática dos recursos novos. Saiba mais sobre a Azure Policy e os controlos específicos incorporados para as Foundry Tools.

Pode usar a seguinte política para desativar o acesso a qualquer tipo de implementação do Foundry. Para desabilitar o acesso a um tipo de implantação específico, substitua GlobalStandard pelo nome da SKU para o tipo de implantação ao qual você deseja desabilitar o acesso.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Desenvolvedor (para modelos afinados)

Nome SKU no código: DeveloperTier

Importante

Os modelos ajustados suportam uma implementação concebida para suportar a Developer avaliação de modelos personalizados. Ele não oferece garantias de residência de dados ou um SLA. Para saber mais sobre como usar o Developer tipo de implantação, consulte o guia de ajuste fino.

Implantar modelos

Captura de ecrã que mostra o diálogo de implementação do modelo no portal Foundry com um tipo de implementação destacado.

Para saber mais sobre como criar recursos e implantar modelos, consulte o Guia de criação de recursos.

Feedback

Esta página foi útil?

Last updated on 2025-11-21

Partilhar via

Tipos de implementação para modelos Microsoft Foundry

Locais de processamento de dados de implantação na fundição

Implantações globais

Implantações de zona de dados

Padrão Global

Provisionamento Global

Processo Global em Lote

Padrão de zona de dados

Zona de dados provisionada

Lote de zona de dados

Standard

Provisionado Regional

Desativar o acesso a implementações globais na sua subscrição

Desenvolvedor (para modelos afinados)

Implantar modelos

Conteúdo relacionado

Feedback

Recursos adicionais