Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O Microsoft Foundry disponibiliza modelos usando o conceito de implantação de modelo no Foundry Services (anteriormente conhecido como Serviços de IA do Azure). As implantações de modelo também são recursos do Azure e, quando criadas, dão acesso a um determinado modelo em determinadas configurações. Essa configuração inclui a infraestrutura necessária para processar as solicitações.
Os modelos de fundição fornecem aos clientes opções de estrutura de hospedagem que se ajustam aos seus padrões de negócios e de uso. Essas opções são traduzidas para diferentes tipos de implantações (ou SKUs) que estão disponíveis no momento da implantação do modelo no recurso Foundry.
O serviço oferece dois tipos principais de implantações: padrão e provisionado. Para um determinado tipo de implantação, os clientes podem alinhar suas cargas de trabalho com seus requisitos de processamento de dados. Eles podem escolher uma geografia do Azure (Standard ou Provisioned-Managed), uma zona de dados especificada pela Microsoft (DataZone- Standard ou DataZone Provisioned-Managed), ou uma opção de processamento global (Global-Standard ou Global Provisioned-Managed) .
Para modelos ajustados, um tipo de implantação Developer adicional fornece um meio econômico de avaliação de modelo personalizado, mas sem residência de dados.
Todas as implantações podem executar exatamente as mesmas operações de inferência, mas a cobrança, a escala e o desempenho são substancialmente diferentes. Como parte do design da solução, você precisa tomar decisões importantes em duas categorias:
- Local de processamento de dados
- Volume de chamadas
Localizações de processamento de dados de implantação do Foundry
Para implantações padrão, há três opções de tipo de implantação para escolher: global, zona de dados e geografia do Azure. Para implantações provisionadas, há duas opções de tipo de implantação para escolher: geografia global e do Azure. Recomendamos o Global Standard como ponto de partida.
Implantações globais
As implantações globais usam a infraestrutura global do Azure para rotear dinamicamente o tráfego do cliente para o datacenter com a melhor disponibilidade para as solicitações de inferência do cliente. Isso significa que o global oferece os limites de taxa de transferência inicial mais altos e a melhor disponibilidade de modelo, mas ainda fornece nosso SLA de tempo de atividade e baixa latência. Para cargas de trabalho de alto volume acima das camadas de uso especificadas no Standard e no Global Standard, você pode experimentar uma variação de latência maior. Para clientes que exigem a menor variação de latência em uso de carga de trabalho grande, é recomendável usar nossos tipos de implantação provisionados.
Nossas implantações globais são o primeiro local para todos os novos modelos e recursos. Dependendo do volume de chamadas, os clientes com grandes volumes e baixa variação de latência devem considerar nossos tipos de implantação provisionados.
Implantações de Zona de Dados
Para qualquer tipo de implantação com o rótulo Global, sugestões e respostas podem ser processadas em qualquer geografia em que o modelo de Foundry relevante seja implantado. Saiba mais na seção "Disponibilidade de regiões de modelo por tipo de implantação" dos Modelos Foundry vendidos diretamente pelo Azure.
Para qualquer tipo de implantação rotulado como DataZone, as solicitações e as respostas podem ser processadas em qualquer localização geográfica dentro da zona de dados especificada, conforme definido pela Microsoft. Se você criar uma implantação de DataZone em um recurso do Foundry localizado nos Estados Unidos, as solicitações e as respostas poderão ser processadas em qualquer lugar dentro dos Estados Unidos. Se você criar uma implantação de DataZone em um recurso de Fundação localizado em uma nação membro da União Europeia, avisos e respostas poderão ser processados nessa ou em qualquer outra nação membro da União Europeia.
Para os tipos de implantação Global e DataZone, todos os dados inativos armazenados, como os dados carregados, são armazenados na localização geográfica designada pelo cliente. Somente o local do processamento é afetado quando um cliente usa um tipo de implantação Global ou DataZone em um recurso foundry; Os compromissos de conformidade e processamento de dados do Azure permanecem aplicáveis.
Observação
Com os tipos de implantação Standard e Data Zone Standard globais, se a região primária sofrer uma interrupção no serviço, todo o tráfego que é inicialmente roteado para essa região será afetado. Para saber mais, consulte o guia de continuidade dos negócios e recuperação de desastres.
Padrão Global
- Nome da SKU no código:
GlobalStandard
Importante
Os dados armazenados em repouso permanecem na geografia designada do Azure. No entanto, os dados podem ser processados para inferência em qualquer local da Foundry. Saiba mais sobre residência de dados.
As implantações globais estão disponíveis nos mesmos recursos do Foundry que os tipos de implantação não globais. No entanto, eles permitem que você use a infraestrutura global do Azure para rotear dinamicamente o tráfego para o datacenter com a melhor disponibilidade para cada solicitação. O Global Standard fornece a cota padrão mais alta e elimina a necessidade de balanceamento de carga entre vários recursos.
Clientes com alto volume consistente podem experimentar maior variabilidade de latência. O limite é definido por modelo. Para saber mais, veja a Página de cotas. Para aplicativos que exigem menor variação de latência sob grandes volumes de carga de trabalho, recomendamos a compra de largura de banda provisionada.
A implantação padrão global dá suporte ao uso do processamento prioritário para um desempenho confiável e de alta velocidade com a flexibilidade de pagar conforme o uso. Para saber mais, consulte o processamento de prioridade em modelos do Foundry (visualização).
Provisionamento global
- Nome da SKU no código:
GlobalProvisionedManaged
Importante
Os dados armazenados em repouso permanecem na geografia designada do Azure. No entanto, os dados podem ser processados para inferência em qualquer local da Foundry. Saiba mais sobre residência de dados.
As implantações globais estão disponíveis nos mesmos recursos do Foundry que os tipos de implantação não globais. No entanto, eles permitem que você use a infraestrutura global do Azure para rotear dinamicamente o tráfego para o datacenter com a melhor disponibilidade para cada solicitação. As implantações provisionadas globais fornecem capacidade de processamento de modelo reservado para uma taxa de transferência alta e previsível usando a infraestrutura global do Azure.
Lote Global
- Nome da SKU no código:
GlobalBatch
Importante
Os dados armazenados em repouso permanecem na geografia designada do Azure. No entanto, os dados podem ser processados para inferência em qualquer local da Foundry. Saiba mais sobre residência de dados.
O Lote Global foi projetado para lidar com eficiência em tarefas de processamento em grande escala e de alto volume. Você pode processar grupos assíncronos de solicitações com uma cota separada e um prazo de resposta de 24 horas, a um custo 50% menor que o Global Standard. Com o processamento em lote, em vez de enviar uma solicitação por vez, você envia um grande número de solicitações em um único arquivo. As solicitações do Lote Global têm uma cota de token na fila separada, o que evita qualquer interrupção das suas cargas de trabalho online.
Os casos de uso incluem:
- Processamento de dados em larga escala: analise rapidamente conjuntos de dados extensos em paralelo.
- Geração de conteúdo: crie grandes volumes de texto, como descrições de produtos ou artigos.
- Revisão e resumo de documentos: automatizar a revisão e o resumo de documentos longos.
- Automação de suporte ao cliente: lidar com várias dúvidas simultaneamente para obter respostas mais rápidas.
- Extração e análise de dados: extraia e analise informações de grandes quantidades de dados não estruturados.
- Tarefas de NLP (processamento de linguagem natural): execute tarefas como análise de sentimento ou tradução em grandes conjuntos de dados.
- Marketing e personalização: gerar conteúdo personalizado e recomendações em grande escala.
Padrão da Zona de Dados
- Nome da SKU no código:
DataZoneStandard
Importante
Os dados armazenados em repouso permanecem na geografia designada do Azure. No entanto, os dados podem ser processados para inferência em qualquer local de Foundry dentro da zona de dados especificada pela Microsoft. Saiba mais sobre residência de dados.
As implantações da Zona de dados padrão estão disponíveis no mesmo recurso do Foundry que todos os outros tipos de implantação do Foundry. No entanto, eles permitem que você use a infraestrutura global do Azure para rotear dinamicamente o tráfego para o datacenter dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação. O Data Zone Standard fornece cotas padrão mais altas do que nossos tipos de implantação baseados em geografia do Azure.
Clientes com alto volume consistente podem experimentar maior variabilidade de latência. O limite é definido por modelo. Para saber mais, confira a página cotas e limites. Para cargas de trabalho que exigem baixa variação de latência em grande volume, recomendamos usar as ofertas de implantação provisionadas.
A implantação padrão da zona de dados oferece suporte ao uso do processamento prioritário para um desempenho confiável e em alta velocidade, com a flexibilidade de pagamento conforme o uso. Para saber mais, consulte o processamento de prioridade em modelos do Foundry (visualização).
Zona de dados provisionada
- Nome da SKU no código:
DataZoneProvisionedManaged
Importante
Os dados armazenados em repouso permanecem na geografia designada do Azure. No entanto, os dados podem ser processados para inferência em qualquer local de Foundry dentro da zona de dados especificada pela Microsoft. Saiba mais sobre residência de dados.
As implantações da Zona de dados provisionada estão disponíveis no mesmo recurso do Foundry que todos os outros tipos de implantação do Foundry. No entanto, eles permitem que você use a infraestrutura global do Azure para rotear dinamicamente o tráfego para o datacenter dentro da zona de dados especificada pela Microsoft com a melhor disponibilidade para cada solicitação. As implantações provisionadas de zona de dados fornecem capacidade de processamento de modelo reservado para uma taxa de transferência alta e previsível usando a infraestrutura do Azure dentro da zona de dados especificada pela Microsoft.
Lote da Zona de Dados
- Nome da SKU no código:
DataZoneBatch
Importante
Os dados armazenados em repouso permanecem na geografia designada do Azure. No entanto, os dados podem ser processados para inferência em qualquer local de Foundry dentro da zona de dados especificada pela Microsoft. Saiba mais sobre residência de dados.
As implantações do Lote da Zona de Dados fornecem todas as mesmas funcionalidades que as implantações do Lote Global. No entanto, eles permitem que você use a infraestrutura global do Azure para rotear dinamicamente o tráfego apenas para datacenters dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação.
Standard
- Nome da SKU no código:
Standard
As implantações padrão fornecem um modelo de cobrança por chamada para o modelo escolhido. Esse modelo pode ser uma maneira rápida de começar, pois você paga apenas pelo que consome. Os modelos disponíveis em cada região e a taxa de transferência podem ser limitados.
As implantações padrão são otimizadas para cargas de trabalho de baixo a médio volume com alta intermitência. Clientes com alto volume consistente podem experimentar maior variabilidade de latência.
Provisionado Regionalmente
- Nome da SKU no código:
ProvisionedManaged
As implantações provisionadas regionais permitem especificar a capacidade de transferência que você requer em uma implantação. Em seguida, o serviço aloca a capacidade de processamento de modelo necessária e garante que ele esteja pronto para você. A taxa de transferência é definida em termos de unidades de produtividade provisionada, que é uma forma normalizada de representar a taxa de transferência da sua implantação. Cada par modelo-versão exige diferentes quantidades de unidades de taxa de transferência provisionadas para implantação e diferentes quantidades de taxa de transferência por unidade de taxa de transferência provisionada. Saiba mais no artigo sobre conceitos de taxa de transferência provisionada.
Desabilitar o acesso a implantações globais em sua assinatura
O Azure Policy ajuda a impor padrões organizacionais e a avaliar a conformidade em escala. Por meio de seu painel de conformidade, ele fornece uma visão agregada para avaliar o estado geral do ambiente, com a capacidade de se aprofundar em níveis de granularidade por recurso, por política. Ele também ajuda a colocar seus recursos em conformidade por meio da remediação em massa de recursos existentes e da remediação automática de novos recursos. Saiba mais sobre o Azure Policy e controles incorporados específicos para Foundry Tools.
Você pode usar a política a seguir para desabilitar o acesso a qualquer tipo de implantação do Foundry. Para desabilitar o acesso a um tipo de implantação específico, substitua GlobalStandard pelo nome do SKU para o tipo de implantação ao qual você deseja desabilitar o acesso.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
Desenvolvedor (para modelos finamente ajustados)
- Nome da SKU no código:
DeveloperTier
Importante
Os dados armazenados em repouso permanecem na geografia designada do Azure. No entanto, os dados podem ser processados para inferência em qualquer local da Foundry. Saiba mais sobre residência de dados.
Os modelos ajustados dão suporte a uma implantação Developer projetada para dar suporte à avaliação de modelo personalizado. Ele não oferece garantias de residência de dados nem um SLA. Para saber mais sobre como usar o Developer tipo de implantação, consulte o guia de ajuste fino.
Implantar modelos
Para saber mais sobre como criar recursos e implantar modelos, consulte o guia de criação de recursos.