Explore o catálogo de modelos

7 minutos

O catálogo de modelos no Microsoft Foundry fornece um repositório central de modelos que pode consultar para encontrar o modelo de linguagem certo para o seu caso particular de IA generativa.

Captura de ecrã do catálogo de modelos no portal Microsoft Foundry.

Selecionar um modelo de base para seu aplicativo de IA generativa é importante, pois afeta o funcionamento do seu aplicativo. Para encontrar o melhor modelo para seu aplicativo, você pode usar uma abordagem estruturada fazendo a si mesmo as seguintes perguntas:

A IA pode resolver meu caso de uso?
Como posso selecionar o melhor modelo para o meu caso de uso?
Posso dimensionar para cargas de trabalho reais?

Vamos explorar cada uma dessas perguntas.

A IA pode resolver meu caso de uso?

Hoje em dia temos milhares de modelos linguísticos por onde escolher. O principal desafio é perceber se existe um modelo que satisfaça as suas necessidades e responder à pergunta: A IA pode resolver o meu caso de uso?

Para começar a responder a essa pergunta, você precisa descobrir, filtrar e implantar um modelo. Pode explorar os modelos linguísticos disponíveis através de três catálogos diferentes:

Hugging Face: Vasto catálogo de modelos de código aberto em vários domínios.
GitHub: Acesso a diversos modelos via GitHub Marketplace e GitHub Copilot.
Microsoft Foundry: Catálogo abrangente com ferramentas robustas para implementação.

Embora possa usar cada um destes catálogos para explorar modelos, o catálogo de modelos no Microsoft Foundry facilita a exploração e implementação de um modelo para construir o seu protótipo, oferecendo ao mesmo tempo a melhor seleção de modelos.

Vamos explorar algumas das opções que você precisa considerar ao procurar modelos adequados.

Escolha entre modelos linguísticos grandes e pequenos

Em primeiro lugar, você pode escolher entre Modelos de Linguagem Grande (LLMs) e Modelos de Linguagem Pequena (SLMs).

LLMs como GPT-4, Mistral Large, Llama3 70B, Llama 405B e Command R+ são poderosos modelos de IA projetados para tarefas que exigem raciocínio profundo, geração de conteúdo complexo e compreensão extensiva do contexto.
SLMs como Phi3, modelos Mistral OSS e Llama3 8B são eficientes e econômicos, enquanto ainda lidam com muitas tarefas comuns de Processamento de Linguagem Natural (NLP). Eles são perfeitos para rodar em hardware de baixa qualidade ou dispositivos de borda, onde o custo e a velocidade são mais importantes do que a complexidade do modelo.

Foco em uma modalidade, tarefa ou ferramenta

Modelos de linguagem como GPT-4 e Mistral Large também são conhecidos como modelos de conclusão de chat , projetados para gerar respostas coerentes e contextualmente apropriadas baseadas em texto. Quando você precisa de níveis mais altos de desempenho em tarefas complexas como matemática, codificação, ciência, estratégia e logística, você também pode usar modelos de raciocínio como DeepSeek-R1 e o1.

Além da IA baseada em texto, alguns modelos são multimodal, o que significa que podem processar imagens, áudio e outros tipos de dados ao lado do texto. Modelos como GPT-4o e Phi3-vision são capazes de analisar e gerar texto e imagens. Os modelos multimodais são úteis quando seu aplicativo precisa processar e entender imagens, como em visão computacional ou análise de documentos. Ou quando você deseja criar um aplicativo de IA que interage com conteúdo visual, como um tutor digital explicando imagens ou gráficos.

Se o seu caso de uso envolve a geração de imagens, ferramentas como DALL· E 3 e Stability AI podem criar visuais realistas a partir de prompts de texto. Os modelos de geração de imagem são ótimos para projetar materiais de marketing, ilustrações ou arte digital.

Outro grupo de modelos específicos para tarefas está incorporando modelos como Ada e Cohere. Os modelos de incorporação convertem texto em representações numéricas e são usados para melhorar a relevância da pesquisa através da compreensão do significado semântico. Esses modelos geralmente são implementados em cenários de Geração Aumentada de Recuperação (RAG) para aprimorar os mecanismos de recomendação vinculando conteúdo semelhante.

Quando você deseja criar um aplicativo que interage com outras ferramentas de software dinamicamente, você pode adicionar chamada de função e suporte JSON. Esses recursos permitem que os modelos de IA trabalhem de forma eficiente com dados estruturados, tornando-os úteis para automatizar chamadas de API, consultas de banco de dados e processamento de dados estruturados.

Especialize-se com modelos regionais e específicos de domínio

Alguns modelos são projetados para idiomas, regiões ou setores específicos. Esses modelos podem superar a IA generativa de uso geral em seus respetivos domínios. Por exemplo:

Core42 JAIS é um LLM de língua árabe, tornando-o a melhor escolha para aplicações destinadas a usuários de língua árabe.
A Mistral Large tem uma forte aposta nas línguas europeias, garantindo uma melhor precisão linguística para aplicações multilingues.
A Nixtla TimeGEN-1 é especializada em previsão de séries temporais, tornando-a ideal para previsões financeiras, otimização da cadeia de suprimentos e previsão de demanda.

Se o seu projeto tiver necessidades regionais, linguísticas ou específicas do setor, esses modelos podem fornecer resultados mais relevantes do que a IA de uso geral.

Equilibre flexibilidade e desempenho com modelos abertos versus proprietários

Você também precisa decidir se deseja usar modelos de código aberto ou modelos proprietários, cada um com suas próprias vantagens.

Os modelos proprietários são os melhores para desempenho de ponta e uso empresarial. O Azure oferece modelos como o GPT-4 da OpenAI, o Mistral Large e o Cohere Command R+, que oferecem recursos de IA líderes do setor. Esses modelos são ideais para empresas que precisam de segurança, suporte e alta precisão de nível empresarial.

Os modelos de código aberto são os melhores para flexibilidade e eficiência de custos. Existem centenas de modelos open-source disponíveis no catálogo de modelos Microsoft Foundry da Hugging Face, e modelos da Meta, Databricks, Snowflake e Nvidia. Os modelos abertos dão aos desenvolvedores mais controle, permitindo ajustes, personalização e implantação local.

Seja qual for o modelo que escolher, pode usar o catálogo de modelos do Microsoft Foundry. O uso de modelos por meio do catálogo de modelos atende aos principais requisitos corporativos para uso:

Dados e privacidade: pode decidir o que acontece com os seus dados.
Segurança e conformidade: segurança integrada.
IA responsável e segurança de conteúdo: avaliações e segurança de conteúdo.

Agora que você conhece os modelos de linguagem que estão disponíveis para você, você deve ter uma compreensão de se a IA pode realmente resolver seu caso de uso. Se você acha que um modelo de linguagem enriqueceria seu aplicativo, precisará selecionar o modelo específico que deseja implantar e integrar.

Como posso selecionar o melhor modelo para o meu caso de uso?

Para selecionar o melhor modelo de linguagem para o seu caso de uso, precisa de decidir que critérios está a usar para filtrar os modelos. Os critérios são as características necessárias que você identifica para um modelo. Quatro características que você pode considerar são:

Tipo de tarefa: Que tipo de tarefa você precisa que o modelo execute? Inclui a compreensão apenas de texto, ou também áudio, ou vídeo, ou múltiplas modalidades?
de precisão: O modelo base é bom o suficiente ou você precisa de um modelo ajustado que seja treinado em uma habilidade ou conjunto de dados específico?
Abertura: Você quer ser capaz de ajustar o modelo sozinho?
de implantação: você deseja implantar o modelo localmente, em um ponto de extremidade sem servidor, ou deseja gerenciar a infraestrutura de implantação?

Você já explorou os vários tipos de modelos disponíveis na seção anterior. Agora, vamos explorar com mais detalhes como a precisão e o desempenho podem ser filtros importantes na hora de escolher um modelo.

Modelos de filtros para precisão

Em IA generativa, precisão refere-se à precisão do modelo na geração de saídas corretas e relevantes. Mede a proporção de resultados positivos verdadeiros (outputs corretos) entre todas as saídas geradas. Alta precisão significa menos resultados irrelevantes ou incorretos, tornando o modelo mais confiável.

Ao integrar um modelo de linguagem em um aplicativo, você pode escolher entre um modelo base ou um modelo ajustado. Um modelo base, como o GPT-4, é pré-treinado em um grande conjunto de dados e pode lidar com várias tarefas, mas pode não ter precisão para domínios específicos. Técnicas como engenharia rápida podem melhorar isso, mas às vezes é necessário um ajuste fino.

Um modelo ajustado é treinado ainda mais em um conjunto de dados menor e específico para tarefas para melhorar sua precisão e capacidade de gerar saídas relevantes para aplicações específicas. Você pode usar um modelo ajustado ou ajustar um modelo por conta própria.

Filtrar modelos para desempenho

Você pode avaliar o desempenho do seu modelo em diferentes fases, usando várias abordagens de avaliação.

Quando explora modelos através do catálogo de modelos do Microsoft Foundry, pode usar benchmarks de modelos para comparar métricas publicamente disponíveis, como coerência e precisão entre modelos e conjuntos de dados. Esses benchmarks podem ajudá-lo na fase inicial de exploração, mas fornecem poucas informações sobre o desempenho do modelo em seu caso de uso específico.

Referência	Descrição
Exatidão	Compara o texto gerado pelo modelo com a resposta correta de acordo com o conjunto de dados. O resultado é um se o texto gerado corresponder exatamente à resposta e zero caso contrário.
Coerência	Mede se a saída do modelo flui suavemente, lê naturalmente e se assemelha a uma linguagem semelhante à humana.
Fluência	Avalia o quão bem o texto gerado adere às regras gramaticais, estruturas sintáticas e uso apropriado do vocabulário, resultando em respostas linguisticamente corretas e com sonoridade natural.
Equilíbrio	Mede o alinhamento entre as respostas geradas pelo modelo e os dados de entrada.
de semelhança GPT	Quantifica a semelhança semântica entre uma sentença (ou documento) de verdade fundamental e a sentença de previsão gerada por um modelo de IA.
Índice de qualidade	Uma pontuação agregada comparativa entre 0 e 1, com modelos com melhor desempenho pontuando um valor mais alto
Custo	O custo de usar o modelo com base em um preço por token. O custo é uma métrica útil para comparar a qualidade, permitindo que você determine uma compensação apropriada para suas necessidades.

Para avaliar o desempenho de um modelo selecionado em relação aos seus requisitos específicos, você pode considerar avaliações manuais ou automatizadas . As avaliações manuais permitem-lhe avaliar as respostas do seu modelo. As avaliações automatizadas incluem métricas tradicionais de aprendizado de máquina e métricas assistidas por IA que são calculadas e geradas para você.

Quando você avalia o desempenho de um modelo, é comum começar com avaliações manuais, pois elas avaliam rapidamente a qualidade das respostas do modelo. Para comparações mais sistemáticas, avaliações automatizadas usando métricas como precisão, recall e pontuação F1 com base em sua própria verdade no terreno oferecem uma abordagem mais rápida, escalável e objetiva.

Posso dimensionar para cargas de trabalho reais?

Você selecionou um modelo para seu caso de uso e construiu um protótipo com sucesso. Agora, você precisa entender como dimensionar para cargas de trabalho do mundo real.

As considerações para dimensionar uma solução de IA generativa incluem:

Implantação do modelo: onde você implantará o modelo para obter o melhor equilíbrio entre desempenho e custo?
Monitoramento e otimização de modelos: Como você monitorará, avaliará e otimizará o desempenho do modelo?
Gerenciamento de prompts: Como você orquestrará e otimizará prompts para maximizar a precisão e a relevância das respostas geradas?
Ciclo de vida do modelo: Como você gerenciará atualizações de modelo, dados e código como parte de um ciclo de vida contínuo de Operações de IA Generativa (GenAIOps)?

A Microsoft Foundry disponibiliza ferramentas visuais e centradas no código que podem ajudar a construir e manter uma solução escalável de IA generativa.

Feedback

Esta página foi útil?