Explorar o catálogo de modelos
O catálogo de modelos no Microsoft Foundry fornece um repositório central de modelos que você pode procurar para encontrar o modelo de linguagem certo para seu caso de uso de IA generativo específico.
Selecionar um modelo de base para seu aplicativo de IA gerativo é importante, pois afeta o funcionamento do aplicativo. Para encontrar o melhor modelo para seu aplicativo, você pode usar uma abordagem estruturada fazendo-se as seguintes perguntas:
- A IA pode resolver meu caso de uso?
- Como posso selecionar o melhor modelo para meu caso de uso?
- Posso dimensionar para cargas de trabalho do mundo real?
Vamos explorar cada uma dessas perguntas.
A IA pode resolver meu caso de uso?
Hoje em dia temos milhares de modelos de linguagem para escolher. O principal desafio é entender se há um modelo que atenda às suas necessidades e responda à pergunta: A IA pode resolver meu caso de uso?
Para começar a responder a essa pergunta, você precisa descobrir, filtrar e implantar um modelo. Você pode explorar os modelos de linguagem disponíveis por meio de três catálogos diferentes:
- Abraçando o rosto: vasto catálogo de modelos de software livre em vários domínios.
- GitHub: Acesso a modelos diversos por meio do GitHub Marketplace e do GitHub Copilot.
- Microsoft Foundry: catálogo abrangente com ferramentas robustas para implantação.
Embora você possa usar cada um desses catálogos para explorar modelos, o catálogo de modelos no Microsoft Foundry torna mais fácil explorar e implantar um modelo para criar seu protótipo, ao mesmo tempo em que oferece a melhor seleção de modelos.
Vamos explorar algumas das opções que você precisa considerar ao pesquisar modelos adequados.
Escolher entre modelos de linguagem grandes e pequenos
Em primeiro lugar, você tem uma opção entre LLMs (Modelos de Linguagem Grande) e SLMs (Modelos de Linguagem Pequenas).
LLMs como GPT-4, Mistral Large, Llama3 70B, Llama 405B e Command R+ são modelos de IA avançados projetados para tarefas que exigem raciocínio profundo, geração de conteúdo complexa e compreensão abrangente de contexto.
SLMs como Phi3, modelos de OSS mistral e Llama3 8B são eficientes e econômicos, enquanto ainda lidam com muitas tarefas comuns de NLP (Processamento de Linguagem Natural). Eles são perfeitos para execução em dispositivos de hardware de menor desempenho ou de borda, em que o custo e a velocidade são mais importantes do que a complexidade do modelo.
Foco em uma modalidade, tarefa ou ferramenta
Modelos de linguagem como GPT-4 e Mistral Large também são conhecidos como modelos de conclusão de chat , projetados para gerar respostas coerentes e contextualmente apropriadas baseadas em texto. Quando você precisa de níveis mais altos de desempenho em tarefas complexas como matemática, codificação, ciência, estratégia e logística, você também pode usar modelos de raciocínio como DeepSeek-R1 e o1.
Além da IA baseada em texto, alguns modelos são multi modais, o que significa que eles podem processar imagens, áudio e outros tipos de dados junto com o texto. Modelos como GPT-4o e Phi3-vision são capazes de analisar e gerar texto e imagens. Modelos multi modais são úteis quando seu aplicativo precisa processar e entender imagens, como na pesquisa visual computacional ou na análise de documentos. Ou quando você deseja criar um aplicativo de IA que interaja com conteúdo visual, como um tutor digital explicando imagens ou gráficos.
Se o caso de uso envolver geração de imagens, ferramentas como DALL·E 3 e Stability AI podem criar visuais realistas a partir de prompts de texto. Os modelos de geração de imagem são ótimos para projetar materiais de marketing, ilustrações ou arte digital.
Outro grupo de modelos específicos de tarefa são os modelos de embeddings como Ada e Cohere. Os modelos de inserção convertem texto em representações numéricas e são usados para melhorar a relevância da pesquisa entendendo o significado semântico. Esses modelos geralmente são implementados em cenários de RAG (Recuperação de Geração Aumentada) para aprimorar os mecanismos de recomendação vinculando conteúdo semelhante.
Quando você deseja criar um aplicativo que interage com outras ferramentas de software dinamicamente, você pode adicionar chamada de função e suporte JSON. Esses recursos permitem que os modelos de IA funcionem com eficiência com dados estruturados, tornando-os úteis para automatizar chamadas à API, consultas de banco de dados e processamento de dados estruturados.
Especialize-se com modelos regionais e específicos do domínio
Determinados modelos são projetados para linguagens, regiões ou setores específicos. Esses modelos podem superar a IA gerativa de uso geral em seus respectivos domínios. Por exemplo:
- Core42 JAIS é uma LLM de idioma árabe, tornando-se a melhor opção para aplicativos direcionados a usuários de língua árabe.
- Mistral Large tem um forte foco em idiomas europeus, garantindo melhor precisão linguística para aplicativos multilíngues.
- O Nixtla TimeGEN-1 é especializado em previsão de série temporal, tornando-o ideal para previsões financeiras, otimização da cadeia de suprimentos e previsão de demanda.
Se o projeto tiver necessidades regionais, linguísticas ou específicas do setor, esses modelos poderão fornecer resultados mais relevantes do que a IA de uso geral.
Balancear a flexibilidade e o desempenho com modelos abertos versus proprietários
Você também precisa decidir se deseja usar modelos de software livre ou modelos proprietários, cada um com suas próprias vantagens.
Modelos proprietários são melhores para desempenho de ponta e uso corporativo. O Azure oferece modelos como GPT-4 da OpenAI, Mistral Large e Cohere Command R+, que fornecem funcionalidades de IA líderes do setor. Esses modelos são ideais para empresas que precisam de segurança, suporte e alta precisão em nível empresarial.
Modelos de software livre são melhores para flexibilidade e custo-eficiência. Há centenas de modelos de software livre disponíveis no catálogo de modelos do Microsoft Foundry do Hugging Face e modelos de Meta, Databricks, Snowflake e Nvidia. Os modelos abertos oferecem aos desenvolvedores mais controle, permitindo ajuste fino, personalização e implantação local.
Seja qual for o modelo escolhido, você pode usar o catálogo de modelos do Microsoft Foundry. O uso de modelos por meio do catálogo de modelos atende aos principais requisitos empresariais para uso:
- Dados e privacidade: você pode decidir o que acontece com seus dados.
- Segurança e conformidade: segurança interna.
- Segurança de conteúdo e IA responsável: avaliações e segurança de conteúdo.
Agora que você conhece os modelos de linguagem que estão disponíveis para você, deve entender se a IA pode realmente resolver seu caso de uso. Se você acha que um modelo de linguagem enriquece seu aplicativo, você precisa selecionar o modelo específico que deseja implantar e integrar.
Como posso selecionar o melhor modelo para meu caso de uso?
Para selecionar o melhor modelo de idioma para seu caso de uso, você precisa decidir sobre quais critérios você está usando para filtrar os modelos. Os critérios são as características necessárias que você identifica para um modelo. Quatro características que você pode considerar são:
- Tipo de tarefa: Que tipo de tarefa você precisa que o modelo execute? Isso inclui a compreensão de apenas texto, ou também áudio, vídeo ou várias modalidades?
- Precisão: o modelo base é bom o suficiente ou você precisa de um modelo ajustado que seja treinado em uma habilidade ou conjunto de dados específico?
- Abertura: Você quer ser capaz de ajustar o modelo por conta própria?
- Implantação: deseja implantar o modelo localmente, em um ponto de extremidade sem servidor ou deseja gerenciar a infraestrutura de implantação?
Você já explorou os vários tipos de modelos disponíveis na seção anterior. Agora, vamos explorar com mais detalhes como a precisão e o desempenho podem ser filtros importantes ao escolher um modelo.
Filtrar modelos para precisão
Na IA generativa, a precisão refere-se à precisão do modelo na geração de saídas corretas e relevantes. Ele mede a proporção de resultados verdadeiros positivos (saídas corretas) entre todas as saídas geradas. Alta precisão significa menos resultados irrelevantes ou incorretos, tornando o modelo mais confiável.
Ao integrar um modelo de idioma em um aplicativo, você pode escolher entre um modelo base ou um modelo ajustado. Um modelo base, como GPT-4, é pré-treinado em um conjunto de dados grande e pode lidar com várias tarefas, mas pode não ter precisão para domínios específicos. Técnicas como engenharia de prompt podem melhorar isso, mas às vezes o ajuste fino é necessário.
Um modelo ajustado é treinado ainda mais em um conjunto de dados menor e específico de tarefa para melhorar sua precisão e capacidade de gerar saídas relevantes para aplicativos específicos. Você pode usar um modelo com ajuste fino ou ajustar um modelo por conta própria.
Filtrar modelos de desempenho
Você pode avaliar o desempenho do modelo em fases diferentes, usando várias abordagens de avaliação.
Ao explorar modelos por meio do catálogo de modelos do Microsoft Foundry, você pode usar parâmetros de comparação de modelo para comparar métricas disponíveis publicamente, como coerência e precisão entre modelos e conjuntos de dados. Esses parâmetros de comparação podem ajudá-lo na fase de exploração inicial, mas fornecer poucas informações sobre como o modelo seria executado em seu caso de uso específico.
| Parâmetro de comparação | Descrição |
|---|---|
| Exatidão | Compara o texto gerado pelo modelo com a resposta correta de acordo com o conjunto de dados. O resultado é um se o texto gerado corresponder exatamente à resposta e zero caso contrário. |
| Coerência | Mede se a saída do modelo flui de maneira suave, é lida naturalmente e se assemelha à linguagem humana. |
| Fluência | Avalia o quão bem o texto gerado adere a regras gramaticais, estruturas sintacticas e uso apropriado do vocabulário, resultando em respostas linguisticamente corretas e de som natural. |
| Aterramento | Mede o alinhamento entre as respostas geradas pelo modelo e os dados de entrada. |
| Similaridade de GPT | Quantifica a similaridade semântica entre uma frase de verdade básica (ou documento) e a sentença de previsão gerada por um modelo de IA. |
| Índice de qualidade | Uma pontuação agregada comparativa entre 0 e 1, com modelos de melhor desempenho obtendo uma pontuação mais alta |
| Custo | O custo de usar o modelo com base em um preço por token. O custo é uma métrica útil com a qual comparar a qualidade, permitindo que você determine uma compensação apropriada para suas necessidades. |
Para avaliar o desempenho de um modelo selecionado em relação aos requisitos específicos, você pode considerar avaliações manuais ou automatizadas . As avaliações manuais permitem que você classifique as respostas do modelo. As avaliações automatizadas incluem métricas tradicionais de machine learning e métricas assistidas por IA que são calculadas e geradas para você.
Quando você avalia o desempenho de um modelo, é comum começar com avaliações manuais, pois elas avaliam rapidamente a qualidade das respostas do modelo. Para comparações mais sistemáticas, avaliações automatizadas usando métricas como precisão, recall e pontuação F1 com base em sua própria verdade básica oferecem uma abordagem mais rápida, escalonável e mais objetiva.
Posso dimensionar para cargas de trabalho do mundo real?
Você selecionou um modelo para seu caso de uso e criou com êxito um protótipo. Agora, você precisa entender como dimensionar para cargas de trabalho do mundo real.
Considerações para dimensionar uma solução de IA gerativa incluem:
- Implantação de modelo: onde você implantará o modelo para obter o melhor equilíbrio de desempenho e custo?
- Monitoramento e otimização de modelo: como você monitorará, avaliará e otimizará o desempenho do modelo?
- Gerenciamento de prompts: como você vai orquestrar e otimizar prompts para maximizar a precisão e a relevância das respostas geradas?
- Ciclo de vida do modelo: como você gerenciará atualizações de modelo, dados e código como parte de um ciclo de vida de GenAIOps ( Operações de IA Generativas ) em andamento?
o Microsoft Foundry oferece ferramentas visuais e orientadas por código que podem ajudar você a criar e manter uma solução de IA generativa escalonável.