Explorar el catálogo de modelos

Completado

El catálogo de modelos de Microsoft Foundry proporciona un repositorio central de modelos que puede examinar para encontrar el modelo de lenguaje adecuado para su caso de uso concreto de IA generativa.

Captura de pantalla del catálogo de modelos en el portal de Microsoft Foundry.

Seleccionar un modelo de base para la aplicación de IA generativa es importante, ya que afecta al funcionamiento de la aplicación. Para encontrar el mejor modelo para la aplicación, puede usar un enfoque estructurado mediante la formulación de las siguientes preguntas:

  • ¿Puede la inteligencia artificial resolver mi caso de uso?
  • ¿Cómo seleccionar el mejor modelo para mi caso de uso?
  • ¿Puedo escalar para cargas de trabajo del mundo real?

Vamos a explorar cada una de estas preguntas.

¿Puede la inteligencia artificial resolver mi caso de uso?

Hoy en día tenemos miles de modelos de lenguaje entre los que elegir. El principal desafío es comprender si hay un modelo que satisface sus necesidades y responder a la pregunta: ¿Puede la inteligencia artificial resolver mi caso de uso?

Para empezar a responder a esta pregunta, debe detectar, filtrar e implementar un modelo. Puede explorar los modelos de lenguaje disponibles a través de tres catálogos diferentes:

  • Hugging Face: amplio catálogo de modelos de código abierto en varios dominios.
  • GitHub: acceso a diversos modelos a través de GitHub Marketplace y GitHub Copilot.
  • Microsoft Foundry: catálogo completo con herramientas sólidas para la implementación.

Aunque puede usar cada uno de estos catálogos para explorar modelos, el catálogo de modelos de Microsoft Foundry facilita la exploración e implementación de un modelo para crear el prototipo, al tiempo que ofrece la mejor selección de modelos.

Vamos a explorar algunas de las opciones que debe tener en cuenta al buscar modelos adecuados.

Elección entre modelos de lenguaje grande y pequeño

En primer lugar, tiene una opción entre modelos de lenguaje grande (LLM) y modelos de lenguaje pequeño (SLA).

  • Los LLM como GPT-4, Mistral Large, Llama3 70B, Llama 405B y Command R+ son modelos de INTELIGENCIA ARTIFICIAL eficaces diseñados para tareas que requieren un razonamiento profundo, generación de contenido complejo y una amplia comprensión del contexto.

  • Los SLA como Phi3, los modelos de OSS Mistral y Llama3 8B son eficaces y rentables, a la vez que controlan muchas tareas comunes de procesamiento de lenguaje natural (NLP). Son perfectos para ejecutarse en dispositivos perimetrales o hardware de gama inferior, donde el costo y la velocidad son más importantes que la complejidad del modelo.

Centrarse en una modalidad, tarea o herramienta

Los modelos de lenguaje como GPT-4 y Mistral Large también se conocen como finalización del chat modelos, diseñados para generar respuestas coherentes y contextualmente adecuadas basadas en texto. Cuando necesite niveles más altos de rendimiento en tareas complejas como matemáticas, codificación, ciencia, estrategia y logística, también puede usar razonamiento modelos como DeepSeek-R1 y o1.

Además de la inteligencia artificial basada en texto, algunos modelos se multi modal, lo que significa que pueden procesar imágenes, audio y otros tipos de datos junto con texto. Los modelos como GPT-4o y Phi3-vision son capaces de analizar y generar texto e imágenes. Los modelos multi modales son útiles cuando la aplicación necesita procesar y comprender imágenes, como en Computer Vision o análisis de documentos. O bien, si quiere crear una aplicación de inteligencia artificial que interactúe con el contenido visual, como un tutor digital que explique imágenes o gráficos.

Si el caso de uso implica generar imágenes, herramientas como DALL· E 3 y La inteligencia artificial de estabilidad pueden crear objetos visuales realistas a partir de mensajes de texto. Los modelos de generación de imágenes son excelentes para diseñar materiales de marketing, ilustraciones o arte digital.

Otro grupo de modelos específicos de tareas son insertar modelos como Ada y Cohere. Las incrustaciones de modelos convierten texto en representaciones numéricas y se usan para mejorar la relevancia de búsqueda mediante la comprensión del significado semántico. Estos modelos se implementan a menudo en escenarios de recuperación aumentada de generación (RAG) para mejorar los motores de recomendación mediante la vinculación de contenido similar.

Cuando quiera compilar una aplicación que interactúe dinámicamente con otras herramientas de software, puede agregar función que llama a y compatibilidad con JSON. Estas funcionalidades permiten que los modelos de inteligencia artificial funcionen de forma eficaz con datos estructurados, lo que hace que sean útiles para automatizar llamadas API, consultas de base de datos y procesamiento de datos estructurados.

Especialización con modelos regionales y específicos del dominio

Algunos modelos están diseñados para lenguajes, regiones o sectores específicos. Estos modelos pueden superar la inteligencia artificial generativa de uso general en sus respectivos dominios. Por ejemplo:

  • Core42 JAIS es un LLM de idioma árabe, lo que lo convierte en la mejor opción para las aplicaciones destinadas a usuarios de habla árabe.
  • Mistral Large tiene un fuerte enfoque en los idiomas europeos, lo que garantiza una mejor precisión lingüística para las aplicaciones multilingües.
  • Nixtla TimeGEN-1 se especializa en la previsión de series temporales, lo que lo convierte en ideal para predicciones financieras, optimización de la cadena de suministro y previsión de demanda.

Si el proyecto tiene necesidades regionales, lingüísticas o específicas del sector, estos modelos pueden proporcionar resultados más relevantes que la inteligencia artificial de uso general.

Equilibrio de la flexibilidad y el rendimiento con modelos abiertos frente a propietarios

También debe decidir si usar modelos de código abierto o modelos propietarios, cada uno con sus propias ventajas.

modelos propietarios son los mejores para el rendimiento de vanguardia y el uso empresarial. Azure ofrece modelos como GPT-4 de OpenAI, Mistral Large y Cohere Command R+, que ofrecen funcionalidades de inteligencia artificial líderes en el sector. Estos modelos son ideales para empresas que necesitan seguridad, soporte técnico y alta precisión de nivel empresarial.

los modelos de código abierto son los mejores para la flexibilidad y la rentabilidad. Hay cientos de modelos de código abierto disponibles en el catálogo de modelos de Microsoft Foundry de Hugging Face y modelos de Meta, Databricks, Snowflake y Nvidia. Los modelos abiertos proporcionan a los desarrolladores más control, lo que permite ajustar, personalizar e implementar localmente.

Sea cual sea el modelo que elija, puede usar el catálogo de modelos de Microsoft Foundry. El uso de modelos a través del catálogo de modelos cumple los requisitos empresariales clave para su uso:

  • datos y privacidad: puede decidir lo que sucede con los datos.
  • seguridad y cumplimiento: seguridad integrada.
  • responsable de la inteligencia artificial y la seguridad de contenido: evaluaciones y seguridad de contenido.

Ahora conoce los modelos de lenguaje que están disponibles para usted, debe comprender si la inteligencia artificial puede resolver el caso de uso. Si cree que un modelo de lenguaje enriquecería la aplicación, debe seleccionar el modelo específico que desea implementar e integrar.

¿Cómo seleccionar el mejor modelo para mi caso de uso?

Para seleccionar el mejor modelo de lenguaje para su caso de uso, debe decidir qué criterios usa para filtrar los modelos. Los criterios son las características necesarias que se identifican para un modelo. Cuatro características que puede tener en cuenta son:

  • Tipo de tarea: ¿Qué tipo de tarea necesita realizar el modelo? ¿Incluye la comprensión de solo texto, o también audio, o vídeo, o varias modalidades?
  • Precision: ¿el modelo base es lo suficientemente bueno o necesita un modelo optimizado que se entrene en una aptitud o conjunto de datos específico?
  • apertura: ¿Desea ser capaz de ajustar el modelo usted mismo?
  • implementación: ¿Desea implementar el modelo localmente, en un punto de conexión sin servidor o desea administrar la infraestructura de implementación?

Ya ha explorado los distintos tipos de modelos disponibles en la sección anterior. Ahora, vamos a explorar con más detalle cómo la precisión y el rendimiento pueden ser filtros importantes al elegir un modelo.

Filtros de modelos para precisión

En la inteligencia artificial generativa, la precisión hace referencia a la precisión del modelo en la generación de salidas correctas y pertinentes. Mide la proporción de resultados positivos verdaderos (salidas correctas) entre todas las salidas generadas. La alta precisión significa menos resultados irrelevantes o incorrectos, lo que hace que el modelo sea más confiable.

Al integrar un modelo de lenguaje en una aplicación, puede elegir entre un modelo base o un modelo ajustado. Un modelo base, como GPT-4, está entrenado previamente en un conjunto de datos grande y puede controlar varias tareas, pero puede carecer de precisión para dominios específicos. Las técnicas como la ingeniería de avisos pueden mejorar esto, pero a veces es necesario ajustarlo.

Un modelo optimizado se entrena aún más en un conjunto de datos más pequeño y específico de tareas para mejorar su precisión y capacidad de generar salidas relevantes para aplicaciones específicas. Puede usar un modelo ajustado o ajustar un modelo usted mismo.

Filtrado de modelos para el rendimiento

Puede evaluar el rendimiento del modelo en distintas fases mediante diversos enfoques de evaluación.

Al explorar modelos a través del catálogo de modelos de Microsoft Foundry, puede usar pruebas comparativas de modelos para comparar métricas disponibles públicamente, como la coherencia y la precisión en los modelos y conjuntos de datos. Estos puntos de referencia pueden ayudarle en la fase de exploración inicial, pero proporcionan poca información sobre cómo se realizaría el modelo en su caso de uso específico.

Benchmark Descripción
Precisión Compara el texto generado por el modelo con la respuesta correcta según el conjunto de datos. El resultado es uno si el texto generado coincide exactamente con la respuesta y cero de lo contrario.
Coherencia Mide si la salida del modelo fluye sin problemas, lee de forma natural y se parece al lenguaje similar al humano.
Fluidez Evalúa la forma en que el texto generado cumple las reglas gramaticales, las estructuras sintácticas y el uso adecuado del vocabulario, lo que da lugar a respuestas lingüísticas correctas y de sonido natural.
Base Mide la alineación entre las respuestas generadas del modelo y los datos de entrada.
de similitud de GPT Cuantifica la similitud semántica entre una frase de verdad básica (o documento) y la frase de predicción generada por un modelo de IA.
Índice de calidad Una puntuación de agregado comparativa entre 0 y 1, con modelos de mejor rendimiento que puntúan un valor más alto
Costo Costo del uso del modelo basado en un precio por token. El costo es una métrica útil con la que comparar la calidad, lo que le permite determinar una compensación adecuada para sus necesidades.

Para evaluar cómo funciona un modelo seleccionado con respecto a sus requisitos específicos, puede considerar manual o evaluaciones automatizadas de. Las evaluaciones manuales permiten evaluar las respuestas del modelo. Las evaluaciones automatizadas incluyen métricas de aprendizaje automático tradicionales y métricas asistidas por IA que se calculan y generan automáticamente.

Al evaluar el rendimiento de un modelo, es habitual empezar con evaluaciones manuales, ya que evalúan rápidamente la calidad de las respuestas del modelo. Para comparaciones más sistemáticas, las evaluaciones automatizadas que usan métricas como precisión, recuperación y puntuación F1 en función de su propia verdad básica ofrecen un enfoque más rápido, escalable y más objetivo.

¿Puedo escalar para cargas de trabajo del mundo real?

Ha seleccionado un modelo para el caso de uso y ha creado correctamente un prototipo. Ahora, debe comprender cómo escalar para cargas de trabajo reales.

Entre las consideraciones para escalar una solución de inteligencia artificial generativa se incluyen:

  • Implementación de modelos: ¿Dónde implementará el modelo para obtener el mejor equilibrio de rendimiento y costo?
  • Supervisión y optimización de modelos: ¿Cómo supervisará, evaluará y optimizará el rendimiento del modelo?
  • Administración de mensajes: ¿Cómo orquestará y optimizará las solicitudes para maximizar la precisión y relevancia de las respuestas generadas?
  • Ciclo de vida del modelo: ¿Cómo administrará las actualizaciones de modelos, datos y código como parte de un ciclo de vida continuo de operaciones de generación de inteligencia artificial (GenAIOps)?

Microsoft Foundry proporciona herramientas visuales y de código primero que pueden ayudarle a crear y mantener una solución escalable de inteligencia artificial generativa.