Comprender cuándo optimizar un modelo de lenguaje

Completado

Antes de empezar a ajustar un modelo, debe tener una comprensión clara de lo que es el ajuste y cuándo debe usarlo.

Cuando quiera desarrollar una aplicación de chat con Microsoft Foundry, puede usar el flujo de mensajes para crear una aplicación de chat integrada con un modelo de lenguaje para generar respuestas. Para mejorar la calidad de las respuestas que genera el modelo, puede probar varias estrategias. La estrategia más sencilla es aplicar la ingeniería rápida. Puede cambiar la forma en que da formato a la pregunta, pero también puede actualizar el mensaje del sistema que se envía junto con el mensaje al modelo de lenguaje.

La ingeniería de indicaciones es una manera rápida y sencilla de mejorar cómo actúa el modelo y lo que el modelo necesita saber. Si desea mejorar aún más la calidad del modelo, hay dos técnicas comunes que se usan:

  • Generación Aumentada mediante Recuperación (RAG): Fundamente sus datos recuperando primero el contexto de un origen de datos antes de generar una respuesta.
  • Ajuste preciso: entrene un modelo de lenguaje base en un conjunto de datos antes de integrarlo en la aplicación.

Diagrama que muestra las distintas estrategias para optimizar el rendimiento del modelo.

RAG se aplica normalmente cuando se necesitan las respuestas del modelo para ser fácticas y fundamentadas en datos específicos. Por ejemplo, quiere que los clientes hagan preguntas sobre los hoteles que ofrece en el catálogo de reservas de viajes. Por otro lado, si desea que el modelo se comporte de una manera determinada, el ajuste fino puede ayudarle a lograr su objetivo. También puede usar una combinación de estrategias de optimización, como RAG y un modelo finamente ajustado, para mejorar su aplicación de lenguaje.

La forma en que el modelo debe actuar principalmente se relaciona con el estilo, el formato y el tono de las respuestas generadas por un modelo. Cuando desee que el modelo se ajuste a un estilo y formato específicos al responder, puede indicar al modelo que lo haga también a través de la ingeniería de indicaciones. Sin embargo, a veces, la ingeniería de indicaciones podría no dar lugar a resultados coherentes. Todavía puede ocurrir que un modelo omita las instrucciones y se comporte de forma diferente.

Dentro de la ingeniería de prompts, una técnica que se utiliza para "forzar" al modelo a generar un resultado en un formato específico es proporcionar al modelo varios ejemplos de cómo podría ser el resultado deseado, también conocido como one-shot (un ejemplo) o few-shot (pocos ejemplos). Sin embargo, puede ocurrir que el modelo no siempre genere la salida en el estilo y el formato especificados.

Para maximizar la coherencia del comportamiento del modelo, puede ajustar un modelo base con sus propios datos de entrenamiento.