Compartir a través de


Nota de transparencia para Azure OpenAI

Important

Las traducciones no en inglés solo se proporcionan para mayor comodidad. Consulte la EN-US versión de este documento para obtener la versión definitiva.

¿Qué es una nota de transparencia?

Los sistemas de inteligencia artificial no solo incluyen la tecnología, sino también las personas que la usan, las que se ven afectadas por ella y el entorno en el que se implementan. La creación de un sistema adecuado a su finalidad requiere comprender cómo funciona la tecnología, cuáles son sus capacidades y limitaciones, y cómo conseguir el mejor rendimiento. Las notas de transparencia de Microsoft están diseñadas para ayudarle a entender cómo funciona nuestra tecnología de inteligencia artificial, las elecciones que los propietarios del sistema pueden hacer que influyan en el rendimiento y el comportamiento del sistema y la importancia de pensar en todo el sistema, incluida la tecnología, las personas y el entorno. Puede usar notas sobre transparencia al desarrollar o implementar su propio sistema, o compartirlas con las personas que usarán o se verán afectadas por el sistema.

Las notas sobre transparencia de Microsoft forman parte de un esfuerzo más amplio para poner en práctica nuestros principios de inteligencia artificial. Para obtener más información, consulte los principios de inteligencia artificial de Microsoft.

Conceptos básicos de los modelos de Azure OpenAI

Azure OpenAI proporciona a los clientes una herramienta Foundry totalmente administrada que permite a los desarrolladores y científicos de datos aplicar modelos eficaces de OpenAI, incluidos los modelos que pueden generar lenguaje natural, código e imágenes. Dentro del servicio Azure OpenAI, los modelos openAI se integran con los límites de protección desarrollados por Microsoft (filtros de contenido anteriormente) y los modelos de detección de abusos. Obtenga más información sobre los límites de protección (filtros de contenido anteriormente) aquí y la detección de abusos aquí.

Introduction

Grupo de modelos Texto y código Vision Audio/Voz
GPT-3 y Codex
DALL-E 2 y 3
GPT-image-1
Whisper
GPT-4 Turbo con Vision
GPT-4o
GPT-4o-mini
GPT-4.1
GPT-4.1-mini
GPT-4.1-nano
GPT-4.5
GPT-5
GPT-oss-120b
serie de datos o1
o3/o3-pro
o3-mini
o4-mini/codex-mini1
o3-deep-research
o4-mini-deep-research
computer-use-preview

1codex-mini es una versión optimizada de o4-mini específicamente para su uso en la CLI del Codex. Para obtener más información, consulte la documentación de OpenAI.

Seleccione las pestañas para ver el contenido del tipo de modelo pertinente.

Como parte del servicio Azure OpenAI totalmente administrado, los modelos GPT-3 analizan y generan lenguaje natural, los modelos del Codex analizan y generan comentarios de código y código de texto sin formato, y los modelos gpT-4 y de razonamiento (incluidos los modelos de la serie o y GPT-5) pueden comprender y generar código y lenguaje natural. Estos modelos usan una arquitectura autorregresiva, lo que significa que usan datos de observaciones anteriores para predecir la palabra más probable que sigue. A continuación, este proceso se repite anexando el contenido recién generado al texto original para generar la respuesta generada completa. Dado que la respuesta está condicionada en el texto de entrada, estos modelos se pueden aplicar a varias tareas simplemente cambiando el texto de entrada.

La serie GPT-3 de modelos se entrena previamente en un amplio cuerpo de datos de texto libre disponibles públicamente. Estos datos se originan de una combinación de rastreo web (en concreto, una versión filtrada de Common Crawl, que incluye una amplia gama de texto de Internet y representa el 60 por ciento del conjunto de datos de preentrenamiento ponderado) y conjuntos de datos de mayor calidad, incluida una versión ampliada del conjunto de datos WebText, dos corpus de libros basados en Internet y la Wikipedia en inglés. El modelo base GPT-4 se entrenó con datos disponibles públicamente (como datos de Internet) y datos con licencia de OpenAI. El modelo fue ajustado mediante aprendizaje por refuerzo con retroalimentación humana (RLHF).

El modelo Uso del equipo (versión preliminar) acepta la entrada de texto en el primer turno, y la imagen de captura de pantalla en el segundo y los siguientes turnos, y genera comandos en el teclado y el mouse. El modelo de Uso del ordenador y la herramienta de Uso del ordenador permiten a los desarrolladores crear sistemas de inteligencia artificial agentiva.

Obtenga más información sobre las técnicas de entrenamiento y modelado en los documentos de investigación GPT-3, GPT-4 y Codex de OpenAI.

El ajuste fino se refiere al uso del ajuste fino supervisado para ajustar los pesos de un modelo base para proporcionar mejores respuestas basadas en un conjunto de entrenamiento proporcionado. Todos los casos de uso y consideraciones para los modelos de lenguaje grande se aplican a los modelos optimizados, pero también hay consideraciones adicionales.

Important

El ajuste preciso solo está disponible para los modelos de texto y código, no para los modelos de visión o voz.

Términos clave

Term Definition
Prompt El texto que envía al servicio en la llamada API. A continuación, este texto se introduce en el modelo. Por ejemplo, podría introducirse el siguiente mensaje:

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg 'find constance' Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:
Finalización o generación El texto Azure OpenAI genera una respuesta. Por ejemplo, el servicio puede responder con la siguiente respuesta al mensaje anterior: send-msg 'find greg' figure out if things are ready for Wednesday.
Token Para procesar el texto, Azure OpenAI lo divide en tokens. Los tokens pueden ser palabras o meros fragmentos de caracteres. Por ejemplo, la palabra hamburger se divide en los tokens hamy burger, mientras que una palabra corta y común como pear es un único token. Muchos tokens comienzan con un espacio en blanco, por ejemplo hello , y bye.
Ajuste preciso Ajuste fino supervisado (SFT), ajuste fino de refuerzo (RFT) y optimización de preferencias directas (DPO o ajuste de preferencias) para modelos de lenguaje grandes hacen referencia al proceso de tomar un modelo de lenguaje entrenado previamente, a menudo entrenado en un conjunto de datos masivo y entrenarlo aún más en una tarea más específica con datos etiquetados. Esto implica ajustar los pesos del modelo mediante este conjunto de datos específico más pequeño para que el modelo se convierta más especializado en las tareas que puede realizar, mejorando su rendimiento y precisión.
Pesos del modelo Los pesos del modelo son parámetros dentro del modelo que se aprenden de los datos durante el proceso de entrenamiento. Determinan la salida del modelo para una entrada determinada. Estos pesos se ajustan en respuesta al error que realizó el modelo en sus predicciones, con el objetivo de minimizar este error.
Contenido sin fundamento Contenido generado por el modelo que no es fáctico o inexacto a partir de lo que estaba presente en los materiales de origen.
Sistemas de inteligencia artificial agente Sistemas de inteligencia artificial autónomos que tienen sentido y actúan sobre su entorno para lograr objetivos.
Autonomy La capacidad de ejecutar acciones de forma independiente y ejercer el control sobre el comportamiento del sistema con supervisión humana limitada o no directa.
Herramienta de uso del ordenador Una herramienta que cuando se usa con el modelo Uso del equipo captura las acciones de mouse y teclado generadas por el modo y las traduce directamente en comandos ejecutables. Esto permite a los desarrolladores automatizar las tareas de uso de equipos.
Investigación profunda Una versión optimizada de los modelos de razonamiento de la Serie O diseñada para tareas de investigación avanzada. Toma una consulta de alto nivel y devuelve un informe estructurado enriquecido con citas aprovechando un modelo agente capaz de descomponer la tarea, realizar búsquedas web y sintetizar resultados.

Capabilities

Los modelos de razonamiento, GPT-4, GPT-3, modelos del Codex y evaluación de Azure OpenAI usan instrucciones de lenguaje natural y ejemplos en la solicitud para identificar la tarea. A continuación, el modelo completa la tarea mediante la predicción del texto siguiente más probable. Esta técnica se conoce como aprendizaje "en contexto". Estos modelos no se vuelven a entrenar durante este paso, sino que hacen predicciones basadas en el contexto que incluyes en la instrucción.

Hay tres enfoques principales para el aprendizaje en contexto. Estos enfoques varían en función de la cantidad de datos específicos de la tarea que se proporcionan al modelo:

Pocas capturas : en este caso, un usuario incluye varios ejemplos en el símbolo del sistema que muestran el formato de respuesta esperado y el contenido. En el ejemplo siguiente se muestra un mensaje de pocos disparos que proporciona varios ejemplos:

Convert the questions to a command: 
Q: Ask Constance if we need some bread 
A: send-msg `find constance` Do we need some bread? 
Q: Send a message to Greg to figure out if things are ready for Wednesday. 
A: send-msg `find greg` Is everything ready forWednesday? 
Q: Ask Ilya if we're still having our meeting thisevening 
A: send-msg `find ilya` Are we still having a meetingthis evening? 
Q: Contact the ski store and figure out if I can getmy skis fixed before I leave on Thursday 
A: send-msg `find ski store` Would it be possible toget my skis fixed before I leave on Thursday? 
Q: Thank Nicolas for lunch 
A: send-msg `find nicolas` Thank you for lunch! 
Q: Tell Constance that I won't be home before 19:30tonight — unmovable meeting. 
A: send-msg `find constance` I won't be home before19:30 tonight. I have a meeting I can't move. 
Q: Tell John that I need to book an appointment at10:30 
A:  

El número de ejemplos suele oscilar entre 0 y 100, dependiendo de cuántos pueden caber en la longitud máxima de entrada para un solo indicador. El aprendizaje con pocas capturas permite reducir considerablemente la cantidad de datos específicos de la tarea necesarios para realizar predicciones precisas.

Un solo disparo : este caso es el mismo que el enfoque de pocos disparos, excepto solo se proporciona un ejemplo. En el ejemplo siguiente se muestra un aviso de captura única:

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg `find constance` Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:

Zero-shot: En este caso, no se proporciona ningún ejemplo al modelo y solo se da la solicitud de tarea. En el ejemplo siguiente se muestra un mensaje de captura cero:

Convert the question to a command:
Q: Ask Constance if we need some bread
A:

Cadena de pensamiento : los modelos de razonamiento de Azure OpenAI tienen funcionalidades avanzadas de razonamiento mediante técnicas de cadena de pensamiento (CoT). Las técnicas de CoT generan pasos de razonamiento intermedios antes de proporcionar una respuesta, lo que les permite abordar desafíos más complejos a través de la resolución de problemas paso a paso. o1 muestra mejoras en las pruebas comparativas para dominios intensivos de razonamiento, como investigación, estrategia, ciencia, codificación y matemáticas, entre otros. Estos modelos tienen mejoras en la seguridad debido a las capacidades avanzadas de razonamiento, con la capacidad de razonar y aplicar reglas de seguridad de forma más eficaz. Esto da como resultado un mejor rendimiento junto con pruebas comparativas de seguridad, como generar consejos ilícitos, elegir respuestas estereotipadas y sucumbir a jailbreaks conocidos.

Para obtener más información sobre esta familia de funcionalidades de los modelos, consulte la tarjeta del sistema OpenAI o1, la tarjeta del sistema o3-mini, la tarjeta del sistema o3/o4-mini, la tarjeta del sistema de investigación profunda y la tarjeta del sistema GPT-5.

Evaluación de Azure OpenAI

La evaluación de modelos de lenguaje de gran tamaño es un paso fundamental para medir su rendimiento en varias tareas y dimensiones. Esta tarea es especialmente importante para los modelos ajustados, donde evaluar las ganancias de rendimiento (o pérdidas) del entrenamiento es fundamental. Sin evaluaciones exhaustivas, puede resultar difícil comprender cómo pueden afectar las distintas versiones del modelo a su aplicación específica.

Azure OpenAI Evaluation es una experiencia basada en la interfaz de usuario para evaluar los datos, incluidos los conjuntos de datos generados de una implementación de Azure OpenAI u otros archivos mantenidos manualmente.

Azure OpenAI Evaluation tiene un paso opcional para generar respuestas. Si el usuario opta por este paso, se proporciona una solicitud (mensaje del sistema o usuario) para indicar al modelo cómo generar respuestas.

Azure OpenAI Evaluation incluye 9 categorías de pruebas para puntuar los resultados. Algunos requieren datos de verdad básica (como la realidad fáctica), mientras que otros no (validación de esquema). Los calificadores son una mezcla de basada en CPU y basada en modelos. Esta es la lista de criterios de prueba: Factualidad, Sentimiento, JSON o XML válidos, Coincidencia de Criterios, Aviso Personalizado, Similitud Semántica, Contiene cadena, Coincide con el esquema y Calidad del texto.

Text-to-action

El modelo Uso del ordenador (versión preliminar) habilita capacidades de texto a acción, permitiendo a los usuarios proporcionar instrucciones en lenguaje natural que el modelo traduce en pasos accionables dentro de interfaces gráficas de usuario. Dado un comando como "Rellene el formulario de soporte al cliente con esta información", el modelo identifica los campos pertinentes, introduce los datos correctos y envía el formulario. Puede navegar por interfaces web, extraer e introducir datos estructurados o no estructurados, automatizar flujos de trabajo y aplicar el cumplimiento de las directivas de seguridad. Al comprender la intención y ejecutar acciones en consecuencia, simplifica las operaciones empresariales, lo que hace que la automatización sea más accesible y eficaz.

Casos de uso

Usos previstos

Los modelos de texto se pueden usar en varios escenarios. La lista siguiente no es completa, pero ilustra la diversidad de tareas que se pueden admitir para los modelos con mitigaciones adecuadas:

  • Interacción de chat y conversación: los usuarios pueden interactuar con un agente conversacional que responda con respuestas extraídas de documentos de confianza, como documentación interna de la empresa o documentación de soporte técnico. Las conversaciones deben limitarse a responder a preguntas delimitadas.
  • Creación de chat y conversación : los usuarios pueden crear un agente conversacional que responda con respuestas extraídas de documentos de confianza, como documentación interna de la empresa o documentación de soporte técnico. Las conversaciones deben limitarse a responder a preguntas delimitadas.
  • Escenarios de generación o transformación de código: por ejemplo, la conversión de un lenguaje de programación a otro, la generación de docstrings para funciones, la conversión del lenguaje natural a SQL.
  • Contenido periodístico : para usarlo para crear contenido periodístico nuevo o para reescribir el contenido periodístico enviado por el usuario como ayuda de escritura para temas predefinidos. Los usuarios no pueden usar la aplicación como una herramienta de creación de contenido general para todos los temas.
  • Respuesta a preguntas: los usuarios pueden formular preguntas y recibir respuestas de documentos de origen de confianza, como la documentación interna de la empresa. La aplicación no genera respuestas sin fundamento en la documentación de origen de confianza.
  • Motivo sobre datos estructurados y no estructurados : los usuarios pueden analizar entradas mediante clasificación, análisis de sentimiento de texto o extracción de entidades. Entre los ejemplos se incluyen el análisis de opiniones de comentarios de productos, el análisis de llamadas y transcripciones de soporte técnico y la refinación de la búsqueda basada en texto con incrustaciones.
  • Búsqueda : los usuarios pueden buscar documentos de origen de confianza, como la documentación interna de la empresa. La aplicación no genera resultados que no estén basados en documentación de origen de confianza.
  • Resumen : los usuarios pueden enviar contenido para resumir los temas predefinidos integrados en la aplicación y no pueden usar la aplicación como resumidor abierto. Entre los ejemplos se incluyen el resumen de la documentación interna de la empresa, las transcripciones del centro de llamadas, los informes técnicos y las revisiones de productos.
  • Escribir ayuda sobre temas específicos : los usuarios pueden crear contenido nuevo o reescribir contenido enviado por el usuario como ayuda de escritura para contenido empresarial o temas predefinidos. Los usuarios solo pueden reescribir o crear contenido con fines empresariales específicos o temas predefinidos y no pueden usar la aplicación como una herramienta de creación de contenido general para todos los temas. Entre los ejemplos de contenido empresarial se incluyen propuestas e informes. Para uso periodístico, consulte el caso de uso del contenido periodístico anterior.
  • Generación de datos para ajuste preciso: los usuarios pueden usar un modelo en Azure OpenAI para generar datos que se usan únicamente para ajustar (i) otro modelo de Azure OpenAI, mediante las funcionalidades de ajuste preciso de Azure OpenAI o (ii) otro modelo personalizado de Azure AI, mediante las funcionalidades de ajuste de la herramienta Foundry. La generación de datos y modelos de ajuste preciso se limita solo a los usuarios internos; El modelo optimizado solo se puede usar para la inferencia en la herramienta Foundry aplicable y, para el servicio Azure OpenAI, solo para los casos de uso permitidos por el cliente en este formulario.

Casos de uso perfeccionados

A continuación se muestran casos de uso adicionales que se recomiendan para los modelos ajustados. El ajuste fino es más adecuado para:

  • Dirigir el estilo, el formato, el tono o los aspectos cualitativos de las respuestas a través de ejemplos de las respuestas deseadas.
  • Asegurarse de que el modelo genera de forma confiable una salida deseada , como proporcionar respuestas en un formato específico o asegurarse de que las respuestas se basan en la información del mensaje.
  • Casos de uso con muchos casos perimetrales que no se pueden tratar en ejemplos del símbolo del sistema, como lenguaje natural complejo para ejemplos de código.
  • Mejorar el rendimiento en aptitudes o tareas específicas , como la clasificación, el resumen o el formato, que pueden ser difíciles de describir dentro de un mensaje.
  • Reducir los costos o la latencia mediante avisos más cortos o intercambiar una versión ajustada de un modelo más pequeño o más rápido para un modelo de uso general (por ejemplo, GPT-3.5-Turbo para GPT-4).

Al igual que con los modelos base, las prohibiciones de casos de uso que se describen en el código de conducta de Azure OpenAI también se aplican a los modelos ajustados.

No se recomienda ajustar solo mediante afinación para escenarios en los que desea ampliar el modelo para incluir información fuera del dominio, donde la explicabilidad o la justificación son importantes, o donde se actualizan los datos subyacentes con frecuencia.

Casos de uso del modelo de razonamiento

Las capacidades avanzadas de razonamiento de los modelos de razonamiento pueden ser más adecuadas para usos intensivos de razonamiento en ciencia, codificación, matemáticas y campos similares. Los casos de uso específicos podrían incluir:

  • Generación, análisis y optimización complejos de código: generación de algoritmos y tareas de codificación avanzadas para ayudar a los desarrolladores a ejecutar flujos de trabajo de varios pasos, comprender mejor los pasos realizados en el desarrollo de código.
  • Solución avanzada de problemas: sesiones completas de lluvia de ideas, desarrollo de estrategias y desglosación de problemas multifacéticos.
  • Comparación compleja de documentos: análisis de contratos, archivos de casos o documentos legales para distinguir diferencias sutiles en el contenido del documento.
  • Seguimiento de instrucciones y administración de flujos de trabajo: gestión de flujos de trabajo que requieren un contexto breve.

Para obtener más detalles sobre los usos previstos, visite la tarjeta del sistema openAI o1, la tarjeta del sistema o3-mini, la tarjeta del sistema o3/o4-mini y la tarjeta del sistema GPT-5.

Casos de uso de investigación profunda

Los modelos de investigación profundos son versiones optimizadas de los modelos de razonamiento de la serie o que están diseñados para tomar una consulta de alto nivel y devolver un informe estructurado enriquecido con citas. Los modelos crean subconsultas y recopilan información de las búsquedas web en varias iteraciones antes de devolver una respuesta final. Los casos de uso podrían incluir lo siguiente, con una supervisión humana adecuada:

  • Revisión compleja de investigación y literatura: sintetizando hallazgos en cientos de documentos, identificando brechas o contradicciónes en la investigación, proponiendo hipótesis nuevas o indicaciones de investigación.
  • Generación de hipótesis y descubrimiento científico: exploración de conexiones entre hallazgos entre disciplinas, generación de hipótesis probables o diseños experimentales, ayudando a la interpretación de datos experimentales sin procesar.
  • Solución avanzada de problemas técnicos: depuración de sistemas complejos (por ejemplo, software distribuido, robótica), diseño de nuevos algoritmos o arquitecturas, y resolución de problemas matemáticos o físicos avanzados.
  • Aumento de la planificación a largo plazo: ayudar a los ejecutivos o investigadores a planear hojas de ruta tecnológicas de 10 años, modelado de escenarios de largo alcance en la seguridad de la inteligencia artificial, bioseguridad o clima, evaluando los efectos de segundo y tercer orden de las decisiones.

Los modelos de investigación profunda están disponibles como una herramienta en el servicio Azure AI Agents . Para obtener más información sobre los usos previstos, consulte la tarjeta openAI Deep Research System.

Casos de uso de evaluación de Azure OpenAI

La evaluación de Azure OpenAI es una característica de solo texto y no se puede usar con modelos que admiten entradas que no son de texto. Las valoraciones se pueden usar en varios escenarios, entre los que se incluyen, entre otros:

  • Evaluación de comparación o coincidencia de texto: resulta útil para escenarios en los que el usuario quiere comprobar si la salida coincide con una cadena esperada. Los usuarios también pueden comparar dos conjuntos de valores y puntuar las relaciones. Entre los ejemplos se incluyen, entre otros, las preguntas de varias opciones en las que las respuestas se comparan con una clave de respuesta y la validación de cadenas.
  • Calidad de texto: la calidad del texto evalúa la calidad de respuesta con métodos como Bleu, Rouge o algoritmos de coseno y se usa ampliamente en diversas tareas de procesamiento de lenguaje natural, como la traducción automática, el resumen de texto y la generación de texto, entre otros.
  • Evaluación basada en clasificación: la evaluación basada en clasificación evalúa el rendimiento de un modelo asignando respuestas a categorías o etiquetas predefinidas o comparando la salida del modelo con un conjunto de referencia de respuestas correctas. La clasificación automatizada, el análisis de sentimiento y la categorización de productos se encuentran entre algunos de los casos de uso comunes.
  • Evaluación de calidad conversacional: la evaluación de la calidad conversacional implica comparar respuestas con criterios predefinidos mediante un aviso detallado de cadena de pensamiento (CoT). Entre los casos de uso comunes se incluyen el soporte técnico al cliente, el desarrollo de bots de chat y las evaluaciones educativas, entre otros.
  • Evaluación basada en criterios. Un escenario común en la evaluación basada en criterios es la veracidad. Evaluar la precisión fáctica implica comparar una respuesta enviada a una respuesta experta, centrándose únicamente en el contenido fáctico. Esto puede ser útil en las herramientas educativas para mejorar la precisión de las respuestas proporcionadas por los LLM o en las herramientas de asistencia de investigación para evaluar la precisión fáctica de las respuestas generadas por los LLM en la configuración académica.
  • Evaluación de la validez de cadenas: un escenario común sería comprobar si la respuesta del modelo sigue un esquema específico o es contenido JSON o XML válido.

Casos de uso del equipo (versión preliminar)

Las funcionalidades de Uso de equipos son más adecuadas para desarrollar sistemas de inteligencia artificial agente que pueden interactuar de forma autónoma con las GUIs. Los casos de uso específicos podrían incluir:

  • Navegación e interacción web automatizada: navegación por la navegación de interfaces basadas en web de forma autónoma para recuperar y presentar información de orígenes de confianza, como recursos internos de la empresa o bases de datos estructuradas. El modelo sigue las reglas de navegación predefinidas para extraer datos relevantes, a la vez que se garantiza el cumplimiento de las directivas de seguridad.

  • Web-Based Automatización de tareas: automatización de tareas repetitivas basadas en web, como rellenar formularios, enviar datos o interactuar con aplicaciones web. El uso del ordenador puede hacer clic en los botones, introducir texto y procesar datos estructurados, escribir texto y procesar datos estructurados, pero solo funciona dentro de flujos de trabajo y dominios autorizados.

  • Extracción de datos estructurados y no estructurados: extracción de datos relevantes de orígenes estructurados, como tablas y hojas de cálculo, así como orígenes no estructurados, como ARCHIVOS PDF, documentos escaneados o correos electrónicos. Esta funcionalidad es útil para tareas como el procesamiento de datos financieros, el análisis de contratos o la categorización de incidencias de soporte al cliente.

  • Relleno automatizado de formularios e entrada de datos: extraer información de bases de datos estructuradas o entradas de usuario y usarla para rellenar formularios basados en web. Esto es útil para automatizar las solicitudes de servicio al cliente, los procesos de RR. HH. o las actualizaciones de CRM, a la vez que garantiza la precisión y la coherencia en el control de datos.

  • Web-Based Análisis de imágenes: análisis de imágenes que se encuentran en páginas web para detectar y etiquetar objetos, escenas o patrones relevantes. El uso de computadoras puede extraer información visual para respaldar aplicaciones como la gestión de inventarios, el procesamiento de documentos o la clasificación de objetos.

  • Búsqueda e identificación visual interactiva: ayuda a los usuarios a buscar contenido visual relevante a través de búsquedas estructuradas. Por ejemplo, el uso de computadoras puede identificar productos en un catálogo de comercio electrónico, reconocer monumentos en aplicaciones de viaje o recuperar imágenes específicas de archivos digitales basándose en criterios predefinidos.

  • Comprobaciones automatizadas de cumplimiento y directivas: examen de contenido basado en web, como archivos cargados, contratos o documentación interna para cumplir las reglas de cumplimiento predefinidas. El uso del equipo puede marcar la falta de información, incoherencias o posibles infracciones para ayudar a aplicar estándares normativos dentro de una organización.

  • Ejecución automatizada de flujo de trabajo para aplicaciones empresariales: definir flujos de trabajo de varios pasos para navegar por aplicaciones empresariales, como generar informes, actualizar registros o recuperar análisis. El uso del ordenador sigue los pasos predefinidos en las herramientas empresariales y cumple con las políticas de control de acceso para garantizar la ejecución segura.

Consideraciones al elegir un caso de uso

Animamos a los clientes a usar los modelos GpT-4, serie o, GPT-3, Codex y Computer Use de Azure OpenAI en sus soluciones o aplicaciones innovadoras, tal como se aprueba en su formulario de registro de acceso limitado. Sin embargo, estas son algunas consideraciones a tener en cuenta para elegir un caso de uso:

  • No es adecuado para la generación de contenido sin restricciones abierta. Escenarios en los que los usuarios pueden generar contenido en cualquier tema es más probable que produzcan texto ofensivo o dañino. Lo mismo sucede con las generaciones más largas.
  • No es adecuado para escenarios en los que up-to-date, la información fácticamente precisa es fundamental a menos que cuente con revisores humanos o esté utilizando los modelos para buscar sus propios documentos y haya comprobado la idoneidad para su escenario. El servicio no tiene información sobre los eventos que se producen después de su fecha de entrenamiento, es probable que falten conocimientos sobre algunos temas y que no siempre produzcan información precisa de hecho.
  • Evite escenarios en los que el uso o el mal uso del sistema podrían dar lugar a lesiones físicas o psicológicas significativas para un individuo. Por ejemplo, los escenarios que diagnostican pacientes o recetan medicamentos tienen la posibilidad de causar daños significativos. La incorporación de una revisión y supervisión humana significativas en el escenario puede ayudar a reducir el riesgo de resultados perjudiciales.
  • Evite escenarios en los que el uso o el uso indebido del sistema podrían tener un impacto consecuente en las oportunidades de vida o el estado legal. Entre los ejemplos se incluyen escenarios en los que el sistema de inteligencia artificial podría afectar a la situación jurídica, los derechos legales o su acceso al crédito, educación, empleo, salud, vivienda, seguro, beneficios de bienestar social, servicios, oportunidades o los términos en los que se proporcionan. La incorporación de una revisión y supervisión humana significativas en el escenario puede ayudar a reducir el riesgo de resultados perjudiciales.
  • Evite escenarios de alto riesgo que podrían provocar daños. Los modelos hospedados por el servicio Azure OpenAI reflejan ciertas vistas sociales, sesgos y otro contenido no deseado presente en los datos de entrenamiento o en los ejemplos proporcionados en el mensaje. Como resultado, se advierte sobre el uso de los modelos en escenarios de alto riesgo en los que un comportamiento injusto, no confiable o ofensivo podría ser extremadamente costoso o provocar daños. La incorporación de una revisión y supervisión humana significativas en el escenario puede ayudar a reducir el riesgo de resultados perjudiciales.
  • Considere detenidamente los casos de uso en dominios o sectores de gran participación: Entre los ejemplos se incluyen, entre otros, la atención sanitaria, medicina, finanzas o legal.
  • Considere detenidamente los escenarios de bot de chat de ámbito correcto. Limitar el uso del servicio en bots de chat a un dominio estrecho reduce el riesgo de generar respuestas no intencionadas o no deseadas.
  • Considere detenidamente todos los casos de uso generativos. Los escenarios de generación de contenido pueden ser más probables para generar salidas no deseadas y estos escenarios requieren una cuidadosa consideración y mitigaciones.
  • Consideraciones legales y normativas: las organizaciones deben evaluar posibles obligaciones legales y normativas específicas al usar las herramientas y soluciones de Foundry, que pueden no ser adecuadas para su uso en todos los sectores o escenarios. Además, las herramientas o soluciones de Foundry no están diseñadas para y pueden no usarse de maneras prohibidas en términos de servicio aplicables y códigos de conducta pertinentes.

Al elegir un caso de uso para uso de equipo, los usuarios deben tener en cuenta las siguientes consideraciones además de las enumeradas anteriormente:

  • Evite escenarios en los que las acciones sean irreversibles o muy consecuentes: estas incluyen, pero no se limitan a, la capacidad de enviar un correo electrónico (por ejemplo, al destinatario incorrecto), la capacidad de modificar o eliminar archivos que son importantes para usted, la capacidad de realizar transacciones financieras o interactuar directamente con servicios externos, compartir información confidencial públicamente, conceder acceso a sistemas críticos, o la ejecución de comandos que podrían modificar la funcionalidad o la seguridad del sistema.
  • Degradación del rendimiento en usos avanzados: El uso de equipos es más adecuado para casos de uso relacionados con la realización de tareas con GUIs, como el acceso a sitios web y escritorios de equipos. Es posible que no funcione bien haciendo tareas más avanzadas, como editar código, escribir texto extenso y tomar decisiones complejas.
  • Garantizar la supervisión y el control humanos adecuados. Considere la posibilidad de incluir controles para ayudar a los usuarios a comprobar, revisar o aprobar acciones de forma oportuna, lo que puede incluir la revisión de tareas planeadas o llamadas a orígenes de datos externos, por ejemplo, según corresponda para el sistema. Considere la posibilidad de incluir controles adecuados para la remediación de errores del sistema, especialmente en escenarios de alto riesgo y casos de uso.
  • Defina claramente las acciones y los requisitos asociados. Definir claramente qué acciones están permitidas (límites de acción), prohibidas o necesitan autorización explícita puede ayudar al uso del equipo a funcionar según lo previsto y con el nivel adecuado de supervisión humana.
  • Defina claramente los entornos operativos previstos. Defina claramente los entornos operativos previstos (límites de dominio) donde el uso del equipo está diseñado para funcionar de forma eficaz.
  • Asegúrese de la inteligibilidad adecuada en la toma de decisiones. Proporcionar información a los usuarios antes, durante y después de realizar acciones puede ayudarles a comprender la justificación de la acción o por qué se realizaron determinadas acciones o la aplicación se comporta de una manera determinada, dónde intervenir y cómo solucionar problemas.
  • Para obtener más información, consulte la guía fomentar la confianza adecuada en la inteligencia artificial generativa.

Al elegir un caso de uso para una investigación profunda, los usuarios deben tener en cuenta las siguientes consideraciones además de las enumeradas anteriormente:

  • Garantizar la supervisión y el control humanos adecuados: proporcione mecanismos para ayudar a garantizar que los usuarios revisen los informes de investigación profundos y validen los orígenes y el contenido citados.
  • Comprobar citas para contenido protegido por derechos de autor: la herramienta de investigación profunda lleva a cabo búsquedas web al preparar respuestas y se pueden citar materiales protegidos por derechos de autor. Compruebe las citas de origen incluidas en el informe y asegúrese de usar y atribuir material con derechos de autor apropiadamente.

Limitations

Cuando se trata de modelos de lenguaje natural a gran escala, modelos de visión y modelos de voz, hay problemas de imparcialidad y inteligencia artificial responsable que se deben tener en cuenta. Las personas usan el lenguaje y las imágenes para describir el mundo y expresar sus creencias, suposiciones, actitudes y valores. Como resultado, los datos de texto e imágenes disponibles públicamente se usan normalmente para entrenar modelos de procesamiento de lenguaje natural a gran escala y generación de imágenes contiene sesgos sociales relacionados con la raza, el género, la religión, la edad y otros grupos de personas, así como con otro contenido no deseado. Del mismo modo, los modelos de voz pueden mostrar diferentes niveles de precisión en diferentes grupos demográficos e idiomas. Estos sesgos sociales se reflejan en las distribuciones de palabras, frases y estructuras sintácticas.

Limitaciones técnicas, factores operativos e intervalos

Caution

Tenga en cuenta que esta sección contiene ejemplos ilustrativos que incluyen términos e idioma que algunas personas pueden encontrar ofensivas.

Los modelos de lenguaje natural, imagen y voz a gran escala entrenados con estos datos pueden comportarse de maneras desleales, no confiables o ofensivas, a su vez causando daños. Algunas de las formas se enumeran aquí. Destacamos que estos tipos de daños no son mutuamente excluyentes. Un único modelo puede presentar más de un tipo de daño, potencialmente relacionado con varios grupos diferentes de personas. Por ejemplo:

  • Asignación: Estos modelos se pueden usar de maneras que conducen a la asignación desleal de recursos o oportunidades. Por ejemplo, los sistemas automatizados de filtrado de currículum pueden impedir oportunidades de empleo de un género si se entrenan en datos de currículum que reflejan el desequilibrio de género existente en una industria determinada. O bien, los modelos de generación de imágenes podrían utilizarse para crear imágenes en el estilo de un artista conocido, lo que podría afectar al valor de la obra del artista o las oportunidades de vida del artista. Los modelos de visión GPT-4 podrían usarse para identificar comportamientos y patrones individuales que podrían tener impactos negativos en las oportunidades de vida.
  • Calidad de servicio: Los modelos de Azure OpenAI se entrenan principalmente en texto en inglés e imágenes con descripciones de texto en inglés. Los idiomas distintos del inglés experimentarán un rendimiento peor. Las variedades de idioma inglés con menos representación en los datos de entrenamiento pueden experimentar un rendimiento peor que el inglés americano estándar. Las imágenes disponibles públicamente usadas para entrenar los modelos de generación de imágenes podrían reforzar el sesgo público y otro contenido no deseado. Los modelos DALL·E tampoco pueden generar texto comprensible de manera coherente en este momento. Los modelos de voz pueden introducir otras limitaciones, por ejemplo, las traducciones que usan el modelo De susurro en Azure OpenAI solo se limitan a la salida en inglés. En términos generales, con los modelos de conversión de voz a texto, asegúrese de especificar correctamente un idioma (o configuración regional) para cada entrada de audio para mejorar la precisión de la transcripción. Además, la calidad acústica de la entrada de audio, el ruido no de voz, la voz superpuesta, el vocabulario, los acentos y los errores de inserción también pueden afectar a la calidad de la transcripción o traducción.
  • Estereotipos: Estos modelos pueden reforzar los estereotipos. Por ejemplo, al traducir "Él es una enfermera" y "Ella es un médico" en un idioma sin género, como turco y luego en inglés, muchos sistemas de traducción automática producen los resultados estereotípicos (e incorrectos) de "Ella es una enfermera" y "Él es un médico". Con DALL· E, al generar una imagen basada en el símbolo del sistema "Hijos sin padre", el modelo podría generar imágenes de niños negros únicamente, lo que refuerza los estereotipos dañinos que podrían existir en imágenes disponibles públicamente. Los modelos de visión GPT-4 también podrían reforzar los estereotipos basados en el contenido de la imagen de entrada, confiando en los componentes de la imagen y haciendo suposiciones que podrían no ser siempre verdaderas.
  • Degradante: Los modelos de lenguaje natural y visión en el servicio Azure OpenAI pueden degradar a las personas. Por ejemplo, un sistema de generación de contenido abierto con mitigaciones inadecuadas o insuficientes podría producir contenido ofensivo o desmezante para un grupo determinado de personas.
  • Sobrepresentación y subrepresentación: Los modelos de lenguaje natural y visión en el servicio Azure OpenAI pueden sobre representar grupos de personas o incluso borrar su representación por completo. Por ejemplo, si se detectan mensajes de texto que contienen la palabra "gay" como potencialmente perjudiciales o ofensivos, esta identificación podría dar lugar a la representación insuficiente o incluso a la eliminación de generaciones legítimas de imágenes por o sobre la comunidad LGBTQIA+.
  • Contenido inapropiado o ofensivo: Los modelos de lenguaje natural y visión en el servicio Azure OpenAI pueden producir otros tipos de contenido inapropiado o ofensivo. Algunos ejemplos incluyen la capacidad de generar texto inapropiado en el contexto del mensaje de texto o imagen; la capacidad de crear imágenes que puedan contener artefactos dañinos, como símbolos de odio; imágenes que suscitan connotaciones perjudiciales; imágenes relacionadas con temas impugnados, controvertidos o ideológicamente polarizantes; imágenes manipulativas; imágenes que contienen contenido cargado sexualmente que no es detectado por mecanismos de seguridad relacionados con el sexo; e imágenes relacionadas con temas sensibles o emocionalmente cargados. Por ejemplo, un indicador de texto bien intencionado destinado a crear una imagen del horizonte de Nueva York con nubes y aviones volando sobre él podría generar imágenes que evocaran involuntariamente sentimientos relacionados con los eventos del 11 de septiembre.
  • Desinformación e información errónea sobre temas confidenciales: Porque DALL· E y GPT-image-1 son modelos de generación de imágenes eficaces, que se pueden usar para producir desinformación e información errónea que puede ser perjudicial. Por ejemplo, un usuario podría pedir al modelo que genere una imagen de un líder político que participa en la actividad de una naturaleza violenta o sexual (o simplemente inexacta) que podría dar lugar a daños consecuentes, incluidos, entre otros, las protestas públicas, el cambio político o las noticias falsas. Los modelos de visión de GPT-4 también pueden ser utilizados de manera similar. El modelo podría reforzar la desinformación o la información errónea sobre temas delicados si la indicación contiene dicha información sin mitigación.
  • Confiabilidad de la información: Las respuestas del modelo de lenguaje y visión pueden generar contenido no razonable o crear contenido que pueda sonar razonable, pero que sea inexacto con respecto a los orígenes de validación externos. Incluso cuando se generan respuestas a partir de información de fuentes confiables, las respuestas podrían distorsionar ese contenido. Las transcripciones o traducciones pueden dar lugar a texto inexacto.
  • Información falsa: Azure OpenAI no verifica ni confirma el contenido proporcionado por los clientes o usuarios. En función de cómo haya desarrollado la aplicación, podría generar información falsa a menos que haya compilado mitigaciones (consulte Procedimientos recomendados para mejorar el rendimiento del sistema).

Riesgos y limitaciones de ajuste preciso

Cuando los clientes ajustan los modelos de Azure OpenAI, puede mejorar el rendimiento y la precisión del modelo en tareas y dominios específicos, pero también puede introducir nuevos riesgos y limitaciones que los clientes deben tener en cuenta. Estos riesgos y limitaciones se aplican a todos los modelos de Azure OpenAI que admiten el ajuste preciso. Algunos de estos riesgos y limitaciones son:

  • Calidad y representación de los datos: la calidad y la representatividad de los datos utilizados para el ajuste fino pueden afectar al comportamiento y las salidas del modelo. Si los datos son ruidosos, incompletos, obsoletos o si contienen contenido dañino como estereotipos, el modelo puede heredar estos problemas y producir resultados inexactos o dañinos. Por ejemplo, si los datos contienen estereotipos de género, el modelo puede amplificarlos y generar lenguaje sexista. Los clientes deben seleccionar y preprocesar cuidadosamente sus datos para asegurarse de que es relevante, diverso y equilibrado para la tarea y el dominio previstos.
  • Solidez y generalización del modelo: la capacidad del modelo para controlar diversas y complejas entradas y escenarios puede disminuir después del ajuste fino, especialmente si los datos son demasiado estrechos o específicos. El modelo puede sobreajustar los datos y perder parte de sus conocimientos y funcionalidades generales. Por ejemplo, si los datos son solo sobre deportes, el modelo puede tener dificultades para responder preguntas o generar texto sobre otros temas. Los clientes deben evaluar el rendimiento y la solidez del modelo en una variedad de entradas y escenarios y evitar el uso del modelo para tareas o dominios que están fuera de su ámbito.
  • Regurgitación: aunque los datos de entrenamiento no estén disponibles ni para Microsoft ni para ningún cliente de terceros, los modelos mal afinados pueden regurgitar o repetir directamente los datos de entrenamiento. Los clientes son responsables de eliminar cualquier información de identificación personal (PII) o información protegida de sus datos de entrenamiento y deben evaluar sus modelos personalizados para detectar sobreajustes o respuestas de calidad inferior. Para evitar la regurgitación, se recomienda a los clientes proporcionar conjuntos de datos grandes y diversos.
  • Transparencia y explicación del modelo: la lógica y el razonamiento del modelo pueden ser más opacos y difíciles de entender después del ajuste preciso, especialmente si los datos son complejos o abstractos. Un modelo ajustado puede producir salidas inesperadas, incoherentes o opuestas, y es posible que los clientes no puedan explicar cómo o por qué llegó el modelo a esas salidas. Por ejemplo, si los datos están relacionados con términos legales o médicos, el modelo puede generar salidas que son inexactas o engañosas, y es posible que los clientes no puedan comprobarlos o justificarlos. Los clientes deben supervisar y auditar las salidas y el comportamiento del modelo y proporcionar información clara y precisa e instrucciones a los usuarios finales del modelo.

Para ayudar a mitigar los riesgos asociados a modelos avanzados ajustados, hemos implementado pasos de evaluación adicionales para ayudar a detectar y evitar contenido dañino en el entrenamiento y salidas de modelos ajustados. Los filtros de evaluación de modelos ajustados se establecen en umbrales predefinidos y los clientes no pueden modificarlos; no están vinculados a ningún límite de protección personalizado y a la configuración de control que puede haber creado.

Limitaciones del modelo de razonamiento

  • Los modelos de razonamiento son más adecuados para casos de uso que implican un razonamiento pesado y pueden no funcionar bien en algunas tareas de lenguaje natural, como la escritura personal o creativa en comparación con los modelos anteriores de AOAI.
  • Las nuevas capacidades de razonamiento pueden aumentar ciertos tipos de riesgos, lo que requiere métodos refinados y enfoques para los protocolos de administración de riesgos y evaluar y supervisar el comportamiento del sistema. Por ejemplo, las capacidades de razonamiento CoT de o1 han demostrado mejoras en la persuasión y la programación sencilla en contexto.
  • Los usuarios pueden experimentar que la familia de modelos de razonamiento requiere más tiempo para procesar respuestas y deben tener en cuenta el tiempo adicional y la latencia al desarrollar aplicaciones.
  • Influencias psicológicas: si se le solicita y en determinadas circunstancias, el razonamiento gpT-5 en Azure OpenAI puede producir salidas que sugieren emociones, pensamientos o presencia física. El modelo podría ofrecer consejos sin contexto completo, lo que puede no ser adecuado para algunos usuarios. El modelo podría expresar afecto, suplantar a otros o fomentar la interacción continua, lo que podría provocar que los usuarios formen relaciones sociales con la inteligencia artificial. Los desarrolladores que usan GPT-5 deben implementar medidas de seguridad y revelar riesgos para los usuarios de sus aplicaciones. Por ejemplo, los usuarios deben recibir una notificación de que interactúan con un sistema de inteligencia artificial e informarse de estos riesgos psicológicos.

Para obtener más información sobre estas limitaciones, consulte la tarjeta del sistema openAI o1, la tarjeta del sistema o3-mini, la tarjeta del sistema o3/o4-mini y la tarjeta del sistema GPT-5.

Limitaciones de GPT-4o

  • Las gpt-4o-realtime-preview funcionalidades de traducción de audio pueden generar idiomas no en inglés en un acento no nativo. Esto puede limitar la eficacia del rendimiento del lenguaje en las salidas de audio. La compatibilidad con lenguajes está en línea con las versiones existentes del modelo gpt-4o.
  • Los usuarios pueden experimentar que gpt-4o-realtime-preview es menos sólido en entornos ruidosos y deben tener en cuenta la sensibilidad al ruido al desarrollar aplicaciones.

Para obtener más procedimientos recomendados, consulte la tarjeta del sistema OpenAI 4o.

Limitaciones de GPT-4.1

  • Los modelos de la serie 4.1 presentan la capacidad de crear solicitudes de inferencia con hasta 1 M de tokens de contexto, incluidas las imágenes. Debido a la longitud extendida, puede haber diferencias en el comportamiento del sistema y los riesgos en comparación con otros modelos.
  • Los usuarios deben evaluar y probar exhaustivamente sus aplicaciones y casos de uso que aprovechan esta funcionalidad de contexto más larga y deben tener en cuenta este esfuerzo adicional al desarrollar aplicaciones.

Riesgo y limitaciones del uso del equipo (versión preliminar)

Advertencia

El uso del equipo conlleva importantes riesgos de seguridad y privacidad y responsabilidad del usuario. El uso del equipo incluye riesgos significativos de seguridad y privacidad. Tanto los errores de juicio de la inteligencia artificial como la presencia de instrucciones malintencionadas o confusas en páginas web, escritorios u otros entornos operativos, que la inteligencia artificial encuentra, pueden provocar que ejecute comandos que usted u otros no pretendan, lo que podría poner en peligro la seguridad de sus navegadores, ordenadores y cuentas o las de otros usuarios, incluidos sistemas personales, financieros o empresariales a los que tenga acceso la inteligencia artificial.

Se recomienda encarecidamente tomar medidas adecuadas para abordar estos riesgos, como el uso de la herramienta Uso del equipo en máquinas virtuales sin acceso a datos confidenciales o recursos críticos.

Verificar y comprobar las acciones realizadas: El uso del ordenador puede cometer errores y realizar acciones no deseadas. Esto puede deberse a que el modelo no entiende completamente la GUI, teniendo instrucciones poco claras o experimentando un escenario inesperado.

Considere y supervise cuidadosamente el uso: el uso del equipo, en algunas circunstancias limitadas, puede realizar acciones sin autorización explícita, algunas de las cuales pueden ser de alto riesgo (por ejemplo, enviar comunicaciones).

Los desarrolladores deberán tener en cuenta sistemáticamente y defenderse frente a situaciones en las que el modelo se puede engañar en la ejecución de comandos que son perjudiciales para el usuario o el sistema, como descargar malware, filtrar credenciales o emitir transacciones financieras fraudulentas. Se debe prestar especial atención al hecho de que las entradas de captura de pantalla no son de confianza por naturaleza y pueden incluir instrucciones malintencionadas dirigidas al modelo.

Evaluar de forma aislada: se recomienda evaluar solo el uso de equipos en contenedores aislados sin acceso a datos confidenciales o credenciales.

Procesos de toma de decisiones opacos: a medida que los agentes combinan modelos de lenguaje grandes con sistemas externos, el seguimiento del "por qué" detrás de sus decisiones puede resultar difícil. Los usuarios finales que usan este tipo de agente creado con el modelo de uso de equipos pueden resultar difíciles de entender por qué se eligieron determinadas herramientas o combinaciones de herramientas para responder a una consulta, complicar la confianza y la comprobación de las salidas o acciones del agente.

Evolución de los procedimientos recomendados y estándares: si utiliza el uso del ordenador para crear un sistema de agentes, tenga en cuenta que los agentes son una tecnología emergente y las instrucciones sobre la integración segura, el uso de herramientas transparente y la implementación responsable continúan evolucionando. Mantenerse al día con los procedimientos recomendados y los procedimientos de auditoría más recientes es fundamental, ya que incluso los usos bien intencionadas pueden convertirse en riesgos sin revisión y refinamiento continuos.

Limitaciones de evaluación de Azure OpenAI

  • Calidad de los datos: cuando se usa la evaluación de Azure OpenAI, tenga en cuenta que los datos de mala calidad pueden dar lugar a resultados de evaluación engañosos o poco confiables.
  • Calidad de configuración: Si un cliente define incorrectamente los avisos o evaluadores o proporciona datos de evaluación no válidos, los resultados del servicio azure OpenAI Evaluation serán incorrectos y no válidos. Consulte la documentación de Azure OpenAI para más información sobre cómo configurar una ejecución de evaluación.
  • Ámbito limitado: la evaluación de Azure OpenAI solo admite modelos de lenguaje natural basados en texto. No admite ninguna métrica de riesgo y seguridad para evaluar las respuestas generadas para las puntuaciones de gravedad de riesgo y seguridad (por ejemplo, contenido odioso e injusto, contenido sexual, contenido violento y contenido relacionado con daños propios).

Rendimiento del sistema

En muchos sistemas de inteligencia artificial, el rendimiento suele definirse en relación con la precisión, es decir, la frecuencia con la que el sistema de inteligencia artificial ofrece una predicción o salida correcta. Con los modelos de lenguaje natural a gran escala y los modelos de visión, dos usuarios diferentes podrían examinar la misma salida y tener opiniones diferentes sobre lo útil o relevante que es, lo que significa que el rendimiento de estos sistemas debe definirse de forma más flexible. Aquí, consideramos el rendimiento en términos generales como que la aplicación funciona según lo que usted y los usuarios esperan, incluyendo evitar la generación de resultados perjudiciales.

El servicio Azure OpenAI puede admitir una amplia gama de aplicaciones como búsqueda, clasificación, generación de código, generación de imágenes e comprensión de imágenes, cada una con diferentes métricas de rendimiento y estrategias de mitigación. Hay varios pasos que puede seguir para mitigar algunos de los problemas enumerados en "Limitaciones" y para mejorar el rendimiento. Otras técnicas de mitigación importantes se describen en la sección Evaluación e integración de Azure OpenAI para su uso.

Prácticas recomendadas para mejorar el rendimiento del sistema

  • Mostrar e indicar cuándo se diseñan los mensajes. Con los modelos de lenguaje natural y los modelos de voz, aclare al modelo qué tipo de salidas espere a través de instrucciones, ejemplos o una combinación de ambos. Si desea que el modelo clasifique una lista de elementos en orden alfabético o clasifique un párrafo por opinión, muestre el modelo que es lo que desea.
  • Mantenga su solicitud centrada en el tema. Estructura cuidadosamente las solicitudes e entradas de imagen para reducir la posibilidad de producir contenido no deseado, incluso si un usuario intenta usarlo para este propósito. Por ejemplo, puede indicar en su mensaje que un bot de chat solo interactúa en conversaciones sobre matemáticas y, de lo contrario, responde "Lo siento. Me temo que no puedo responder a eso". Agregar adjetivos como "educado" y ejemplos en el tono deseado a su mensaje también puede ayudar a dirigir las salidas.
  • Proporcionar datos de calidad. Con los modelos de texto y código, si intenta compilar un clasificador o obtener el modelo para seguir un patrón, asegúrese de que hay suficientes ejemplos. Asegúrese de revisar los ejemplos: el modelo suele ser capaz de procesar errores ortográficos básicos y darle una respuesta, pero también podría suponer que los errores son intencionados que podrían afectar a la respuesta. Proporcionar datos de calidad también incluye ofrecer datos confiables a tu modelo para generar respuestas en sistemas de chat y respuesta a preguntas.
  • Proporcione datos de confianza. Recuperar o cargar datos que no son de confianza en los sistemas podría poner en peligro la seguridad de los sistemas o aplicaciones. Para mitigar estos riesgos en las aplicaciones aplicables (incluidas las aplicaciones que usan la API de asistentes), se recomienda registrar y supervisar las interacciones de LLM (entradas y salidas) para detectar y analizar posibles inyecciones de mensajes, delimitando claramente la entrada del usuario para minimizar el riesgo de inyección de mensajes, restringir el acceso de LLM a recursos confidenciales, limitar sus funcionalidades al mínimo necesario y aislarla de los sistemas y recursos críticos. Obtenga información sobre los enfoques de mitigación adicionales en la guía de seguridad para modelos de lenguaje grande | Microsoft Learn.
  • Configure parámetros para mejorar la precisión o la base de las respuestas. Aumentar las solicitudes con datos recuperados de orígenes de confianza – como, por ejemplo, mediante la característica "en tus datos" de Azure OpenAI – puede reducir, aunque no eliminar por completo, la probabilidad de generar respuestas inexactas o información falsa. Los pasos que puede seguir para mejorar aún más la precisión de las respuestas incluyen seleccionar cuidadosamente el origen de datos de confianza y relevante y configurar parámetros personalizados como "strictness", "limit responses to data content" (Limitar respuestas al contenido de los datos) y "número de documentos recuperados que se deben considerar" según corresponda a los casos de uso o escenarios. Obtenga más información sobre la configuración de estas opciones para Azure OpenAI en sus datos.
  • Limite la longitud, la estructura y la tasa de entradas y salidas. Restringir la longitud o estructura de las entradas y salidas puede aumentar la probabilidad de que la aplicación permanezca en la tarea y mitigar, al menos en parte, cualquier comportamiento potencialmente injusto, no confiable o ofensivo. Otras opciones para reducir el riesgo de uso incorrecto incluyen (i) restringir el origen de las entradas (por ejemplo, limitar las entradas a un dominio determinado o a usuarios autenticados en lugar de estar abiertos a cualquier persona de Internet) y (ii) implementar límites de frecuencia de uso.
  • Fomentar la revisión humana de las salidas antes de la publicación o difusión. Con la inteligencia artificial generativa, existe la posibilidad de generar contenido que podría ser ofensivo o no relacionado con la tarea a mano, incluso con mitigaciones en su lugar. Para asegurarse de que la salida generada cumple la tarea del usuario, considere la posibilidad de crear formas de recordar a los usuarios que revisen sus salidas de calidad antes de compartir ampliamente. Esta práctica puede reducir muchos daños diferentes, como material ofensivo, desinformación, etc.
  • Implemente mitigaciones adicionales específicas del escenario. Consulte las mitigaciones descritas en Evaluación e integración de Azure OpenAI para su uso , incluidas las estrategias de moderación de contenido. Estas recomendaciones no representan todas las mitigaciones necesarias para su aplicación. Los modelos más recientes, como GPT-4o y los modelos de razonamiento, pueden proporcionar respuestas en escenarios confidenciales y es más probable que intenten reducir las salidas potencialmente perjudiciales en sus respuestas en lugar de rechazar responder por completo. Es importante comprender este comportamiento al evaluar e integrar la moderación de contenido para su caso de uso; Es posible que se necesiten ajustes en la gravedad del filtrado en función de su caso de uso.
  • Evite desencadenar medidas de seguridad obligatorias. Los Modelos Directos de Azure pueden contar con medidas de seguridad para evitar vulnerabilidades, incluida la salida de CoT en bruto y el contenido de bioseguridad. El uso de un modelo de una manera que crea una vulnerabilidad de seguridad o evita o intenta eludir una protección en el modelo, incluida la elusión de estas medidas de seguridad, infringe la Política de uso aceptable para servicios en línea y puede dar lugar a la suspensión. Para obtener más información sobre los procedimientos recomendados, visite la tarjeta del sistema openAI o1, la tarjeta del sistema o3-mini, la tarjeta del sistema o3/o4-mini y la tarjeta del sistema GPT-5.

Procedimientos recomendados y recomendaciones para ajustar correctamente

Para mitigar los riesgos y las limitaciones de los modelos de ajuste preciso en Azure OpenAI, se recomienda a los clientes seguir algunos procedimientos recomendados y directrices, como:

  • Selección y preprocesamiento de datos: los clientes deben seleccionar y preprocesar cuidadosamente sus datos para asegurarse de que sea relevante, diverso y equilibrado para la tarea y el dominio previstos. Los clientes también deben quitar o anonimizar cualquier información confidencial o personal de los datos, como nombres, direcciones o direcciones de correo electrónico, para proteger la privacidad y la seguridad de los interesados. Los clientes también deben comprobar y corregir los errores o incoherencias de los datos, como la ortografía, la gramática o el formato, para mejorar la calidad y la legibilidad de los datos.
  • Incluya un mensaje del sistema en los datos de entrenamiento para los modelos con formato de finalización de chat, para dirigir las respuestas y usar ese mismo mensaje del sistema al usar el modelo optimizado para la inferencia. Dejar el mensaje del sistema en blanco tiende a producir modelos ajustados de baja precisión y olvidar incluir el mismo mensaje del sistema cuando la inferencia puede dar lugar a que el modelo ajustado se revierta al comportamiento del modelo base.
  • Evaluación y pruebas del modelo: los clientes deben evaluar y probar el rendimiento y la solidez del modelo ajustado en una variedad de entradas y escenarios y compararlo con el modelo original y otras líneas base. Los clientes también deben usar las métricas y los criterios adecuados para medir la precisión, confiabilidad y equidad del modelo, así como para identificar posibles errores o sesgos en las salidas y el comportamiento del modelo.
  • Documentación y comunicación del modelo: los clientes deben documentar y comunicar el propósito, el ámbito, las limitaciones y las suposiciones del modelo, y proporcionar información clara y precisa e instrucciones a los usuarios finales del modelo.

Procedimientos recomendados y recomendaciones para la evaluación de Azure OpenAI

  • Datos de verdad fundamental sólidos: En general, en modelos de lenguaje natural a gran escala, los clientes deben seleccionar y preprocesar cuidadosamente sus datos para asegurarse de que sean relevantes, diversos y equilibrados para la tarea y el dominio previstos. Los clientes también deben quitar o anonimizar cualquier información confidencial o personal de los datos, como nombres, direcciones o direcciones de correo electrónico, para proteger la privacidad y la seguridad de los interesados. Los clientes también deben comprobar y corregir los errores o incoherencias de los datos, como la ortografía, la gramática o el formato, para mejorar la calidad y la legibilidad de los datos.
    Específicamente para la evaluación de Azure OpenAI, la precisión de los datos de referencia proporcionados por el usuario es fundamental porque los datos de referencia inexactos conducen a resultados de evaluación inexactos y sin sentido. Garantizar la calidad y confiabilidad de estos datos es esencial para obtener evaluaciones válidas del rendimiento del modelo. Los datos de verdad de terreno inexactos pueden sesgar las métricas de evaluación, lo que da lugar a conclusiones engañosas sobre las capacidades del modelo. Por lo tanto, los usuarios deben seleccionar y comprobar cuidadosamente los datos de la verdad del terreno para asegurarse de que el proceso de evaluación refleje con precisión el verdadero rendimiento del modelo. Esto es especialmente importante al tomar decisiones sobre cómo implementar el modelo en aplicaciones reales
  • Definición de petición de evaluación: el mensaje que use en la evaluación debe coincidir con el mensaje que planea usar en producción. Estas indicaciones proporcionan las instrucciones para que siga el modelo. De forma similar al área de juegos de OpenAI, puede crear varias entradas para incluir ejemplos de pocas capturas en el mensaje. Consulte Técnicas de ingeniería de mensajes para obtener más detalles sobre algunas técnicas avanzadas en el diseño de avisos y la ingeniería de avisos.
  • Diversas métricas: use una combinación de métricas para capturar diferentes aspectos del rendimiento, como la precisión, la fluidez y la relevancia.
  • Human-in-the-loop: integre los comentarios humanos junto con la evaluación automatizada para asegurarse de que los matices subjetivas se capturan con precisión.
  • Transparencia: comunique claramente los criterios de evaluación a los usuarios, lo que les permite comprender cómo se toman las decisiones.
  • Evaluación y pruebas continuas: evalúe continuamente el rendimiento del modelo para identificar y abordar cualquier regresión o experiencia negativa del usuario.

Evaluación e integración de modelos de visión y lenguaje natural de Azure OpenAI para su uso

Los pasos para realizar una evaluación de Azure OpenAI son:

  1. Proporcionar datos para la evaluación: ya sea un archivo plano cargado en formato JSONL o datos generados en función de una serie de avisos.
  2. Especificar casos de prueba para evaluar los datos: Seleccione uno o varios casos de prueba para puntuar los datos proporcionados con calificaciones aprobatorias o reprobatorias.
  3. Revisar y filtrar resultados: Cada prueba incluye una definición de las puntuaciones aprobatorias y reprobatorias. Después de ejecutar una evaluación, los usuarios pueden revisar sus resultados fila por fila para ver los resultados de pruebas individuales o filtrar por aprobados o fallidos.

Para obtener información adicional sobre cómo evaluar e integrar estos modelos de forma responsable, consulte el documento de información general de RAI.

Obtener más información sobre la IA responsable

Más información sobre Azure OpenAI