Compartir a través de


Precios de Azure Content Understanding en Foundry Tools

En este artículo se explica el modelo de precios de Azure Content Understanding en Foundry Tools con ejemplos claros y desgloses de costos. Obtenga información sobre lo que se le cobra y cómo calcular los costos de la carga de trabajo.

Para obtener tarifas de precios específicas, consulte Precios de Azure Content Understanding.

Descripción de los dos tipos de cargos

Los precios de Azure Content Understanding se basan en dos categorías de uso principales:

1. Cargos de extracción de contenido

La extracción de contenido transforma la entrada no estructurada (documentos, audio, vídeo) en texto estructurado, que permite búsquedas y contenido. Esta salida incluye el reconocimiento óptico de caracteres (OCR) para documentos, voz a texto para audio/vídeo y detección de diseño. Paga por unidad de entrada procesada:

  • Documentos: Por 1.000 páginas
  • Audio y vídeo: por minuto

2. Cargos de funcionalidades generativas

Cuando se usan características con tecnología de inteligencia artificial que llaman a modelos de lenguaje grandes (LLM), se incurre en dos tipos de cargos:

  • Cargos de contextualización: prepara el contexto, genera puntuaciones de confianza, base de origen y formato de salida. Para obtener más información, consulte Tokens de contextualización.
  • Cargos de modelos generativos: costos basados en tokens de implementaciones de modelos de Microsoft Foundry (LLM para generación, incrustaciones para ejemplos de entrenamiento). Content Understanding usa la implementación del modelo Foundry que usted proporciona para todas las llamadas relacionadas con IA generativa. No verá ninguna facturación de uso de tokens de incrustación ni LLM en Content Understanding; ese uso aparece en la implementación del modelo de Foundry. Para obtener más información, consulte Cargos de modelos generativos.

Entre las características generativas se incluyen: extracción de campos, análisis de figura, segmentación, categorización, entrenamiento.

Ecuación de costo

El costo total para ejecutar un analizador de Content Understanding sigue esta fórmula:

Total Cost = Content Extraction + Contextualization Tokens + LLM Input Tokens + LLM Output Tokens + Embeddings Tokens

Si solo usa la extracción de contenido sin funcionalidades generativas, solo se le cobrará por la extracción de contenido. Cuando se usan características generativas, se aplican todos los cargos aplicables.

Cómo calcular los costos

1. Prueba con archivos representativos

Ejecute un pequeño análisis de pruebas con los archivos y el esquema reales. Compruebe el usage objeto en la respuesta de la API de Analizadores para ver el consumo real de tokens:

  "usage": {
    "documentPagesMinimal": 0, // Pages processed at the minimal level (i.e. txt, xlsx, html, and other digital file types)
    "documentPagesBasic": 0, // Pages processed at the basic level (i.e. read)
    "documentPagesStandard": 2, // Pages processed at the standard level (i.e. layout)
   
    "contextualizationToken": 2000,
    "tokens": {
      "gpt-4.1-input": 10400,
      "gpt-4.1-output": 360,
    }
  }

2. Uso de la calculadora de precios de Azure

Busque Content Understanding en la Calculadora de precios de Azure y configure las opciones:

  • Agregar "Comprensión del contenido" a la calculadora
  • Use los resultados de la prueba del paso 1 para calcular los promedios de tokens por página o por minuto.
  • Escriba los recuentos de tokens junto con la región, el tipo de archivo, el volumen esperado y la implementación del modelo.

La calculadora proporciona proyecciones de costos precisas para la carga de trabajo.

Ejemplo de precios: extracción de campos de factura

Siguiendo el enfoque de estimación, veamos manualmente un ejemplo concreto para demostrar cómo se calculan los costos. Está procesando facturas para extraer datos estructurados, como el nombre del proveedor, el número de factura, la cantidad total y las líneas de detalle.

Escenario: quiere procesar 1.000 páginas de facturas utilizando GPT-4o-mini con la vinculación a la fuente y las puntuaciones de confianza deshabilitadas.

Paso 1: Prueba con archivos representativos Después de probar los archivos representativos, encontró el siguiente uso medio de tokens por página:

  • Tokens de entrada: 1100 por página
  • Tokens de salida: 60 por página
  • Contextualización: 1000 tokens por página (tasa fija)

Para 1000 páginas, los totales son iguales:

  • Total de tokens de entrada: 1000 páginas × 1 100 = 1 100 000 tokens
  • Total de tokens de salida: 1000 páginas × 60 = 60 000 tokens
  • Total de tokens de contextualización: 1000 páginas × 1000 = 1000 000 tokens

Paso 2: Calcular los costos manualmente (en lugar de usar la calculadora de precios) Con la implementación global gpT-4o-mini con las siguientes suposiciones de precios:

Suposiciones de precios :

  • Extracción de contenido: 5,00 USD por 1000 páginas
  • Contextualización: 1,00 USD por 1M tokens
  • Tokens de entrada GPT-4o-mini: 0,40 USD por 1M tokens
  • Fichas de salida de GPT-4o-mini: 1,60 USD por 1M fichas
  • Incrustaciones: 0,02 USD por 1.000 tokens. No usa una base de conocimiento con ejemplos de entrenamiento, por lo que no se aplican cargos por inserción. Si ha agregado ejemplos etiquetados para mejorar la precisión, el sistema agregará el uso de tokens de inserción para insertar todo el texto de los documentos de entrada, así como tokens de entrada de finalización para procesar los datos de ejemplo agregados a la ventana de contexto.

Cálculo de costos:

  • Extracción de contenido: 1000 páginas × 5,00 USD por 1000 páginas = 5,000 USD
  • Contextualización: 1.000.000 tokens × 1,00 USD por 1M de tokens = 1,00 USD
  • Tokens de entrada: 100 000 tokens × 0,40 USD por 1M tokens = 0,44 USD
  • Tokens de salida: 60 000 tokens × 1,60 USD por 1M tokens = 0,10 USD
  • Representaciones vectoriales: No utilizado = 0,00 USD
Total Cost = $5.00 + $1.00 + $0.44 + $0.10 + $0.00 = $6.54 per 1000 pages

Nota:

Estos precios son solo con fines ilustrativos y no están diseñados para representar el costo real. Consulte los precios de Azure Content Understanding y los precios de Azure OpenAI para consultar las tarifas actuales

Componentes detallados de costos

Extracción de contenido

La extracción de contenido es el primer paso esencial para transformar la entrada no estructurada (ya sea un documento, audio o vídeo) en un formato estandarizado y reutilizable. Este procesamiento fundamental es necesario para todas las características generativas y se puede usar de forma independiente.

Precios de extracción de contenido por modalidad:

  • Documentos: tres medidores escalonados (mínimo, básico o estándar) en función de la complejidad de procesamiento
  • Audio: transcripción de voz a texto (medidor estándar único, precio por minuto)
  • Vídeo: Extracción de fotogramas, detección de capturas y transcripción de voz a texto (medidor estándar único, precio por minuto)
  • Imágenes: sin cargos de extracción de contenido

Medidores de extracción de contenido de documentos

En el caso de los documentos, se le cobra por el tipo de procesamiento que realiza Content Understanding:

Medidor básico: se aplica cuando Content Understanding realiza el procesamiento de OCR para extraer texto de documentos basados en imágenes (PDF escaneados, imágenes, TIFF).

Medidor estándar: se aplica cuando Content Understanding realiza un análisis de diseño, incluido el reconocimiento de tablas y la detección de elementos estructurales de documentos basados en imágenes (PDF escaneados, imágenes, TIFF).

Medidor mínimo: se aplica a documentos digitales (DOCX, XLSX, HTML, TXT) donde no se necesita ningún procesamiento de OCR o diseño. Se le cobra la tarifa mínima independientemente del analizador que use, incluso si llama a un analizador de diseño en un documento digital, solo se le cobra por el procesamiento mínimo realizado.

En la tabla siguiente se muestra qué medidor se aplica en función del tipo de archivo y el nivel de análisis:

Tipo de archivo Leer (Básico) Diseño (estándar)
Basado en imágenes (PDF, PNG, TIFF, JPG, etc.) Medidor básico Medidor estándar
Formatos digitales (DOCX, XLSX, HTML, TXT, etc.) Medidor mínimo Medidor mínimo

Sugerencia

El medidor cargado depende del procesamiento que realmente realiza Content Understanding, no del analizador que elija. Los documentos digitales siempre usan el medidor mínimo porque no requieren procesamiento de diseño o OCR.

Funcionalidades generativas

Las funcionalidades generativas de Content Understanding usan modelos de IA generativas para mejorar la calidad de la salida. En la versión más reciente de la API [2025-11-01], puede elegir un modelo generativo en función del caso de uso (por ejemplo, GPT-4o o GPT-4o-mini).

Al usar las funcionalidades generativas, Content Understanding usará la implementación de modelos de Foundry que proporcione. El uso del token para los modelos de finalización o inserción estará en esa implementación.

Tokens de contextualización

La contextualización es la capa de procesamiento de Content Understanding que prepara el contexto para los modelos generativos y procesa su salida en los resultados estructurados finales.

Qué proporciona la contextualización:

  • Normalización y formato de salida en esquemas estructurados
  • Base de origen para mostrar de dónde procede la información
  • Cálculo de puntuación de confianza para la confiabilidad de la extracción
  • Ingeniería de contexto para optimizar el uso y la precisión de LLM

Cuándo se le cobrará: siempre que use funcionalidades generativas (extracción de campos, análisis de figuras, segmentación, categorización, el entrenamiento).

Precios: tarifa fija por unidad de contenido

Los tokens de contextualización se calculan por unidad de contenido:

Unidades Tokens de contextualización Precio estándar efectivo por unidad
1 Página 1000 tokens de contextualización 1 USD por 1000 páginas
1 Imagen 1000 tokens de contextualización 1 USD por 1000 imágenes
Audio de 1 hora 100 000 tokens de contextualización 0,10 USD por hora
Vídeo de 1 hora 1000 000 tokens de contextualización 1 USD por hora

Suponiendo 1,00 USD por 1 millón de tokens de contextualización.

Tarifas de modelos generativos (LLM)

Cobros basados en tokens de los modelos Foundry que potencian la extracción y el análisis de campos, así como otras capacidades generativas.

Los tokens de entrada incluyen:

  • Texto extraído y transcripciones
  • Tokens de imagen (para el análisis visual)
  • Definiciones del esquema
  • Avisos del sistema
  • Ejemplos de entrenamiento (al usar knowledge base)

Los tokens de salida incluyen:

  • Valores de campo y datos estructurados
  • Puntuaciones de confianza y fundamentación en la fuente
  • Resultados y descripciones del análisis

Optimización de costos: elija modelos más pequeños (GPT-4o-mini) o implementaciones globales para ahorrar considerablemente.

Cargos de inserción

Cargos basados en tokens para insertar modelos usados al entrenar analizadores personalizados con ejemplos etiquetados para mejorar la precisión.

  • Cuando se incurre en un coste: solo al utilizar la funcionalidad de entrenamiento con datos etiquetados
  • Modelos: text-embedding-3-large, text-embedding-3-small o text-embedding-ada-002
  • Uso típico: todo el documento está incrustado. El uso puede variar en función de la densidad del texto, pero aproximadamente 1500 tokens por página son una buena estimación inicial.

Detalles de funcionalidades generativas

Hay varias características generativas cada una de las cuales tiene implicaciones de costos ligeramente diferentes.

Extracción de campos

Genera pares clave-valor estructurados en función de la definición del esquema. Algunos ejemplos incluyen el remitente o receptor de facturas, los elementos de línea, o los elementos de anuncios de vídeo como el eslogan y la apariencia del producto.

Impacto en el costo: los cargos se escalan con la complejidad del esquema y el tamaño del contenido.

Análisis de figuras

Crea texto descriptivo para imágenes, gráficos y diagramas para que el contenido visual sea buscable en flujos de trabajo RAG.

Impacto en el costo: tokens LLM por imagen analizada - ambos tokens de entrada para la interpretación de imágenes y tokens de salida para descripciones. El uso aumenta con el tamaño y el número de imágenes contenidas en el documento.

Segmentación

Divide documentos o vídeos en secciones lógicas para el procesamiento dirigido y mejora la eficacia.

Impacto en el costo: costos de token de salida para cada segmento creado. Opcionalmente, puede encadenar analizadores para realizar análisis adicionales en cada segmento. Al encadenar, se produce más extracción de contenido y uso generativo equivalente a ejecutar los analizadores encadenados de forma independiente.

Categorización

Asigna etiquetas a documentos o segmentos para la clasificación y el enrutamiento inteligente a analizadores especializados.

Impacto en los costos: LLM y costos de contextualización para la clasificación. El enrutamiento a otros analizadores conlleva sus correspondientes cargos.

Adiestramiento

Compila analizadores personalizados mediante ejemplos etiquetados para mejoras de precisión específicas del dominio.

Impacto en el costo: Uso de tokens al insertar datos etiquetados, además de tokens LLM adicionales durante el análisis cuando se recuperan y proporcionan ejemplos de entrenamiento al modelo.

Base de conocimiento

Mejora los analizadores personalizados con ejemplos de entrenamiento etiquetados para mejoras de precisión específicas del dominio.

Impacto en el costo: el modelo de incrustaciones se usa para indexar y recuperar los ejemplos. Además, los tokens de LLM se usan durante el análisis cuando se recuperan ejemplos de entrenamiento que se proporcionan al modelo.

Preguntas más frecuentes

¿Cuándo se me cobra por el uso de LLM?

Solo se le cobrarán los tokens de LLM cuando proporcione al analizador una implementación de Foundry y use una funcionalidad generativa en Content Understanding. Los analizadores que solo realizan la extracción de contenido (por ejemplo prebuilt-read, , prebuilt-layouto analizadores personalizados sin ninguna funcionalidad generativa) no incurren en cargos de LLM.

¿Se me cobra dos veces por el uso del modelo foundry?

No. Content Understanding usa las implementaciones de LLM vinculadas para todas las llamadas a LLM y las embeddings. Se le cobra por esas implementaciones. Usted paga por Content Understanding para la extracción de contenido y la contextualización, y por Foundry para los tokens de modelo generativos (tokens de entrada/salida y embeddings).

¿Cuánto puedo ahorrar con modelos más pequeños?

Elegir GPT-4o-mini en lugar de GPT-4o puede reducir los costos de LLM hasta 80%. Las implementaciones globales proporcionan otro ahorro de 9%. Los cargos de extracción de contenido y contextualización siguen siendo los mismos independientemente de la elección del modelo.

¿Qué aumenta el uso de tokens?

Varias características multiplican el consumo de tokens:

  • Bases de origen + puntuaciones de confianza: ~2x uso de tokens
  • Modo de extracción: uso de tokens ~1,5x
  • Ejemplos de entrenamiento: uso de tokens aproximadamente el doble
  • Segmentación/categorización: ~2x uso de tokens

¿Se me cobra si se produce un error en mi solicitud?

Content Understanding no cobra por la extracción de contenido ni la contextualización cuando se produce un error en una solicitud (por ejemplo, un error 400). Sin embargo, si una llamada a un modelo de finalización de Foundry se ha realizado correctamente como parte de esa solicitud antes de que se produjera el error, se le cobrará por el uso del modelo Foundry en función de las políticas de facturación de Foundry.

Sugerencias para la optimización de costos

  • Comience con mini modelos : GPT-4o-mini ofrece ahorros sustanciales para la mayoría de las tareas de extracción
  • Utilizar implementaciones globales cuando lo permita la residencia de datos y el cumplimiento normativo
  • Habilitar características avanzadas de manera selectiva - Use solo las puntuaciones de confianza y fundamentos de origen cuando sea necesario.
  • Prueba de los archivos representativos antes del escalado para comprender el consumo real de tokens
  • Supervisión del uso periódicamente a través de Azure Portal para identificar las oportunidades de optimización

Más ejemplos de precios

Estos son ejemplos detallados que muestran cómo funcionan los precios en distintos escenarios:

Ejemplo 1: Procesamiento de documentos para flujos de trabajo RAG

Escenario: debe extraer contenido de documentos para una solución de Generación Aumentada por Recuperación (RAG). Se usa prebuilt-documentSearch para extraer texto, diseño y descripciones de figura.

Entrada:

  • 1000 páginas
  • Modelo: implementación global de GPT-4.1
  • Región: Este de EE. UU.

Desglose de precios:

  1. Extracción de contenido: 1000 páginas

    • Costo: (1,000 / 1,000) × $5.00 = $5.00
  2. Análisis de figura:

    Suponiendo dos cifras por página. Cuesta aproximadamente 1000 tokens de entrada y 200 tokens de salida por figura.

    • Tokens de entrada: 2000 cifras × 1000 tokens/imagen = 2000 000 tokens
    • Costo: (2000 000 / 1 000 000) × 2,000 USD = 4,00 USD
    • Tokens de salida: 2000 páginas × 200 tokens/página = 400 000 tokens
    • Costo: (400 000 / 1 000 000) × $8,00 = 3,2 USD
  3. Contextualización: 1000 páginas × 1000 tokens/página = 1000 000 tokens

    • Costo: (1.000.000 / 1.000.000) × $1,00 = $1,00

Costo estimado total: 5,00 USD + 4 USD + 3,2 + 1,00 USD = 13,20 USD

Nota:

Estos precios son solo con fines ilustrativos y no están diseñados para representar el costo real. Consulte los precios de Azure Content Understanding y los precios de Azure OpenAI para consultar las tarifas actuales

Ejemplo 2: Procesamiento de facturas con extracción de campos

Escenario: está automatizando el procesamiento de facturas mediante prebuilt-invoice para extraer datos estructurados (número de factura, fecha, proveedor, total, elementos de línea).

Entrada:

  • 1000 páginas
  • Modelo: implementación global GPT-4.1-mini (optimizada para costos)
  • Características: modo extractivo + estimación de origen + puntuaciones de confianza
  • Región: Este de EE. UU.

Desglose de precios:

  1. Extracción de contenido: 1000 páginas

    • Costo: (1,000 / 1,000) × $5.00 = $5.00
  2. Extracción de campos: con estimación de origen + confianza habilitada, el uso del token será ~2 veces más por página:

    • Tokens de entrada base: 1000 páginas × 5 200 tokens/página = 5 200 000 tokens
    • Costo: (5.200.000 / 1.000.000) × 0,40 = $2,08 USD
    • Tokens de salida base: 1000 páginas × 180 tokens/página = 180 000 tokens
    • Costo: (180 000 / 1 000 000) × 1,60 USD = 0,29 USD
  3. Contextualización: 1000 páginas × 1000 tokens/página = 1000 000 tokens

    • Costo: (1.000.000 / 1.000.000) × $1,00 = $1,00

Costo estimado total: 5,00 USD + 2,08 USD + 0,29 USD + 1,00 $ = 8,37 USD

Nota:

El uso de una implementación global de GPT-4.1 estándar en lugar de mini aumentaría el costo de extracción de campos aproximadamente 5 veces, lo que lleva el total a aproximadamente 33USD.

Nota:

Estos precios son solo con fines ilustrativos y no están diseñados para representar el costo real. Consulte los precios de Azure Content Understanding y los precios de Azure OpenAI para consultar las tarifas actuales

Ejemplo 3: Análisis del contenido de vídeo con extracción de campos de nivel de segmento

Escenario: está extrayendo una representación estructurada del contenido de vídeo para una aplicación RAG. Para extraer datos estructurados por segmento de vídeo, puede usar .prebuilt-videoSearch Los segmentos son clips cortos de 15 a 30 segundos en promedio, lo que da lugar a numerosos segmentos de salida con un único campo de resumen por segmento.

Entrada:

  • 60 minutos (1 hora) del vídeo
  • Modelo: implementación global de GPT-4.1
  • Región: Este de EE. UU.

Suposiciones:

  • Fichas de entrada: 7.500 fichas por minuto (en función de fotogramas muestreados, transcripción, indicadores de esquema y metaprompts)
  • Tokens de salida: 900 tokens por minuto (suponiendo 10-20 campos estructurados cortos por segmento con segmentación automática)
  • Contextualización: 1000 000 tokens por hora de vídeo

Desglose de precios:

  1. Extracción de contenido: 60 minutos

    • Costo: 60 minutos × $1/hora = 1,00 USD
  2. Extracción de campos:

    • Tokens de entrada: 60 minutos × 7500 tokens/minuto = 450 000 tokens
    • Costo: (450 000 / 1 000 000) × 2,00 USD = 0,90 USD
    • Tokens de salida: 60 minutos × 900 tokens/minuto = 54 000 tokens
    • Costo: (54 000 / 1000 000) × $8,00 = 0,43 USD
  3. Contextualización: 1000 000 tokens por hora

    • Costo: (1.000.000 / 1.000.000) × $1,00 = $1,00

Costo estimado total: 1,00 USD + 0,90 USD + 0,43 USD + 1,00 $ = 3,33 USD

Nota:

El costo real varía en función de los detalles de la entrada y salida. Este modelo de facturación transparente basado en el uso garantiza que solo paga por lo que usa.

Nota:

Estos precios son solo con fines ilustrativos y no están diseñados para representar el costo real. Consulte los precios de Azure Content Understanding y los precios de Azure OpenAI para consultar las tarifas actuales

Ejemplo 4: Procesamiento de grabaciones del centro de llamadas de audio

Escenario: estás analizando las grabaciones del centro de llamadas mediante prebuilt-callCenter para generar las transcripciones, diarización de hablantes, análisis de sentimiento y resúmenes.

Entrada:

  • 60 minutos de audio
  • Modelo: implementación global de GPT-4.1-mini
  • Región: Este de EE. UU.

Desglose de precios:

  1. Extracción de contenido: 60 minutos

    • Costo: 60 minutos × 0,36 USD/minuto = 0,36 USD
  2. Extracción de campos:

    • Tokens de entrada: 60 minutos × 604 tokens/minuto = 36 240 tokens
    • Costo: (36,240 / 1,000,000) × $0,40 = 0,01 USD
    • Tokens de salida: 60 minutos × 19 tokens/minuto = 1140 tokens
    • Costo: (1,140 / 1,000,000) × $1,60 = 0,00 USD
  3. Contextualización: 60 minutos × 1667 tokens/minuto = 100 020 tokens

    • Costo: (100 020 / 1 000 000) × 1,00 USD = 0,10 USD

Costo estimado total: 0,36 USD + 0,01 USD + 0,00 + 0,10 USD = 0,47 USD

Nota:

Estos precios son solo con fines ilustrativos y no están diseñados para representar el costo real. Consulte los precios de Azure Content Understanding y los precios de Azure OpenAI para consultar las tarifas actuales

Ejemplo 5: Procesamiento de imágenes con subtítulos

Escenario: Usted está generando descripciones descriptivas para imágenes de producto mediante prebuilt-imageSearch.

Entrada:

  • 1000 imágenes
  • Modelo: implementación global de GPT-4.1
  • Región: Este de EE. UU.

Desglose de precios:

  1. Extracción de contenido: sin cargo por imágenes

    • Costo: 0,00 USD
  2. Extracción de campos:

    • Tokens de entrada: 1.000 imágenes × 1.043 tokens/imagen = 1.043.000 tokens
    • Costo: (1043 000 / 1000 000) × 2,000 USD = 2,09 USD
    • Tokens de salida: 1000 imágenes × 170 tokens/imagen = 170 000 tokens
    • Costo: (170 000 / 1000 000) × 8,000 USD = 1,36 USD
  3. Contextualización: 1.000 imágenes × 1.000 tokens/imagen = 1.000.000 tokens

    • Costo: (1.000.000 / 1.000.000) × $1,00 = $1,00

Costo estimado total: 0,00 USD + 2,09 USD + 1,36 USD + 1,00 $ = 4,45 USD

Nota:

Estos precios son solo con fines ilustrativos y no están diseñados para representar el costo real. Consulte los precios de Azure Content Understanding y los precios de Azure OpenAI para consultar las tarifas actuales

Pasos siguientes