Reconocimiento de voz

Completado

Nota:

Consulte la pestaña Texto e imágenes para obtener más detalles.

El reconocimiento de voz, también denominado voz a texto, permite a las aplicaciones convertir el idioma hablado en texto escrito. El recorrido desde la onda de sonido al texto implica seis fases coordinadas: capturar audio, preparar características, modelar patrones acústicos, aplicar reglas de lenguaje, descodificar las palabras más probables y refinar la salida final.

Captura de audio: convertir audio analógico en digital

El reconocimiento de voz comienza cuando un micrófono convierte las ondas de sonido en una señal digital. El sistema muestra el audio analógico miles de veces por segundo (normalmente 16 000 muestras por segundo (16 kHz) para aplicaciones de voz y almacena cada medida como un valor numérico.

Diagrama de una forma de onda de audio.

Nota:

Por qué importa la frecuencia de muestreo:

  • Las tasas más altas (como 44,1 kHz para música) capturan más detalle, pero requieren más procesamiento.
  • El reconocimiento de voz equilibra la claridad y eficacia a 8 kHz a 16 kHz.
  • El ruido de fondo, la calidad del micrófono y la distancia desde el locutor afectan directamente a la precisión del procesamiento posterior.

Antes de pasar a la siguiente fase, el sistema suele aplicar filtros básicos para quitar zumbidos, chasquidos u otro ruido de fondo que podría confundir al modelo.

Preprocesamiento: Extracción de características significativas

Las muestras de audio sin procesar contienen demasiada información para un reconocimiento de patrones eficaz. El preprocesamiento transforma la forma de onda en una representación compacta que resalta las características de voz mientras descarta detalles irrelevantes como el volumen absoluto.

Coeficientes Cepstrales de Frecuencia Mel (MFCC)

MFCC es la técnica de extracción de características más común en el reconocimiento de voz. Imita el modo en que el oído humano percibe el sonido haciendo hincapié en las frecuencias en las que la energía del habla se concentra y comprime rangos menos importantes.

Funcionamiento de MFCC:

  1. Dividir audio en fotogramas: Divida la señal en ventanas superpuestas de 20 a 30 milisegundos.
  2. Aplicar transformación de Fourier: convierta cada marco del dominio de tiempo a dominio de frecuencia para revelar qué tonos están presentes.
  3. Asignar a la escala de Mel: ajustar los intervalos de frecuencia para adaptarlos a la sensibilidad del oído humano, ya que distinguimos mejor los tonos bajos que los altos.
  4. Extraer coeficientes: Calcule un pequeño conjunto de números (a menudo 13 coeficientes) que resuma la forma espectral de cada fotograma.

Diagrama de un mapa de características MFCC.

El resultado es una secuencia de vectores de características(uno por fotograma) que captura el sonido del audio sin almacenar cada muestra. Estos vectores se convierten en la entrada para el modelado acústico.

Los vectores se extraen en forma de columna, con cada vector que representa los 13 valores de coeficiente de características MFCC para cada período de tiempo:

Frame 1: [ -113.2,  45.3,  12.1,  -3.4,  7.8,  ... ]  # 13 coefficients
Frame 2: [ -112.8,  44.7,  11.8,  -3.1,  7.5,  ... ]
Frame 3: [ -110.5,  43.9,  11.5,  -2.9,  7.3,  ... ]

Modelado acústico: Reconocimiento de phonemes

Los modelos acústicos aprenden la relación entre las características de audio y los phonemes, las unidades más pequeñas de sonido que distinguen las palabras. El inglés usa aproximadamente 44 phonemes; por ejemplo, la palabra "cat" consta de tres phonemes: /k/, /æ/, y /t/.

Desde características a phonemes

Los modelos acústicos modernos usan arquitecturas de transformador, un tipo de red de aprendizaje profundo que destaca en las tareas de secuencia. El transformador procesa los vectores de características MFCC y predice qué fonema es más probable en cada momento.

Los modelos transformadores logran una predicción eficaz de fonemas a través de:

  • Mecanismo de atención: El modelo examina los marcos circundantes para resolver la ambigüedad. Por ejemplo, el fonema /t/ suena diferente al principio de "top" en comparación con el final de "bat".
  • Procesamiento paralelo: A diferencia de los modelos recurrentes más antiguos, los transformadores analizan varios fotogramas simultáneamente, mejorando la velocidad y la precisión.
  • Predicciones contextualizadas: La red aprende que ciertas secuencias fonéticas se producen con frecuencia en voz natural.

La salida del modelado acústico es una distribución de probabilidad sobre fonemas para cada cuadro de audio. Por ejemplo, el fotograma 42 podría mostrar 80% confianza para /æ/, 15% para /ɛ/, y 5% para otros phonemes.

Nota:

Los phonemes son específicos del idioma. Un modelo entrenado en fonemas en inglés no puede reconocer los tonos del mandarín sin reentrenar.

Modelado de lenguaje: Predicción de secuencias de palabras

Las predicciones de Phoneme por sí solas no garantizan una transcripción precisa. El modelo acústico podría confundir "haber" y "a ver" porque comparten fonemas idénticos. Los modelos de lenguaje resuelven la ambigüedad aplicando conocimientos de vocabulario, gramática y patrones de palabras comunes. Algunas maneras en las que el modelo guía la predicción de secuencia de palabras incluyen:

  • Patrones estadísticos: el modelo sabe que "El tiempo es agradable" aparece con más frecuencia en los datos de entrenamiento que "El tempo es agradable".
  • Reconocimiento del contexto: después de escuchar "Necesito que", el modelo espera verbos como "ir" o "terminar", no sustantivos como "mesa".
  • Adaptación del dominio: Los modelos de lenguaje personalizados entrenados en terminología médica o legal mejoran la precisión de los escenarios especializados.

Descodificación: selección de la mejor hipótesis de texto

Los algoritmos de descodificación buscan millones de secuencias de palabras posibles para encontrar la transcripción que mejor coincida con las predicciones del modelo acústico y del lenguaje. Esta fase equilibra dos objetivos competitivos: mantenerse fiel a la señal de audio mientras se produce texto legible y gramaticalmente correcto.

Descodificación de búsqueda de haz:

La técnica más común, la búsqueda por haz, mantiene una lista corta (el "haz") de transcripciones parciales con las puntuaciones más altas a medida que procesa cada trama de audio. En cada paso, amplía cada hipótesis con la siguiente palabra más probable, elimina las rutas de acceso de baja puntuación y mantiene solo los mejores candidatos.

Para una expresión de tres segundos, el descodificador podría evaluar miles de hipótesis antes de seleccionar "Envíe el informe para el viernes" sobre las alternativas como "Envíe el informe para el ciernes".

Precaución

La descodificación es computacionalmente intensiva. Las aplicaciones en tiempo real equilibran la precisión y la latencia limitando el ancho del haz y la profundidad de hipótesis.

Posprocesamiento: Refinar la salida

El descodificador genera texto sin formato que a menudo requiere limpieza antes de la presentación. El procesamiento posterior aplica reglas de formato y correcciones para mejorar la legibilidad y la precisión.

Tareas comunes posteriores al procesamiento:

  • Capitalización: convierta "hola me llamo sam" a "Hola me llamo Sam".
  • Restauración de puntuación: Añadir puntos, comas y signos de interrogación basándose en prosodia y gramática.
  • Formato de número: Cambie "mil veintitrés" a "1.023".
  • Filtrado de palabras soeces: enmascare o quite palabras inapropiadas cuando lo requiera la directiva.
  • Normalización inversa del texto: Convierta formas habladas como "tres p m" a "3 P. M."
  • Puntuación de confianza: Marcar palabras de baja confianza para la revisión humana en aplicaciones críticas, como la transcripción médica.

Azure Speech devuelve la transcripción final junto con metadatos como marcas de tiempo a nivel de palabra y puntuaciones de confianza, lo que permite que tu aplicación resalte segmentos inciertos o desencadene comportamientos alternativos.

Funcionamiento conjunto de la canalización

Cada fase se basa en la anterior:

  1. La captura de audio proporciona la señal sin procesar.
  2. El procesamiento previo extrae características MFCC que resaltan los patrones de voz.
  3. El modelado acústico predice probabilidades fonéticas mediante redes transformadoras.
  4. El modelado de lenguaje aplica el vocabulario y el conocimiento gramatical.
  5. La descodificación busca la mejor secuencia de palabras.
  6. El procesamiento posterior da formato al texto para los lectores humanos.

Al separar las preocupaciones, los sistemas modernos de reconocimiento de voz logran una alta precisión entre idiomas, acentos y condiciones acústicas. Cuando la calidad de la transcripción no alcanza el nivel esperado, suele deberse a una de las siguientes etapas (la captura de audio deficiente, el insuficiente entrenamiento del modelo de lenguaje o el procesamiento posterior demasiado agresivo) y ajustarlo en consecuencia.