Reconhecimento de fala

Concluído

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

O reconhecimento de fala, também chamado de conversão de fala em texto, permite que os aplicativos convertam a linguagem falada em texto escrito. A jornada da onda sonora ao texto envolve seis etapas coordenadas: captura de áudio, preparação de recursos, modelagem de padrões acústicos, aplicação de regras de linguagem, decodificação das palavras mais prováveis e refinamento da saída final.

Captura de áudio: converta áudio analógico para digital

O reconhecimento de fala começa quando um microfone converte ondas sonoras em um sinal digital. O sistema coleta amostras do áudio analógico milhares de vezes por segundo — normalmente 16.000 amostras por segundo (16 kHz) para aplicações de fala — e armazena cada medição como um valor numérico.

Diagrama de uma forma de onda de áudio.

Observação

Por que a taxa de amostragem é importante:

  • Taxas mais altas (como 44,1 kHz para música) capturam mais detalhes, mas exigem mais processamento.
  • O reconhecimento de fala equilibra clareza e eficiência de 8 kHz a 16 kHz.
  • O ruído de fundo, a qualidade do microfone e a distância do altifalante afetam diretamente a precisão a jusante.

Antes de passar para a próxima etapa, o sistema geralmente aplica filtros básicos para remover zumbidos, cliques ou outros ruídos de fundo que possam confundir o modelo.

Pré-processamento: extraia recursos significativos

As amostras de áudio bruto contêm demasiada informação para um reconhecimento eficiente de padrões. O pré-processamento transforma a forma de onda em uma representação compacta que destaca as características da fala enquanto descarta detalhes irrelevantes, como o volume absoluto.

Coeficientes Cepstrais de Frequência Mel (MFCCs)

MFCC é a técnica de extração de recursos mais comum no reconhecimento de fala. Ele imita como o ouvido humano percebe o som, enfatizando frequências onde a energia da fala se concentra e comprimindo faixas menos importantes.

Como funciona o MFCC:

  1. Divida o áudio em quadros: Divida o sinal em janelas sobrepostas de 20 a 30 milissegundos.
  2. Aplique a transformada de Fourier: Converta cada quadro do domínio do tempo para o domínio da frequência, revelando quais tons estão presentes.
  3. Mapa para a escala de Mel: Ajuste as bandas de frequência para corresponder à sensibilidade auditiva humana — distinguimos os tons baixos melhor do que os altos.
  4. Coeficientes de extração: Calcule um pequeno conjunto de números (geralmente 13 coeficientes) que resumem a forma espectral de cada quadro.

Diagrama de um mapa de recursos MFCC.

O resultado é uma sequência de vetores de recursos — um por quadro — que captura como o áudio soa sem armazenar todas as amostras. Estes vetores tornam-se a entrada para a modelagem acústica.

Os vetores são extraídos em coluna, com cada vetor representando os 13 valores de coeficiente de recurso MFCC para cada período de tempo:

Frame 1: [ -113.2,  45.3,  12.1,  -3.4,  7.8,  ... ]  # 13 coefficients
Frame 2: [ -112.8,  44.7,  11.8,  -3.1,  7.5,  ... ]
Frame 3: [ -110.5,  43.9,  11.5,  -2.9,  7.3,  ... ]

Modelação acústica: Reconhecer fonemas

Os modelos acústicos aprendem a relação entre recursos de áudio e fonemas — as menores unidades de som que distinguem as palavras. O inglês usa cerca de 44 fonemas; Por exemplo, a palavra "gato" compreende três fonemas: /k/, /æ/, e /t/.

De características a fonemas

Os modelos acústicos modernos usam arquiteturas de transformadores, um tipo de rede de aprendizagem profunda que se destaca em tarefas de sequência. O transformador processa os vetores de feição MFCC e prevê qual fonema é mais provável em cada momento no tempo.

Os modelos de transformadores alcançam uma previsão eficaz dos fonemas através de:

  • Mecanismo de atenção: O modelo examina os quadros circundantes para resolver a ambiguidade. Por exemplo, o fonema /t/ soa diferente no início de "top" versus no final de "bat".
  • Processamento paralelo: Ao contrário dos modelos recorrentes mais antigos, os transformadores analisam vários quadros simultaneamente, melhorando a velocidade e a precisão.
  • Previsões contextualizadas: A rede aprende que certas sequências de fonemas ocorrem frequentemente na fala natural.

A saída da modelagem acústica é uma distribuição de probabilidade sobre fonemas para cada quadro de áudio. Por exemplo, o quadro 42 pode mostrar 80% de confiança para /æ/, 15% para /ɛ/, e 5% para outros fonemas.

Observação

Os fonemas são específicos da língua. Um modelo treinado em fonemas ingleses não será capaz de distinguir tons de mandarim sem re-treinamento.

Modelagem de linguagem: prever sequências de palavras

As previsões de fonema por si só não garantem uma transcrição precisa. O modelo acústico pode confundir "seu" e "lá" porque compartilham fonemas idênticos. Os modelos de linguagem resolvem a ambiguidade aplicando o conhecimento de vocabulário, gramática e padrões de palavras comuns. Algumas maneiras pelas quais o modelo orienta a previsão da sequência de palavras incluem:

  • Padrões estatísticos: O modelo sabe que "O tempo está bom" aparece com mais frequência nos dados de treinamento do que "O se é bom".
  • Consciência do contexto: Depois de ouvir "eu preciso", a modelo espera verbos como "ir" ou "terminar", e não substantivos como "tabela".
  • Adaptação do domínio: Modelos de linguagem personalizados treinados em terminologia médica ou jurídica melhoram a precisão para cenários especializados.

Decodificação: Selecione a melhor hipótese de texto

Os algoritmos de descodificação pesquisam milhões de sequências de palavras possíveis para encontrar a transcrição que melhor corresponde às previsões de modelos acústicos e de linguagem. Esta etapa equilibra dois objetivos concorrentes: manter-se fiel ao sinal de áudio enquanto produz texto legível e gramaticalmente correto.

Decodificação de pesquisa de feixe:

A técnica mais comum, a pesquisa por feixes, mantém uma lista restrita (o "feixe") de transcrições parciais com melhor pontuação à medida que processa cada quadro de áudio. A cada passo, prolonga cada hipótese com a palavra seguinte mais provável, elimina caminhos de baixa pontuação e mantém apenas os melhores candidatos.

Para um enunciado de três segundos, o decodificador pode avaliar milhares de hipóteses antes de selecionar "Por favor, envie o relatório até sexta-feira" em vez de alternativas como "Por favor, envie o relatório comprar sexta-feira".

Atenção

A descodificação é intensiva em termos computacionais. As aplicações em tempo real equilibram a precisão e a latência, limitando a largura do feixe e a profundidade da hipótese.

Pós-processamento: refinar a saída

O decodificador produz texto bruto que muitas vezes requer limpeza antes da apresentação. O pós-processamento aplica regras de formatação e correções para melhorar a legibilidade e a precisão.

Tarefas comuns de pós-processamento:

  • Capitalização: Converta "Olá meu nome é sam" em "Olá meu nome é Sam".
  • Restauração de pontuação: Adicione pontos, vírgulas e pontos de interrogação com base na prosódia e na gramática.
  • Formatação do número: Altere "mil e vinte e três" para "1.023".
  • Filtragem de palavrões: Mascarar ou remover palavras inadequadas quando exigido pela política.
  • Normalização de texto inverso: Converta formas faladas como "três p m" para "3 PM".
  • Pontuação de confiança: Sinalize palavras de baixa confiança para revisão humana em aplicações críticas, como transcrição médica.

O Azure Speech devolve a transcrição final juntamente com metadados como carimbos temporais ao nível da palavra e pontuações de confiança, permitindo que a sua aplicação destaque segmentos incertos ou desencadeie comportamentos de recurso.

Como o pipeline funciona em conjunto

Cada etapa baseia-se na anterior:

  1. A captura de áudio fornece o sinal bruto.
  2. O pré-processamento extrai recursos MFCC que destacam padrões de fala.
  3. A modelagem acústica prevê probabilidades de fonema usando redes de transformadores.
  4. A modelagem de linguagem aplica vocabulário e conhecimento gramatical.
  5. A descodificação procura a melhor sequência de palavras.
  6. O pós-processamento formata o texto para leitores humanos.

Ao separar as preocupações, os modernos sistemas de reconhecimento de fala alcançam alta precisão em todos os idiomas, sotaques e condições acústicas. Quando a qualidade da transcrição fica aquém, muitas vezes você pode rastrear o problema em um estágio — captura de áudio ruim, treinamento insuficiente de modelo de linguagem ou pós-processamento excessivamente agressivo — e ajustar de acordo.