Reconhecimento de fala
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
O reconhecimento de fala, também chamado de conversão de fala em texto, permite que os aplicativos convertam a linguagem falada em texto escrito. A jornada da onda sonora ao texto envolve seis etapas coordenadas: captura de áudio, preparação de recursos, modelagem de padrões acústicos, aplicação de regras de linguagem, decodificação das palavras mais prováveis e refinamento da saída final.
Captura de áudio: converta áudio analógico para digital
O reconhecimento de fala começa quando um microfone converte ondas sonoras em um sinal digital. O sistema coleta amostras do áudio analógico milhares de vezes por segundo — normalmente 16.000 amostras por segundo (16 kHz) para aplicações de fala — e armazena cada medição como um valor numérico.
Observação
Por que a taxa de amostragem é importante:
- Taxas mais altas (como 44,1 kHz para música) capturam mais detalhes, mas exigem mais processamento.
- O reconhecimento de fala equilibra clareza e eficiência de 8 kHz a 16 kHz.
- O ruído de fundo, a qualidade do microfone e a distância do altifalante afetam diretamente a precisão a jusante.
Antes de passar para a próxima etapa, o sistema geralmente aplica filtros básicos para remover zumbidos, cliques ou outros ruídos de fundo que possam confundir o modelo.
Pré-processamento: extraia recursos significativos
As amostras de áudio bruto contêm demasiada informação para um reconhecimento eficiente de padrões. O pré-processamento transforma a forma de onda em uma representação compacta que destaca as características da fala enquanto descarta detalhes irrelevantes, como o volume absoluto.
Coeficientes Cepstrais de Frequência Mel (MFCCs)
MFCC é a técnica de extração de recursos mais comum no reconhecimento de fala. Ele imita como o ouvido humano percebe o som, enfatizando frequências onde a energia da fala se concentra e comprimindo faixas menos importantes.
Como funciona o MFCC:
- Divida o áudio em quadros: Divida o sinal em janelas sobrepostas de 20 a 30 milissegundos.
- Aplique a transformada de Fourier: Converta cada quadro do domínio do tempo para o domínio da frequência, revelando quais tons estão presentes.
- Mapa para a escala de Mel: Ajuste as bandas de frequência para corresponder à sensibilidade auditiva humana — distinguimos os tons baixos melhor do que os altos.
- Coeficientes de extração: Calcule um pequeno conjunto de números (geralmente 13 coeficientes) que resumem a forma espectral de cada quadro.
O resultado é uma sequência de vetores de recursos — um por quadro — que captura como o áudio soa sem armazenar todas as amostras. Estes vetores tornam-se a entrada para a modelagem acústica.
Os vetores são extraídos em coluna, com cada vetor representando os 13 valores de coeficiente de recurso MFCC para cada período de tempo:
Frame 1: [ -113.2, 45.3, 12.1, -3.4, 7.8, ... ] # 13 coefficients
Frame 2: [ -112.8, 44.7, 11.8, -3.1, 7.5, ... ]
Frame 3: [ -110.5, 43.9, 11.5, -2.9, 7.3, ... ]
Modelação acústica: Reconhecer fonemas
Os modelos acústicos aprendem a relação entre recursos de áudio e fonemas — as menores unidades de som que distinguem as palavras. O inglês usa cerca de 44 fonemas; Por exemplo, a palavra "gato" compreende três fonemas: /k/, /æ/, e /t/.
De características a fonemas
Os modelos acústicos modernos usam arquiteturas de transformadores, um tipo de rede de aprendizagem profunda que se destaca em tarefas de sequência. O transformador processa os vetores de feição MFCC e prevê qual fonema é mais provável em cada momento no tempo.
Os modelos de transformadores alcançam uma previsão eficaz dos fonemas através de:
- Mecanismo de atenção: O modelo examina os quadros circundantes para resolver a ambiguidade. Por exemplo, o fonema /t/ soa diferente no início de "top" versus no final de "bat".
- Processamento paralelo: Ao contrário dos modelos recorrentes mais antigos, os transformadores analisam vários quadros simultaneamente, melhorando a velocidade e a precisão.
- Previsões contextualizadas: A rede aprende que certas sequências de fonemas ocorrem frequentemente na fala natural.
A saída da modelagem acústica é uma distribuição de probabilidade sobre fonemas para cada quadro de áudio. Por exemplo, o quadro 42 pode mostrar 80% de confiança para /æ/, 15% para /ɛ/, e 5% para outros fonemas.
Observação
Os fonemas são específicos da língua. Um modelo treinado em fonemas ingleses não será capaz de distinguir tons de mandarim sem re-treinamento.
Modelagem de linguagem: prever sequências de palavras
As previsões de fonema por si só não garantem uma transcrição precisa. O modelo acústico pode confundir "seu" e "lá" porque compartilham fonemas idênticos. Os modelos de linguagem resolvem a ambiguidade aplicando o conhecimento de vocabulário, gramática e padrões de palavras comuns. Algumas maneiras pelas quais o modelo orienta a previsão da sequência de palavras incluem:
- Padrões estatísticos: O modelo sabe que "O tempo está bom" aparece com mais frequência nos dados de treinamento do que "O se é bom".
- Consciência do contexto: Depois de ouvir "eu preciso", a modelo espera verbos como "ir" ou "terminar", e não substantivos como "tabela".
- Adaptação do domínio: Modelos de linguagem personalizados treinados em terminologia médica ou jurídica melhoram a precisão para cenários especializados.
Decodificação: Selecione a melhor hipótese de texto
Os algoritmos de descodificação pesquisam milhões de sequências de palavras possíveis para encontrar a transcrição que melhor corresponde às previsões de modelos acústicos e de linguagem. Esta etapa equilibra dois objetivos concorrentes: manter-se fiel ao sinal de áudio enquanto produz texto legível e gramaticalmente correto.
Decodificação de pesquisa de feixe:
A técnica mais comum, a pesquisa por feixes, mantém uma lista restrita (o "feixe") de transcrições parciais com melhor pontuação à medida que processa cada quadro de áudio. A cada passo, prolonga cada hipótese com a palavra seguinte mais provável, elimina caminhos de baixa pontuação e mantém apenas os melhores candidatos.
Para um enunciado de três segundos, o decodificador pode avaliar milhares de hipóteses antes de selecionar "Por favor, envie o relatório até sexta-feira" em vez de alternativas como "Por favor, envie o relatório comprar sexta-feira".
Atenção
A descodificação é intensiva em termos computacionais. As aplicações em tempo real equilibram a precisão e a latência, limitando a largura do feixe e a profundidade da hipótese.
Pós-processamento: refinar a saída
O decodificador produz texto bruto que muitas vezes requer limpeza antes da apresentação. O pós-processamento aplica regras de formatação e correções para melhorar a legibilidade e a precisão.
Tarefas comuns de pós-processamento:
- Capitalização: Converta "Olá meu nome é sam" em "Olá meu nome é Sam".
- Restauração de pontuação: Adicione pontos, vírgulas e pontos de interrogação com base na prosódia e na gramática.
- Formatação do número: Altere "mil e vinte e três" para "1.023".
- Filtragem de palavrões: Mascarar ou remover palavras inadequadas quando exigido pela política.
- Normalização de texto inverso: Converta formas faladas como "três p m" para "3 PM".
- Pontuação de confiança: Sinalize palavras de baixa confiança para revisão humana em aplicações críticas, como transcrição médica.
O Azure Speech devolve a transcrição final juntamente com metadados como carimbos temporais ao nível da palavra e pontuações de confiança, permitindo que a sua aplicação destaque segmentos incertos ou desencadeie comportamentos de recurso.
Como o pipeline funciona em conjunto
Cada etapa baseia-se na anterior:
- A captura de áudio fornece o sinal bruto.
- O pré-processamento extrai recursos MFCC que destacam padrões de fala.
- A modelagem acústica prevê probabilidades de fonema usando redes de transformadores.
- A modelagem de linguagem aplica vocabulário e conhecimento gramatical.
- A descodificação procura a melhor sequência de palavras.
- O pós-processamento formata o texto para leitores humanos.
Ao separar as preocupações, os modernos sistemas de reconhecimento de fala alcançam alta precisão em todos os idiomas, sotaques e condições acústicas. Quando a qualidade da transcrição fica aquém, muitas vezes você pode rastrear o problema em um estágio — captura de áudio ruim, treinamento insuficiente de modelo de linguagem ou pós-processamento excessivamente agressivo — e ajustar de acordo.