Verwenden der Azure Speech-zu-Text-API
Der Azure Speech-Dienst unterstützt die Spracherkennung über die folgenden Features:
- Echtzeittranskription: Sofortige Transkription mit Zwischenergebnissen für Live-Audioeingaben.
- Schnelle Transkription: schnellste synchrone Ausgabe für Situationen mit vorhersehbarer Latenz.
- Batchtranskription: effiziente Verarbeitung von großen Mengen vorab aufgezeichneter Audiodaten.
- Custom Speech: Modelle mit erweiterter Genauigkeit für bestimmte Domänen und Bedingungen.
Verwenden des Azure Speech SDK
Die spezifischen Details variieren je nach verwendeter SDK (Python, C# usw.). Es gibt ein konsistentes Muster für das Verwenden der Sprache-in-Text-API:
- Verwenden Sie ein SpeechConfig-Objekt , um die informationen zu kapseln, die zum Herstellen einer Verbindung mit Ihrer Azure Speech-Ressource erforderlich sind. Insbesondere die Position und der Schlüssel.
- Verwenden Sie optional ein AudioConfig-Objekt, um die Eingabequelle für die zu transkribierenden Audioinformationen zu definieren. Standardmäßig ist dies das Standardsystemmikrofon, aber Sie können auch eine Audiodatei angeben.
- Verwenden Sie SpeechConfig und AudioConfig , um ein SpeechRecognizer-Objekt zu erstellen. Dieses Objekt ist ein Proxyclient für die Sprach-zu-Text-API .
- Verwenden Sie die Methoden des SpeechRecognizer-Objekts , um die zugrunde liegenden API-Funktionen aufzurufen. Beispielsweise verwendet die RecognizeOnceAsync() -Methode den Azure-Sprachdienst, um asynchron eine einzelne gesprochene Äußerung zu transkribieren.
- Verarbeiten Sie die Antwort vom Azure-Sprachdienst. Bei der RecognizeOnceAsync() -Methode ist das Ergebnis ein SpeechRecognitionResult-Objekt , das die folgenden Eigenschaften enthält:
- Dauer
- OffsetInTicks
- Eigenschaften
- Ursache
- Ergebnis-ID
- Text
Wenn der Vorgang erfolgreich war, weist die Reason-Eigenschaft den Enumerationswert "RecognizedSpeech" auf, und die Text-Eigenschaft enthält die Transkription. Andere mögliche Werte für Ergebnis sind NoMatch (die Audioinhalte wurden erfolgreich geparst, aber es wurde keine Sprache erkannt) oder Abgebrochen. Letzteres bedeutet, dass ein Fehler aufgetreten ist (in diesem Fall können Sie in der Sammlung Eigenschaften nach der Eigenschaft CancellationReason suchen, um festzustellen, was nicht funktioniert hat).