Auswählen einer Azure KI-Spracherkennungs- und -generierungstechnologie

Azure AI-Dienste unterstützen Workload-Designer und -Entwickler bei der Erstellung intelligenter, hochmoderner, marktreifer und verantwortungsbewusster Anwendungen mit sofort einsatzbereiten, vorgefertigten und anpassbaren APIs und Modellen.

In diesem Artikel werden KI-Dienste behandelt, die Spracherkennungs- und -generierungsfunktionen bereitstellen, z. B. Sprache-zu-Text- und Text-zu-Sprache-Konvertierungen, Audioübersetzung und Sprechererkennung. Dazu gehört auch eine Leseförderung für Menschen mit Lernunterschieden.

Hinweis

Um Einblicke in Begriffe oder Ausdrücke zu erhalten oder detaillierte kontextbezogene Analysen gesprochener oder geschriebener Sprache durchzuführen, siehe Auswahl einer Azure AI-Zielsprachenverarbeitungstechnologie.

Dienste

Die folgenden KI-Dienste können Spracherkennungs- und Generierungsfunktionen für Ihre Workload bereitstellen.

Microsoft Azure AI Speech bietet die Verarbeitung natürlicher Sprache für die Textanalyse.
- Gebrauchen Sprache, wenn Sie gesprochene Sprache transkribieren oder übersetzen und Sprecher in einem Gespräch identifizieren müssen. Sie können Speech auch als kostengünstigere Alternative für eine natürlich klingende Spracherzeugung im Vergleich zum höherwertigen Whisper-System in den OpenAI-Modellen verwenden.
- Nicht verwenden Sprache für Chat, Inhaltszusammenfassung, Moderation oder Anleitung von Benutzern durch Skripte. Verwenden Sie stattdessen andere Modelle für diese Aktivitäten.
Immersiver Reader ist ein Tool, das bewährte Techniken implementiert, um das Leseverständnis für angehende Leser, Sprachlernende und Menschen mit Lernschwierigkeiten zu verbessern.
- Verwenden Immersive Reader, um ein verbessertes Leseerlebnis zu bieten, das für Sprachlernende und Menschen mit Lernunterschieden optimiert ist.
- Nicht verwenden Plastischer Reader für herkömmliche Text-to-Speech-Anwendungsfälle.

Rede

Speech bietet Spracherkennungs- und Text-zu-Sprache-Funktionen mit einer Speech-Ressource. Sie können Sprache-zu-Text mit hoher Genauigkeit transkribieren, natürlich klingende Text-to-Speech-Stimmen erzeugen, gesprochenes Audio übersetzen und die Sprechererkennung während Gesprächen verwenden. Erstellen Sie benutzerdefinierte Stimmen, fügen Sie Ihrem Basisvokabular bestimmte Wörter hinzu, oder erstellen Sie eigene Modelle. Führen Sie Speech überall aus, ob in der Cloud oder am Edge in Containern.

Die Spracherkennung ist für mehrere Sprachen und Regionen verfügbar.

Fähigkeiten

Die folgende Tabelle enthält eine Liste der in Speech verfügbaren Funktionen.

Funktion	Beschreibung
Batch-Transkription	Transkribiert eine große Menge an Audiodaten im Speicher. Sowohl die Spracherkennungs-REST-API als auch die Speech-CLI unterstützen die Batchtranskription.
Intent-Erkennung	Eine Absicht ist etwas, das der Benutzer ausführen möchte, z. B. einen Flug buchen, das Wetter überprüfen oder einen Anruf tätigen. Mit der Absichtserkennung können Ihre Anwendungen, Tools und Geräte basierend auf Optionen bestimmen, was der Benutzer initiieren oder tun möchte. Sie definieren die Benutzerabsicht in der Absichtserkennung oder im Conversational Language Understanding-Modell.
Aussprachebewertung	Bewertung der Aussprache von Sprache und Rückmeldung an die Sprecher über die Genauigkeit und Geläufigkeit von gesprochenem Audio.
Lautsprechererkennung	Mithilfe der Sprechererkennung kann festgestellt werden, wer in einem Audioclip spricht. Der Dienst verifiziert und identifiziert Sprecher anhand ihrer einzigartigen Stimmeigenschaften mithilfe von Stimmbiometrie.
Sprach-zu-Text	Konvertiert Audio-Streams in Echtzeit oder in Stapelverarbeitung in Text.
Text-zu-Sprache-Umwandlung	Ermöglicht es Ihren Anwendungen, Tools oder Geräten, Text in menschenähnliche synthetisierte Sprache umzuwandeln.
Sprachübersetzung	Bietet mehrsprachige Sprach-zu-Sprache- und Sprache-zu-Text-Übersetzung von Audiostreams.
Videoübersetzung	Übersetzt und generiert Videos automatisch in mehreren Sprachen.

Anwendungsfälle

In der folgenden Tabelle werden einige der Möglichkeiten beschrieben, wie Sie die Spracherkennung verwenden können.

Anwendungsfall	Fähigkeit zur Verwendung	Beschreibung
Erstellen von Audioinhalten	Spracherkennung	Gestalten Sie Interaktionen mit Chatbots und Sprachassistenten natürlicher und ansprechender, indem Sie neuronale Stimmen verwenden. Wandeln Sie digitale Texte wie E-Books in Hörbücher um und verbessern Sie Navigationssysteme im Auto.
Anrufcentertranskription	Spracherkennung	Transkribieren Sie Anrufe in Echtzeit oder verarbeiten Sie eine Reihe von Anrufen, schwärzen Sie personenbezogene Daten und extrahieren Sie Erkenntnisse wie die Stimmung, um Sie bei Ihrem Callcenter-Anwendungsfall zu unterstützen.
Untertitelung	Spracherkennung	Synchronisieren Sie Untertitel mit Ihrem Eingangston, wenden Sie Profanitätsfilter an, erhalten Sie Teilergebnisse, wenden Sie Anpassungen an und identifizieren Sie gesprochene Sprachen für mehrsprachige Szenarien.
Sprachenlernen	Spracherkennung	Geben Sie Sprachschülern Feedback zur Aussprache, unterstützen Sie die Echtzeit-Transkription von Fernlerngesprächen und lesen Sie Lehrmaterial mit neuronalen Stimmen vor.
Sprachassistenten	Spracherkennung	Erstellen Sie natürliche, menschenähnliche Konversationsschnittstellen für Anwendungen und Erfahrungen. Die Sprachassistentenfunktion ermöglicht eine schnelle und zuverlässige Interaktion zwischen einem Gerät und einer Assistentenimplementierung.

Plastischer Reader

Der plastische Reader, Teil der KI-Dienste, ist ein integrativ konzipiertes Tool, das bewährte Techniken implementiert, um das Leseverständnis für neue Leser, Sprachlerner und Menschen mit Lernunterschieden wie Legasthenie zu verbessern. Mit der Clientbibliothek für den plastischen Reader können Sie die gleiche Technologie verwenden, die auch in Microsoft Word und Microsoft OneNote verwendet wird, um den Benutzern Ihrer Workload eine verbesserte Benutzererfahrung zu bieten.

Fähigkeiten

Die folgenden Funktionen stehen für Ihre Workload zur Verfügung, um Benutzern zu helfen, ihre Leseverständnisziele zu erreichen.

Isolieren Sie Inhalte, um die Lesbarkeit zu verbessern.
Zeigen Sie Bilder für gebräuchliche Wörter und Begriffe an.
Helfen Sie dabei, Wortarten und Grammatik zu verstehen, indem Sie Verben, Substantive und Pronomen hervorheben.
Lesen Sie Inhalte laut vor, z. B. vom Benutzer ausgewählten Text in der Benutzeroberfläche Ihrer Workload.
Übersetzen Sie Inhalte in Echtzeit in viele Sprachen. Diese Methode trägt dazu bei, das Verständnis der Leser beim Erlernen einer neuen Sprache zu verbessern.
Teilen Sie Wörter in Silben auf, um die Lesbarkeit zu verbessern oder neue Wörter auszusprechen.

Nächste Schritte

Feedback

War diese Seite hilfreich?

Last updated on 2025-06-21

Freigeben über

Auswählen einer Azure KI-Spracherkennungs- und -generierungstechnologie

Dienste

Rede

Fähigkeiten

Anwendungsfälle

Plastischer Reader

Fähigkeiten

Nächste Schritte

Zugehörige Ressourcen

Feedback

Zusätzliche Ressourcen