Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Azure AI-Dienste unterstützen Workload-Designer und -Entwickler bei der Erstellung intelligenter, hochmoderner, marktreifer und verantwortungsbewusster Anwendungen mit sofort einsatzbereiten, vorgefertigten und anpassbaren APIs und Modellen.
In diesem Artikel werden KI-Dienste behandelt, die Spracherkennungs- und -generierungsfunktionen bereitstellen, z. B. Sprache-zu-Text- und Text-zu-Sprache-Konvertierungen, Audioübersetzung und Sprechererkennung. Dazu gehört auch eine Leseförderung für Menschen mit Lernunterschieden.
Hinweis
Um Einblicke in Begriffe oder Ausdrücke zu erhalten oder detaillierte kontextbezogene Analysen gesprochener oder geschriebener Sprache durchzuführen, siehe Auswahl einer Azure AI-Zielsprachenverarbeitungstechnologie.
Dienste
Die folgenden KI-Dienste können Spracherkennungs- und Generierungsfunktionen für Ihre Workload bereitstellen.
Microsoft Azure AI Speech bietet die Verarbeitung natürlicher Sprache für die Textanalyse.
Gebrauchen Sprache, wenn Sie gesprochene Sprache transkribieren oder übersetzen und Sprecher in einem Gespräch identifizieren müssen. Sie können Speech auch als kostengünstigere Alternative für eine natürlich klingende Spracherzeugung im Vergleich zum höherwertigen Whisper-System in den OpenAI-Modellen verwenden.
Nicht verwenden Sprache für Chat, Inhaltszusammenfassung, Moderation oder Anleitung von Benutzern durch Skripte. Verwenden Sie stattdessen andere Modelle für diese Aktivitäten.
Immersiver Reader ist ein Tool, das bewährte Techniken implementiert, um das Leseverständnis für angehende Leser, Sprachlernende und Menschen mit Lernschwierigkeiten zu verbessern.
Verwenden Immersive Reader, um ein verbessertes Leseerlebnis zu bieten, das für Sprachlernende und Menschen mit Lernunterschieden optimiert ist.
Nicht verwenden Plastischer Reader für herkömmliche Text-to-Speech-Anwendungsfälle.
Rede
Speech bietet Spracherkennungs- und Text-zu-Sprache-Funktionen mit einer Speech-Ressource. Sie können Sprache-zu-Text mit hoher Genauigkeit transkribieren, natürlich klingende Text-to-Speech-Stimmen erzeugen, gesprochenes Audio übersetzen und die Sprechererkennung während Gesprächen verwenden. Erstellen Sie benutzerdefinierte Stimmen, fügen Sie Ihrem Basisvokabular bestimmte Wörter hinzu, oder erstellen Sie eigene Modelle. Führen Sie Speech überall aus, ob in der Cloud oder am Edge in Containern.
Die Spracherkennung ist für mehrere Sprachen und Regionen verfügbar.
Fähigkeiten
Die folgende Tabelle enthält eine Liste der in Speech verfügbaren Funktionen.
| Funktion | Beschreibung |
|---|---|
| Batch-Transkription | Transkribiert eine große Menge an Audiodaten im Speicher. Sowohl die Spracherkennungs-REST-API als auch die Speech-CLI unterstützen die Batchtranskription. |
| Intent-Erkennung | Eine Absicht ist etwas, das der Benutzer ausführen möchte, z. B. einen Flug buchen, das Wetter überprüfen oder einen Anruf tätigen. Mit der Absichtserkennung können Ihre Anwendungen, Tools und Geräte basierend auf Optionen bestimmen, was der Benutzer initiieren oder tun möchte. Sie definieren die Benutzerabsicht in der Absichtserkennung oder im Conversational Language Understanding-Modell. |
| Aussprachebewertung | Bewertung der Aussprache von Sprache und Rückmeldung an die Sprecher über die Genauigkeit und Geläufigkeit von gesprochenem Audio. |
| Lautsprechererkennung | Mithilfe der Sprechererkennung kann festgestellt werden, wer in einem Audioclip spricht. Der Dienst verifiziert und identifiziert Sprecher anhand ihrer einzigartigen Stimmeigenschaften mithilfe von Stimmbiometrie. |
| Sprach-zu-Text | Konvertiert Audio-Streams in Echtzeit oder in Stapelverarbeitung in Text. |
| Text-zu-Sprache-Umwandlung | Ermöglicht es Ihren Anwendungen, Tools oder Geräten, Text in menschenähnliche synthetisierte Sprache umzuwandeln. |
| Sprachübersetzung | Bietet mehrsprachige Sprach-zu-Sprache- und Sprache-zu-Text-Übersetzung von Audiostreams. |
| Videoübersetzung | Übersetzt und generiert Videos automatisch in mehreren Sprachen. |
Anwendungsfälle
In der folgenden Tabelle werden einige der Möglichkeiten beschrieben, wie Sie die Spracherkennung verwenden können.
| Anwendungsfall | Fähigkeit zur Verwendung | Beschreibung |
|---|---|---|
| Erstellen von Audioinhalten | Spracherkennung | Gestalten Sie Interaktionen mit Chatbots und Sprachassistenten natürlicher und ansprechender, indem Sie neuronale Stimmen verwenden. Wandeln Sie digitale Texte wie E-Books in Hörbücher um und verbessern Sie Navigationssysteme im Auto. |
| Anrufcentertranskription | Spracherkennung | Transkribieren Sie Anrufe in Echtzeit oder verarbeiten Sie eine Reihe von Anrufen, schwärzen Sie personenbezogene Daten und extrahieren Sie Erkenntnisse wie die Stimmung, um Sie bei Ihrem Callcenter-Anwendungsfall zu unterstützen. |
| Untertitelung | Spracherkennung | Synchronisieren Sie Untertitel mit Ihrem Eingangston, wenden Sie Profanitätsfilter an, erhalten Sie Teilergebnisse, wenden Sie Anpassungen an und identifizieren Sie gesprochene Sprachen für mehrsprachige Szenarien. |
| Sprachenlernen | Spracherkennung | Geben Sie Sprachschülern Feedback zur Aussprache, unterstützen Sie die Echtzeit-Transkription von Fernlerngesprächen und lesen Sie Lehrmaterial mit neuronalen Stimmen vor. |
| Sprachassistenten | Spracherkennung | Erstellen Sie natürliche, menschenähnliche Konversationsschnittstellen für Anwendungen und Erfahrungen. Die Sprachassistentenfunktion ermöglicht eine schnelle und zuverlässige Interaktion zwischen einem Gerät und einer Assistentenimplementierung. |
Plastischer Reader
Der plastische Reader, Teil der KI-Dienste, ist ein integrativ konzipiertes Tool, das bewährte Techniken implementiert, um das Leseverständnis für neue Leser, Sprachlerner und Menschen mit Lernunterschieden wie Legasthenie zu verbessern. Mit der Clientbibliothek für den plastischen Reader können Sie die gleiche Technologie verwenden, die auch in Microsoft Word und Microsoft OneNote verwendet wird, um den Benutzern Ihrer Workload eine verbesserte Benutzererfahrung zu bieten.
Fähigkeiten
Die folgenden Funktionen stehen für Ihre Workload zur Verfügung, um Benutzern zu helfen, ihre Leseverständnisziele zu erreichen.
Isolieren Sie Inhalte, um die Lesbarkeit zu verbessern.
Zeigen Sie Bilder für gebräuchliche Wörter und Begriffe an.
Helfen Sie dabei, Wortarten und Grammatik zu verstehen, indem Sie Verben, Substantive und Pronomen hervorheben.
Lesen Sie Inhalte laut vor, z. B. vom Benutzer ausgewählten Text in der Benutzeroberfläche Ihrer Workload.
Übersetzen Sie Inhalte in Echtzeit in viele Sprachen. Diese Methode trägt dazu bei, das Verständnis der Leser beim Erlernen einer neuen Sprache zu verbessern.
Teilen Sie Wörter in Silben auf, um die Lesbarkeit zu verbessern oder neue Wörter auszusprechen.
Nächste Schritte
- Was ist der Sprachdienst?
- Lernpfad: Entwickeln von Lösungen für die Verarbeitung natürlicher Sprachen mit KI-Diensten