Was ist der Sprachdienst?

Der Sprachdienst bietet Sprach-zu-Text- und Text-zu-Sprache-Funktionen über eine Sprachressource. Sie können Sprache mit hoher Genauigkeit in Text transkribieren, natürlich klingende Text-zu-Sprache-Stimmen erzeugen, gesprochenes Audio übersetzen und Live-KI-Sprachunterhaltungen durchführen.

Screenshot von Kacheln, die Sprachdienstfeatures hervorheben.

Sie können benutzerdefinierte Stimmen erstellen, Ihrem Basisvokabular bestimmte Wörter hinzufügen oder eigene Modelle erstellen. Sie können Speech überall ausführen – in der Cloud oder am Edge in Containern. Es ist einfach, Ihre Anwendungen, Tools und Geräte mithilfe der Speech CLI-, Speech SDK- und REST-APIs zu aktivieren.

Speech ist für viele Sprachen und Regionen sowie zu unterschiedlichen Preisen verfügbar.

Sprachszenarien

Gängige Szenarien für die Verwendung von Speech sind z. B.:

Untertitelung: Sie können Untertitel mit Ihrer Audioeingabe synchronisieren, Filter für anstößige Ausdrücke anwenden, Teilergebnisse abrufen, Anpassungen vornehmen und gesprochene Sprachen in mehrsprachigen Szenarien identifizieren.
Erstellung von Audioinhalten: Verwenden Sie neurale Stimmen, um Interaktionen mit Chatbots und Sprachagenten natürlicher und ansprechender zu machen, digitale Texte wie E-Books in Hörbücher zu konvertieren und In-Car-Navigationssysteme zu verbessern.
Call Center: Transkribieren Sie Anrufe in Echtzeit oder verarbeiten Sie eine Reihe von Anrufen, redigieren Sie persönlich identifizierte Informationen, und extrahieren Sie Einblicke wie die Stimmung, um Ihrem Callcenter-Anwendungsfall zu helfen.
Sprachlernen: Geben Sie Sprachlernern Feedback in Form von Aussprachebewertung, unterstützen Sie die Echtzeittranskription für Unterhaltungen im Fernunterricht, und lassen Sie Unterrichtsmaterialien mit neuronalen Stimmen laut vorlesen.
Voice live: Erstellen Sie natürliche, menschenähnliche Konversationsschnittstellen für Anwendungen und Erlebnisse. Das VoIP-Live-Feature bietet eine schnelle, zuverlässige Interaktion zwischen einer menschlichen und einer Agentimplementierung.

Microsoft verwendet Speech für viele Szenarien, z. B. zum Erstellen von Untertiteln in Teams, Diktieren in Office 365 und Vorlesen im Microsoft Edge-Browser.

Screenshot der Logos von Microsoft-Produkten, die den Sprachdienst verwenden.

Funktionen des Speech-Diensts

In diesen Abschnitten werden Speech-Funktionen mit Links zusammengefasst, unter denen Sie weitere Informationen finden.

Sprache-in-Text

Verwenden Sie Sprache für Text , um Audio in Text zu konvertieren. Wählen Sie aus Echtzeittranskription für Streamingaudio, schnelle Transkription für vorab aufgezeichnete Audiodateien oder Batchtranskription für die asynchrone Verarbeitung großer Audiomengen aus.

Das Basismodell reicht möglicherweise nicht aus, wenn die Audiodaten Umgebungsgeräusche oder umfassenden branchen- und domänenspezifischen Jargon enthalten. In diesen Fällen können Sie benutzerdefinierte Sprachmodelle mit Akustik-, Sprach- und Aussprachedaten erstellen und trainieren. Benutzerdefinierte Sprachmodelle sind privat und können einen Wettbewerbsvorteil bieten.

Text-zu-Sprache

Mit Text in Sprache können Sie Eingabetext in menschlich klingende synthetische Sprache umwandeln. Verwenden Sie neurale Stimmen, die menschenähnliche Stimmen sind, die von tiefen neuralen Netzwerken unterstützt werden. Verwenden Sie die Markupsprache für Sprachsynthese (Speech Synthesis Markup Language, SSML), um Tonhöhe, Aussprache, Sprechgeschwindigkeit, Lautstärke usw. anzupassen und zu optimieren.

Standardstimme: Äußerst natürliche, sofort einsetzbare Stimmen. Überprüfen Sie die Standard-Sprachproben in der Sprachgalerie und ermitteln Sie die richtige Stimme für Ihre geschäftlichen Anforderungen.
Benutzerdefinierte Stimme: Neben den Standardstimme, die aus der Box kommen, können Sie auch eine benutzerdefinierte Stimme erstellen, die für Ihre Marke oder Ihr Produkt erkennbar und einzigartig ist. Benutzerdefinierte Stimmen sind privat und können einen Wettbewerbsvorteil bieten. Schauen Sie sich hier die benutzerdefinierten Sprachbeispiele an.

Sprachübersetzung

Die Sprachübersetzung ermöglicht Echtzeitübersetzungen in mehreren Sprachen für Ihre Anwendungen, Tools und Geräte. Verwenden Sie dieses Feature für die Übersetzung von Sprache in Sprache und Sprache in Text.

LLM-Sprache (Vorschau)

LLM-Spracherkennung unterstützt derzeit die folgenden Sprachaufgaben:

transcribe: Konvertieren von vorab aufgezeichneten Audiodaten in Text.
translate: Konvertieren von vorab aufgezeichneten Audiodaten in Text in einer angegebenen Zielsprache.

LLM-Sprachmodell nutzt ein durch große Sprachmodelle verbessertes Sprachmodel, das verbesserte Qualität, tiefes Kontextverständnis, Unterstützung für mehrere Sprachen und Funktionen zur Optimierung von Eingabeaufforderungen bietet. Sie teilt die gleiche ultraschnelle Ableitungsleistung wie die schnelle Transkription, wodurch sie ideal für Anwendungsfälle wie das Generieren von Untertiteln und Untertiteln aus Audiodateien, das Zusammenfassen von Besprechungsnotizen, das Unterstützen von Anrufcenter-Agents, das Transkribieren von Voicemails und vieles mehr ist.

Sprachenerkennung

Die Sprachidentifikation identifiziert Sprachen, die in Audio gesprochen werden, wenn sie mit einer Liste der unterstützten Sprachen verglichen werden. Die Sprachenerkennung kann eigenständig oder in Kombination mit der Spracherkennung oder Sprachübersetzung verwendet werden.

Aussprachebewertung

Die Aussprachebewertung bewertet die Aussprache und gibt den Rednern Feedback zur Genauigkeit und zum Redefluss der gesprochenen Audioinformationen. Mithilfe der Aussprachebewertung können Sprachlerner üben, sofortiges Feedback erhalten und ihre Aussprache verbessern, damit sie mit Vertrauen sprechen und präsentieren können.

Bereitstellung und Präsenz

Sie können Azure Speech in Foundry Tools-Features in der Cloud oder lokal bereitstellen.

Mithilfe von Containern können Sie den Dienst aus Compliance-, Sicherheits- oder anderen betrieblichen Gründen näher an Ihre Daten heranführen.

Die Bereitstellung des Speech-Diensts in Sovereign Clouds ist für einige Behörden und ihre Partner verfügbar. Die Azure Government-Cloud steht beispielsweise für US-Behörden und deren Partner zur Verfügung. Microsoft Azure, betrieben von 21Vianet, Cloud steht für Organisationen mit einer Geschäftspräsenz in China zur Verfügung. Weitere Informationen finden Sie unter Sovereign Clouds.

Screenshot des Diagramms, in dem gezeigt wird, wo der Sprachdienst bereitgestellt und darauf zugegriffen werden kann.

Verwenden von Speech in Ihrer Anwendung

Das Speech Studio ist eine Reihe von UI-basierten Tools zum Erstellen und Integrieren von Features aus dem Azure-Sprachdienst in Ihren Anwendungen. Sie erstellen Projekte in Speech Studio mithilfe eines Ansatzes ohne Code und verweisen dann mithilfe des Speech SDK, der Speech CLI oder verschiedener REST-APIs auf die Ressourcen in Ihren Anwendungen.

Die Speech-Befehlszeilenschnittstelle ist ein Befehlszeilentool, mit dem der Speech-Dienst verwendet werden kann, ohne Code zu schreiben. Über die Speech-Befehlszeilenschnittstelle stehen die meisten Features des Speech SDK zur Verfügung, und einige erweiterte Features und Anpassungen sind in der Speech-Befehlszeilenschnittstelle vereinfacht.

Das Speech SDK (Software Development Kit) macht viele der Funktionen des Speech-Dienstes verfügbar, die Ihnen das Entwickeln sprachaktivierter Anwendungen ermöglichen. Das Speech SDK ist in vielen Programmiersprachen und für alle Plattformen verfügbar.

In einigen Fällen können oder sollten Sie das Speech SDK nicht verwenden. In diesen Fällen können Sie mithilfe der REST-APIs auf den Speech-Dienst zugreifen. Verwenden Sie beispielsweise REST-APIs für die Batchtranskription.

Erste Schritte

Wir bieten Schnellstarts für viele gängige Programmiersprachen an. Jede Schnellstartanleitung enthält Informationen zu grundlegenden Entwurfsmustern und ist jeweils so konzipiert, dass Sie in weniger als zehn Minuten über ausführbaren Code verfügen. Die folgende Liste enthält Schnellstartanleitungen zu den einzelnen Features:

Codebeispiele

Beispielcode für den Speech-Dienst finden Sie auf GitHub. In den Beispielen werden gängige Szenarios wie etwa das Lesen von Audiodaten aus einer Datei oder einem Stream, die kontinuierliche und einmalige Erkennung oder die Verwendung benutzerdefinierter Modelle behandelt. Über die folgenden Links gelangen Sie zu den SDK- und REST-Beispielen:

Verantwortungsvolle KI

Ein KI-System umfasst nicht nur die Technologie, sondern auch die Personen, die es nutzen, die Personen, die davon betroffen sind, und die Umgebung, in der sie bereitgestellt wird. Lesen Sie die Transparenzhinweise, um mehr über die verantwortungsvolle Nutzung und den Einsatz von KI in Ihren Systemen zu erfahren.

Freigeben über

Was ist der Sprachdienst?

Sprachszenarien

Funktionen des Speech-Diensts

Sprache-in-Text

Text-zu-Sprache

Sprachübersetzung

LLM-Sprache (Vorschau)

Sprachenerkennung

Aussprachebewertung

Bereitstellung und Präsenz

Verwenden von Speech in Ihrer Anwendung

Erste Schritte

Codebeispiele

Verantwortungsvolle KI

Sprache-in-Text

Aussprachebewertung

Benutzerdefinierte Stimme

Nächste Schritte

Feedback

Zusätzliche Ressourcen