Freigeben über


Spracherkennung

[Der Microsoft-Agent ist ab Windows 7 veraltet und kann in nachfolgenden Versionen von Windows nicht verfügbar sein.]

Die Spracherkennung bietet eine sehr natürliche und vertraute Schnittstelle für die Interaktion mit Zeichen. Die Spracheingabe stellt jedoch auch viele Herausforderungen dar. Sprachmodule funktionieren derzeit ohne wesentliche Teile des menschlichen Sprachkommunikationsrepertoires, wie Gesten, Intonation und Gesichtsausdrücke. Darüber hinaus ist die natürliche Sprache in der Regel ungebunden. Es ist einfach, dass der Sprecher das aktuelle Vokabular oder Grammatikdes Moduls überschreitet. Ebenso kann die Wort- oder Wortreihenfolge für jede anforderung oder Antwort variieren. Darüber hinaus müssen Spracherkennungsmodule häufig mit großen Variationen in der Umgebung des Sprechers umgehen. Hintergrundgeräusche, Mikrofonqualität und Position können sich beispielsweise auf die Eingabequalität auswirken. In ähnlicher Weise stellen verschiedene Sprecheraussprechungen oder sogar Variationen des gleichen Lautsprechers, z. B. wenn der Lautsprecher eine Kälte aufweist, eine Herausforderung dar, die akustischen Daten in darstellungsbezogenes Verständnis umzuwandeln. Schließlich müssen Sprachmodule auch mit ähnlich klingenden Wörtern oder Ausdrücken in einer Sprache umgehen, z. B. "neu", "wussten" und "gnu", oder "Wrack einen schönen Strand" und "Sprache erkennen".

Sprache ist nicht immer die beste Form der Eingabe für eine Aufgabe. Aufgrund der Wendungserkennung kann sie oft langsamer sein als andere Eingabeformen. Wie die Tastatur ist die Spracheingabe eine schlechte Schnittstelle für das Zeigen, es sei denn, es wird eine Mnemonic-Darstellung bereitgestellt. Überlegen Sie daher immer, ob sprache die für eine Aufgabe am besten geeignete Eingabe ist. Es empfiehlt sich, die Verwendung von Sprache als exklusive Schnittstelle für jede Aufgabe zu vermeiden. Stellen Sie weitere Möglichkeiten zum Zugreifen auf grundlegende Funktionen mithilfe von Methoden wie Maus oder Tastatur bereit. Nutzen Sie außerdem die multi modalen Natur der Verwendung von Sprache in der visuellen Benutzeroberfläche, indem Sie die Spracheingabe mit visuellen Informationen kombinieren, mit denen Der Kontext und die Optionen angegeben werden können.

Schließlich ist die erfolgreiche Verwendung der Spracheingabe nur teilweise auf die Qualität der Technologie zurückzuführen. Auch die menschliche Erkennung, die jede aktuelle Erkennungstechnologie überschreitet, schlägt manchmal fehl. In der menschlichen Kommunikation verwenden wir jedoch Strategien, die die Erfolgswahrscheinlichkeit verbessern und fehlerwiederherstellung bieten, wenn etwas schief geht. Daher hängt die Effektivität der Spracheingabe auch von der Qualität der Benutzeroberfläche ab, die sie darstellt.

Das Untersuchen menschlicher Modelle der Sprachinteraktion kann beim Entwerfen natürlicherer Sprachschnittstellen nützlich sein. Wenn Sie tatsächliche menschliche Sprachdialoge für bestimmte Szenarien aufzeichnen, können Sie die verwendeten Konstrukte und Muster sowie effektive Formen von Feedback und Fehlerwiederherstellung besser verstehen. Sie kann dabei helfen, das zu verwendende Vokabular (für Eingabe und Ausgabe) zu ermitteln. Es ist besser, eine Sprachschnittstelle basierend darauf zu entwerfen, wie die Benutzer tatsächlich sprechen, als sie einfach von der grafischen Benutzeroberfläche abzuleiten, in der sie arbeitet.

Beachten Sie, dass Microsoft Agent die Microsoft Speech API (SAPI) verwendet, um die Spracherkennung zu unterstützen. Auf diese Weise kann der Microsoft-Agent mit einer Vielzahl kompatibler Module verwendet werden. Obwohl Der Microsoft-Agent bestimmte grundlegende Schnittstellen angibt, können die Leistungsanforderungen und die Qualität eines Moduls variieren.

Sprache ist nicht die einzige Möglichkeit, Unterhaltungsschnittstellen zu unterstützen. Sie können auch die natürliche Sprachverarbeitung von Tastatureingaben anstelle oder zusätzlich zu Sprache verwenden. In diesen Situationen können Sie weiterhin Richtlinien für die Spracheingabe anwenden.