Udostępnij przez


Wybieranie technologii rozpoznawania i generowania mowy sztucznej inteligencji platformy Azure

Usługi sztucznej inteligencji platformy Azure pomagają projektantom obciążeń i deweloperom tworzyć inteligentne, najnowocześniejsze, gotowe do wprowadzenia na rynek i odpowiedzialne aplikacje za pomocą gotowych, wstępnie utworzonych i dostosowywalnych interfejsów API i modeli.

W tym artykule omówiono usługi sztucznej inteligencji, które zapewniają możliwości rozpoznawania i generowania mowy, takie jak konwersja mowy na tekst i tekstu na mowę, tłumaczenie audio i rozpoznawanie osoby mówiącej. Obejmuje również wsparcie w czytaniu dla osób z różnicami w uczeniu się.

Uwaga

Aby zebrać szczegółowe informacje na temat terminów lub fraz lub uzyskać szczegółową analizę kontekstową mówionego lub napisanego języka, zobacz Wybieranie technologii przetwarzania języka docelowego sztucznej inteligencji platformy Azure.

Usługi

Następujące usługi sztucznej inteligencji mogą zapewnić możliwości rozpoznawania i generowania mowy dla obciążenia.

  • Usługa Microsoft Azure AI Speech zapewnia przetwarzanie języka naturalnego na potrzeby analizy tekstu.

    • Używać Mowa, gdy musisz transkrybować lub tłumaczyć mowę mówioną i identyfikować osoby mówiące w rozmowie. Możesz również użyć Mowy jako tańszej alternatywy dla generowania naturalnie brzmiącej mowy w porównaniu z systemem Whisper o wyższej jakości w modelach OpenAI.

    • Nie używaj Mowa do czatu, podsumowania treści, moderacji lub prowadzenia użytkowników przez skrypty. Zamiast tego należy używać innych modeli.

  • Czytnik immersyjny to narzędzie, które implementuje sprawdzone techniki w celu poprawy zrozumienia czytania dla nowych czytelników, uczniów języka i osób z różnicami w uczeniu się.

    • Użyj Czytnika immersyjnego, aby zapewnić ulepszone doświadczenie czytelnicze skierowane do osób uczących się języka lub osób z różnicami w nauce.

    • Nie używaj Czytnik immersyjny do tradycyjnych przypadków użycia zamiany tekstu na mowę.

Mowa

Usługa Mowa zapewnia możliwości zamiany mowy na tekst i zamiany tekstu na mowę z zasobem usługi Mowa. Możesz transkrybować mowę na tekst z dużą dokładnością, tworzyć naturalnie brzmiące głosy zamiany tekstu na mowę, tłumaczyć mówione audio i korzystać z rozpoznawania osoby mówiącej podczas rozmów. Twórz niestandardowe głosy, dodawaj określone słowa do podstawowego słownika lub twórz własne modele. Uruchamiaj usługę Mowa w dowolnym miejscu, zarówno w chmurze, jak i na urządzeniach brzegowych w kontenerach.

Usługa Mowa jest dostępna w wielu językach i regionach.

Możliwości

Poniższa tabela zawiera listę funkcji dostępnych w usłudze Mowa.

Możliwość opis
Transkrypcja wsadowa Transkrybuje dużą ilość danych audio w pamięci masowej. Zarówno interfejs API REST zamiany mowy na tekst, jak i interfejs wiersza polecenia usługi Mowa obsługują transkrypcję wsadową.
Rozpoznawanie intencji Intencja to coś, co użytkownik chce zrobić, na przykład zarezerwować lot, sprawdzić pogodę lub zadzwonić. Rozpoznawanie intencji umożliwia aplikacjom, narzędziom i urządzeniom określanie, co użytkownik chce zainicjować lub zrobić na podstawie opcji. Intencję użytkownika definiuje się w modelu rozpoznawania intencji lub modelu rozumienia języka konwersacyjnego.
Ocena wymowy Ocenia wymowę mowy i przekazuje prelegentom opinie na temat dokładności i biegłości dźwięku mówionego.
Rozpoznawanie osoby mówiącej Rozpoznawanie osoby mówiącej może pomóc w ustaleniu, kto mówi w klipie audio. Usługa weryfikuje i identyfikuje mówców na podstawie ich unikalnych cech głosowych przy użyciu biometrii głosowej.
Zamiana mowy na tekst Konwertuje strumienie audio na tekst w czasie rzeczywistym lub w przetwarzaniu wsadowym.
Zamiana tekstu na mowę Umożliwia aplikacjom, narzędziom lub urządzeniom konwertowanie tekstu na mowę syntezowaną podobną do ludzkiej.
Tłumaczenie mowy Zapewnia wielojęzyczne tłumaczenie mowy na mowę i mowy na tekst strumieni audio.
Tłumaczenie wideo Automatycznie tłumaczy i generuje filmy w wielu językach.

Przypadki użycia

W poniższej tabeli opisano niektóre sposoby korzystania z usługi Mowa.

Przypadek użycia Możliwość użycia opis
Tworzenie zawartości audio Zamiana mowy na tekst Spraw, aby interakcje z chatbotami i asystentami głosowymi były bardziej naturalne i angażujące dzięki wykorzystaniu neuronowych głosów. Konwertuj teksty cyfrowe, takie jak e-booki, na audiobooki i ulepszaj samochodowe systemy nawigacyjne.
Transkrypcja w centrum obsługi telefonicznej Zamiana mowy na tekst Transkrybuj rozmowy w czasie rzeczywistym lub przetwarzaj partię połączeń, redaguj informacje identyfikujące osoby i wyodrębniaj szczegółowe informacje, takie jak tonacja, aby pomóc w przypadku użycia centrum obsługi telefonicznej.
Napisy Zamiana mowy na tekst Synchronizuj podpisy z dźwiękiem wejściowym, zastosuj filtry wulgaryzmów, uzyskaj częściowe wyniki, zastosuj dostosowania i zidentyfikuj języki mówione w scenariuszach wielojęzycznych.
Nauka języka Zamiana mowy na tekst Przekaż opinię na temat oceny wymowy uczniom języka, wspierać transkrypcję w czasie rzeczywistym na potrzeby rozmów zdalnego uczenia się i odczytywać na głos materiały dydaktyczne z głosami neuronowymi.
Asystentzy głosowi Zamiana tekstu na mowę Twórz naturalne, podobne do ludzkich interfejsy konwersacyjne dla aplikacji i środowisk. Funkcja asystenta głosowego zapewnia szybką i niezawodną interakcję między urządzeniem a implementacją asystenta.

Immersive Reader

Czytnik immersyjny, będący częścią usług sztucznej inteligencji, to narzędzie zaprojektowane w sposób inkluzywny, które wdraża sprawdzone techniki w celu poprawy czytania ze zrozumieniem dla nowych czytelników, osób uczących się języków obcych i osób z różnicami w uczeniu się, takimi jak dysleksja. Dzięki bibliotece klienta czytnika immersyjnego można używać tej samej technologii, która jest używana w programach Microsoft Word i Microsoft OneNote, aby zapewnić ulepszone środowisko dla użytkowników obciążenia.

Możliwości

Dla obciążenia dostępne są następujące funkcje, które ułatwiają użytkownikom osiąganie celów związanych z czytaniem ze zrozumieniem.

  • Izoluj zawartość, aby poprawić czytelność.

  • Wyświetlanie obrazów z popularnymi słowami i terminami.

  • Pomóż zrozumieć części mowy i gramatykę, wyróżniając czasowniki, rzeczowniki i zaimki.

  • Czytaj na głos zawartość, taką jak tekst wybrany przez użytkownika w interfejsie użytkownika obciążenia.

  • Tłumacz treści na wiele języków w czasie rzeczywistym. Ta metoda pomaga poprawić zrozumienie dla czytelników uczących się nowego języka.

  • Podziel słowa na sylaby, aby poprawić czytelność lub wymawiać nowe słowa.

Następne kroki