Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Analizatory audio umożliwiają transkrypcję i diaryzacja dźwięku konwersacyjnego, wyodrębnianie pól ustrukturyzowanych, takich jak podsumowania, tonacje i kluczowe tematy. Dostosuj szablon analizatora audio do potrzeb biznesowych przy użyciu portalu Microsoft Foundry , aby rozpocząć generowanie wyników.
Poniżej przedstawiono typowe scenariusze przetwarzania danych audio konwersacji:
- Uzyskaj szczegółowe informacje o klientach dzięki podsumowaniu i analizie tonacji.
- Ocenianie i weryfikowanie jakości połączeń i zgodności w centrach obsługi telefonicznej.
- Tworzenie automatycznych podsumowań i metadanych na potrzeby publikowania podcastów.
Możliwości analizatora audio
Usługa Content Understanding służy jako podstawa rozwiązań analizy mowy, umożliwiając następujące możliwości dla plików audio:
Wyodrębnianie zawartości
Wyodrębnianie zawartości audio to proces transkrypcji plików audio. Ten proces obejmuje oddzielenie transkrypcji przez osoby mówiącej i może obejmować opcjonalne funkcje, takie jak wykrywanie ról, aby zaktualizować wyniki osoby mówiącej do znaczących ról osoby mówiącej. Może również obejmować szczegółowe wyniki, w tym znaczniki czasowe na poziomie słów.
Obsługa języka
Obsługujemy różne opcje obsługi przetwarzania języka podczas transkrypcji.
Poniższa tabela zawiera omówienie opcji kontrolowanych za pośrednictwem konfiguracji ustawień regionalnych:
| Ustawienie ustawień regionalnych | Rozmiar pliku | Obsługiwane przetwarzanie | Obsługiwane ustawienia regionalne | Opóźnienie wyników |
|---|---|---|---|---|
| auto lub puste | ≤ 300 MB i/lub ≤ 2 godziny | Transkrypcja wielojęzyczna |
de-DE, en-AU, en-CA, en-GB, en-IN, en-US, es-ES, es-MX, fr-CA, fr-FR, hi-IN, it-IT, ja-JP, ko-KR i zh-CN |
Niemal w czasie rzeczywistym |
| auto lub puste | > 300 MB i >2 godz. ≤ 4 godziny | Transkrypcja wielojęzyczna |
en-US, es-ES, , , es-MXfr-FRhi-INit-ITja-JPko-KRpt-BRzh-CN |
Zwykły |
| pojedyncze ustawienia regionalne | ≤ 1 GB i/lub ≤ 4 godziny | Transkrypcja pojedynczego języka | Wszystkie obsługiwane lokalizacje[^1] | • ≤ 300 MB i/lub ≤ 2 godziny: niemal w czasie rzeczywistym • > 300 MB i >2 godz. ≤ 4 godziny: regularne |
| wiele lokalizacji | ≤ 1 GB i/lub ≤ 4 godziny | Transkrypcja pojedynczego języka (oparta na wykrywaniu języka) | Wszystkie obsługiwane lokalizacje[^1] | • ≤ 300 MB i/lub ≤ 2 godziny: niemal w czasie rzeczywistym • > 300 MB i >2 godz. ≤ 4 godziny: regularne |
[^1]: Usługa Content Understanding obsługuje pełny zestaw usługi Azure Speech w narzędziach Foundry Tools Speech w językach tekstowych. W przypadku języków z obsługą szybkich transkrypcji i plików ≤ 300 MB i/lub ≤ 2 godziny czas transkrypcji jest znacznie zmniejszony.
Transkrypcja. Konwertuje audio konwersacyjne na transkrypcje oparte na wyszukiwaniu i analizowaniu na podstawie tekstu w formacie WebVTT. Pola dostosowywalne można wygenerować na podstawie danych transkrypcji. Znaczniki czasu na poziomie zdania i na poziomie wyrazu są dostępne na żądanie.
Diarizacja. Rozróżnia osoby mówiące w konwersacji, przypisując części transkrypcji określonym głośnikom.
Wykrywanie roli osoby mówiącej. Identyfikuje agenta i role klientów w danych połączeń centrum kontaktów.
Transkrypcja wielojęzyczna. Generuje wielojęzyczne transkrypcje, stosując język i ustawienia regionalne dla każdej frazy. Odstępstwo od wykrywania języka: ta funkcja jest włączona, gdy nie określono języka lub ustawień regionalnych, albo gdy język jest ustawiony na
auto.
Uwaga / Notatka
Gdy jest używana transkrypcja wielojęzyczna, wszystkie pliki z nieobsługiwanymi ustawieniami regionalnymi generują wynik na podstawie najbliższych obsługiwanych ustawień regionalnych, co prawdopodobnie jest niepoprawne. Ten wynik jest znanym zachowaniem. Unikaj problemów z jakością transkrypcji, upewniając się, że konfigurujesz ustawienia regionalne, gdy nie korzystasz z ustawień regionalnych wspieranych przez transkrypcję wielojęzyczną!
- Wykrywanie języka. Automatycznie wykrywa dominujący język/ustawienia regionalne używane do transkrypcji pliku. Ustaw wiele języków/ustawień regionalnych, aby włączyć wykrywanie języka.
Wyodrębnianie pól
Wyodrębnianie pól umożliwia wyodrębnianie danych ustrukturyzowanych z plików audio, takich jak podsumowania, tonacje i wymienione jednostki z dzienników wywołań. Możesz zacząć od dostosowania sugerowanego szablonu analizatora lub utworzenia go od podstaw.
Najważniejsze korzyści
Zaawansowane możliwości audio, w tym:
Dostosowywalne wyodrębnianie danych. Dostosuj dane wyjściowe do konkretnych potrzeb, modyfikując schemat pola, umożliwiając precyzyjne generowanie i wyodrębnianie danych.
Modele generowania. Użyj modeli generacyjnych sztucznej inteligencji, aby określić w języku naturalnym zawartość, którą chcesz wyodrębnić, a usługa generuje żądane dane wyjściowe.
Zintegrowane wstępne przetwarzanie. Skorzystaj z wbudowanych kroków przetwarzania wstępnego, takich jak transkrypcja, diaryzacja i wykrywanie ról, zapewniając bogaty kontekst dla modeli generowania.
Możliwość dostosowywania scenariusza. Dostosuj usługę do swoich wymagań, generując pola niestandardowe i wyodrębniając odpowiednie dane.
Wbudowane analizatory audio
Wstępnie utworzone analizatory umożliwiają wyodrębnianie cennych szczegółowych informacji z zawartości audio bez konieczności tworzenia konfiguracji analizatora.
Wszystkie analizatory audio generują transkrypcje w standardowym formacie WEBVTT oddzielonym przez głośnik.
Uwaga / Notatka
Wstępnie utworzone analizatory są ustawione tak, aby używały wielojęzycznej transkrypcji i returnDetails są włączone.
Dostępne są następujące wstępnie utworzone analizatory:
Analiza po rozmowie (wstępnie skonfigurowane centrum obsługi klienta). Analizowanie nagrań połączeń w celu wygenerowania:
- transkrypcje konwersacji z wynikiem wykrywania roli osoby mówiącej
- podsumowanie połączeń
- nastawienie podczas rozmowy
- pięć najważniejszych artykułów wymienionych
- lista wymienionych firm
- wymieniona lista osób (imię i nazwisko i tytuł/rola)
- lista odpowiednich kategorii połączeń
Przykładowy wynik:
{
"id": "bc36da27-004f-475e-b808-8b8aead3b566",
"status": "Succeeded",
"result": {
"analyzerId": "prebuilt-callCenter",
"apiVersion": "2025-05-01-preview",
"createdAt": "2025-05-06T22:53:28Z",
"stringEncoding": "utf8",
"warnings": [],
"contents": [
{
"markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Agent>Good day.\n\n00:00.960 --> 00:02.240\n<v Agent>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Agent>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Agent>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Agent>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Agent>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Agent>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Agent>No problem.\n\n00:12.880 --> 00:13.920\n<v Agent>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Agent>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Agent>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Agent>Great.\n\n00:20.800 --> 00:24.160\n<v Agent>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Agent>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Agent>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Agent>That was all.\n\n00:28.720 --> 00:29.280\n<v Agent>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Agent>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Agent>Goodbye at Contoso.\n```",
"fields": {
"Summary": {
"type": "string",
"valueString": "Maria Smith contacted Contoso to inquire about her current point balance. After confirming her identity with her date of birth, the agent, John Doe, informed her that her balance was 599 points. Maria did not require any further assistance, and the call concluded politely."
},
"Topics": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Point balance inquiry"
},
{
"type": "string",
"valueString": "Identity confirmation"
},
{
"type": "string",
"valueString": "Customer service"
}
]
},
"Companies": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Contoso"
}
]
},
"People": {
"type": "array",
"valueArray": [
{
"type": "object",
"valueObject": {
"Name": {
"type": "string",
"valueString": "John Doe"
},
"Role": {
"type": "string",
"valueString": "Agent"
}
}
},
{
"type": "object",
"valueObject": {
"Name": {
"type": "string",
"valueString": "Maria Smith"
},
"Role": {
"type": "string",
"valueString": "Customer"
}
}
}
]
},
"Sentiment": {
"type": "string",
"valueString": "Positive"
},
"Categories": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Business"
}
]
}
},
"kind": "audioVisual",
"startTimeMs": 0,
"endTimeMs": 32183,
"transcriptPhrases": [
{
"speaker": "Agent",
"startTimeMs": 80,
"endTimeMs": 640,
"text": "Good day.",
"words": []
}, ...
{
"speaker": "Customer",
"startTimeMs": 5440,
"endTimeMs": 6320,
"text": "Yes, good day.",
"words": []
}, ...
]
}
]
}
}
Analiza konwersacji (wstępnie skompilowana-audioSearch). Analizowanie nagrań w celu wygenerowania:
- transkrypcje konwersacji
- podsumowanie konwersacji
Przykładowy wynik:
{
"id": "9624cc49-b6b3-4ce5-be6c-e895d8c2484d",
"status": "Succeeded",
"result": {
"analyzerId": "prebuilt-audioSearch",
"apiVersion": "2025-05-01-preview",
"createdAt": "2025-05-06T23:00:12Z",
"stringEncoding": "utf8",
"warnings": [],
"contents": [
{
"markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Speaker 1>Good day.\n\n00:00.960 --> 00:02.240\n<v Speaker 1>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Speaker 1>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Speaker 1>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Speaker 1>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Speaker 1>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Speaker 1>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Speaker 1>No problem.\n\n00:12.880 --> 00:13.920\n<v Speaker 1>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Speaker 1>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Speaker 1>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Speaker 1>Great.\n\n00:20.800 --> 00:24.160\n<v Speaker 1>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Speaker 1>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Speaker 1>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Speaker 1>That was all.\n\n00:28.720 --> 00:29.280\n<v Speaker 1>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Speaker 1>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Speaker 1>Goodbye at Contoso.\n```",
"fields": {
"Summary": {
"type": "string",
"valueString": "Maria Smith contacted Contoso to inquire about her current point balance. John Doe assisted her by confirming her identity using her date of birth and informed her that her balance was 599 points. Maria expressed no further inquiries, and the conversation concluded politely."
}
},
"kind": "audioVisual",
"startTimeMs": 0,
"endTimeMs": 32183,
"transcriptPhrases": [
{
"speaker": "Speaker 1",
"startTimeMs": 80,
"endTimeMs": 640,
"text": "Good day.",
"words": []
}, ...
{
"speaker": "Speaker 2",
"startTimeMs": 5440,
"endTimeMs": 6320,
"text": "Yes, good day.",
"words": []
}, ...
]
}
]
}
}
Możesz również dostosować wstępnie utworzone analizatory, aby uzyskać bardziej szczegółową kontrolę danych wyjściowych, definiując pola niestandardowe. Dostosowywanie umożliwia korzystanie z pełnej mocy modeli generowania w celu wyodrębniania szczegółowych informacji z dźwięku. Na przykład dostosowywanie umożliwia:
- Generowanie innych spostrzeżeń.
- Kontroluj język danych wyjściowych wyodrębniania pól.
- Skonfiguruj zachowanie transkrypcji.
Akcelerator rozwiązania do wyszukiwania wiedzy konwersacyjnej
Aby zapoznać się z kompleksowym przewodnikiem Szybki start dla rozwiązań Speech Analytics, zapoznaj się z akceleratorem rozwiązania do eksploracji danych z konwersacji.
Uzyskaj szczegółowe informacje umożliwiające podejmowanie działań z dużych ilości danych konwersacyjnych, identyfikując kluczowe motywy, wzorce i relacje. Korzystając z rozwiązania Microsoft Foundry, Azure Content Understanding w narzędziach Foundry Tools, Azure OpenAI w modelach usługi Microsoft Foundry i usłudze Azure AI Search, to rozwiązanie analizuje dialog bez struktury i mapuje je na znaczące, ustrukturyzowane szczegółowe informacje.
Funkcje, takie jak modelowanie tematów, wyodrębnianie kluczowych fraz, transkrypcja mowy na tekst i interakcyjny czat umożliwiają użytkownikom naturalne eksplorowanie danych i szybsze podejmowanie bardziej świadomych decyzji.
Analitycy pracujący z dużymi ilościami danych konwersacyjnych mogą używać tego rozwiązania do wyodrębniania szczegółowych informacji za pośrednictwem interakcji z językiem naturalnym. Obsługuje ona takie zadania jak identyfikowanie trendów pomocy technicznej klientów, poprawianie jakości centrum kontaktowego i odkrywanie analizy operacyjnej — umożliwia zespołom wykrywanie wzorców, podejmowanie decyzji zwrotnych i podejmowanie świadomych decyzji szybciej.
Wymagania dotyczące danych wejściowych
Aby uzyskać szczegółową listę obsługiwanych formatów audio, zobaczService limits and codecs (Limity usług i kodeniki).
Obsługiwane języki i regiony
Aby uzyskać pełną listę obsługiwanych regionów, języków i ustawień regionalnych, zobacz Obsługa języków i regionów.
Prywatność i zabezpieczenia danych
Deweloperzy korzystający z tej usługi powinni przejrzeć zasady firmy Microsoft dotyczące danych klientów. Aby uzyskać więcej informacji, zobaczDane, ochrona i prywatność.
Następne kroki
- Spróbuj przetwarzać zawartość audio w portalu Microsoft Foundry.
- Dowiedz się, jak analizować zawartość audio za pomocą szablonów analizatora.
- Przejrzyj przykłady kodu: