Reconnaissance vocale Azure Batch
Transcrivez avec précision l’audio en texte dans plus de 100 langues et variantes. Dans le cadre du service Azure AI Speech, batch Transcription vous permet de transcrire une grande quantité d’audio dans le stockage. Vous pouvez pointer vers des fichiers audio avec un URI de signature d’accès partagé (SAS) et recevoir de manière asynchrone les résultats de la transcription.
Ce connecteur est disponible dans les produits et régions suivants :
| Service | classe | Régions |
|---|---|---|
| Copilot Studio | Norme | Toutes les régions Power Automate , à l’exception des éléments suivants : - China Cloud géré par 21Vianet |
| Applications logiques | Norme | Toutes les régions Logic Apps , à l’exception des suivantes : - Régions Azure Chine |
| Power Apps | Norme | Toutes les régions Power Apps , à l’exception des suivantes : - China Cloud géré par 21Vianet |
| Power Automate | Norme | Toutes les régions Power Automate , à l’exception des éléments suivants : - China Cloud géré par 21Vianet |
| Contact | |
|---|---|
| Nom | Équipe Power Platform du service Speech |
| URL | https://docs.microsoft.com/azure/cognitive-services/speech-service/support |
| Messagerie électronique | speechpowerplatform@microsoft.com |
| Métadonnées du connecteur | |
|---|---|
| Éditeur | Microsoft |
| Site internet | https://docs.microsoft.com/azure/cognitive-services/speech-service/ |
| Politique de confidentialité | https://privacy.microsoft.com |
| Catégories | IA; Site internet |
L’API de transcription par lots Speech Services est un service cloud qui fournit un traitement asynchrone de reconnaissance vocale par lots sur le contenu audio fourni. Ce connecteur expose ces fonctions en tant qu’opérations dans Microsoft Power Automate et Power Apps.
Conditions préalables
Vous devez procéder comme suit :
- Abonnement Azure - En créer un gratuitement
- Créez une ressource Speech dans le portail Azure.
- Obtenez la clé de ressource et la région Speech. Une fois votre ressource Azure Cognitive Service for Speech déployée, sélectionnez Accéder à la ressource pour afficher et gérer les clés. Pour plus d’informations sur les ressources Cognitive Services, consultez Obtenir les clés de votre ressource.
- Chargez vos propres données ou utilisez des fichiers audio existants via l’URI public ou l’URI de signature d’accès partagé (SAP). En savoir plus ici
Création d’une connexion
Le connecteur prend en charge les types d’authentification suivants :
| Clé API | ApiKey | Toutes les régions | Partageable |
| Microsoft Entra ID Intégré | Utilisez l’ID Microsoft Entra pour accéder à votre service speech. | Toutes les régions à l’exception d’Azure Government et du Ministère de la Défense (DoD) dans Azure Government et us Government (GCC-High) | Non partageable |
| Microsoft Entra ID Integrated (Azure Government) | Utilisez l’ID Microsoft Entra pour accéder à votre service speech. | Azure Government and Department of Defense (DoD) dans Azure Government et US Government (GCC-High) uniquement | Non partageable |
| Valeur par défaut [DÉCONSEILLÉE] | Cette option concerne uniquement les connexions plus anciennes sans type d’authentification explicite et est fournie uniquement pour la compatibilité descendante. | Toutes les régions | Non partageable |
Clé API
ID d’authentification : keyBasedAuth
Applicable : Toutes les régions
ApiKey
Il s’agit d’une connexion partageable. Si l’application d’alimentation est partagée avec un autre utilisateur, la connexion est également partagée. Pour plus d’informations, consultez la vue d’ensemble des connecteurs pour les applications de canevas - Power Apps | Microsoft Docs
| Nom | Type | Descriptif | Obligatoire |
|---|---|---|---|
| Clé de compte | securestring | Clé du service Speech | Vrai |
| Région | ficelle | Région du service Speech (exemple : eastus) | Vrai |
Identifiant Microsoft Entra intégré
ID d’authentification : tokenBasedAuth
Applicable : Toutes les régions à l’exception d’Azure Government et du Ministère de la Défense (DoD) dans Azure Government et us Government (GCC-High)
Utilisez l’ID Microsoft Entra pour accéder à votre service speech.
Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.
| Nom | Type | Descriptif | Obligatoire |
|---|---|---|---|
| Sous-domaine personnalisé | ficelle | URL de point de terminaison de sous-domaine personnalisé (exemple : contoso) | Vrai |
Microsoft Entra ID Integrated (Azure Government)
ID d’authentification : tokenBasedAuth
Applicable : Azure Government and Department of Defense (DoD) dans Azure Government et US Government (GCC-High) uniquement
Utilisez l’ID Microsoft Entra pour accéder à votre service speech.
Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.
| Nom | Type | Descriptif | Obligatoire |
|---|---|---|---|
| Sous-domaine personnalisé | ficelle | URL de point de terminaison de sous-domaine personnalisé (exemple : contoso) | Vrai |
Valeur par défaut [DÉCONSEILLÉE]
Applicable : Toutes les régions
Cette option concerne uniquement les connexions plus anciennes sans type d’authentification explicite et est fournie uniquement pour la compatibilité descendante.
Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.
| Nom | Type | Descriptif | Obligatoire |
|---|---|---|---|
| Clé de compte | securestring | Azure Cognitive Services pour la clé de compte Batch Speech-to-text | Vrai |
| Région | ficelle | Région du service Speech (exemple : eastus) | Vrai |
Limitations
| Nom | Appels | Période de renouvellement |
|---|---|---|
| Appels d’API par connexion | 100 | 60 secondes |
Actions
| Créer une transcription (V3.1) |
Crée une transcription. |
| Mettre à jour la transcription (V3.1) |
Met à jour les détails mutables de la transcription identifiée par son ID. |
| Obtenir des fichiers de liste de transcriptions (V3.1) |
Obtient les fichiers de la transcription identifiée par l’ID donné. |
| Obtenir des transcriptions (V3.1) |
Obtient la transcription identifiée par l’ID donné. |
| Obtenir la liste des transcriptions (V3.1) |
Obtient une liste de transcriptions pour l’abonnement authentifié. |
| Obtenir le fichier de transcription (V3.1) |
Obtient un fichier spécifique (identifié avec fileId) à partir d’une transcription (identifiée avec l’ID). |
| Obtenir les paramètres régionaux pris en charge (V3.1) |
Obtient la liste des paramètres régionaux pris en charge pour les transcriptions hors connexion. |
| Supprimer la transcription (V3.1) |
Supprime la tâche de transcription spécifiée. |
Créer une transcription (V3.1)
Crée une transcription.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
contentUrls
|
contentUrls | array of uri |
Vous pouvez fournir une liste d’URL de contenu pour obtenir des fichiers audio à transcrire. Jusqu’à 1 000 URL sont autorisées. Cette propriété ne sera pas retournée dans une réponse. |
|
|
contentContainerUrl
|
contentContainerUrl | uri |
Vous pouvez également fournir une URL pour un conteneur d’objets blob Azure qui contient les fichiers audio. Un conteneur est autorisé à avoir une taille maximale de 5 Go et un nombre maximal de 1 0000 objets blob. La taille maximale d’un objet blob est de 2,5 Go. La SIGNATURE d’accès partagé du conteneur doit contenir des autorisations « r » (lecture) et « l » (liste). Cette propriété ne sera pas retournée dans une réponse. |
|
|
paramètres régionaux
|
locale | True | string |
Paramètres régionaux des données contenues. Si l’identification de la langue est utilisée, ces paramètres régionaux sont utilisés pour transcrire la parole pour laquelle aucune langue n’a pu être détectée. |
|
nom d’affichage
|
displayName | True | string |
Nom complet de l’objet. |
|
model
|
self | uri |
Emplacement de l’entité référencée. |
|
|
diarizationEnabled
|
diarizationEnabled | boolean |
Valeur indiquant si la diarisation (identification de l’orateur) est demandée. Valeur par défaut |
|
|
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
Valeur indiquant si les horodatages au niveau du mot sont demandés. La valeur par défaut est |
|
|
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
Valeur indiquant si les horodatages au niveau du mot pour le formulaire d’affichage sont demandés. La valeur par défaut est |
|
|
channels
|
channels | array of integer |
Collection des numéros de canal demandés. Dans le cas par défaut, les canaux 0 et 1 sont pris en compte. |
|
|
destinationContainerUrl
|
destinationContainerUrl | uri |
Le conteneur de destination demandé.### Remarques ###When un conteneur de destination est utilisé en combinaison avec un |
|
|
punctuationMode
|
punctuationMode | string |
Mode utilisé pour la ponctuation. |
|
|
profanityFilterMode
|
profanityFilterMode | string |
Mode de filtrage des profanités. |
|
|
timeToLive
|
timeToLive | string |
Durée pendant laquelle la transcription sera conservée dans le système une fois terminée. Une fois que latranscription atteint la durée de vie après l’achèvement (réussie ou ayant échoué), elle est automatiquement supprimée. Ne pas définir cette valeur ou la définir sur 0 désactive la suppression automatique. La plus longue prise en charge est de 31 jours. La durée est encodée en tant que durée ISO 8601 (« PnYnMnDTnHnMnS », voir https://en.wikipedia.org/wiki/ISO_8601#Durations). |
|
|
minCount
|
minCount | integer |
Indicateur du nombre minimal de haut-parleurs pour la diarisation. Doit être inférieur ou égal à la propriété maxSpeakers. |
|
|
maxCount
|
maxCount | integer |
Nombre maximal de haut-parleurs pour la diarisation. Doit être inférieur à 36 et supérieur ou égal à la propriété minSpeakers. |
|
|
candidateLocales
|
candidateLocales | True | array of string |
Paramètres régionaux candidats pour l’identification linguistique (exemple [ »en-US« , "de-DE« , "es-ES« ]). Un minimum de 2 et un maximum de 10 paramètres régionaux candidats, y compris les paramètres régionaux principaux de la transcription, sont pris en charge. |
|
speechModelMapping
|
speechModelMapping | object |
Mappage facultatif des paramètres régionaux aux entités du modèle speech. Si aucun modèle n’est donné pour des paramètres régionaux, le modèle de base par défaut est utilisé. Les clés doivent être des paramètres régionaux contenus dans les paramètres régionaux candidats, les valeurs sont des entités pour les modèles des paramètres régionaux respectifs. |
|
|
Messagerie électronique
|
string |
Adresse e-mail à laquelle envoyer des notifications par e-mail au cas où l’opération se termine. La valeur est supprimée après l’envoi de l’e-mail. |
Retours
- Corps
- Transcription
Mettre à jour la transcription (V3.1)
Met à jour les détails mutables de la transcription identifiée par son ID.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
Identificateur de la transcription. |
|
même
|
self | True | uri |
Emplacement de l’entité référencée. |
|
nom d’affichage
|
displayName | string |
Nom de l’objet. |
|
|
descriptif
|
description | string |
Description de l’objet. |
|
|
customProperties
|
customProperties | object |
Propriétés personnalisées de cette entité. La longueur maximale de la clé autorisée est de 64 caractères, la longueur maximale de la valeur autorisée est de 256 caractères et le nombre d’entrées autorisées est de 10. |
Retours
- Corps
- Transcription
Obtenir des fichiers de liste de transcriptions (V3.1)
Obtient les fichiers de la transcription identifiée par l’ID donné.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
Identificateur de la transcription. |
|
Validité sas en secondes
|
sasValidityInSeconds | integer |
Durée en secondes pendant laquelle une URL SAP doit être valide. La durée par défaut est de 12 heures. Lorsque vous utilisez BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging) : la valeur 0 signifie qu’un URI d’objet blob brut sans jeton SAS est généré. |
|
|
Ignorer
|
skip | integer |
Nombre de jeux de données ignorés. |
|
|
Haut
|
top | integer |
Nombre de jeux de données qui seront inclus après l’ignorer. |
|
|
Filter
|
filter | string |
Expression de filtrage permettant de sélectionner un sous-ensemble des fichiers disponibles.
|
Retours
- Corps
- PaginatedFiles
Obtenir des transcriptions (V3.1)
Obtient la transcription identifiée par l’ID donné.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
Identificateur de la transcription. |
Retours
- Corps
- Transcription
Obtenir la liste des transcriptions (V3.1)
Obtient une liste de transcriptions pour l’abonnement authentifié.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Ignorer
|
skip | integer |
Nombre de jeux de données ignorés. |
|
|
Haut
|
top | integer |
Nombre de jeux de données qui seront inclus après l’ignorer. |
|
|
Filter
|
filter | string |
Expression de filtrage permettant de sélectionner un sous-ensemble des transcriptions disponibles.
|
Retours
- Corps
- PaginatedTranscriptions
Obtenir le fichier de transcription (V3.1)
Obtient un fichier spécifique (identifié avec fileId) à partir d’une transcription (identifiée avec l’ID).
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
Identificateur de la transcription. |
|
ID de fichier
|
fileId | True | uuid |
L’identificateur du fichier. |
|
Validité sas en secondes
|
sasValidityInSeconds | integer |
Durée en secondes pendant laquelle une URL SAP doit être valide. La durée par défaut est de 12 heures. Lorsque vous utilisez BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging) : la valeur 0 signifie qu’un URI d’objet blob brut sans jeton SAS est généré. |
Retours
- Corps
- File
Obtenir les paramètres régionaux pris en charge (V3.1)
Obtient la liste des paramètres régionaux pris en charge pour les transcriptions hors connexion.
Retours
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
|
array of string |
Supprimer la transcription (V3.1)
Supprime la tâche de transcription spécifiée.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
Identificateur de la transcription. |
Définitions
DiarizationProperties
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
Haut-parleurs
|
speakers | DiarizationSpeakersProperties |
DiarizationSpeakersProperties
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
minCount
|
minCount | integer |
Indicateur du nombre minimal de haut-parleurs pour la diarisation. Doit être inférieur ou égal à la propriété maxSpeakers. |
|
maxCount
|
maxCount | integer |
Nombre maximal de haut-parleurs pour la diarisation. Doit être inférieur à 36 et supérieur ou égal à la propriété minSpeakers. |
Fichier
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
gentil
|
kind | FileKind |
Type de données. |
|
links
|
links | FileLinks | |
|
createdDateTime
|
createdDateTime | date-time |
Heure de création de ce fichier. L’horodatage est encodé en tant que format de date et d’heure ISO 8601 (voir https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations). |
|
Propriétés
|
properties | FileProperties | |
|
nom
|
name | string |
Nom de ce fichier. |
FileKind
FileLinks
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
contentUrl
|
contentUrl | uri |
URL permettant de récupérer le contenu de ce fichier. |
FileProperties
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
size
|
size | integer |
Taille des données en octets. |
|
durée
|
duration | string |
Durée dans le cas où ce fichier est un fichier audio. La durée est encodée en tant que ISO 8601duration (« PnYnMnDTnHnMnS », voir https://en.wikipedia.org/wiki/ISO_8601#Durations). |
LanguageIdentificationProperties
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
candidateLocales
|
candidateLocales | array of string |
Paramètres régionaux candidats pour l’identification linguistique (exemple [ »en-US« , "de-DE« , "es-ES« ]). Un minimum de 2 et un maximum de 10 paramètres régionaux candidats, y compris les paramètres régionaux principaux de la transcription, sont pris en charge. |
|
speechModelMapping
|
speechModelMapping | object |
Mappage facultatif des paramètres régionaux aux entités du modèle speech. Si aucun modèle n’est donné pour des paramètres régionaux, le modèle de base par défaut est utilisé. Les clés doivent être des paramètres régionaux contenus dans les paramètres régionaux candidats, les valeurs sont des entités pour les modèles des paramètres régionaux respectifs. |
PaginéFiles
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
values
|
values | array of File |
Liste des entités limitées par les paramètres de requête passés « skip » et « top » ou leurs valeurs par défaut. Lors de l’itération dans une liste à l’aide de la pagination et de la suppression d’entités en parallèle, certaines entités sont ignorées dans les résultats. Il est recommandé de créer une liste sur le client et de supprimer après la récupération de la liste complète. |
|
@nextLink
|
@nextLink | uri |
Lien vers l’ensemble suivant de résultats paginés s’il existe davantage d’entités disponibles ; sinon null. |
PaginédTranscriptions
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
values
|
values | array of Transcription |
Liste des entités limitées par les paramètres de requête passés « skip » et « top » ou leurs valeurs par défaut. Lors de l’itération dans une liste à l’aide de la pagination et de la suppression d’entités en parallèle, certaines entités sont ignorées dans les résultats. Il est recommandé de créer une liste sur le client et de supprimer après la récupération de la liste complète. |
|
@nextLink
|
@nextLink | uri |
Lien vers l’ensemble suivant de résultats paginés s’il existe davantage d’entités disponibles ; sinon null. |
ProfanityFilterMode
PonctuationMode
Transcription
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
contentUrls
|
contentUrls | array of uri |
Vous pouvez fournir une liste d’URL de contenu pour obtenir des fichiers audio à transcrire. Jusqu’à 1 000 URL sont autorisées. Cette propriété ne sera pas retournée dans une réponse. |
|
contentContainerUrl
|
contentContainerUrl | uri |
Vous pouvez également fournir une URL pour un conteneur d’objets blob Azure qui contient les fichiers audio. Un conteneur est autorisé à avoir une taille maximale de 5 Go et un nombre maximal de 1 0000 objets blob. La taille maximale d’un objet blob est de 2,5 Go. La SIGNATURE d’accès partagé du conteneur doit contenir des autorisations « r » (lecture) et « l » (liste). Cette propriété ne sera pas retournée dans une réponse. |
|
paramètres régionaux
|
locale | string |
Paramètres régionaux des données contenues. Si l’identification de la langue est utilisée, ces paramètres régionaux sont utilisés pour transcrire la parole pour laquelle aucune langue n’a pu être détectée. |
|
nom d’affichage
|
displayName | string |
Nom complet de l’objet. |
|
model
|
model.self | uri |
Emplacement de l’entité référencée. |
|
Propriétés
|
properties | TranscriptionProperties |
TranscriptionProperties
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
diarizationEnabled
|
diarizationEnabled | boolean |
Valeur indiquant si la diarisation (identification de l’orateur) est demandée. Valeur par défaut |
|
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
Valeur indiquant si les horodatages au niveau du mot sont demandés. La valeur par défaut est |
|
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
Valeur indiquant si les horodatages au niveau du mot pour le formulaire d’affichage sont demandés. La valeur par défaut est |
|
channels
|
channels | array of integer |
Collection des numéros de canal demandés. Dans le cas par défaut, les canaux 0 et 1 sont pris en compte. |
|
destinationContainerUrl
|
destinationContainerUrl | uri |
Le conteneur de destination demandé.### Remarques ###When un conteneur de destination est utilisé en combinaison avec un |
|
punctuationMode
|
punctuationMode | PunctuationMode |
Mode utilisé pour la ponctuation. |
|
profanityFilterMode
|
profanityFilterMode | ProfanityFilterMode |
Mode de filtrage des profanités. |
|
timeToLive
|
timeToLive | string |
Durée pendant laquelle la transcription sera conservée dans le système une fois terminée. Une fois que latranscription atteint la durée de vie après l’achèvement (réussie ou ayant échoué), elle est automatiquement supprimée. Ne pas définir cette valeur ou la définir sur 0 désactive la suppression automatique. La plus longue prise en charge est de 31 jours. La durée est encodée en tant que durée ISO 8601 (« PnYnMnDTnHnMnS », voir https://en.wikipedia.org/wiki/ISO_8601#Durations). |
|
diarisation
|
diarization | DiarizationProperties | |
|
Identification linguistique -
|
languageIdentification | LanguageIdentificationProperties | |
|
Messagerie électronique
|
string |
Adresse e-mail à laquelle envoyer des notifications par e-mail au cas où l’opération se termine. La valeur est supprimée après l’envoi de l’e-mail. |