Partager via


Reconnaissance vocale Azure Batch

Transcrivez avec précision l’audio en texte dans plus de 100 langues et variantes. Dans le cadre du service Azure AI Speech, batch Transcription vous permet de transcrire une grande quantité d’audio dans le stockage. Vous pouvez pointer vers des fichiers audio avec un URI de signature d’accès partagé (SAS) et recevoir de manière asynchrone les résultats de la transcription.

Ce connecteur est disponible dans les produits et régions suivants :

Service classe Régions
Copilot Studio Norme Toutes les régions Power Automate , à l’exception des éléments suivants :
     - China Cloud géré par 21Vianet
Applications logiques Norme Toutes les régions Logic Apps , à l’exception des suivantes :
     - Régions Azure Chine
Power Apps Norme Toutes les régions Power Apps , à l’exception des suivantes :
     - China Cloud géré par 21Vianet
Power Automate Norme Toutes les régions Power Automate , à l’exception des éléments suivants :
     - China Cloud géré par 21Vianet
Contact
Nom Équipe Power Platform du service Speech
URL https://docs.microsoft.com/azure/cognitive-services/speech-service/support
Messagerie électronique speechpowerplatform@microsoft.com
Métadonnées du connecteur
Éditeur Microsoft
Site internet https://docs.microsoft.com/azure/cognitive-services/speech-service/
Politique de confidentialité https://privacy.microsoft.com
Catégories IA; Site internet

L’API de transcription par lots Speech Services est un service cloud qui fournit un traitement asynchrone de reconnaissance vocale par lots sur le contenu audio fourni. Ce connecteur expose ces fonctions en tant qu’opérations dans Microsoft Power Automate et Power Apps.

Conditions préalables

Vous devez procéder comme suit :

Création d’une connexion

Le connecteur prend en charge les types d’authentification suivants :

Clé API ApiKey Toutes les régions Partageable
Microsoft Entra ID Intégré Utilisez l’ID Microsoft Entra pour accéder à votre service speech. Toutes les régions à l’exception d’Azure Government et du Ministère de la Défense (DoD) dans Azure Government et us Government (GCC-High) Non partageable
Microsoft Entra ID Integrated (Azure Government) Utilisez l’ID Microsoft Entra pour accéder à votre service speech. Azure Government and Department of Defense (DoD) dans Azure Government et US Government (GCC-High) uniquement Non partageable
Valeur par défaut [DÉCONSEILLÉE] Cette option concerne uniquement les connexions plus anciennes sans type d’authentification explicite et est fournie uniquement pour la compatibilité descendante. Toutes les régions Non partageable

Clé API

ID d’authentification : keyBasedAuth

Applicable : Toutes les régions

ApiKey

Il s’agit d’une connexion partageable. Si l’application d’alimentation est partagée avec un autre utilisateur, la connexion est également partagée. Pour plus d’informations, consultez la vue d’ensemble des connecteurs pour les applications de canevas - Power Apps | Microsoft Docs

Nom Type Descriptif Obligatoire
Clé de compte securestring Clé du service Speech Vrai
Région ficelle Région du service Speech (exemple : eastus) Vrai

Identifiant Microsoft Entra intégré

ID d’authentification : tokenBasedAuth

Applicable : Toutes les régions à l’exception d’Azure Government et du Ministère de la Défense (DoD) dans Azure Government et us Government (GCC-High)

Utilisez l’ID Microsoft Entra pour accéder à votre service speech.

Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.

Nom Type Descriptif Obligatoire
Sous-domaine personnalisé ficelle URL de point de terminaison de sous-domaine personnalisé (exemple : contoso) Vrai

Microsoft Entra ID Integrated (Azure Government)

ID d’authentification : tokenBasedAuth

Applicable : Azure Government and Department of Defense (DoD) dans Azure Government et US Government (GCC-High) uniquement

Utilisez l’ID Microsoft Entra pour accéder à votre service speech.

Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.

Nom Type Descriptif Obligatoire
Sous-domaine personnalisé ficelle URL de point de terminaison de sous-domaine personnalisé (exemple : contoso) Vrai

Valeur par défaut [DÉCONSEILLÉE]

Applicable : Toutes les régions

Cette option concerne uniquement les connexions plus anciennes sans type d’authentification explicite et est fournie uniquement pour la compatibilité descendante.

Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.

Nom Type Descriptif Obligatoire
Clé de compte securestring Azure Cognitive Services pour la clé de compte Batch Speech-to-text Vrai
Région ficelle Région du service Speech (exemple : eastus) Vrai

Limitations

Nom Appels Période de renouvellement
Appels d’API par connexion 100 60 secondes

Actions

Créer une transcription (V3.1)

Crée une transcription.

Mettre à jour la transcription (V3.1)

Met à jour les détails mutables de la transcription identifiée par son ID.

Obtenir des fichiers de liste de transcriptions (V3.1)

Obtient les fichiers de la transcription identifiée par l’ID donné.

Obtenir des transcriptions (V3.1)

Obtient la transcription identifiée par l’ID donné.

Obtenir la liste des transcriptions (V3.1)

Obtient une liste de transcriptions pour l’abonnement authentifié.

Obtenir le fichier de transcription (V3.1)

Obtient un fichier spécifique (identifié avec fileId) à partir d’une transcription (identifiée avec l’ID).

Obtenir les paramètres régionaux pris en charge (V3.1)

Obtient la liste des paramètres régionaux pris en charge pour les transcriptions hors connexion.

Supprimer la transcription (V3.1)

Supprime la tâche de transcription spécifiée.

Créer une transcription (V3.1)

Crée une transcription.

Paramètres

Nom Clé Obligatoire Type Description
contentUrls
contentUrls array of uri

Vous pouvez fournir une liste d’URL de contenu pour obtenir des fichiers audio à transcrire. Jusqu’à 1 000 URL sont autorisées. Cette propriété ne sera pas retournée dans une réponse.

contentContainerUrl
contentContainerUrl uri

Vous pouvez également fournir une URL pour un conteneur d’objets blob Azure qui contient les fichiers audio. Un conteneur est autorisé à avoir une taille maximale de 5 Go et un nombre maximal de 1 0000 objets blob. La taille maximale d’un objet blob est de 2,5 Go. La SIGNATURE d’accès partagé du conteneur doit contenir des autorisations « r » (lecture) et « l » (liste). Cette propriété ne sera pas retournée dans une réponse.

paramètres régionaux
locale True string

Paramètres régionaux des données contenues. Si l’identification de la langue est utilisée, ces paramètres régionaux sont utilisés pour transcrire la parole pour laquelle aucune langue n’a pu être détectée.

nom d’affichage
displayName True string

Nom complet de l’objet.

model
self uri

Emplacement de l’entité référencée.

diarizationEnabled
diarizationEnabled boolean

Valeur indiquant si la diarisation (identification de l’orateur) est demandée. Valeur par défaut false. Si seul ce champ est défini sur true et que le système de diarisation amélioré n’est pas activé en spécifiantDiarizationProperties, un système de diarisation de base distingue jusqu’à deux haut-parleurs. Les frais noextra sont appliqués dans ce cas. Le système de diarisation amélioré fournit la diarisation pour une plage aconfigurable de haut-parleurs. Il peut être configuré dans le DiarizationProperties champ. DÉPRÉCIÉ : le système de diarisation de base est déconseillé et sera supprimé avec lediarizationEnabled paramètre dans la prochaine version principale de l’API.

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

Valeur indiquant si les horodatages au niveau du mot sont demandés. La valeur par défaut estfalse.

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

Valeur indiquant si les horodatages au niveau du mot pour le formulaire d’affichage sont demandés. La valeur par défaut est false.

channels
channels array of integer

Collection des numéros de canal demandés. Dans le cas par défaut, les canaux 0 et 1 sont pris en compte.

destinationContainerUrl
destinationContainerUrl uri

Le conteneur de destination demandé.### Remarques ###When un conteneur de destination est utilisé en combinaison avec un timeToLive, les métadonnées d’atranscription sont supprimées normalement, mais les données stockées dans le conteneur de destination, y compris les résultats de la traduction, restent inchangées, car aucune autorisation de suppression n’est requise pour cecontainer.
Pour prendre en charge le nettoyage automatique, configurez les durées de vie des objets blob sur le conteneur ou utilisez « Bring your own Storage (BYOS) » au lieu de destinationContainerUrl, où les objets blob peuvent être nettoyés.

punctuationMode
punctuationMode string

Mode utilisé pour la ponctuation.

profanityFilterMode
profanityFilterMode string

Mode de filtrage des profanités.

timeToLive
timeToLive string

Durée pendant laquelle la transcription sera conservée dans le système une fois terminée. Une fois que latranscription atteint la durée de vie après l’achèvement (réussie ou ayant échoué), elle est automatiquement supprimée. Ne pas définir cette valeur ou la définir sur 0 désactive la suppression automatique. La plus longue prise en charge est de 31 jours. La durée est encodée en tant que durée ISO 8601 (« PnYnMnDTnHnMnS », voir https://en.wikipedia.org/wiki/ISO_8601#Durations).

minCount
minCount integer

Indicateur du nombre minimal de haut-parleurs pour la diarisation. Doit être inférieur ou égal à la propriété maxSpeakers.

maxCount
maxCount integer

Nombre maximal de haut-parleurs pour la diarisation. Doit être inférieur à 36 et supérieur ou égal à la propriété minSpeakers.

candidateLocales
candidateLocales True array of string

Paramètres régionaux candidats pour l’identification linguistique (exemple [ »en-US« , "de-DE« , "es-ES« ]). Un minimum de 2 et un maximum de 10 paramètres régionaux candidats, y compris les paramètres régionaux principaux de la transcription, sont pris en charge.

speechModelMapping
speechModelMapping object

Mappage facultatif des paramètres régionaux aux entités du modèle speech. Si aucun modèle n’est donné pour des paramètres régionaux, le modèle de base par défaut est utilisé. Les clés doivent être des paramètres régionaux contenus dans les paramètres régionaux candidats, les valeurs sont des entités pour les modèles des paramètres régionaux respectifs.

Messagerie électronique
email string

Adresse e-mail à laquelle envoyer des notifications par e-mail au cas où l’opération se termine. La valeur est supprimée après l’envoi de l’e-mail.

Retours

Mettre à jour la transcription (V3.1)

Met à jour les détails mutables de la transcription identifiée par son ID.

Paramètres

Nom Clé Obligatoire Type Description
Id
id True uuid

Identificateur de la transcription.

même
self True uri

Emplacement de l’entité référencée.

nom d’affichage
displayName string

Nom de l’objet.

descriptif
description string

Description de l’objet.

customProperties
customProperties object

Propriétés personnalisées de cette entité. La longueur maximale de la clé autorisée est de 64 caractères, la longueur maximale de la valeur autorisée est de 256 caractères et le nombre d’entrées autorisées est de 10.

Retours

Obtenir des fichiers de liste de transcriptions (V3.1)

Obtient les fichiers de la transcription identifiée par l’ID donné.

Paramètres

Nom Clé Obligatoire Type Description
Id
id True uuid

Identificateur de la transcription.

Validité sas en secondes
sasValidityInSeconds integer

Durée en secondes pendant laquelle une URL SAP doit être valide. La durée par défaut est de 12 heures. Lorsque vous utilisez BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging) : la valeur 0 signifie qu’un URI d’objet blob brut sans jeton SAS est généré.

Ignorer
skip integer

Nombre de jeux de données ignorés.

Haut
top integer

Nombre de jeux de données qui seront inclus après l’ignorer.

Filter
filter string

Expression de filtrage permettant de sélectionner un sous-ensemble des fichiers disponibles.

  • Propriétés prises en charge : name, createdDateTime, kind.
  • Opérateurs :
    - eq, ne sont pris en charge pour toutes les propriétés.
    - gt, ge, lt, le sont pris en charge pour createdDateTime.
    - et, ou non, ne sont pas pris en charge.
  • Exemple:filter=name eq 'myaudio.wav.json' and kind eq 'Transcription'

Retours

Obtenir des transcriptions (V3.1)

Obtient la transcription identifiée par l’ID donné.

Paramètres

Nom Clé Obligatoire Type Description
Id
id True uuid

Identificateur de la transcription.

Retours

Obtenir la liste des transcriptions (V3.1)

Obtient une liste de transcriptions pour l’abonnement authentifié.

Paramètres

Nom Clé Obligatoire Type Description
Ignorer
skip integer

Nombre de jeux de données ignorés.

Haut
top integer

Nombre de jeux de données qui seront inclus après l’ignorer.

Filter
filter string

Expression de filtrage permettant de sélectionner un sous-ensemble des transcriptions disponibles.

  • Propriétés prises en charge : displayName, description, createdDateTime, lastActionDateTime, status, locale.
  • Opérateurs :
    - eq, ne sont pris en charge pour toutes les propriétés.
    - gt, ge, lt, le sont pris en charge pour createdDateTime et lastActionDateTime.
    - et, ou non, ne sont pas pris en charge.
  • Exemple:filter=createdDateTime gt 2022-02-01T11:00:00Z

Retours

Obtenir le fichier de transcription (V3.1)

Obtient un fichier spécifique (identifié avec fileId) à partir d’une transcription (identifiée avec l’ID).

Paramètres

Nom Clé Obligatoire Type Description
Id
id True uuid

Identificateur de la transcription.

ID de fichier
fileId True uuid

L’identificateur du fichier.

Validité sas en secondes
sasValidityInSeconds integer

Durée en secondes pendant laquelle une URL SAP doit être valide. La durée par défaut est de 12 heures. Lorsque vous utilisez BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging) : la valeur 0 signifie qu’un URI d’objet blob brut sans jeton SAS est généré.

Retours

Corps
File

Obtenir les paramètres régionaux pris en charge (V3.1)

Obtient la liste des paramètres régionaux pris en charge pour les transcriptions hors connexion.

Retours

Nom Chemin d’accès Type Description
array of string

Supprimer la transcription (V3.1)

Supprime la tâche de transcription spécifiée.

Paramètres

Nom Clé Obligatoire Type Description
Id
id True uuid

Identificateur de la transcription.

Définitions

DiarizationProperties

Nom Chemin d’accès Type Description
Haut-parleurs
speakers DiarizationSpeakersProperties

DiarizationSpeakersProperties

Nom Chemin d’accès Type Description
minCount
minCount integer

Indicateur du nombre minimal de haut-parleurs pour la diarisation. Doit être inférieur ou égal à la propriété maxSpeakers.

maxCount
maxCount integer

Nombre maximal de haut-parleurs pour la diarisation. Doit être inférieur à 36 et supérieur ou égal à la propriété minSpeakers.

Fichier

Nom Chemin d’accès Type Description
gentil
kind FileKind

Type de données.

links
links FileLinks
createdDateTime
createdDateTime date-time

Heure de création de ce fichier. L’horodatage est encodé en tant que format de date et d’heure ISO 8601 (voir https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations).

Propriétés
properties FileProperties
nom
name string

Nom de ce fichier.

FileKind

Type de données.

Type de données.

Nom Chemin d’accès Type Description
contentUrl
contentUrl uri

URL permettant de récupérer le contenu de ce fichier.

FileProperties

Nom Chemin d’accès Type Description
size
size integer

Taille des données en octets.

durée
duration string

Durée dans le cas où ce fichier est un fichier audio. La durée est encodée en tant que ISO 8601duration (« PnYnMnDTnHnMnS », voir https://en.wikipedia.org/wiki/ISO_8601#Durations).

LanguageIdentificationProperties

Nom Chemin d’accès Type Description
candidateLocales
candidateLocales array of string

Paramètres régionaux candidats pour l’identification linguistique (exemple [ »en-US« , "de-DE« , "es-ES« ]). Un minimum de 2 et un maximum de 10 paramètres régionaux candidats, y compris les paramètres régionaux principaux de la transcription, sont pris en charge.

speechModelMapping
speechModelMapping object

Mappage facultatif des paramètres régionaux aux entités du modèle speech. Si aucun modèle n’est donné pour des paramètres régionaux, le modèle de base par défaut est utilisé. Les clés doivent être des paramètres régionaux contenus dans les paramètres régionaux candidats, les valeurs sont des entités pour les modèles des paramètres régionaux respectifs.

PaginéFiles

Nom Chemin d’accès Type Description
values
values array of File

Liste des entités limitées par les paramètres de requête passés « skip » et « top » ou leurs valeurs par défaut. Lors de l’itération dans une liste à l’aide de la pagination et de la suppression d’entités en parallèle, certaines entités sont ignorées dans les résultats. Il est recommandé de créer une liste sur le client et de supprimer après la récupération de la liste complète.

@nextLink
@nextLink uri

Lien vers l’ensemble suivant de résultats paginés s’il existe davantage d’entités disponibles ; sinon null.

PaginédTranscriptions

Nom Chemin d’accès Type Description
values
values array of Transcription

Liste des entités limitées par les paramètres de requête passés « skip » et « top » ou leurs valeurs par défaut. Lors de l’itération dans une liste à l’aide de la pagination et de la suppression d’entités en parallèle, certaines entités sont ignorées dans les résultats. Il est recommandé de créer une liste sur le client et de supprimer après la récupération de la liste complète.

@nextLink
@nextLink uri

Lien vers l’ensemble suivant de résultats paginés s’il existe davantage d’entités disponibles ; sinon null.

ProfanityFilterMode

Mode de filtrage des profanités.

Mode de filtrage des profanités.

PonctuationMode

Mode utilisé pour la ponctuation.

Mode utilisé pour la ponctuation.

Transcription

Nom Chemin d’accès Type Description
contentUrls
contentUrls array of uri

Vous pouvez fournir une liste d’URL de contenu pour obtenir des fichiers audio à transcrire. Jusqu’à 1 000 URL sont autorisées. Cette propriété ne sera pas retournée dans une réponse.

contentContainerUrl
contentContainerUrl uri

Vous pouvez également fournir une URL pour un conteneur d’objets blob Azure qui contient les fichiers audio. Un conteneur est autorisé à avoir une taille maximale de 5 Go et un nombre maximal de 1 0000 objets blob. La taille maximale d’un objet blob est de 2,5 Go. La SIGNATURE d’accès partagé du conteneur doit contenir des autorisations « r » (lecture) et « l » (liste). Cette propriété ne sera pas retournée dans une réponse.

paramètres régionaux
locale string

Paramètres régionaux des données contenues. Si l’identification de la langue est utilisée, ces paramètres régionaux sont utilisés pour transcrire la parole pour laquelle aucune langue n’a pu être détectée.

nom d’affichage
displayName string

Nom complet de l’objet.

model
model.self uri

Emplacement de l’entité référencée.

Propriétés
properties TranscriptionProperties

TranscriptionProperties

Nom Chemin d’accès Type Description
diarizationEnabled
diarizationEnabled boolean

Valeur indiquant si la diarisation (identification de l’orateur) est demandée. Valeur par défaut false. Si seul ce champ est défini sur true et que le système de diarisation amélioré n’est pas activé en spécifiantDiarizationProperties, un système de diarisation de base distingue jusqu’à deux haut-parleurs. Les frais noextra sont appliqués dans ce cas. Le système de diarisation amélioré fournit la diarisation pour une plage aconfigurable de haut-parleurs. Il peut être configuré dans le DiarizationProperties champ. DÉPRÉCIÉ : le système de diarisation de base est déconseillé et sera supprimé avec lediarizationEnabled paramètre dans la prochaine version principale de l’API.

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

Valeur indiquant si les horodatages au niveau du mot sont demandés. La valeur par défaut estfalse.

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

Valeur indiquant si les horodatages au niveau du mot pour le formulaire d’affichage sont demandés. La valeur par défaut est false.

channels
channels array of integer

Collection des numéros de canal demandés. Dans le cas par défaut, les canaux 0 et 1 sont pris en compte.

destinationContainerUrl
destinationContainerUrl uri

Le conteneur de destination demandé.### Remarques ###When un conteneur de destination est utilisé en combinaison avec un timeToLive, les métadonnées d’atranscription sont supprimées normalement, mais les données stockées dans le conteneur de destination, y compris les résultats de la traduction, restent inchangées, car aucune autorisation de suppression n’est requise pour cecontainer.
Pour prendre en charge le nettoyage automatique, configurez les durées de vie des objets blob sur le conteneur ou utilisez « Bring your own Storage (BYOS) » au lieu de destinationContainerUrl, où les objets blob peuvent être nettoyés.

punctuationMode
punctuationMode PunctuationMode

Mode utilisé pour la ponctuation.

profanityFilterMode
profanityFilterMode ProfanityFilterMode

Mode de filtrage des profanités.

timeToLive
timeToLive string

Durée pendant laquelle la transcription sera conservée dans le système une fois terminée. Une fois que latranscription atteint la durée de vie après l’achèvement (réussie ou ayant échoué), elle est automatiquement supprimée. Ne pas définir cette valeur ou la définir sur 0 désactive la suppression automatique. La plus longue prise en charge est de 31 jours. La durée est encodée en tant que durée ISO 8601 (« PnYnMnDTnHnMnS », voir https://en.wikipedia.org/wiki/ISO_8601#Durations).

diarisation
diarization DiarizationProperties
Identification linguistique -
languageIdentification LanguageIdentificationProperties
Messagerie électronique
email string

Adresse e-mail à laquelle envoyer des notifications par e-mail au cas où l’opération se termine. La valeur est supprimée après l’envoi de l’e-mail.