Nutriments - Extraire du PDF (préversion)
Déverrouillez un texte PDF puissant et une extraction de données avec des actions d’extraction de convertisseur de documents nutritifs. Récupérez en toute transparence du texte, des données, extrayez des paires clé-valeur et tirez parti de la technologie OCR pour traiter les documents analysés. Idéal pour l’indexation, la recherche, l’analyse de contenu et les flux de travail de données structurés.
Ce connecteur est disponible dans les produits et régions suivants :
| Service | classe | Régions |
|---|---|---|
| Copilot Studio | Premium | Toutes les régions Power Automate , à l’exception des éléments suivants : - Us Government (GCC) - Us Government (GCC High) - China Cloud géré par 21Vianet - Us Department of Defense (DoD) |
| Applications logiques | Norme | Toutes les régions Logic Apps , à l’exception des suivantes : - Régions Azure Government - Régions Azure Chine - Us Department of Defense (DoD) |
| Power Apps | Premium | Toutes les régions Power Apps , à l’exception des suivantes : - Us Government (GCC) - Us Government (GCC High) - China Cloud géré par 21Vianet - Us Department of Defense (DoD) |
| Power Automate | Premium | Toutes les régions Power Automate , à l’exception des éléments suivants : - Us Government (GCC) - Us Government (GCC High) - China Cloud géré par 21Vianet - Us Department of Defense (DoD) |
| Contact | |
|---|---|
| Nom | Prise en charge des nutriments (anciennement Muhimbi) |
| URL | https://support.nutrient.io/hc/en-us/requests/new |
| Messagerie électronique | support+low-code@nutrient.io |
| Métadonnées du connecteur | |
|---|---|
| Éditeur | Muhimbi trading as Nutrient |
| Site web | https://www.nutrient.io/low-code/ |
| Politique de confidentialité | https://www.nutrient.io/legal/privacy/ |
| Catégories | Collaboration; Contenu et fichiers |
Extraire du texte et des données à partir de fichiers PDF
Le convertisseur de documents nutritifs vous permet d’extraire du texte, des données ou des pages spécifiques à partir de fichiers PDF dans le cadre de flux de travail automatisés dans Power Automate. Vous pouvez également extraire du texte à partir d’images à l’aide d’OCR.
Actions disponibles
- Extraire des paires clé-valeur
- Extraire du texte à l’aide d’OCR
- Extraire des données à partir de fichiers PDF
- Extraire des pages PDF
- Extraire du texte à partir des images
- Extraire du texte à partir de fichiers PDF à l’aide de Power Automate
Reportez-vous aux guides liés pour obtenir des instructions pas à pas sur l’implémentation de ces actions dans vos flux de travail.
Prerequisites
Pour utiliser Le convertisseur de documents nutritifs, vous avez besoin d’un compte gratuit ou d’essai . Reportez-vous au guide de comparaison pour comprendre les différences entre ces types de comptes.
Mise en route
Suivez les étapes ci-dessous pour commencer à utiliser le connecteur Convertisseur de documents nutritifs :
- Inscrivez-vous à une version d’évaluation de 30 jours en remplissant ce formulaire.
- Après avoir envoyé le formulaire, vous recevrez un e-mail contenant les détails de l’activation de votre version d’évaluation.
- Reportez-vous à la vidéo de prise en main pour obtenir une procédure pas à pas du processus.
- Lisez le guide Du convertisseur de documents pour Power Automate pour obtenir des instructions détaillées.
- Explorez les didacticiels Power Automate et Logic Apps pour obtenir des exemples pratiques.
Problèmes connus et limitations
Les documents protégés par IRM, DRM, RMS ou AIP ne peuvent pas être traités en raison de restrictions de sécurité.
Pour toute question ou assistance, contactez notre équipe de support technique.
Limitations
| Nom | Appels | Période de renouvellement |
|---|---|---|
| Appels d’API par connexion | 100 | 60 secondes |
Actions
| Extraire des paires clé-valeur à partir d’un document PDF |
Identifiez et extrayez des paires clé-valeur à partir de documents pour le traitement des formulaires ou des flux de travail de données structurées. |
| Extraire du texte d’un document PDF |
Récupérez du contenu texte à partir de documents PDF pour faciliter l’indexation, la recherche ou l’analyse du contenu. |
| Extraire du texte d’un fichier PDF à l’aide d’OCR |
Extrayez du texte à partir de documents ou d’images numérisés à l’aide de la technologie OCR, ce qui les rend accessibles à la recherche et modifiables. |
Extraire des paires clé-valeur à partir d’un document PDF
Identifiez et extrayez des paires clé-valeur à partir de documents pour le traitement des formulaires ou des flux de travail de données structurées.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Nom du fichier source
|
source_file_name | True | string |
Nom du fichier source, y compris l’extension |
|
Contenu du fichier source
|
source_file_content | True | byte |
Contenu du fichier à convertir |
|
Langue OCR
|
ocr_language | string |
Codes de langue pour l’extraction OCR et KVP, séparés par « + ». Par exemple, « eng+deu+fra » ajouterait l’anglais, l’allemand et le français. |
|
|
DPI
|
dpi | enum |
Supprimer les pages vides au format PDF |
|
|
Format de sortie KVP
|
kvp_format | enum |
Formats de sortie séparés par des virgules. Les données KVP peuvent être sorties au format JSON, CSV et XML. e.g. json,csv,xml |
|
|
Plage de pages
|
page_range | string |
Pages à traiter par KVP. Utilisez la chaîne « 1 à 5 » pour les pages 1 à 5, ou utilisez la chaîne « 1, 5, 6 » pour spécifier les pages 1 et 5 et 6. |
|
|
Rotation automatique
|
autorotate | enum |
La définition de cette valeur sur « Oui » fait pivoter automatiquement les pages si le texte n’a pas l’orientation correcte. |
|
|
Découper les symboles
|
trim_symbols | enum |
La définition de ce paramètre sur « Oui » supprime tous les symboles du début/fin des valeurs, à l’exception des symboles de hachage « # » ou « . ». |
|
|
Inclure une zone englobante de clé
|
include_key_bounding_box | enum |
Inclure les valeurs de zone englobante pour la clé dans la sortie |
|
|
Inclure une zone englobante de valeurs
|
include_value_bounding_box | enum |
Inclure les valeurs de zone englobante pour la valeur dans la sortie |
|
|
Inclure le numéro de page
|
include_page_number | enum |
Inclure le numéro de page de la paire clé-valeur dans la sortie |
|
|
Inclure la confiance
|
include_confidence | enum |
Incluez le score de confiance pour la paire clé-valeur dans la sortie. La confiance est mesurée entre 0 (aucune confiance) et 100 (confiance totale). |
|
|
Seuil de confiance
|
confidence_threshold | integer |
Le seuil de confiance qu’une paire clé valeur doit atteindre pour être incluse dans la sortie. Les résultats sous le seuil sont ignorés. |
|
|
Inclure le type
|
include_type | enum |
Inclure le type de données de la paire clé-valeur dans la sortie |
|
|
Clés attendues
|
expected_keys | string |
Chaîne JSON contenant les clés et synonymes attendus |
|
|
Échec de l’erreur
|
fail_on_error | boolean |
Échec de l’erreur |
Retours
Données de réponse pour toutes les opérations
- Corps
- operation_response
Extraire du texte d’un document PDF
Récupérez du contenu texte à partir de documents PDF pour faciliter l’indexation, la recherche ou l’analyse du contenu.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Nom du fichier source
|
source_file_name | True | string |
Nom du fichier source, y compris l’extension |
|
Contenu du fichier source
|
source_file_content | True | byte |
Contenu du fichier à convertir |
|
Plage de pages
|
page_range | string |
Plage de pages à extraire du texte de 1,5,8-12 |
|
|
Échec de l’erreur
|
fail_on_error | boolean |
Échec de l’erreur |
Retours
Données de réponse pour toutes les opérations
- Corps
- operation_response
Extraire du texte d’un fichier PDF à l’aide d’OCR
Extrayez du texte à partir de documents ou d’images numérisés à l’aide de la technologie OCR, ce qui les rend accessibles à la recherche et modifiables.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Nom du fichier source
|
source_file_name | True | string |
Nom du fichier source, y compris l’extension |
|
Contenu du fichier source
|
source_file_content | True | byte |
Contenu du fichier en OCR |
|
Language
|
language | enum |
Language |
|
|
Coordonnée X
|
x | string |
Coordonnée X (en pts, 1/72 d’un pouce) |
|
|
Coordonnée Y
|
y | string |
Coordonnée Y (en pts, 1/72 d’un pouce) |
|
|
Largeur
|
width | string |
Largeur de la zone OCR (en pts, 1/72 pouces) |
|
|
Hauteur
|
height | string |
Hauteur de la zone OCR (en Pts, 1/72 d’un pouce) |
|
|
Nombre de pages
|
page_number | string |
Numéro de page (laissez vide pour ocr toutes les pages) |
|
|
Performance
|
performance | enum |
Performances () |
|
|
Liste rouge/liste verte
|
characters_option | enum |
Option Caractères |
|
|
Caractères
|
characters | string |
Caractères à mettre sur liste rouge ou liste verte |
|
|
Utiliser la pagination
|
paginate | boolean |
Paginer |
|
|
Échec de l’erreur
|
fail_on_error | boolean |
Échec de l’erreur |
Retours
Données de réponse pour l’opération OCRText
- Corps
- ocr_operation_response
Définitions
ocr_operation_response
Données de réponse pour l’opération OCRText
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
Texte sortant
|
out_text | string |
Texte OCRed extrait en texte brut. |
|
Nom du fichier de base
|
base_file_name | string |
Nom du fichier d’entrée sans l’extension. |
|
Code de résultat
|
result_code | enum |
Code de résultat de l’opération. |
|
Détails du résultat
|
result_details | string |
Détails du résultat de l’opération. |
operation_response
Données de réponse pour toutes les opérations
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
Contenu du fichier traité
|
processed_file_content | byte |
Fichier généré par le convertisseur Muhimbi. |
|
Nom du fichier de base
|
base_file_name | string |
Nom du fichier d’entrée sans l’extension. |
|
Code de résultat
|
result_code | enum |
Code de résultat de l’opération. |
|
Détails du résultat
|
result_details | string |
Détails du résultat de l’opération. |