Nährstoff - Extrakt aus PDF (Vorschau)
Entsperren Sie leistungsstarke PDF-Text- und Datenextraktion mit Extraktaktionen für Nährstoffdokumentkonverter. Nahtloses Abrufen von Text, Daten, Extrahieren von Schlüsselwertpaaren und Nutzen der OCR-Technologie zum Verarbeiten gescannter Dokumente. Ideal für Indizierung, Suche, Inhaltsanalyse und strukturierte Datenworkflows.
Dieser Connector ist in den folgenden Produkten und Regionen verfügbar:
| Dienstleistung | Class | Regions |
|---|---|---|
| Copilot Studio | Premium | Alle Power Automate-Regionen mit Ausnahme der folgenden Bereiche: - US Government (GCC) - US Government (GCC High) - China Cloud betrieben von 21Vianet - US Department of Defense (DoD) |
| Logik-Apps | Norm | Alle Logik-Apps-Regionen mit Ausnahme der folgenden Bereiche: – Azure Government-Regionen - Azure China-Regionen - US Department of Defense (DoD) |
| Power Apps | Premium | Alle Power Apps-Regionen mit Ausnahme der folgenden: - US Government (GCC) - US Government (GCC High) - China Cloud betrieben von 21Vianet - US Department of Defense (DoD) |
| Power Automate | Premium | Alle Power Automate-Regionen mit Ausnahme der folgenden Bereiche: - US Government (GCC) - US Government (GCC High) - China Cloud betrieben von 21Vianet - US Department of Defense (DoD) |
| Kontakt | |
|---|---|
| Name | Nährstoff (ehemals Muhimbi) Unterstützung |
| URL | https://support.nutrient.io/hc/en-us/requests/new |
| support+low-code@nutrient.io |
| Connectormetadaten | |
|---|---|
| Herausgeber | Muhimbi handele als Nährstoff |
| Webseite | https://www.nutrient.io/low-code/ |
| Datenschutzrichtlinie | https://www.nutrient.io/legal/privacy/ |
| Kategorien | Zusammenarbeit; Inhalt und Dateien |
Extrahieren von Text und Daten aus PDF-Dateien
Mithilfe des Nährstoffdokumentkonverters können Sie Text, Daten oder bestimmte Seiten aus PDF-Dateien als Teil automatisierter Workflows in Power Automate extrahieren. Sie können Text auch mithilfe von OCR aus Bildern extrahieren.
Verfügbare Aktionen
- Extrahieren von Schlüssel-Wert-Paaren
- Extrahieren von Text mithilfe von OCR
- Extrahieren von Daten aus PDF-Dateien
- Extrahieren von PDF-Seiten
- Extrahieren von Text aus Bildern
- Extrahieren von Text aus PDF-Dateien mithilfe von Power Automate
In den verknüpften Leitfäden finden Sie schrittweise Anleitungen zum Implementieren dieser Aktionen in Ihren Workflows.
Voraussetzungen
Für die Verwendung des Nährstoffdokumentkonverters benötigen Sie ein kostenloses Konto oder ein Testkonto . Lesen Sie das Vergleichshandbuch , um die Unterschiede zwischen diesen Kontotypen zu verstehen.
Erste Schritte
Führen Sie die folgenden Schritte aus, um mit der Verwendung des Nutrient Document Converter Connectors zu beginnen:
- Melden Sie sich für eine 30-tägige Testversion an, indem Sie dieses Formular ausfüllen.
- Nach der Übermittlung des Formulars erhalten Sie eine E-Mail mit Ihren Testaktivierungsdetails.
- Eine exemplarische Vorgehensweise für den Prozess finden Sie im Video "Erste Schritte ".
- Ausführliche Anweisungen finden Sie im Dokumentkonverter für Power Automate-Anleitungen .
- In den Lernprogrammen für Power Automate und Logic Apps finden Sie praktische Beispiele.
Bekannte Probleme und Einschränkungen
Dokumente, die durch IRM-, DRM-, RMS- oder AIP-Lösungen geschützt sind, können aufgrund von Sicherheitsbeschränkungen nicht verarbeitet werden.
Für Fragen oder Hilfe wenden Sie sich an unser Supportteam.
Drosselungsgrenzwerte
| Name | Aufrufe | Verlängerungszeitraum |
|---|---|---|
| API-Aufrufe pro Verbindung | 100 | 60 Sekunden |
Aktionen
| Extrahieren von Schlüsselwertpaaren aus einem PDF-Dokument |
Identifizieren und Extrahieren von Schlüsselwertpaaren aus Dokumenten für die Verarbeitung von Formularen oder strukturierten Datenworkflows. |
| Extrahieren von Text aus einem PDF-Dokument |
Abrufen von Textinhalten aus PDF-Dokumenten für einfache Indizierung, Suche oder Inhaltsanalyse. |
| Extrahieren von Text aus einer PDF-Datei mit OCR |
Extrahieren Sie Text aus gescannten Dokumenten oder Bildern mithilfe der OCR-Technologie, wodurch sie durchsuchbar und bearbeitbar sind. |
Extrahieren von Schlüsselwertpaaren aus einem PDF-Dokument
Identifizieren und Extrahieren von Schlüsselwertpaaren aus Dokumenten für die Verarbeitung von Formularen oder strukturierten Datenworkflows.
Parameter
| Name | Schlüssel | Erforderlich | Typ | Beschreibung |
|---|---|---|---|---|
|
Name der Quelldatei
|
source_file_name | True | string |
Name der Quelldatei einschließlich Erweiterung |
|
Quelldateiinhalt
|
source_file_content | True | byte |
Inhalt der zu konvertierenden Datei |
|
OCR-Sprache
|
ocr_language | string |
Die Sprachcodes für OCR- und KVP-Extraktion, getrennt durch "+". Beispielsweise würden "eng+deu+fra" Englisch, Deutsch und Französisch hinzufügen. |
|
|
DPI
|
dpi | enum |
Entfernen der leeren Seiten in der PDF-Datei |
|
|
KVP-Ausgabeformat
|
kvp_format | enum |
Die Ausgabeformate werden durch Kommas getrennt. KVP-Daten können in JSON, CSV und XML ausgegeben werden. e.g. json,csv,xml |
|
|
Seitenbereich
|
page_range | string |
Die seiten, die von KVP verarbeitet werden sollen. Verwenden Sie die Zeichenfolge "1 - 5" für Die Seiten 1 bis 5, oder verwenden Sie die Zeichenfolge "1, 5, 6", um die Seiten 1 und 5 und 6 anzugeben. |
|
|
Automatisches Rotieren
|
autorotate | enum |
Wenn Sie dies auf "Ja" festlegen, werden Seiten automatisch gedreht, wenn der Text nicht über die richtige Ausrichtung verfügt. |
|
|
Kürzen von Symbolen
|
trim_symbols | enum |
Wenn Sie dies auf "Ja" festlegen, werden alle Symbole vom Anfang/Ende der Werte entfernt, mit Ausnahme des Hashsymbols "#" oder des Punkts "." |
|
|
Umgebendes Schlüsselfeld einschließen
|
include_key_bounding_box | enum |
Einschließen der Begrenzungsfeldwerte für den Schlüssel in die Ausgabe |
|
|
Umgebendes Feld "Wert einschließen"
|
include_value_bounding_box | enum |
Einschließen der Begrenzungsfeldwerte für den Wert in der Ausgabe |
|
|
Seitenzahl einschließen
|
include_page_number | enum |
Seitenzahl für das Schlüsselwertpaar in die Ausgabe einschließen |
|
|
Konfidenz einschließen
|
include_confidence | enum |
Schließen Sie die Konfidenzbewertung für das Schlüsselwertpaar in die Ausgabe ein. Die Konfidenz wird zwischen 0 (keine Konfidenz) und 100 (volle Konfidenz) gemessen. |
|
|
Konfidenzschwellenwert
|
confidence_threshold | integer |
Der Konfidenzschwellenwert, den ein Schlüsselwertpaar erreichen muss, damit es in die Ausgabe aufgenommen werden kann. Ergebnisse unter dem Schwellenwert werden verworfen. |
|
|
Include Type
|
include_type | enum |
Einschließen des Datentyps für das Schlüsselwertpaar in die Ausgabe |
|
|
Erwartete Schlüssel
|
expected_keys | string |
Die JSON-Zeichenfolge mit den erwarteten Schlüsseln und Synonymen |
|
|
Fehler beim Fehler
|
fail_on_error | boolean |
Fehler beim Fehler |
Gibt zurück
Antwortdaten für alle Vorgänge
- Body
- operation_response
Extrahieren von Text aus einem PDF-Dokument
Abrufen von Textinhalten aus PDF-Dokumenten für einfache Indizierung, Suche oder Inhaltsanalyse.
Parameter
| Name | Schlüssel | Erforderlich | Typ | Beschreibung |
|---|---|---|---|---|
|
Name der Quelldatei
|
source_file_name | True | string |
Name der Quelldatei einschließlich Erweiterung |
|
Quelldateiinhalt
|
source_file_content | True | byte |
Inhalt der zu konvertierenden Datei |
|
Seitenbereich
|
page_range | string |
Der Seitenbereich zum Extrahieren von Text aus z. B. 1,5,8-12 |
|
|
Fehler beim Fehler
|
fail_on_error | boolean |
Fehler beim Fehler |
Gibt zurück
Antwortdaten für alle Vorgänge
- Body
- operation_response
Extrahieren von Text aus einer PDF-Datei mit OCR
Extrahieren Sie Text aus gescannten Dokumenten oder Bildern mithilfe der OCR-Technologie, wodurch sie durchsuchbar und bearbeitbar sind.
Parameter
| Name | Schlüssel | Erforderlich | Typ | Beschreibung |
|---|---|---|---|---|
|
Name der Quelldatei
|
source_file_name | True | string |
Name der Quelldatei einschließlich Erweiterung |
|
Quelldateiinhalt
|
source_file_content | True | byte |
Inhalt der Datei in OCR |
|
Language
|
language | enum |
Language |
|
|
x-Koordinate
|
x | string |
X-Koordinate (in Pts, 1/72 zoll) |
|
|
y-Koordinate
|
y | string |
Y-Koordinate (in Pts, 1/72 zoll) |
|
|
Breite
|
width | string |
Breite des OCR-Bereichs (in Pts, 1/72 zoll) |
|
|
Höhe
|
height | string |
Höhe des OCR-Bereichs (in Pts, 1/72 zoll) |
|
|
Seitenzahl
|
page_number | string |
Seitenzahl (leer lassen, um alle Seiten zu ocrieren) |
|
|
Leistung
|
performance | enum |
Leistung () |
|
|
Blacklist / Whitelist
|
characters_option | enum |
Option "Zeichen" |
|
|
Zeichen
|
characters | string |
Zeichen zur Blacklist oder Whitelist |
|
|
Verwenden der Paginierung
|
paginate | boolean |
Paginieren |
|
|
Fehler beim Fehler
|
fail_on_error | boolean |
Fehler beim Fehler |
Gibt zurück
Antwortdaten für OCRText-Vorgang
Definitionen
ocr_operation_response
Antwortdaten für OCRText-Vorgang
| Name | Pfad | Typ | Beschreibung |
|---|---|---|---|
|
Textausgang
|
out_text | string |
Extrahierter OCRed-Text in Nur-Text. |
|
Basisdateiname
|
base_file_name | string |
Name der Eingabedatei ohne Die Erweiterung. |
|
Ergebniscode
|
result_code | enum |
Vorgangsergebniscode. |
|
Ergebnisdetails
|
result_details | string |
Details zum Vorgangsergebnis. |
operation_response
Antwortdaten für alle Vorgänge
| Name | Pfad | Typ | Beschreibung |
|---|---|---|---|
|
Verarbeiteter Dateiinhalt
|
processed_file_content | byte |
Vom Muhimbi-Konverter generierte Datei. |
|
Basisdateiname
|
base_file_name | string |
Name der Eingabedatei ohne Die Erweiterung. |
|
Ergebniscode
|
result_code | enum |
Vorgangsergebniscode. |
|
Ergebnisdetails
|
result_details | string |
Details zum Vorgangsergebnis. |