Freigeben über


Nährstoff - Extrakt aus PDF (Vorschau)

Entsperren Sie leistungsstarke PDF-Text- und Datenextraktion mit Extraktaktionen für Nährstoffdokumentkonverter. Nahtloses Abrufen von Text, Daten, Extrahieren von Schlüsselwertpaaren und Nutzen der OCR-Technologie zum Verarbeiten gescannter Dokumente. Ideal für Indizierung, Suche, Inhaltsanalyse und strukturierte Datenworkflows.

Dieser Connector ist in den folgenden Produkten und Regionen verfügbar:

Dienstleistung Class Regions
Copilot Studio Premium Alle Power Automate-Regionen mit Ausnahme der folgenden Bereiche:
     - US Government (GCC)
     - US Government (GCC High)
     - China Cloud betrieben von 21Vianet
     - US Department of Defense (DoD)
Logik-Apps Norm Alle Logik-Apps-Regionen mit Ausnahme der folgenden Bereiche:
     – Azure Government-Regionen
     - Azure China-Regionen
     - US Department of Defense (DoD)
Power Apps Premium Alle Power Apps-Regionen mit Ausnahme der folgenden:
     - US Government (GCC)
     - US Government (GCC High)
     - China Cloud betrieben von 21Vianet
     - US Department of Defense (DoD)
Power Automate Premium Alle Power Automate-Regionen mit Ausnahme der folgenden Bereiche:
     - US Government (GCC)
     - US Government (GCC High)
     - China Cloud betrieben von 21Vianet
     - US Department of Defense (DoD)
Kontakt
Name Nährstoff (ehemals Muhimbi) Unterstützung
URL https://support.nutrient.io/hc/en-us/requests/new
Email support+low-code@nutrient.io
Connectormetadaten
Herausgeber Muhimbi handele als Nährstoff
Webseite https://www.nutrient.io/low-code/
Datenschutzrichtlinie https://www.nutrient.io/legal/privacy/
Kategorien Zusammenarbeit; Inhalt und Dateien

Extrahieren von Text und Daten aus PDF-Dateien

Mithilfe des Nährstoffdokumentkonverters können Sie Text, Daten oder bestimmte Seiten aus PDF-Dateien als Teil automatisierter Workflows in Power Automate extrahieren. Sie können Text auch mithilfe von OCR aus Bildern extrahieren.

Verfügbare Aktionen

In den verknüpften Leitfäden finden Sie schrittweise Anleitungen zum Implementieren dieser Aktionen in Ihren Workflows.

Voraussetzungen

Für die Verwendung des Nährstoffdokumentkonverters benötigen Sie ein kostenloses Konto oder ein Testkonto . Lesen Sie das Vergleichshandbuch , um die Unterschiede zwischen diesen Kontotypen zu verstehen.

Erste Schritte

Führen Sie die folgenden Schritte aus, um mit der Verwendung des Nutrient Document Converter Connectors zu beginnen:

Bekannte Probleme und Einschränkungen

Dokumente, die durch IRM-, DRM-, RMS- oder AIP-Lösungen geschützt sind, können aufgrund von Sicherheitsbeschränkungen nicht verarbeitet werden.

Für Fragen oder Hilfe wenden Sie sich an unser Supportteam.

Drosselungsgrenzwerte

Name Aufrufe Verlängerungszeitraum
API-Aufrufe pro Verbindung 100 60 Sekunden

Aktionen

Extrahieren von Schlüsselwertpaaren aus einem PDF-Dokument

Identifizieren und Extrahieren von Schlüsselwertpaaren aus Dokumenten für die Verarbeitung von Formularen oder strukturierten Datenworkflows.

Extrahieren von Text aus einem PDF-Dokument

Abrufen von Textinhalten aus PDF-Dokumenten für einfache Indizierung, Suche oder Inhaltsanalyse.

Extrahieren von Text aus einer PDF-Datei mit OCR

Extrahieren Sie Text aus gescannten Dokumenten oder Bildern mithilfe der OCR-Technologie, wodurch sie durchsuchbar und bearbeitbar sind.

Extrahieren von Schlüsselwertpaaren aus einem PDF-Dokument

Identifizieren und Extrahieren von Schlüsselwertpaaren aus Dokumenten für die Verarbeitung von Formularen oder strukturierten Datenworkflows.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Name der Quelldatei
source_file_name True string

Name der Quelldatei einschließlich Erweiterung

Quelldateiinhalt
source_file_content True byte

Inhalt der zu konvertierenden Datei

OCR-Sprache
ocr_language string

Die Sprachcodes für OCR- und KVP-Extraktion, getrennt durch "+". Beispielsweise würden "eng+deu+fra" Englisch, Deutsch und Französisch hinzufügen.

DPI
dpi enum

Entfernen der leeren Seiten in der PDF-Datei

KVP-Ausgabeformat
kvp_format enum

Die Ausgabeformate werden durch Kommas getrennt. KVP-Daten können in JSON, CSV und XML ausgegeben werden. e.g. json,csv,xml

Seitenbereich
page_range string

Die seiten, die von KVP verarbeitet werden sollen. Verwenden Sie die Zeichenfolge "1 - 5" für Die Seiten 1 bis 5, oder verwenden Sie die Zeichenfolge "1, 5, 6", um die Seiten 1 und 5 und 6 anzugeben.

Automatisches Rotieren
autorotate enum

Wenn Sie dies auf "Ja" festlegen, werden Seiten automatisch gedreht, wenn der Text nicht über die richtige Ausrichtung verfügt.

Kürzen von Symbolen
trim_symbols enum

Wenn Sie dies auf "Ja" festlegen, werden alle Symbole vom Anfang/Ende der Werte entfernt, mit Ausnahme des Hashsymbols "#" oder des Punkts "."

Umgebendes Schlüsselfeld einschließen
include_key_bounding_box enum

Einschließen der Begrenzungsfeldwerte für den Schlüssel in die Ausgabe

Umgebendes Feld "Wert einschließen"
include_value_bounding_box enum

Einschließen der Begrenzungsfeldwerte für den Wert in der Ausgabe

Seitenzahl einschließen
include_page_number enum

Seitenzahl für das Schlüsselwertpaar in die Ausgabe einschließen

Konfidenz einschließen
include_confidence enum

Schließen Sie die Konfidenzbewertung für das Schlüsselwertpaar in die Ausgabe ein. Die Konfidenz wird zwischen 0 (keine Konfidenz) und 100 (volle Konfidenz) gemessen.

Konfidenzschwellenwert
confidence_threshold integer

Der Konfidenzschwellenwert, den ein Schlüsselwertpaar erreichen muss, damit es in die Ausgabe aufgenommen werden kann. Ergebnisse unter dem Schwellenwert werden verworfen.

Include Type
include_type enum

Einschließen des Datentyps für das Schlüsselwertpaar in die Ausgabe

Erwartete Schlüssel
expected_keys string

Die JSON-Zeichenfolge mit den erwarteten Schlüsseln und Synonymen

Fehler beim Fehler
fail_on_error boolean

Fehler beim Fehler

Gibt zurück

Antwortdaten für alle Vorgänge

Extrahieren von Text aus einem PDF-Dokument

Abrufen von Textinhalten aus PDF-Dokumenten für einfache Indizierung, Suche oder Inhaltsanalyse.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Name der Quelldatei
source_file_name True string

Name der Quelldatei einschließlich Erweiterung

Quelldateiinhalt
source_file_content True byte

Inhalt der zu konvertierenden Datei

Seitenbereich
page_range string

Der Seitenbereich zum Extrahieren von Text aus z. B. 1,5,8-12

Fehler beim Fehler
fail_on_error boolean

Fehler beim Fehler

Gibt zurück

Antwortdaten für alle Vorgänge

Extrahieren von Text aus einer PDF-Datei mit OCR

Extrahieren Sie Text aus gescannten Dokumenten oder Bildern mithilfe der OCR-Technologie, wodurch sie durchsuchbar und bearbeitbar sind.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Name der Quelldatei
source_file_name True string

Name der Quelldatei einschließlich Erweiterung

Quelldateiinhalt
source_file_content True byte

Inhalt der Datei in OCR

Language
language enum

Language

x-Koordinate
x string

X-Koordinate (in Pts, 1/72 zoll)

y-Koordinate
y string

Y-Koordinate (in Pts, 1/72 zoll)

Breite
width string

Breite des OCR-Bereichs (in Pts, 1/72 zoll)

Höhe
height string

Höhe des OCR-Bereichs (in Pts, 1/72 zoll)

Seitenzahl
page_number string

Seitenzahl (leer lassen, um alle Seiten zu ocrieren)

Leistung
performance enum

Leistung ()

Blacklist / Whitelist
characters_option enum

Option "Zeichen"

Zeichen
characters string

Zeichen zur Blacklist oder Whitelist

Verwenden der Paginierung
paginate boolean

Paginieren

Fehler beim Fehler
fail_on_error boolean

Fehler beim Fehler

Gibt zurück

Antwortdaten für OCRText-Vorgang

Definitionen

ocr_operation_response

Antwortdaten für OCRText-Vorgang

Name Pfad Typ Beschreibung
Textausgang
out_text string

Extrahierter OCRed-Text in Nur-Text.

Basisdateiname
base_file_name string

Name der Eingabedatei ohne Die Erweiterung.

Ergebniscode
result_code enum

Vorgangsergebniscode.

Ergebnisdetails
result_details string

Details zum Vorgangsergebnis.

operation_response

Antwortdaten für alle Vorgänge

Name Pfad Typ Beschreibung
Verarbeiteter Dateiinhalt
processed_file_content byte

Vom Muhimbi-Konverter generierte Datei.

Basisdateiname
base_file_name string

Name der Eingabedatei ohne Die Erweiterung.

Ergebniscode
result_code enum

Vorgangsergebniscode.

Ergebnisdetails
result_details string

Details zum Vorgangsergebnis.