Nährstoff - Extrakt aus PDF (Vorschau)

Entsperren Sie leistungsstarke PDF-Text- und Datenextraktion mit Extraktaktionen für Nährstoffdokumentkonverter. Nahtloses Abrufen von Text, Daten, Extrahieren von Schlüsselwertpaaren und Nutzen der OCR-Technologie zum Verarbeiten gescannter Dokumente. Ideal für Indizierung, Suche, Inhaltsanalyse und strukturierte Datenworkflows.

Dieser Connector ist in den folgenden Produkten und Regionen verfügbar:

Dienstleistung	Class	Regions
Copilot Studio	Premium	Alle Power Automate-Regionen mit Ausnahme der folgenden Bereiche: - US Government (GCC) - US Government (GCC High) - China Cloud betrieben von 21Vianet - US Department of Defense (DoD)
Logik-Apps	Norm	Alle Logik-Apps-Regionen mit Ausnahme der folgenden Bereiche: – Azure Government-Regionen - Azure China-Regionen - US Department of Defense (DoD)
Power Apps	Premium	Alle Power Apps-Regionen mit Ausnahme der folgenden: - US Government (GCC) - US Government (GCC High) - China Cloud betrieben von 21Vianet - US Department of Defense (DoD)
Power Automate	Premium	Alle Power Automate-Regionen mit Ausnahme der folgenden Bereiche: - US Government (GCC) - US Government (GCC High) - China Cloud betrieben von 21Vianet - US Department of Defense (DoD)

Kontakt
Name	Nährstoff (ehemals Muhimbi) Unterstützung
URL	https://support.nutrient.io/hc/en-us/requests/new
Email	support+low-code@nutrient.io

Connectormetadaten
Herausgeber	Muhimbi handele als Nährstoff
Webseite	https://www.nutrient.io/low-code/
Datenschutzrichtlinie	https://www.nutrient.io/legal/privacy/
Kategorien	Zusammenarbeit; Inhalt und Dateien

Extrahieren von Text und Daten aus PDF-Dateien

Mithilfe des Nährstoffdokumentkonverters können Sie Text, Daten oder bestimmte Seiten aus PDF-Dateien als Teil automatisierter Workflows in Power Automate extrahieren. Sie können Text auch mithilfe von OCR aus Bildern extrahieren.

Verfügbare Aktionen

In den verknüpften Leitfäden finden Sie schrittweise Anleitungen zum Implementieren dieser Aktionen in Ihren Workflows.

Voraussetzungen

Für die Verwendung des Nährstoffdokumentkonverters benötigen Sie ein kostenloses Konto oder ein Testkonto . Lesen Sie das Vergleichshandbuch , um die Unterschiede zwischen diesen Kontotypen zu verstehen.

Erste Schritte

Führen Sie die folgenden Schritte aus, um mit der Verwendung des Nutrient Document Converter Connectors zu beginnen:

Melden Sie sich für eine 30-tägige Testversion an, indem Sie dieses Formular ausfüllen.
Nach der Übermittlung des Formulars erhalten Sie eine E-Mail mit Ihren Testaktivierungsdetails.
Eine exemplarische Vorgehensweise für den Prozess finden Sie im Video "Erste Schritte ".
Ausführliche Anweisungen finden Sie im Dokumentkonverter für Power Automate-Anleitungen .
In den Lernprogrammen für Power Automate und Logic Apps finden Sie praktische Beispiele.

Bekannte Probleme und Einschränkungen

Dokumente, die durch IRM-, DRM-, RMS- oder AIP-Lösungen geschützt sind, können aufgrund von Sicherheitsbeschränkungen nicht verarbeitet werden.

Für Fragen oder Hilfe wenden Sie sich an unser Supportteam.

Drosselungsgrenzwerte

Name	Aufrufe	Verlängerungszeitraum
API-Aufrufe pro Verbindung	100	60 Sekunden

Aktionen

Extrahieren von Schlüsselwertpaaren aus einem PDF-Dokument	Identifizieren und Extrahieren von Schlüsselwertpaaren aus Dokumenten für die Verarbeitung von Formularen oder strukturierten Datenworkflows.
Extrahieren von Text aus einem PDF-Dokument	Abrufen von Textinhalten aus PDF-Dokumenten für einfache Indizierung, Suche oder Inhaltsanalyse.
Extrahieren von Text aus einer PDF-Datei mit OCR	Extrahieren Sie Text aus gescannten Dokumenten oder Bildern mithilfe der OCR-Technologie, wodurch sie durchsuchbar und bearbeitbar sind.

Extrahieren von Schlüsselwertpaaren aus einem PDF-Dokument

Vorgangs-ID:: extract_key_value_pairs

Identifizieren und Extrahieren von Schlüsselwertpaaren aus Dokumenten für die Verarbeitung von Formularen oder strukturierten Datenworkflows.

Parameter

Name	Schlüssel	Erforderlich	Typ	Beschreibung
Name der Quelldatei	source_file_name	True	string	Name der Quelldatei einschließlich Erweiterung
Quelldateiinhalt	source_file_content	True	byte	Inhalt der zu konvertierenden Datei
OCR-Sprache	ocr_language		string	Die Sprachcodes für OCR- und KVP-Extraktion, getrennt durch "+". Beispielsweise würden "eng+deu+fra" Englisch, Deutsch und Französisch hinzufügen.
DPI	dpi		enum	Entfernen der leeren Seiten in der PDF-Datei
KVP-Ausgabeformat	kvp_format		enum	Die Ausgabeformate werden durch Kommas getrennt. KVP-Daten können in JSON, CSV und XML ausgegeben werden. e.g. json,csv,xml
Seitenbereich	page_range		string	Die seiten, die von KVP verarbeitet werden sollen. Verwenden Sie die Zeichenfolge "1 - 5" für Die Seiten 1 bis 5, oder verwenden Sie die Zeichenfolge "1, 5, 6", um die Seiten 1 und 5 und 6 anzugeben.
Automatisches Rotieren	autorotate		enum	Wenn Sie dies auf "Ja" festlegen, werden Seiten automatisch gedreht, wenn der Text nicht über die richtige Ausrichtung verfügt.
Kürzen von Symbolen	trim_symbols		enum	Wenn Sie dies auf "Ja" festlegen, werden alle Symbole vom Anfang/Ende der Werte entfernt, mit Ausnahme des Hashsymbols "#" oder des Punkts "."
Umgebendes Schlüsselfeld einschließen	include_key_bounding_box		enum	Einschließen der Begrenzungsfeldwerte für den Schlüssel in die Ausgabe
Umgebendes Feld "Wert einschließen"	include_value_bounding_box		enum	Einschließen der Begrenzungsfeldwerte für den Wert in der Ausgabe
Seitenzahl einschließen	include_page_number		enum	Seitenzahl für das Schlüsselwertpaar in die Ausgabe einschließen
Konfidenz einschließen	include_confidence		enum	Schließen Sie die Konfidenzbewertung für das Schlüsselwertpaar in die Ausgabe ein. Die Konfidenz wird zwischen 0 (keine Konfidenz) und 100 (volle Konfidenz) gemessen.
Konfidenzschwellenwert	confidence_threshold		integer	Der Konfidenzschwellenwert, den ein Schlüsselwertpaar erreichen muss, damit es in die Ausgabe aufgenommen werden kann. Ergebnisse unter dem Schwellenwert werden verworfen.
Include Type	include_type		enum	Einschließen des Datentyps für das Schlüsselwertpaar in die Ausgabe
Erwartete Schlüssel	expected_keys		string	Die JSON-Zeichenfolge mit den erwarteten Schlüsseln und Synonymen
Fehler beim Fehler	fail_on_error		boolean	Fehler beim Fehler

Gibt zurück

Antwortdaten für alle Vorgänge

Body: operation_response

Extrahieren von Text aus einem PDF-Dokument

Vorgangs-ID:: extract_text

Abrufen von Textinhalten aus PDF-Dokumenten für einfache Indizierung, Suche oder Inhaltsanalyse.

Parameter

Name	Schlüssel	Erforderlich	Typ	Beschreibung
Name der Quelldatei	source_file_name	True	string	Name der Quelldatei einschließlich Erweiterung
Quelldateiinhalt	source_file_content	True	byte	Inhalt der zu konvertierenden Datei
Seitenbereich	page_range		string	Der Seitenbereich zum Extrahieren von Text aus z. B. 1,5,8-12
Fehler beim Fehler	fail_on_error		boolean	Fehler beim Fehler

Gibt zurück

Antwortdaten für alle Vorgänge

Body: operation_response

Extrahieren von Text aus einer PDF-Datei mit OCR

Vorgangs-ID:: ocr_text

Extrahieren Sie Text aus gescannten Dokumenten oder Bildern mithilfe der OCR-Technologie, wodurch sie durchsuchbar und bearbeitbar sind.

Parameter

Name	Schlüssel	Erforderlich	Typ	Beschreibung
Name der Quelldatei	source_file_name	True	string	Name der Quelldatei einschließlich Erweiterung
Quelldateiinhalt	source_file_content	True	byte	Inhalt der Datei in OCR
Language	language		enum	Language
x-Koordinate	x		string	X-Koordinate (in Pts, 1/72 zoll)
y-Koordinate	y		string	Y-Koordinate (in Pts, 1/72 zoll)
Breite	width		string	Breite des OCR-Bereichs (in Pts, 1/72 zoll)
Höhe	height		string	Höhe des OCR-Bereichs (in Pts, 1/72 zoll)
Seitenzahl	page_number		string	Seitenzahl (leer lassen, um alle Seiten zu ocrieren)
Leistung	performance		enum	Leistung ()
Blacklist / Whitelist	characters_option		enum	Option "Zeichen"
Zeichen	characters		string	Zeichen zur Blacklist oder Whitelist
Verwenden der Paginierung	paginate		boolean	Paginieren
Fehler beim Fehler	fail_on_error		boolean	Fehler beim Fehler

Gibt zurück

Antwortdaten für OCRText-Vorgang

Body: ocr_operation_response

Definitionen

ocr_operation_response

Antwortdaten für OCRText-Vorgang

Name	Pfad	Typ	Beschreibung
Textausgang	out_text	string	Extrahierter OCRed-Text in Nur-Text.
Basisdateiname	base_file_name	string	Name der Eingabedatei ohne Die Erweiterung.
Ergebniscode	result_code	enum	Vorgangsergebniscode.
Ergebnisdetails	result_details	string	Details zum Vorgangsergebnis.

operation_response

Antwortdaten für alle Vorgänge

Name	Pfad	Typ	Beschreibung
Verarbeiteter Dateiinhalt	processed_file_content	byte	Vom Muhimbi-Konverter generierte Datei.
Basisdateiname	base_file_name	string	Name der Eingabedatei ohne Die Erweiterung.
Ergebniscode	result_code	enum	Vorgangsergebniscode.
Ergebnisdetails	result_details	string	Details zum Vorgangsergebnis.

Freigeben über

Nährstoff - Extrakt aus PDF (Vorschau)

Extrahieren von Text und Daten aus PDF-Dateien

Verfügbare Aktionen

Voraussetzungen

Erste Schritte

Bekannte Probleme und Einschränkungen

Drosselungsgrenzwerte

Aktionen

Extrahieren von Schlüsselwertpaaren aus einem PDF-Dokument

Parameter

Gibt zurück

Extrahieren von Text aus einem PDF-Dokument

Parameter

Gibt zurück

Extrahieren von Text aus einer PDF-Datei mit OCR

Parameter

Gibt zurück

Definitionen

ocr_operation_response

operation_response