Delen via


Aquaforest PDF

Aquaforest PDF-connector bevat een groep acties die verschillende PDF-bewerkingen uitvoeren, zoals splitsen, tekstextractie, streepjescodeextractie en OCR-bewerkingen voor Office 365 en Power Automate.

Deze connector is beschikbaar in de volgende producten en regio's:

Dienst Class Regions
Copilot Studio Premium Alle Power Automate-regio's , met uitzondering van het volgende:
     - Amerikaanse overheid (GCC)
     - Amerikaanse overheid (GCC High)
     - China Cloud beheerd door 21Vianet
     - Us Department of Defense (DoD)
Logic-apps Standaard Alle Logic Apps-regio's , met uitzondering van het volgende:
     - Azure Government-regio's
     - Azure China-regio's
     - Us Department of Defense (DoD)
Power Apps Premium Alle Power Apps-regio's , met uitzondering van het volgende:
     - Amerikaanse overheid (GCC)
     - Amerikaanse overheid (GCC High)
     - China Cloud beheerd door 21Vianet
     - Us Department of Defense (DoD)
Power Automate Premium Alle Power Automate-regio's , met uitzondering van het volgende:
     - Amerikaanse overheid (GCC)
     - Amerikaanse overheid (GCC High)
     - China Cloud beheerd door 21Vianet
     - Us Department of Defense (DoD)
Contactpersoon
Naam Ondersteuning voor Aquaforest
URL https://www.aquaforest.com/en/aquaforest-flow-doc.asp
E-mailen support@aquaforest.com
Connector-metagegevens
Uitgever Aquaforest Limited
Webpagina https://www.aquaforest.com/en/aquaforest-connector.asp
Privacybeleid https://www.aquaforest.com/en/privacy policy.pdf
Categorieën Inhoud en bestanden; Gegevens

Aquaforest PDF-connector bevat een groep acties waarmee verschillende PDF-bewerkingen worden uitgevoerd, zoals splitsen, tekstextractie, barcodeextractie en OCR-bewerkingen voor Office 365 en Flow.

Vereiste voorwaarden

Allereerst moet u een Aquaforest PDF-API-account maken. Dit account wordt gebruikt voor het beheren van Aquaforest PDF Actions en Aquaforest PDF API. Gebruik uw actieve e-mailadres, omdat het abonnement wordt gekoppeld aan dit adres. Als u al een account hebt, meldt u zich hier aan.

Referenties ophalen

  1. Meld u aan bij de ontwikkelaarsportal, ga naar de pagina Producten en selecteer het product waarop u zich wilt abonneren.

  2. Klik op de knop Abonneren

  3. Klik op de knop Bevestigen om uw abonnementsaanvraag te bevestigen

  4. U hebt toegang tot uw API-sleutels op uw profielpagina

Een verbinding maken

De connector ondersteunt de volgende verificatietypen:

standaard Parameters voor het maken van verbinding. Alle regio's Niet deelbaar

Verstek

Van toepassing: Alle regio's

Parameters voor het maken van verbinding.

Dit is geen deelbare verbinding. Als de power-app wordt gedeeld met een andere gebruiker, wordt een andere gebruiker gevraagd om expliciet een nieuwe verbinding te maken.

Naam Typologie Description Verplicht
API-sleutel beveiligde string De API-sleutel voor deze API Klopt

Beperkingslimieten

Name Aanroepen Verlengingsperiode
API-aanroepen per verbinding 100 60 seconden

Acties

Gegevens ophalen uit PDF

Met deze actie worden belangrijke gegevens uit PDF-bestanden geëxtraheerd in de vorm van sleutel-waardeparen.

OCR PDF of afbeeldingen

Genereer doorzoekbare PDF op basis van een afbeeldings-PDF of gescande afbeeldingen. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor meer informatie.

PDF-eigenschappen ophalen

Haalt de informatie over een PDF-bestand op

PDF-pagina's extraheren op streepjescode

PAK PDF-bestanden op basis van streepjescodeovereenkomsten die door de gebruiker zijn gedefinieerd. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor meer informatie.

PDF-pagina's extraheren op tekst

PAK PDF-bestanden op basis van tekstovereenkomsten die door de gebruiker zijn gedefinieerd. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor meer informatie.

PDF splitsen op pagina

Hiermee worden PDF-bestanden gesplitst op basis van splitsopties die door de gebruiker zijn gedefinieerd. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor documentatie.

PDF splitsen op streepjescode

Splitst PDF-bestanden op basis van streepjescodeovereenkomsten die door de gebruiker zijn gedefinieerd. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor documentatie. Daarnaast is de Aquaforest Zoneal Extraction Tool beschikbaar op [https://www.aquaforest.com/en/zone/get-pdf-zone.html].

PDF splitsen op tekstovereenkomst

Splitst PDF-bestanden op basis van tekstovereenkomsten die door de gebruiker zijn gedefinieerd. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor documentatie. Daarnaast is de Aquaforest Zoneal Extraction Tool beschikbaar op [https://www.aquaforest.com/en/zone/get-pdf-zone.html].

Streepjescodewaarde ophalen

Streepjescode ophalen uit PDF. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor meer informatie.

Tekst ophalen uit PDF

Tekst ophalen uit PDF-bestanden op basis van de tekstlocatie en reguliere expressies. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor meer informatie.

Gegevens ophalen uit PDF

Met deze actie worden belangrijke gegevens uit PDF-bestanden geëxtraheerd in de vorm van sleutel-waardeparen.

Parameters

Name Sleutel Vereist Type Description
Naam
settingName True string

Voer hier de naam van de instelling in

Waarde
settingValue True string

Voer hier de waarde van de instelling in.

Confidence Score (Betrouwbaarheidsscore)
confidenceScore number

Stel een hogere betrouwbaarheidsscore in om waarden met een lagere betrouwbaarheid te filteren. U kunt elke waarde tussen 0 en 1 instellen. We raden u aan te beginnen vanaf 0,5

Datumconversie
dateAsISO string

Selecteer de notatie voor het retourneren van de datumwaarde als

Verwachte sleutels
expectedKeys string

Geef één sleutelnaam per regel op om waarden beschikbaar te maken voor latere acties zonder JSON te parseren.

Bestandsinhoud
fileContent True byte

De inhoud van het bronbestand

Paginalimiet
pageLimit integer

Maximum aantal pagina's dat moet worden verwerkt

Paginabereik
pageRange string

Een tekenreeksweergave van de paginanummers die u wilt verwerken. Bijvoorbeeld 1,3-4

Symbool voor stripvaluta
stripCurrencySymbol boolean

Stel dit in op true als u wilt dat de symbolen en tekenreeksen worden verwijderd voordat we valutawaarden retourneren

Synoniem vergelijken
synonym boolean

Stel dit in op true als u wilt dat we alle sleutels retourneren die synoniemen zijn voor de verwachte sleutel.

Synoniemenwoordenlijst
synonymDictionary string

U kunt een JSON-matrix van 'invoerobjecten' opgeven, waarbij elk object een lijst met synoniemen in een matrix bevat. Als u bijvoorbeeld 'Factuurnummer' en 'Factuurnummer' (niet hoofdlettergevoelig) wilt interpreteren als dezelfde sleutel, gebruikt u de volgende JSON: [{'entry': [ 'Factuurnummer', 'factuurnummer' ]}]

Symbolen knippen
trimSymbols boolean

Stel dit in op true als u wilt dat we alle voorloop- en volgsymbolen verwijderen uit de sleutels die zijn gevonden voordat we deze koppelen aan een verwachte sleutel.

Retouren

De uitvoer van deze bewerking is dynamisch.

OCR PDF of afbeeldingen

Genereer doorzoekbare PDF op basis van een afbeeldings-PDF of gescande afbeeldingen. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor meer informatie.

Parameters

Name Sleutel Vereist Type Description
AquaforestImageTimeout
aquaforestImageTimeout integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

Author
author string

Stel een aangepaste auteur in de eigenschappen van het PDF-uitvoerdocument in.

Automatisch draaien
autorotate boolean

De afbeelding automatisch draaien– dit zorgt ervoor dat alle tekst normaal gesproken wordt georiënteerd

Binariseren
binarize integer

Deze waarde mag over het algemeen alleen worden gebruikt onder begeleiding van technische ondersteuning. Hiermee kunt u bepalen hoe kleurafbeeldingen worden verwerkt en binarisatie afdwingen met een bepaalde drempelwaarde. Een waarde van 200 is gebleken om over het algemeen goede resultaten te geven bij het testen, maar dit moet worden bevestigd met 'typische' klantdocumenten. Door dit in te stellen op -1 wordt een alternatieve methode gebruikt waarmee wordt geprobeerd de tekst te scheiden van achtergrondafbeeldingen of -kleuren. Dit kan betere OCR-resultaten opleveren voor bepaalde documenten, zoals kranten- en tijdschriftpagina's.

Zwarte pixellimiet
blackPixelLimit float

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

Drempelwaarde voor lege pagina
blankPageThreshold integer

Gebruik deze optie om het minimumaantal 'Op pixels' in te stellen dat aanwezig moet zijn in de afbeelding, zodat een pagina niet als leeg moet worden beschouwd. Met een waarde van -1 wordt de detectie van lege pagina's uitgeschakeld.

Vakgrootte
boxSize integer

Deze optie is ideaal voor formulieren waarbij soms vakken rond tekst ertoe kunnen leiden dat een gebied wordt geïdentificeerd als afbeeldingen. Met deze optie worden vakken verwijderd uit de tijdelijke kopie van de afbeelding die wordt gebruikt door de OCR-engine. Er worden geen vakken uit de uiteindelijke afbeelding verwijderd. Technisch gezien worden met deze optie verbonden elementen verwijderd met een minimumgebied (in pixels en gedefinieerd door deze eigenschap). Deze optie wordt momenteel alleen toegepast op bi-tonale afbeeldingen.

ConvertToTiff
convertToTiff boolean

Elke pagina in het PDF-document wordt gerasterd naar een TIFF-afbeelding.

CreateProcess
createProcess boolean

Stel dit in op true als u het proces via pinvoke wilt starten.

Aanmaakdatum
creationDate string

Stel een aangepaste aanmaakdatum in de eigenschappen van het PDF-uitvoerdocument in. De datumtekenreeks moet de notatie 'jjjj-MM-dd UU:mm:ss' hebben.

Bureauew
deskew boolean

Deskew (rechte) het beeld.

Despeckle
despeckle integer

Hiermee verwijdert u alle niet-verbonden elementen in de afbeelding met een hoogte of breedte in pixels die kleiner zijn dan de opgegeven afbeelding. De maximumwaarde is 9 en de standaardwaarde is 0.

DictionaryLookup
dictionaryLookup integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

Dotmatrix
dotmatrix boolean

Stel dit in op True om de herkenning van dot-matrixlettertypen te verbeteren. De standaardwaarde is onwaar. Als deze optie is ingesteld op waar voor niet-puntmatrixlettertypen, kan de herkenning slecht zijn.

Foutopsporingsuitvoer inschakelen
enableDebugOutput boolean

Hiermee schakelt u foutopsporingsuitvoer in.

PDF comprimeren (MRC)
enableMrc boolean

Hierdoor is mixed rastercompressie mogelijk, waardoor de uitvoergrootte van PDF-bestanden die bestaan uit kleurscans aanzienlijk kan worden verkleind. Houd er rekening mee dat deze optie alleen geschikt is wanneer de bron geen PDF is of ConvertToTiff gebruikt.

PDF/A-uitvoer
enablePDFAOutput boolean

Of u wel of niet als PDF/A wilt uitvoeren.

Foutmodus
errorMode integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

Inhoud van bronbestand
fileContent True byte

Inhoud van het bestand naar OCR

Naam van bronbestand met extensie
fileNameWithExtension True string

De naam van het bronbestand met extensie of alleen de extensie (met een voorloopperiode '.')

Flip detecteren
flipDetect integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

Kwaliteit van grijswaarden
grayscaleQuality integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

Heuristiek
heuristics integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

Jbig2EncFlags
jbig2EncFlags string

Dit zijn de vlaggen die worden doorgegeven aan de toepassing die wordt gebruikt voor het genereren van JBIG2-versies van afbeeldingen die worden gebruikt in pdf-generatie (ervan uitgaande dat deze compressie is ingeschakeld). Deze optie mag over het algemeen alleen worden gebruikt onder begeleiding van technische ondersteuning.

Language
language enum

Als u een van de onderstaande opties selecteert, wordt de taal ingesteld die moet worden gebruikt voor de OCR-verwerking. De standaardtaal is Engels.

LibTiffSavePageAsBmp
libTiffSavePageAsBmp boolean

Als er een afbeelding is die 1bpp is en LZW-compressie heeft, kan de voorverwerking ertoe leiden dat de kleur van de afbeelding wordt omgekeerd (zwart naar wit en wit naar zwart). Stel dit in op Waar om dit te voorkomen.

Maximum aantal bureauewnoten
maxDeskew float

Maximale hoek waarmee een pagina wordt gedeskewd. Deze optie mag over het algemeen alleen worden gebruikt onder begeleiding van technische ondersteuning (support@aquaforest.com).

Minimale betrouwbaarheid van de deskew
minDeskewConfidence float

Deze optie mag over het algemeen alleen worden gebruikt onder begeleiding van technische ondersteuning (support@aquaforest.com).

Gewijzigd op
modifiedDate string

Stel een aangepaste gewijzigde datum in de eigenschappen van het PDF-uitvoerdocument in. De datumtekenreeks moet de notatie 'jjjj-MM-dd UU:mm:ss' hebben.

Morph
morph string

Morfologische opties die worden toegepast op de binarized afbeelding vóór OCR. Als deze optie is ingesteld op leeg, wordt er geen toegepast. Algemene opties zijn hieronder vermeld, maar neem contact op met support@aquaforest.commeer opties.

MrcBackgroundFactor
mrcBackgroundFactor integer

Steekproefgrootte voor het achtergrondgedeelte van de afbeelding. Hoe hoger het getal, hoe groter de grootte van de afbeeldingsblokken die worden gebruikt voor gemiddelden, wat resulteert in een vermindering van de grootte, maar ook kwaliteit. De standaardwaarde is 3

MrcForegroundFactor
mrcForegroundFactor integer

Steekproefgrootte voor het voorgrondgedeelte van de afbeelding. Hoe hoger het getal, hoe groter de grootte van de afbeeldingsblokken die worden gebruikt voor gemiddelden, wat resulteert in een vermindering van de grootte, maar ook kwaliteit. De standaardwaarde is 3

MrcQuality
mrcQuality integer

Jpeg-kwaliteitsinstelling (percentagewaarde 1 - 100) voor gebruik bij het opslaan van de achtergrond- en voorgrondafbeeldingen. De standaardwaarde is 75

MrcTimeout
mrcTimeout integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

NoPictures
noPictures boolean

Als een gebied van het document standaard wordt geïdentificeerd als een grafisch gebied, wordt er geen OCR-verwerking uitgevoerd op dat gebied. Bepaalde documenten kunnen echter gebieden of vakken bevatten die worden aangeduid als 'grafische' of 'afbeelding'-gebieden, maar die wel nuttige tekst bevatten. Als u NoPictures instelt op True, worden gebieden genegeerd die zijn geïdentificeerd als afbeeldingen, terwijl het instellen op False de OCR van gebieden dwingt die zijn geïdentificeerd als afbeeldingen.

OcrProcessSetupTimeout
ocrProcessSetupTimeout integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

OcrTimeout
ocrTimeout integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

Wachtwoord
password string

Het wachtwoord voor het openen van het bron-PDF-bestand

PdfToImageBpp
pdfToImageBpp enum

De Bits Per Pixel die moet worden gebruikt voor de gerasterde PDF-pagina bij het gebruik van engine 1. Dit geldt alleen voor documenten die worden verwerkt met Behulp van ConvertToTiff. De standaardwaarde voor deze eigenschap is afkomstig van de PDF-pagina.

PdfToImageCompression
pdfToImageCompression enum

De compressie die moet worden ingesteld op de afbeeldingen die zijn geëxtraheerd of gerasterd vanaf elke pagina van het bron-PDF-bestand. Deze afbeeldingen zijn vervolgens OCRed om het doorzoekbare PDF-bestand te maken. De standaardwaarde voor deze eigenschap is afkomstig van elke pagina in het PDF-bronbestand.

PdfToImageDpi
pdfToImageDpi enum

De DPI die moet worden ingesteld op de afbeeldingen die vanaf elke pagina van het PDF-bronbestand worden gerasterd. Deze afbeeldingen zijn vervolgens OCRed om het doorzoekbare PDF-bestand te maken. De standaardwaarde voor deze eigenschap is afkomstig van elke pagina in het PDF-bronbestand.

PdfToImageForceVectorCheck
pdfToImageForceVectorCheck boolean

Deze instelling is handig bij het verwerken van documenten die vectorobjecten bevatten (bijvoorbeeld CAD-tekeningen). Pagina's die alleen vectorobjecten bevatten, worden standaard gerasterd. Pagina's die geen afbeeldingen hebben, maar vectorobjecten en elektronische tekst bevatten, worden overgeslagen door rasterisering. Soms kan er echter een pagina zijn die vectorobjecten (CAD-tekeningen) bevat, maar de titel ervan kan in elektronische tekst staan. Als u wilt afdwingen dat pagina's als deze worden gerasterd, stelt u deze eigenschap in op waar.

PdfToImageIncludeText
pdfToImageIncludeText boolean

Als deze optie is ingesteld op Onwaar, wordt voorkomen dat de conversie van echte tekst (elektronisch gegenereerd in plaats van tekst die deel uitmaakt van een gescande afbeelding) wordt weergegeven in de paginaafbeeldingen die zijn geëxtraheerd uit het PDF-bestand. Dit komt doordat de tekst al doorzoekbaar is en dus over het algemeen geen OCR vereist. De waarde kan worden ingesteld op Waar, maar als de OCR vereist is voor deze echte tekst.

PdfToImageMaxRes
pdfToImageMaxRes integer

De maximale resolutie van de rasterafbeeldingen. Als de resolutie die is opgehaald van de PDF-pagina groter is dan deze waarde, wordt deze ingesteld op deze waarde. De standaardwaarde voor deze eigenschap is 600.

PdfToImageMinRes
pdfToImageMinRes integer

De minimale resolutie van de rasterafbeeldingen. Als de resolutie die is opgehaald van de PDF-pagina lager is dan deze waarde, wordt deze ingesteld op deze waarde. De standaardwaarde voor deze eigenschap is 200.

PDF/A-versie
pdfaVersion enum

De PDF/A-versie.

PipeClientConnectionTimeout
pipeClientConnectionTimeout integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

RemoveBlankPage
removeBlankPage boolean

Verwijder lege pagina's wanneer BlankPageThreshold groter is dan -1 en ConvertToTiff waar is.

RemoveLines
removeLines boolean

Verwijder lijnen uit afbeeldingen met betere herkenning.

RestartEngineEvery
restartEngineEvery integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

Bladwijzers behouden
retainBookmarks boolean

Behoudt bladwijzers uit het bronbestand in de uitvoer wanneer u ConvertToTiff gebruikt.

Aanmaakdatum behouden
retainCreationDate boolean

Behoudt de aanmaakdatum van het bronbestand in de eigenschappen van het PDF-uitvoerdocument.

Metagegevens behouden
retainMetadata boolean

Bewaart metagegevens uit het bronbestand in de uitvoer wanneer u ConvertToTiff gebruikt.

Gewijzigde datum behouden
retainModifiedDate boolean

Behoudt de gewijzigde datum van het bronbestand in de eigenschappen van het PDF-uitvoerdocument.

Voorkeuren voor viewer behouden
retainViewerPreferences boolean

Behoudt alle voorkeuren voor PDF-viewer, paginamodus en pagina-indeling uit het bronbestand in de uitvoer wanneer u ConvertToTiff gebruikt.

SavePredespeckle
savePredespeckle boolean

Hiermee wordt de oorspronkelijke afbeelding (bijvoorbeeld voor het toepassen van voorverwerking) gebruikt in de pdf-uitvoer.

Tables
tables boolean

Met deze optie als deze optie is ingesteld op true, wordt geprobeerd OCR binnen tabelcellen te gebruiken.

TextLayerFilterHeight
textLayerFilterHeight integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

TextLayerFilterHeightInverted
textLayerFilterHeightInverted integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

TextLayerFilterPercentage
textLayerFilterPercentage float

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

TextLayerFilterPercentageInverted
textLayerFilterPercentageInverted float

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

TextLayerFilterRatio
textLayerFilterRatio float

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

TextLayerFilterRatioInverted
textLayerFilterRatioInverted float

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

TextLayerFilterWidth
textLayerFilterWidth integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

TextLayerFilterWidthInverted
textLayerFilterWidthInverted integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

TextLayerMaxBoxes
textLayerMaxBoxes integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

Opgeruimde modus
tidyUpMode integer

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

PDF/A valideren
validatePDFA boolean

Of het PDF/A-document na conversie wel of niet moet worden gevalideerd

Drempelwaarde voor overeenkomst in Word
wordMatchThreshold float

Neem contact op met de technische ondersteuning (support@aquaforest.com) voor hulp bij het gebruik van deze eigenschap.

Retouren

Antwoordgegevens voor OCR-bewerking

PDF-eigenschappen ophalen

Haalt de informatie over een PDF-bestand op

Parameters

Name Sleutel Vereist Type Description
Bestandsinhoud
fileContent True byte

De inhoud van het bronbestand

Paginalimiet
pageLimit integer

Maximum aantal pagina's dat moet worden verwerkt, dit wordt alleen gebruikt om te controleren of pagina's verborgen tekst bevatten of om te controleren of PDF doorzoekbaar is

Retouren

PDF-pagina's extraheren op streepjescode

PAK PDF-bestanden op basis van streepjescodeovereenkomsten die door de gebruiker zijn gedefinieerd. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor meer informatie.

Parameters

Name Sleutel Vereist Type Description
Bestandsinhoud
fileContent True byte

De inhoud van het bronbestand

Bestandsnaamsjabloon
fileNameTemplate True string

Sjabloon voor het uitvoerbestand als streepjescode is gevonden

Geen bestandssjabloon
noTextFileName True string

Sjabloon voor het uitvoerbestand als er geen streepjescode is gevonden

Bestandsnaam
sourceFileName True string

De naam van het bronbestand

Typologie
barcodeFormats array of string

Geef de typen streepjescode op die u wilt identificeren

Locatie
location True string

Gebied van de pagina - gebruik het hulpprogramma Zonegebonden om coördinaten te verkrijgen: [https://www.aquaforest.com/en/zone/get-pdf-zone.html]

Patroon
regex string

Als hier een reguliere expressie wordt opgegeven, komen we overeen met elke geëxtraheerde streepjescode en retourneren we de overeenkomst.

Retouren

PDF-pagina's extraheren op tekst

PAK PDF-bestanden op basis van tekstovereenkomsten die door de gebruiker zijn gedefinieerd. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor meer informatie.

Parameters

Name Sleutel Vereist Type Description
Bestandsinhoud
fileContent True byte

De inhoud van het bronbestand

Bestandsnaamsjabloon
fileNameTemplate True string

Sjabloon voor het uitvoerbestand als de tekst overeenkomt

Geen bestandssjabloon
noTextFileName True string

Sjabloon voor het uitvoerbestand als er geen tekstovereenkomst is gevonden

Bestandsnaam
sourceFileName True string

De naam van het bronbestand

Waarde
expression array of string

Geef hier een of meer waarden op die moeten worden gebruikt met de bovenstaande eigenschap. We retourneren de eerste tekstwaarde die overeenkomt met de bovenstaande regel.

Locatie
location True string

Gebied van de pagina - gebruik het hulpprogramma Zonegebonden om coördinaten te verkrijgen: [https://www.aquaforest.com/en/zone/get-pdf-zone.html]

Selecteren
position string

Gebruik deze optie om de tekst die u extraheert te verfijnen, een optie te selecteren die overeenkomt met uw vereisten

Patroon
regex string

Als hier een reguliere expressie wordt opgegeven, worden alle geëxtraheerde tekst eraan gekoppeld en wordt de overeenkomst geretourneerd.

Retouren

PDF splitsen op pagina

Hiermee worden PDF-bestanden gesplitst op basis van splitsopties die door de gebruiker zijn gedefinieerd. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor documentatie.

Parameters

Name Sleutel Vereist Type Description
Bestandsinhoud
fileContent True byte

De inhoud van het bronbestand.

Naam van uitvoerbestand
fileNameTemplate True string

Doelbestandssjabloon die %UNIQUEn kan bevatten (uniek getal beginnend bij 1, nul opgevuld tot n cijfers) en %FILENAME (oorspronkelijke bestandsnaam zonder de extensie).

Bestandsnaam
sourceFileName True string

De naam van het bronbestand.

Splitstype
splitOption True string

Kies de splitsbewerking die u voor elk bestand wilt gebruiken.

Paginabereik
pageRange string

Reeks paginabereiken gescheiden door komma's die bepalen welke pagina's uit het origineel moeten worden geëxtraheerd.

Herhaal elke
repeatEvery integer

Pas het paginabereik toe op elke set paginabereiken in het document. Als bijvoorbeeld 2-4 is opgegeven voor paginabereiken en 4 wordt opgegeven als herhalend bereik, wordt het bereik elke vier pagina's opnieuw toegepast.

Bladwijzers behouden
retainBookmarks boolean

Gegenereerde bestanden bevatten bladwijzers uit het oorspronkelijke bestand.

Metagegevens behouden
retainMetadata boolean

Gegenereerde bestanden bevatten metagegevens (zoals Auteur en Titel) uit het oorspronkelijke bestand.

Retouren

PDF splitsen op streepjescode

Splitst PDF-bestanden op basis van streepjescodeovereenkomsten die door de gebruiker zijn gedefinieerd. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor documentatie. Daarnaast is de Aquaforest Zoneal Extraction Tool beschikbaar op [https://www.aquaforest.com/en/zone/get-pdf-zone.html].

Parameters

Name Sleutel Vereist Type Description
Bestandsinhoud
fileContent True byte

De inhoud van het bronbestand

Bestandsnaamsjabloon
fileNameTemplate True string

Sjabloon voor het uitvoerbestand als streepjescode is gevonden

Pagina's zonder overeenkomst
noMatch string

Afhankelijk van de splitsoptie die u hierboven kiest, hebben sommige pagina's geen streepjescodewaarde. Kies wat u wilt doen op deze pagina's.

Geen sjabloon voor overeenkomst met streepjescodes
noTextFileName True string

Sjabloon voor het uitvoerbestand als er geen streepjescode is gevonden

Bestandsnaam
sourceFileName True string

De naam van het bronbestand

Opties voor uitvoerbestand
splitOption string

Gebruik deze optie om de tekst die u extraheert te verfijnen, een optie te selecteren die overeenkomt met uw vereisten

Typologie
barcodeFormats array of string

Geef de typen streepjescode op die u wilt identificeren

Locatie
location True string

Gebied van de pagina - gebruik het hulpprogramma Zonegebonden om coördinaten te verkrijgen: [https://www.aquaforest.com/en/zone/get-pdf-zone.html]

Patroon
regex string

Als hier een reguliere expressie wordt opgegeven, komen we overeen met elke geëxtraheerde streepjescode en retourneren we de overeenkomst.

Retouren

PDF splitsen op tekstovereenkomst

Splitst PDF-bestanden op basis van tekstovereenkomsten die door de gebruiker zijn gedefinieerd. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor documentatie. Daarnaast is de Aquaforest Zoneal Extraction Tool beschikbaar op [https://www.aquaforest.com/en/zone/get-pdf-zone.html].

Parameters

Name Sleutel Vereist Type Description
Bestandsinhoud
fileContent True byte

De inhoud van het bronbestand

Bestandsnaamsjabloon
fileNameTemplate True string

Sjabloon voor het uitvoerbestand als de tekst overeenkomt

Pagina's zonder overeenkomst
noMatch string

Afhankelijk van de splitsingsoptie die u hierboven kiest, hebben sommige pagina's geen tekstwaarde geëxtraheerd. Kies wat u wilt doen op deze pagina's.

Geen bestandssjabloon
noTextFileName True string

Sjabloon voor het uitvoerbestand als er geen tekstovereenkomst is gevonden

Bestandsnaam
sourceFileName True string

De naam van het bronbestand

Opties voor uitvoerbestand
splitOption string

Kies de locatie van de pagina met de streepjescode in de uitvoerbestanden van de splitsbewerking.

Waarde
expression array of string

Geef hier een of meer waarden op die moeten worden gebruikt met de bovenstaande eigenschap. We retourneren de eerste tekstwaarde die overeenkomt met de bovenstaande regel.

Locatie
location True string

Gebied van de pagina - gebruik het hulpprogramma Zonegebonden om coördinaten te verkrijgen: [https://www.aquaforest.com/en/zone/get-pdf-zone.html]

Selecteren
position string

Gebruik deze optie om de tekst die u extraheert te verfijnen, een optie te selecteren die overeenkomt met uw vereisten

Patroon
regex string

Als hier een reguliere expressie wordt opgegeven, worden alle geëxtraheerde tekst eraan gekoppeld en wordt de overeenkomst geretourneerd.

Retouren

Streepjescodewaarde ophalen

Streepjescode ophalen uit PDF. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor meer informatie.

Parameters

Name Sleutel Vereist Type Description
Sjabloon voor resultaat van streepjescode
barcodeResultTemplate True string

Sjabloon voor het resultaat van de uitvoertekst als er een streepjescode wordt gevonden

Bestandsinhoud
fileContent True byte

De inhoud van het bronbestand

Geen streepjescodesjabloon
noBarcodeTemplate True string

Sjabloon voor het resultaat van de uitvoertekst als er geen streepjescode is gevonden

Paginascheidingsteken
pageSeparator string

Geef een paginascheidingsteken op, zodat u kunt weten waar de pagina-einden zich bevinden.

Pagina's
pagerange string

Geef een paginabereik op waaruit u tekst wilt extraheren, dit kan één paginanummer (1), meerdere paginanummers gescheiden door komma's (1,2,3), een paginabereik (1-4) of een combinatie van alle (1,2,4-7) zijn.

Bestandsnaam
sourceFileName True string

De naam van het bronbestand

Typologie
barcodeFormats array of string

Geef de typen streepjescode op die u wilt identificeren

Locatie
location True string

Gebied van de pagina - gebruik het hulpprogramma Zonegebonden om coördinaten te verkrijgen: [https://www.aquaforest.com/en/zone/get-pdf-zone.html]

Pagina (afgeschaft)
pagenumber integer

Deze eigenschap is afgeschaft, we raden u aan de eigenschap Pages te gebruiken. De eigenschap Pages is van toepassing op alle zones en stelt u in staat om de pagina's te selecteren die u wilt verwerken.

Patroon
regex string

Als hier een reguliere expressie wordt opgegeven, worden alle geëxtraheerde tekst eraan gekoppeld en wordt de overeenkomst geretourneerd.

Retouren

Tekst ophalen uit PDF

Tekst ophalen uit PDF-bestanden op basis van de tekstlocatie en reguliere expressies. Ga naar [https://www.aquaforest.com/en/aquaforest-flow-doc.asp] voor meer informatie.

Parameters

Name Sleutel Vereist Type Description
Bestandsinhoud
fileContent True byte

De inhoud van het bronbestand

Geen sjabloon voor tekstovereenkomst
noTextTemplate True string

Sjabloon voor de tekst die moet worden geretourneerd als er geen overeenkomst is gevonden

Paginascheidingsteken
pageSeparator string

Geef een paginascheidingsteken op, zodat u kunt weten waar de pagina-einden zich bevinden.

Pagina's
pagerange string

Geef een paginabereik op waaruit u tekst wilt extraheren, dit kan één paginanummer (1), meerdere paginanummers gescheiden door komma's (1,2,3), een paginabereik (1-4) of een combinatie van alle (1,2,4-7) zijn.

Bestandsnaam
sourceFileName True string

De naam van het bronbestand

Sjabloon voor tekstresultaat
textResultTemplate True string

Sjabloon voor de tekst die moet worden geretourneerd als er een overeenkomst wordt gevonden

Waarde
expression array of string

Geef hier een of meer waarden op die moeten worden gebruikt met de bovenstaande eigenschap. We retourneren de eerste tekstwaarde die overeenkomt met de bovenstaande regel.

Locatie
location True string

Gebied van de pagina - gebruik het hulpprogramma Zonegebonden om coördinaten te verkrijgen: [https://www.aquaforest.com/en/zone/get-pdf-zone.html]

Pagina (afgeschaft)
pagenumber integer

Deze eigenschap is afgeschaft, we raden u aan de eigenschap Pages te gebruiken. De eigenschap Pages is van toepassing op alle zones en stelt u in staat om de pagina's te selecteren die u wilt verwerken.

Selecteren
position string

Gebruik deze optie om de tekst die u extraheert te verfijnen, een optie te selecteren die overeenkomt met uw vereisten

Patroon
regex string

Als hier een reguliere expressie wordt opgegeven, worden alle geëxtraheerde tekst eraan gekoppeld en wordt de overeenkomst geretourneerd.

Retouren

Definities

ApiExtractPost200ApplicationJsonResponse

Name Pad Type Description
Fout
ErrorMessage string

Als de waarde is geslaagd onwaar is, wordt een foutbericht geretourneerd

Is geslaagd
IsSuccessful boolean

Dit retourneert waar als ten minste één pagina is geëxtraheerd

Licentiegegevens
LicenceInfo string

Informatie over uw API-abonnementssleutel

Uitvoerbestanden extraheren
SplittedFile array of object

Matrix van uitgepakte bestanden

(Bestandsinhoud)
SplittedFile.SplitFileContent byte

Een base 64-tekenreeks die de bestandsinhoud vertegenwoordigt

(Bestandsnaam)
SplittedFile.SplitFileName string

Een tekenreeks met de gegenereerde bestandsnaam

(Paginanummer)
SplittedFile.pageNumber string

Het paginabereik met het paginanummer waarop de extractie heeft plaatsgevonden

ApiGetTextValueJsonResponse

Name Pad Type Description
Foutmelding
ErrorMessage string

Als de waarde is geslaagd onwaar is, wordt een foutbericht geretourneerd

Is geslaagd
IsSuccessful boolean

Als de tekst is vergeleken

Licentiegegevens
LicenceInfo string

Informatie over uw API-abonnementssleutel

Tekstresultaat
TextResult string

Een tekenreeks die is gegenereerd op basis van het toepassen van de geëxtraheerde tekst op de opgegeven tekstsjabloon. Als het aantal pagina's groter is dan één, worden alle pagina's samengevoegd met behulp van het paginascheidingsteken.

Results
TextResults array of object

Een matrix met een lijst met pagina's en de geëxtraheerde tekstwaarden

(Paginanummer)
TextResults.pageNumber string

De pagina waar de tekst is gevonden

(Paginatekst)
TextResults.valueExtracted string

Een tekenreeks die is gegenereerd op basis van het toepassen van de geëxtraheerde tekst op de opgegeven tekstsjabloon.

(Zonewaarden)
TextResults.zoneValues array of string

Een matrix met de tekst die uit elke zone is geëxtraheerd.

ApiRenameByBarcodePost200ApplicationJsonResponse

Name Pad Type Description
Streepjescode
BarcodeResult string

Een tekenreeks die wordt gegenereerd op basis van het toepassen van de geëxtraheerde tekst op de opgegeven resultaatsjabloon voor streepjescodes. Als het aantal pagina's groter is dan één, worden alle pagina's samengevoegd met behulp van het paginascheidingsteken.

Results
BarcodeResults array of object

Een matrix met een lijst met pagina's en de geëxtraheerde streepjescodewaarden

(Paginanummer)
BarcodeResults.pageNumber string

De pagina waar de streepjescode is gevonden

(Streepjescode van pagina)
BarcodeResults.valueExtracted string

Een tekenreeks die is gegenereerd op basis van het toepassen van de geëxtraheerde streepjescodewaarde op de opgegeven resultaatsjabloon voor streepjescodes.

(Zonewaarden)
BarcodeResults.zoneValues array of string

Een matrix met de streepjescode die uit elke zone is geëxtraheerd.

Foutmelding
ErrorMessage string

Als de waarde is geslaagd onwaar is, wordt een foutbericht geretourneerd

Is geslaagd
IsSuccessful boolean

Als er een streepjescode is gedetecteerd

Licentiegegevens
LicenceInfo string

Informatie over uw API-abonnementssleutel

ApiSplitPost200ApplicationJsonResponse

Name Pad Type Description
Foutmelding
ErrorMessage string

Als de waarde is geslaagd onwaar is, wordt een foutbericht geretourneerd

Is geslaagd
IsSuccessful boolean

Dit retourneert waar als ten minste één gesplitste pagina overeenkomt.

Licentiegegevens
LicenceInfo string

Informatie over uw API-abonnementssleutel

Uitvoerbestanden splitsen
SplittedFile array of object

Matrix met elk van de gesplitste bestanden, samen met details zoals de gegenereerde bestandsnaam en het paginanummer.

(Bestandsinhoud)
SplittedFile.SplitFileContent byte

Een base 64-tekenreeks die de bestandsinhoud vertegenwoordigt

(Bestandsnaam)
SplittedFile.SplitFileName string

Een tekenreeks met de gegenereerde bestandsnaam

(Paginabereik)
SplittedFile.pageNumber string

Het paginabereik met de paginanummers van de splitsbewerking

GetPDFInfoResponse

Name Pad Type Description
Assembly toestaan
AllowAssembly boolean

Sta rotatie, invoeging of verwijdering van pagina's toe.

Gedegradeerd afdrukken toestaan
AllowDegradedPrinting boolean

Afdrukken van lage kwaliteit toestaan.

Inhoud uitpakken toestaan
AllowExtractContents boolean

Extractie van tekst en afbeeldingen toestaan.

Toegankelijkheid extraheren toestaan
AllowExtractForAccessibility boolean

Hiermee staat u extractie van tekst en afbeeldingen toe ter ondersteuning van toegankelijkheid.

Formulier invullen toestaan
AllowFillInForm boolean

Het invullen van formuliervelden toestaan.

Aantekeningen wijzigen toestaan
AllowModifyAnnotations boolean

Wijziging van aantekeningen toestaan.

Inhoud wijzigen toestaan
AllowModifyContents boolean

Wijziging van de inhoud toestaan.

Afdrukken toestaan
AllowPrinting boolean

Afdrukken van hoge kwaliteit toestaan.

Author
Author string

Wie het document heeft gemaakt.

Aanmaakdatum
CreationDate string

Dit is de datum en tijd waarop de PDF is gemaakt.

Maker
Creator string

De oorspronkelijke toepassing of bibliotheek.

Foutmelding
ErrorMessage string

Als de waarde is geslaagd onwaar is, wordt een foutbericht geretourneerd

Bestandsgrootte (bytes)
FileSize number

De grootte van het bestand in bytes

Bevat verborgen tekst
HasHiddenText boolean

Dit retourneert waar als het PDF-bestand een OCR-laag heeft.

Is versleuteld
IsEncrypted boolean

Dit retourneert waar als dit document is versleuteld of niet.

Kan worden doorzocht
IsSearchable boolean

Dit retourneert waar als het PDF-bestand doorzoekbaar is.

Is geslaagd
IsSuccessful boolean

Retourneert waar als de actie is geslaagd.

Zoekwoorden
Keywords string

Trefwoorden kunnen door komma's worden gescheiden.

Licentiegegevens
LicenceInfo string

Json-samenvatting van uw abonnementsquotum.

Gewijzigd op
ModifiedDate string

Deze eigenschap vertegenwoordigt de datum en tijd waarop het PDF-bestand voor het laatst is gewijzigd

Aantal pagina's
NumberofPages integer

Het aantal pagina's in het PDF-bestand.

PDF-versie
PDFversion number

De versie van de PDF-specificatie op basis waarvan het document is gebouwd.

Producer
Producer string

Het product dat de PDF heeft gemaakt. In de vroege dagen van PDF-bestanden zouden mensen een Creator-toepassing zoals Microsoft Word gebruiken om een document te schrijven, afdrukken naar een PostScript-bestand en dan zou de Producer Acrobat Distiller zijn, de toepassing die het PostScript-bestand heeft geconverteerd naar een PDF. Tegenwoordig zijn Creator en Producer vaak hetzelfde of is één veld leeg.

Onderwerp
Subject string

Waar gaat het document over.

Title
Title string

De titel van het document.

Gevangen
Trapped string

Deze eigenschap is een Booleaanse waarde die aangeeft of het document is vastgelopen. Vastzetten is een voordrukproces dat kleurgebieden introduceert in kleurscheidingen om potentiële registerfouten te verbergen.

XMP-metagegevens
XmpMetadata string

Het Extensible Metadata Platform (XMP) is een ISO-standaard die oorspronkelijk is gemaakt door Adobe Systems Inc., voor het maken, verwerken en uitwisselen van gestandaardiseerde en aangepaste metagegevens voor digitale documenten en gegevenssets.

ocr_response

Antwoordgegevens voor OCR-bewerking

Name Pad Type Description
Foutmelding
ErrorMessage string

Als de waarde is geslaagd onwaar is, wordt een foutbericht geretourneerd

Is geslaagd
IsSuccessful boolean

Retourneert waar als de OCR is geslaagd.

Licentiegegevens
LicenceInfo string

Informatie over uw API-abonnementssleutel

Inhoud van logboekbestand
LogFileContent byte

De logboekinhoud van de bewerking

Verwerkte bestandsinhoud
OutputFileContent byte

Bestand gegenereerd door het Aquaforest PDF-conversieprogramma.