ScrapingBee (Unabhängiger Herausgeber) (Vorschau)
ScrapingBee ist der leistungsstärkste Web-Scraping-Dienst im Web. Es behandelt headless Browser, Proxys, CAPTCHAs, Extrahieren komplexer strukturierter Informationen von jeder Website mit CSS-Selektoren und Ausführen von JavaScript-Szenarien (Klicken, Scrollen, Ausfüllen von Formularen usw.).
Dieser Connector ist in den folgenden Produkten und Regionen verfügbar:
| Dienstleistung | Class | Regions |
|---|---|---|
| Copilot Studio | Premium | Alle Power Automate-Regionen mit Ausnahme der folgenden Bereiche: - US Government (GCC) - US Government (GCC High) - China Cloud betrieben von 21Vianet - US Department of Defense (DoD) |
| Logik-Apps | Norm | Alle Logik-Apps-Regionen mit Ausnahme der folgenden Bereiche: – Azure Government-Regionen - Azure China-Regionen - US Department of Defense (DoD) |
| Power Apps | Premium | Alle Power Apps-Regionen mit Ausnahme der folgenden: - US Government (GCC) - US Government (GCC High) - China Cloud betrieben von 21Vianet - US Department of Defense (DoD) |
| Power Automate | Premium | Alle Power Automate-Regionen mit Ausnahme der folgenden Bereiche: - US Government (GCC) - US Government (GCC High) - China Cloud betrieben von 21Vianet - US Department of Defense (DoD) |
| Kontakt | |
|---|---|
| Name | Troy Taylor |
| URL | https://www.hitachisolutions.com |
| ttaylor@hitachisolutions.com |
| Connectormetadaten | |
|---|---|
| Herausgeber | Troy Taylor |
| Webseite | https://www.scrapingbee.com/ |
| Datenschutzrichtlinie | https://www.scrapingbee.com/privacy-policy/ |
| Kategorien | Webseite |
Erstellen einer Verbindung
Der Connector unterstützt die folgenden Authentifizierungstypen:
| Vorgabe | Parameter zum Erstellen einer Verbindung. | Alle Regionen | Nicht teilbar |
Vorgabe
Anwendbar: Alle Regionen
Parameter zum Erstellen einer Verbindung.
Dies ist keine freigabefähige Verbindung. Wenn die Power-App für einen anderen Benutzer freigegeben wird, wird ein anderer Benutzer aufgefordert, eine neue Verbindung explizit zu erstellen.
| Name | Typ | Description | Erforderlich |
|---|---|---|---|
| API-Schlüssel | securestring | Der API-Schlüssel für diese API | Richtig |
Drosselungsgrenzwerte
| Name | Aufrufe | Verlängerungszeitraum |
|---|---|---|
| API-Aufrufe pro Verbindung | 100 | 60 Sekunden |
Aktionen
| Durchführen der Google-Suche |
Ruft einen Scrape von Google Search-Ergebnisseiten ab. |
| Nutzung abrufen |
Abrufen von Informationen über den Kreditverbrauch und die Parallelitätsnutzung. |
| Scrap URL |
Ruft die URL ab, die zum Verschrotten angefordert wurde, und rendert Bei Bedarf JavaScript. |
Durchführen der Google-Suche
Ruft einen Scrape von Google Search-Ergebnisseiten ab.
Parameter
| Name | Schlüssel | Erforderlich | Typ | Beschreibung |
|---|---|---|---|---|
|
Suche
|
search | True | string |
Der Text, den Sie in die Google-Suchleiste einfügen würden. |
|
Ländercode
|
country_code | string |
Das Land, aus dem Sie die Anfrage stellen möchten. |
|
|
Ergebnisse
|
nb_results | integer |
Die Anzahl der zurückzugebenden Ergebnisse. |
|
|
Seite
|
page | integer |
Die Seitenzahl, aus der Ergebnisse extrahiert werden sollen. |
|
|
Language
|
language | string |
Die Sprache, in der die Ergebnisse zurückgegeben werden sollen. |
|
|
Zusätzliche Params
|
extra_params | string |
Alle zusätzlichen URL-Parameter, die übermittelt werden sollen. |
Gibt zurück
| Name | Pfad | Typ | Beschreibung |
|---|---|---|---|
|
URL
|
meta_data.url | string |
Die URL-Adresse. |
|
Ergebnisse
|
meta_data.number_of_results | integer |
Die Anzahl der Ergebnisse. |
|
Standort
|
meta_data.location | string |
Der Speicherort. |
|
Organische Ergebnisse
|
meta_data.number_of_organic_results | integer |
Die Anzahl der organischen Ergebnisse. |
|
Anzeigen
|
meta_data.number_of_ads | integer |
Die Anzahl der Anzeigen. |
|
Seite
|
meta_data.number_of_page | integer |
Die Seitenzahl. |
|
Keine Ergebnismeldung
|
meta_data.no_results_message | string |
Die Meldung "Keine Ergebnisse". |
|
Organische Ergebnisse
|
organic_results | array of object | |
|
URL
|
organic_results.url | string |
Die URL-Adresse. |
|
Angezeigte URL
|
organic_results.displayed_url | string |
Die angezeigte URL-Adresse. |
|
Description
|
organic_results.description | string |
Die Beschreibung. |
|
Zusätzliche Informationen
|
organic_results.extra_info | string |
Die zusätzlichen Informationen. |
|
Position
|
organic_results.position | integer |
Die Position. |
|
Title
|
organic_results.title | string |
Der Titel. |
|
Lokale Ergebnisse
|
local_results | array of string |
Die lokalen Ergebnisse. |
|
Top-Anzeigen
|
top_ads | string |
Die wichtigsten Anzeigen. |
|
Untere Anzeigen
|
bottom_ads | string |
Die unteren Anzeigen. |
|
Verwandte Abfragen
|
related_queries | array of object | |
|
Text
|
related_queries.text | string |
Der Text. |
|
Position
|
related_queries.position | integer |
Die Position. |
|
Fragen
|
questions | array of string |
Die Fragen. |
Nutzung abrufen
Abrufen von Informationen über den Kreditverbrauch und die Parallelitätsnutzung.
Gibt zurück
| Name | Pfad | Typ | Beschreibung |
|---|---|---|---|
|
Max. API-Gutschrift
|
max_api_credit | integer |
Die maximale API-Gutschrift. |
|
Verwendete API-Gutschrift
|
used_api_credit | integer |
Die verwendete API-Gutschrift. |
|
Max Parallelität
|
max_concurrency | integer |
Die maximale Parallelität. |
|
Aktuelle Parallelität
|
current_concurrency | integer |
Die aktuelle Parallelität. |
|
Datum des Verlängerungsabonnements
|
renewal_subscription_date | string |
Das Datum des Verlängerungsabonnements. |
Scrap URL
Ruft die URL ab, die zum Verschrotten angefordert wurde, und rendert Bei Bedarf JavaScript.
Parameter
| Name | Schlüssel | Erforderlich | Typ | Beschreibung |
|---|---|---|---|---|
|
URL
|
url | True | string |
Die URL, die Sie verschrotten möchten. |
|
Rendern von JS
|
render_js | True | boolean |
Rendern Sie die Website in einem kopflosen Browser. |
|
JS-Szenario
|
js_scenario | string |
Führen Sie JavaScript vor dem Rendern aus. |
|
|
Wait
|
wait | integer |
Zeit bis zum Rendern. |
|
|
Abwarten
|
wait_for | string |
Warten Sie, bis ein bestimmtes Element im DOM angezeigt wird. |
|
|
Blockieren von Anzeigen
|
block_ads | boolean |
Gibt an, ob Anzeigen blockiert werden sollen. |
|
|
Ressourcen blockieren
|
block_resources | boolean |
Gibt an, ob alle Bilder und CSS blockiert werden sollen. |
|
|
Fensterbreite
|
window_width | integer |
Die Breite des zu verwendenden Fensters. |
|
|
Fensterhöhe
|
window_height | integer |
Die Höhe des zu verwendenden Fensters. |
|
|
Premium-Proxy
|
premium_proxy | boolean |
Gibt an, ob ein Proxy zum Verschrotten der Website verwendet werden soll. |
|
|
Ländercode
|
country_code | string |
Das Proxyland, das zum Verschrotten der Website verwendet werden soll. |
|
|
Stealth Proxy
|
stealth_proxy | boolean |
Gibt an, ob ein Stealth-Proxy zum Verschrotten der Website verwendet werden soll. |
|
|
Eigener Proxy
|
own_proxy | string |
Ihr eigener Proxy, der verwendet werden soll. |
|
|
Extrahieren von Regeln
|
extract_rules | string |
Extraktionsregeln zum Analysieren des HTML-Codes vor der Antwort. |
|
|
Screenshot
|
screenshot | boolean |
Erstellen Sie einen Screenshot der angeforderten Website. |
|
|
Screenshotauswahl
|
screenshot_selector | string |
Erstellen Sie einen Screenshot einer bestimmten CSS-Auswahl. |
|
|
Screenshot der vollständigen Seite
|
screenshot_full_page | boolean |
Erstellen Sie einen Screenshot der gesamten Website. |
|
|
Seitenquelle zurückgeben
|
return_page_source | boolean |
Gibt auch die Seitenquelle zurück. |
|
|
Sitzungs-ID
|
session_id | integer |
Alle API-Anforderungen mit demselben session_id werden für eine Dauer von 5 Minuten über dieselbe IP-Adresse weitergeleitet. |
|
|
Zeitlimit
|
timeout | integer |
Die maximale Anzahl von ms-Timeouts zwischen 1000 und 140000 (Standard). |
|
|
Cookies
|
cookies | string |
Benutzerdefiniertes Cookie, das an die Website übergeben werden soll. |
|
|
Device
|
device | string |
Die Art des Geräts, das an den Server gesendet wird. |
|
|
Benutzerdefiniertes Google
|
custom_google | boolean |
Wird auf "true" festgelegt, wenn die Webseite auf Google oder einer Google-Unterdomäne verschrottet wird. |
Gibt zurück
| Name | Pfad | Typ | Beschreibung |
|---|---|---|---|
|
Body
|
body | string |
Der Körper. |
|
Cookies
|
cookies | array of object | |
|
Name
|
cookies.name | string |
Der Name. |
|
Wert
|
cookies.value | string |
Der Wert. |
|
Domäne
|
cookies.domain | string |
Die Domäne. |
|
Pfad
|
cookies.path | string |
Der Pfad. |
|
Läuft ab
|
cookies.expires | float |
Wann läuft ab. |
|
Größe
|
cookies.size | integer |
Die Größe. |
|
Nur HTTP
|
cookies.httpOnly | boolean |
Gibt an, ob nur HTTP. |
|
Absichern
|
cookies.secure | boolean |
Gibt an, ob sicher. |
|
Session
|
cookies.session | boolean |
Gibt an, ob sitzung. |
|
Gleiche Partei
|
cookies.sameParty | boolean |
Gibt an, ob die gleiche Partei. |
|
Quellschema
|
cookies.sourceScheme | string |
Das Quellschema. |
|
Quellport
|
cookies.sourcePort | integer |
Der Quellport. |
|
Ausgewertete Ergebnisse
|
evaluate_results | array of string |
Die ausgewerteten Ergebnisse. |
|
Alter
|
headers.age | string |
Das Alter. |
|
Cachesteuerelement
|
headers.cache-control | string |
Das Cachesteuerelement. |
|
Inhaltscodierung
|
headers.content-encoding | string |
Die Inhaltscodierung. |
|
Richtlinie für Inhaltssicherheit
|
headers.content-security-policy | string |
Die Inhaltssicherheitsrichtlinie. |
|
Inhaltstyp
|
headers.content-type | string |
Der Inhaltstyp. |
|
Datum
|
headers.date | string |
Das Datum. |
|
ETag
|
headers.etag | string |
Das eTag. |
|
Referrer-Richtlinie
|
headers.referrer-policy | string |
Die Verweiserrichtlinie. |
|
Server
|
headers.server | string |
Der Server. |
|
Strenge Transportsicherheit
|
headers.strict-transport-security | string |
Die strenge Transportsicherheit. |
|
X-Inhaltstypoptionen
|
headers.x-content-type-options | string |
Die x-Inhaltstypoptionen. |
|
X-Frame-Optionen
|
headers.x-frame-options | string |
Die x-Frame-Optionen. |
|
X Übereinstimmener Pfad
|
headers.x-matched-path | string |
Der x-übereinstimmene Pfad. |
|
X unterstützt von
|
headers.x-powered-by | string |
Das x unterstützt von. |
|
X Vercel-Cache
|
headers.x-vercel-cache | string |
Der x Vercel-Cache. |
|
X Vercel-ID
|
headers.x-vercel-id | string |
Der x-Vercel-Bezeichner. |
|
Typ
|
type | string |
Der Typ. |
|
IFrames
|
iframes | array of string |
Die iFrames. |
|
XHR
|
xhr | array of object | |
|
URL
|
xhr.url | string |
Die URL-Adresse. |
|
Statuscode
|
xhr.status_code | integer |
Der Statuscode. |
|
Methode
|
xhr.method | string |
Die Methode. |
|
Alter
|
xhr.headers.age | string |
Das Alter. |
|
Cachesteuerelement
|
xhr.headers.cache-control | string |
Das Cachesteuerelement. |
|
Inhaltslänge
|
xhr.headers.content-length | string |
Die Inhaltslänge. |
|
Richtlinie für Inhaltssicherheit
|
xhr.headers.content-security-policy | string |
Die Inhaltssicherheitsrichtlinie. |
|
Inhaltstyp
|
xhr.headers.content-type | string |
Der Inhaltstyp. |
|
Datum
|
xhr.headers.date | string |
Das Datum. |
|
ETag
|
xhr.headers.etag | string |
Das eTag. |
|
Referrer-Richtlinie
|
xhr.headers.referrer-policy | string |
Die Verweiserrichtlinie. |
|
Server
|
xhr.headers.server | string |
Der Server. |
|
Strenge Transportsicherheit
|
xhr.headers.strict-transport-security | string |
Die strenge Transportsicherheit. |
|
X-Inhaltstypoptionen
|
xhr.headers.x-content-type-options | string |
Die X-Inhaltstypoptionen. |
|
X-Frame-Optionen
|
xhr.headers.x-frame-options | string |
Die X-Frame-Optionen. |
|
X Übereinstimmener Pfad
|
xhr.headers.x-matched-path | string |
Der X-übereinstimmende Pfad. |
|
X Vercel-Cache
|
xhr.headers.x-vercel-cache | string |
Der X-Vercel-Cache. |
|
X Vercel-ID
|
xhr.headers.x-vercel-id | string |
Der X-Vercel-Bezeichner. |
|
Zugriffskontrolle Zulassen des Ursprungs
|
xhr.headers.access-control-allow-origin | string |
Die Zugriffssteuerung lässt den Ursprung zu. |
|
Zugriffssteuerung macht Kopfzeilen verfügbar
|
xhr.headers.access-control-expose-headers | string |
Die Zugriffssteuerung macht Kopfzeilen verfügbar. |
|
Alt SVC
|
xhr.headers.alt-svc | string |
Der Alt-SVC. |
|
Vary
|
xhr.headers.vary | string |
Dies variiert. |
|
Via
|
xhr.headers.via | string |
Die via. |
|
X Envoy Upstream Service Time
|
xhr.headers.x-envoy-upstream-service-time | string |
Die X-Envoy-Upstreamdienstzeit. |
|
X Amazon Request ID
|
xhr.headers.x-amzn-requestid | string |
Der X Amazon-Anforderungsbezeichner. |
|
X Amazon Trace ID
|
xhr.headers.x-amzn-trace-id | string |
Der X Amazon-Ablaufverfolgungsbezeichner. |
|
Body
|
xhr.body | string |
Der Körper. |
|
Kosten
|
cost | integer |
Die Kosten. |
|
Anfangsstatuscode
|
initial-status-code | integer |
Der anfängliche Statuscode. |
|
Aufgelöste URL
|
resolved-url | string |
Die aufgelöste URL-Adresse. |
|
Microdata
|
metadata.microdata | array of string |
Die Mikrodaten. |
|
JSON LD
|
metadata.json-ld | array of object | |
|
Kontext
|
metadata.json-ld.@context | string |
Der Kontext. |
|
Typ
|
metadata.json-ld.@type | string |
Der Typ. |
|
Name
|
metadata.json-ld.name | string |
Der Name. |
|
URL
|
metadata.json-ld.url | string |
Die URL-Adresse. |
|
Description
|
metadata.json-ld.description | string |
Die Beschreibung. |
|
Typ
|
metadata.json-ld.mainEntityOfPage.@type | string |
Der Typ. |
|
URL
|
metadata.json-ld.mainEntityOfPage.url | string |
Die URL-Adresse. |
|
Typ
|
metadata.json-ld.image.@type | string |
Der Typ. |
|
URL
|
metadata.json-ld.image.url | string |
Die URL-Adresse. |
|
Typ
|
metadata.json-ld.publisher.@type | string |
Der Typ. |
|
Name
|
metadata.json-ld.publisher.name | string |
Der Name. |
|
URL
|
metadata.json-ld.publisher.url | string |
Die URL-Adresse. |
|
Identisch mit
|
metadata.json-ld.sameAs | string |
Identisch mit. |
|
Diagramm öffnen
|
metadata.opengraph | array of object | |
|
Diagrammtitel öffnen
|
metadata.opengraph.og:title | string |
Der Titel "Graph öffnen". |
|
Open Graph Description
|
metadata.opengraph.og:description | string |
Die Open Graph-Beschreibung. |
|
Name der Graph-Website öffnen
|
metadata.opengraph.og:site_name | string |
Der Name der Open Graph-Website. |
|
Graph-URL öffnen
|
metadata.opengraph.og:url | string |
Die Open Graph-URL-Adresse. |
|
Graph-Bild öffnen
|
metadata.opengraph.og:image | string |
Das Bild "Graph öffnen". |
|
Typ
|
metadata.opengraph.@type | string |
Der Typ. |
|
OG
|
metadata.opengraph.@context.og | string |
Das Open Graph.The Open Graph. |
|
Dublincore
|
metadata.dublincore | array of object | |
|
Elemente
|
metadata.dublincore.elements | array of object | |
|
Name
|
metadata.dublincore.elements.name | string |
Der Name. |
|
Content
|
metadata.dublincore.elements.content | string |
Der Inhalt. |
|
URI
|
metadata.dublincore.elements.URI | string |
Der URI. |
|
Begriffe
|
metadata.dublincore.terms | array of string |
Die Begriffe. |