Freigeben über


ScrapingBee (Unabhängiger Herausgeber) (Vorschau)

ScrapingBee ist der leistungsstärkste Web-Scraping-Dienst im Web. Es behandelt headless Browser, Proxys, CAPTCHAs, Extrahieren komplexer strukturierter Informationen von jeder Website mit CSS-Selektoren und Ausführen von JavaScript-Szenarien (Klicken, Scrollen, Ausfüllen von Formularen usw.).

Dieser Connector ist in den folgenden Produkten und Regionen verfügbar:

Dienstleistung Class Regions
Copilot Studio Premium Alle Power Automate-Regionen mit Ausnahme der folgenden Bereiche:
     - US Government (GCC)
     - US Government (GCC High)
     - China Cloud betrieben von 21Vianet
     - US Department of Defense (DoD)
Logik-Apps Norm Alle Logik-Apps-Regionen mit Ausnahme der folgenden Bereiche:
     – Azure Government-Regionen
     - Azure China-Regionen
     - US Department of Defense (DoD)
Power Apps Premium Alle Power Apps-Regionen mit Ausnahme der folgenden:
     - US Government (GCC)
     - US Government (GCC High)
     - China Cloud betrieben von 21Vianet
     - US Department of Defense (DoD)
Power Automate Premium Alle Power Automate-Regionen mit Ausnahme der folgenden Bereiche:
     - US Government (GCC)
     - US Government (GCC High)
     - China Cloud betrieben von 21Vianet
     - US Department of Defense (DoD)
Kontakt
Name Troy Taylor
URL https://www.hitachisolutions.com
Email ttaylor@hitachisolutions.com
Connectormetadaten
Herausgeber Troy Taylor
Webseite https://www.scrapingbee.com/
Datenschutzrichtlinie https://www.scrapingbee.com/privacy-policy/
Kategorien Webseite

Erstellen einer Verbindung

Der Connector unterstützt die folgenden Authentifizierungstypen:

Vorgabe Parameter zum Erstellen einer Verbindung. Alle Regionen Nicht teilbar

Vorgabe

Anwendbar: Alle Regionen

Parameter zum Erstellen einer Verbindung.

Dies ist keine freigabefähige Verbindung. Wenn die Power-App für einen anderen Benutzer freigegeben wird, wird ein anderer Benutzer aufgefordert, eine neue Verbindung explizit zu erstellen.

Name Typ Description Erforderlich
API-Schlüssel securestring Der API-Schlüssel für diese API Richtig

Drosselungsgrenzwerte

Name Aufrufe Verlängerungszeitraum
API-Aufrufe pro Verbindung 100 60 Sekunden

Aktionen

Durchführen der Google-Suche

Ruft einen Scrape von Google Search-Ergebnisseiten ab.

Nutzung abrufen

Abrufen von Informationen über den Kreditverbrauch und die Parallelitätsnutzung.

Scrap URL

Ruft die URL ab, die zum Verschrotten angefordert wurde, und rendert Bei Bedarf JavaScript.

Durchführen der Google-Suche

Ruft einen Scrape von Google Search-Ergebnisseiten ab.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Suche
search True string

Der Text, den Sie in die Google-Suchleiste einfügen würden.

Ländercode
country_code string

Das Land, aus dem Sie die Anfrage stellen möchten.

Ergebnisse
nb_results integer

Die Anzahl der zurückzugebenden Ergebnisse.

Seite
page integer

Die Seitenzahl, aus der Ergebnisse extrahiert werden sollen.

Language
language string

Die Sprache, in der die Ergebnisse zurückgegeben werden sollen.

Zusätzliche Params
extra_params string

Alle zusätzlichen URL-Parameter, die übermittelt werden sollen.

Gibt zurück

Name Pfad Typ Beschreibung
URL
meta_data.url string

Die URL-Adresse.

Ergebnisse
meta_data.number_of_results integer

Die Anzahl der Ergebnisse.

Standort
meta_data.location string

Der Speicherort.

Organische Ergebnisse
meta_data.number_of_organic_results integer

Die Anzahl der organischen Ergebnisse.

Anzeigen
meta_data.number_of_ads integer

Die Anzahl der Anzeigen.

Seite
meta_data.number_of_page integer

Die Seitenzahl.

Keine Ergebnismeldung
meta_data.no_results_message string

Die Meldung "Keine Ergebnisse".

Organische Ergebnisse
organic_results array of object
URL
organic_results.url string

Die URL-Adresse.

Angezeigte URL
organic_results.displayed_url string

Die angezeigte URL-Adresse.

Description
organic_results.description string

Die Beschreibung.

Zusätzliche Informationen
organic_results.extra_info string

Die zusätzlichen Informationen.

Position
organic_results.position integer

Die Position.

Title
organic_results.title string

Der Titel.

Lokale Ergebnisse
local_results array of string

Die lokalen Ergebnisse.

Top-Anzeigen
top_ads string

Die wichtigsten Anzeigen.

Untere Anzeigen
bottom_ads string

Die unteren Anzeigen.

Verwandte Abfragen
related_queries array of object
Text
related_queries.text string

Der Text.

Position
related_queries.position integer

Die Position.

Fragen
questions array of string

Die Fragen.

Nutzung abrufen

Abrufen von Informationen über den Kreditverbrauch und die Parallelitätsnutzung.

Gibt zurück

Name Pfad Typ Beschreibung
Max. API-Gutschrift
max_api_credit integer

Die maximale API-Gutschrift.

Verwendete API-Gutschrift
used_api_credit integer

Die verwendete API-Gutschrift.

Max Parallelität
max_concurrency integer

Die maximale Parallelität.

Aktuelle Parallelität
current_concurrency integer

Die aktuelle Parallelität.

Datum des Verlängerungsabonnements
renewal_subscription_date string

Das Datum des Verlängerungsabonnements.

Scrap URL

Ruft die URL ab, die zum Verschrotten angefordert wurde, und rendert Bei Bedarf JavaScript.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
URL
url True string

Die URL, die Sie verschrotten möchten.

Rendern von JS
render_js True boolean

Rendern Sie die Website in einem kopflosen Browser.

JS-Szenario
js_scenario string

Führen Sie JavaScript vor dem Rendern aus.

Wait
wait integer

Zeit bis zum Rendern.

Abwarten
wait_for string

Warten Sie, bis ein bestimmtes Element im DOM angezeigt wird.

Blockieren von Anzeigen
block_ads boolean

Gibt an, ob Anzeigen blockiert werden sollen.

Ressourcen blockieren
block_resources boolean

Gibt an, ob alle Bilder und CSS blockiert werden sollen.

Fensterbreite
window_width integer

Die Breite des zu verwendenden Fensters.

Fensterhöhe
window_height integer

Die Höhe des zu verwendenden Fensters.

Premium-Proxy
premium_proxy boolean

Gibt an, ob ein Proxy zum Verschrotten der Website verwendet werden soll.

Ländercode
country_code string

Das Proxyland, das zum Verschrotten der Website verwendet werden soll.

Stealth Proxy
stealth_proxy boolean

Gibt an, ob ein Stealth-Proxy zum Verschrotten der Website verwendet werden soll.

Eigener Proxy
own_proxy string

Ihr eigener Proxy, der verwendet werden soll.

Extrahieren von Regeln
extract_rules string

Extraktionsregeln zum Analysieren des HTML-Codes vor der Antwort.

Screenshot
screenshot boolean

Erstellen Sie einen Screenshot der angeforderten Website.

Screenshotauswahl
screenshot_selector string

Erstellen Sie einen Screenshot einer bestimmten CSS-Auswahl.

Screenshot der vollständigen Seite
screenshot_full_page boolean

Erstellen Sie einen Screenshot der gesamten Website.

Seitenquelle zurückgeben
return_page_source boolean

Gibt auch die Seitenquelle zurück.

Sitzungs-ID
session_id integer

Alle API-Anforderungen mit demselben session_id werden für eine Dauer von 5 Minuten über dieselbe IP-Adresse weitergeleitet.

Zeitlimit
timeout integer

Die maximale Anzahl von ms-Timeouts zwischen 1000 und 140000 (Standard).

Cookies
cookies string

Benutzerdefiniertes Cookie, das an die Website übergeben werden soll.

Device
device string

Die Art des Geräts, das an den Server gesendet wird.

Benutzerdefiniertes Google
custom_google boolean

Wird auf "true" festgelegt, wenn die Webseite auf Google oder einer Google-Unterdomäne verschrottet wird.

Gibt zurück

Name Pfad Typ Beschreibung
Body
body string

Der Körper.

Cookies
cookies array of object
Name
cookies.name string

Der Name.

Wert
cookies.value string

Der Wert.

Domäne
cookies.domain string

Die Domäne.

Pfad
cookies.path string

Der Pfad.

Läuft ab
cookies.expires float

Wann läuft ab.

Größe
cookies.size integer

Die Größe.

Nur HTTP
cookies.httpOnly boolean

Gibt an, ob nur HTTP.

Absichern
cookies.secure boolean

Gibt an, ob sicher.

Session
cookies.session boolean

Gibt an, ob sitzung.

Gleiche Partei
cookies.sameParty boolean

Gibt an, ob die gleiche Partei.

Quellschema
cookies.sourceScheme string

Das Quellschema.

Quellport
cookies.sourcePort integer

Der Quellport.

Ausgewertete Ergebnisse
evaluate_results array of string

Die ausgewerteten Ergebnisse.

Alter
headers.age string

Das Alter.

Cachesteuerelement
headers.cache-control string

Das Cachesteuerelement.

Inhaltscodierung
headers.content-encoding string

Die Inhaltscodierung.

Richtlinie für Inhaltssicherheit
headers.content-security-policy string

Die Inhaltssicherheitsrichtlinie.

Inhaltstyp
headers.content-type string

Der Inhaltstyp.

Datum
headers.date string

Das Datum.

ETag
headers.etag string

Das eTag.

Referrer-Richtlinie
headers.referrer-policy string

Die Verweiserrichtlinie.

Server
headers.server string

Der Server.

Strenge Transportsicherheit
headers.strict-transport-security string

Die strenge Transportsicherheit.

X-Inhaltstypoptionen
headers.x-content-type-options string

Die x-Inhaltstypoptionen.

X-Frame-Optionen
headers.x-frame-options string

Die x-Frame-Optionen.

X Übereinstimmener Pfad
headers.x-matched-path string

Der x-übereinstimmene Pfad.

X unterstützt von
headers.x-powered-by string

Das x unterstützt von.

X Vercel-Cache
headers.x-vercel-cache string

Der x Vercel-Cache.

X Vercel-ID
headers.x-vercel-id string

Der x-Vercel-Bezeichner.

Typ
type string

Der Typ.

IFrames
iframes array of string

Die iFrames.

XHR
xhr array of object
URL
xhr.url string

Die URL-Adresse.

Statuscode
xhr.status_code integer

Der Statuscode.

Methode
xhr.method string

Die Methode.

Alter
xhr.headers.age string

Das Alter.

Cachesteuerelement
xhr.headers.cache-control string

Das Cachesteuerelement.

Inhaltslänge
xhr.headers.content-length string

Die Inhaltslänge.

Richtlinie für Inhaltssicherheit
xhr.headers.content-security-policy string

Die Inhaltssicherheitsrichtlinie.

Inhaltstyp
xhr.headers.content-type string

Der Inhaltstyp.

Datum
xhr.headers.date string

Das Datum.

ETag
xhr.headers.etag string

Das eTag.

Referrer-Richtlinie
xhr.headers.referrer-policy string

Die Verweiserrichtlinie.

Server
xhr.headers.server string

Der Server.

Strenge Transportsicherheit
xhr.headers.strict-transport-security string

Die strenge Transportsicherheit.

X-Inhaltstypoptionen
xhr.headers.x-content-type-options string

Die X-Inhaltstypoptionen.

X-Frame-Optionen
xhr.headers.x-frame-options string

Die X-Frame-Optionen.

X Übereinstimmener Pfad
xhr.headers.x-matched-path string

Der X-übereinstimmende Pfad.

X Vercel-Cache
xhr.headers.x-vercel-cache string

Der X-Vercel-Cache.

X Vercel-ID
xhr.headers.x-vercel-id string

Der X-Vercel-Bezeichner.

Zugriffskontrolle Zulassen des Ursprungs
xhr.headers.access-control-allow-origin string

Die Zugriffssteuerung lässt den Ursprung zu.

Zugriffssteuerung macht Kopfzeilen verfügbar
xhr.headers.access-control-expose-headers string

Die Zugriffssteuerung macht Kopfzeilen verfügbar.

Alt SVC
xhr.headers.alt-svc string

Der Alt-SVC.

Vary
xhr.headers.vary string

Dies variiert.

Via
xhr.headers.via string

Die via.

X Envoy Upstream Service Time
xhr.headers.x-envoy-upstream-service-time string

Die X-Envoy-Upstreamdienstzeit.

X Amazon Request ID
xhr.headers.x-amzn-requestid string

Der X Amazon-Anforderungsbezeichner.

X Amazon Trace ID
xhr.headers.x-amzn-trace-id string

Der X Amazon-Ablaufverfolgungsbezeichner.

Body
xhr.body string

Der Körper.

Kosten
cost integer

Die Kosten.

Anfangsstatuscode
initial-status-code integer

Der anfängliche Statuscode.

Aufgelöste URL
resolved-url string

Die aufgelöste URL-Adresse.

Microdata
metadata.microdata array of string

Die Mikrodaten.

JSON LD
metadata.json-ld array of object
Kontext
metadata.json-ld.@context string

Der Kontext.

Typ
metadata.json-ld.@type string

Der Typ.

Name
metadata.json-ld.name string

Der Name.

URL
metadata.json-ld.url string

Die URL-Adresse.

Description
metadata.json-ld.description string

Die Beschreibung.

Typ
metadata.json-ld.mainEntityOfPage.@type string

Der Typ.

URL
metadata.json-ld.mainEntityOfPage.url string

Die URL-Adresse.

Typ
metadata.json-ld.image.@type string

Der Typ.

URL
metadata.json-ld.image.url string

Die URL-Adresse.

Typ
metadata.json-ld.publisher.@type string

Der Typ.

Name
metadata.json-ld.publisher.name string

Der Name.

URL
metadata.json-ld.publisher.url string

Die URL-Adresse.

Identisch mit
metadata.json-ld.sameAs string

Identisch mit.

Diagramm öffnen
metadata.opengraph array of object
Diagrammtitel öffnen
metadata.opengraph.og:title string

Der Titel "Graph öffnen".

Open Graph Description
metadata.opengraph.og:description string

Die Open Graph-Beschreibung.

Name der Graph-Website öffnen
metadata.opengraph.og:site_name string

Der Name der Open Graph-Website.

Graph-URL öffnen
metadata.opengraph.og:url string

Die Open Graph-URL-Adresse.

Graph-Bild öffnen
metadata.opengraph.og:image string

Das Bild "Graph öffnen".

Typ
metadata.opengraph.@type string

Der Typ.

OG
metadata.opengraph.@context.og string

Das Open Graph.The Open Graph.

Dublincore
metadata.dublincore array of object
Elemente
metadata.dublincore.elements array of object
Name
metadata.dublincore.elements.name string

Der Name.

Content
metadata.dublincore.elements.content string

Der Inhalt.

URI
metadata.dublincore.elements.URI string

Der URI.

Begriffe
metadata.dublincore.terms array of string

Die Begriffe.