ScrapingBee (Éditeur indépendant) (préversion)
ScrapingBee est le service de récupération web le plus puissant sur le web. Il gère les navigateurs sans tête, les proxys, les CAPTCHAs, l’extraction d’informations structurées complexes à partir de n’importe quel site web avec des sélecteurs CSS et l’exécution de scénarios JavaScript (clic, défilement, remplissage de formulaire, etc.).
Ce connecteur est disponible dans les produits et régions suivants :
| Service | classe | Régions |
|---|---|---|
| Copilot Studio | Premium | Toutes les régions Power Automate , à l’exception des éléments suivants : - Us Government (GCC) - Us Government (GCC High) - China Cloud géré par 21Vianet - Us Department of Defense (DoD) |
| Applications logiques | Norme | Toutes les régions Logic Apps , à l’exception des suivantes : - Régions Azure Government - Régions Azure Chine - Us Department of Defense (DoD) |
| Power Apps | Premium | Toutes les régions Power Apps , à l’exception des suivantes : - Us Government (GCC) - Us Government (GCC High) - China Cloud géré par 21Vianet - Us Department of Defense (DoD) |
| Power Automate | Premium | Toutes les régions Power Automate , à l’exception des éléments suivants : - Us Government (GCC) - Us Government (GCC High) - China Cloud géré par 21Vianet - Us Department of Defense (DoD) |
| Contact | |
|---|---|
| Nom | Troy Taylor |
| URL | https://www.hitachisolutions.com |
| Messagerie électronique | ttaylor@hitachisolutions.com |
| Métadonnées du connecteur | |
|---|---|
| Éditeur | Troy Taylor |
| Site internet | https://www.scrapingbee.com/ |
| Politique de confidentialité | https://www.scrapingbee.com/privacy-policy/ |
| Catégories | Site internet |
Création d’une connexion
Le connecteur prend en charge les types d’authentification suivants :
| Par défaut | Paramètres de création de connexion. | Toutes les régions | Non partageable |
Faire défaut
Applicable : Toutes les régions
Paramètres de création de connexion.
Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.
| Nom | Type | Descriptif | Obligatoire |
|---|---|---|---|
| Clé d’API | securestring | Clé API pour cette API | Vrai |
Limitations
| Nom | Appels | Période de renouvellement |
|---|---|---|
| Appels d’API par connexion | 100 | 60 secondes |
Actions
| Effectuer une recherche Google |
Récupère une capture des pages de résultats de recherche Google |
| Obtenir l’utilisation |
Récupérez des informations sur la consommation de crédit et l’utilisation de la concurrence. |
| URL de suppression |
Récupère l’URL demandée pour la récupération et affiche JavaScript si elle est demandée. |
Effectuer une recherche Google
Récupère une capture des pages de résultats de recherche Google
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Rechercher
|
search | True | string |
Texte que vous placez dans la barre de recherche Google. |
|
Code pays
|
country_code | string |
Le pays à partir duquel vous souhaitez obtenir la demande. |
|
|
Results
|
nb_results | integer |
Nombre de résultats à retourner. |
|
|
Page
|
page | integer |
Numéro de page à partir duquel extraire les résultats. |
|
|
Language
|
language | string |
Langue dans laquelle retourner les résultats. |
|
|
Params supplémentaires
|
extra_params | string |
Tous les paramètres d’URL supplémentaires à envoyer. |
Retours
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
URL
|
meta_data.url | string |
Adresse URL. |
|
Results
|
meta_data.number_of_results | integer |
Nombre de résultats. |
|
Emplacement
|
meta_data.location | string |
Emplacement. |
|
Résultats organiques
|
meta_data.number_of_organic_results | integer |
Nombre de résultats organiques. |
|
Annonces
|
meta_data.number_of_ads | integer |
Nombre d’annonces. |
|
Page
|
meta_data.number_of_page | integer |
Numéro de page. |
|
Aucun message de résultats
|
meta_data.no_results_message | string |
Message sans résultat. |
|
Résultats organiques
|
organic_results | array of object | |
|
URL
|
organic_results.url | string |
Adresse URL. |
|
URL affichée
|
organic_results.displayed_url | string |
Adresse d’URL affichée. |
|
Descriptif
|
organic_results.description | string |
Description. |
|
Informations supplémentaires
|
organic_results.extra_info | string |
Informations supplémentaires. |
|
Poste
|
organic_results.position | integer |
Position. |
|
Titre
|
organic_results.title | string |
Titre. |
|
Résultats locaux
|
local_results | array of string |
Résultats locaux. |
|
Annonces principales
|
top_ads | string |
Les publicités les plus hauts. |
|
Publicités inférieures
|
bottom_ads | string |
Les publicités inférieures. |
|
Requêtes associées
|
related_queries | array of object | |
|
Texto
|
related_queries.text | string |
Texte. |
|
Poste
|
related_queries.position | integer |
Position. |
|
Questions
|
questions | array of string |
Les questions. |
Obtenir l’utilisation
Récupérez des informations sur la consommation de crédit et l’utilisation de la concurrence.
Retours
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
Crédit d’API maximal
|
max_api_credit | integer |
Crédit d’API maximal. |
|
Crédit d’API utilisé
|
used_api_credit | integer |
Crédit d’API utilisé. |
|
Nombre maximal d’accès concurrentiel
|
max_concurrency | integer |
Concurrence maximale. |
|
Concurrence actuelle
|
current_concurrency | integer |
Concurrence actuelle. |
|
Date de renouvellement de l’abonnement
|
renewal_subscription_date | string |
Date de renouvellement de l’abonnement. |
URL de suppression
Récupère l’URL demandée pour la récupération et affiche JavaScript si elle est demandée.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
URL
|
url | True | string |
URL à supprimer. |
|
Render JS
|
render_js | True | boolean |
Affichez le site web dans un navigateur sans tête. |
|
Scénario JS
|
js_scenario | string |
Exécutez JavaScript avant le rendu. |
|
|
Wait
|
wait | integer |
Délai d’attente avant le rendu. |
|
|
Attendre
|
wait_for | string |
Attendez qu’un élément particulier apparaisse dans le DOM. |
|
|
Bloquer les publicités
|
block_ads | boolean |
Indique s’il faut bloquer les publicités. |
|
|
Bloquer les ressources
|
block_resources | boolean |
Indique s’il faut bloquer toutes les images et CSS. |
|
|
Largeur de la fenêtre
|
window_width | integer |
Largeur de la fenêtre à utiliser. |
|
|
Hauteur de la fenêtre
|
window_height | integer |
Hauteur de la fenêtre à utiliser. |
|
|
Premium Proxy
|
premium_proxy | boolean |
Indique s’il faut utiliser un proxy pour supprimer le site web. |
|
|
Code pays
|
country_code | string |
Pays proxy à utiliser pour supprimer le site web. |
|
|
Proxy furtif
|
stealth_proxy | boolean |
Indique s’il faut utiliser un proxy furtif pour supprimer le site web. |
|
|
Propre proxy
|
own_proxy | string |
Votre propre proxy à utiliser. |
|
|
Extraire des règles
|
extract_rules | string |
Règles d’extraction pour analyser le code HTML avant de répondre. |
|
|
Screenshot
|
screenshot | boolean |
Capture d’écran du site web demandé. |
|
|
Sélecteur d’écran
|
screenshot_selector | string |
Capture d’écran d’un sélecteur CSS particulier. |
|
|
Capture d’écran de la page complète
|
screenshot_full_page | boolean |
Prenez une capture d’écran de l’ensemble du site web. |
|
|
Source de la page de retour
|
return_page_source | boolean |
Retournez également la source de la page. |
|
|
ID session
|
session_id | integer |
Toutes les demandes d’API utilisant la même session_id sont routées via la même adresse IP pendant une durée de 5 minutes. |
|
|
Délai d'expiration
|
timeout | integer |
Nombre maximal de délai d’expiration ms, compris entre 1 000 et 140000 (valeur par défaut). |
|
|
Cookies
|
cookies | string |
Cookie personnalisé à transmettre au site web. |
|
|
Device
|
device | string |
Type d’appareil envoyé au serveur. |
|
|
Google personnalisé
|
custom_google | boolean |
Définissez la valeur true si vous grattez une page web sur Google ou un sous-domaine Google. |
Retours
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
Corps
|
body | string |
Le corps. |
|
Cookies
|
cookies | array of object | |
|
Nom
|
cookies.name | string |
Nom. |
|
Valeur
|
cookies.value | string |
Valeur. |
|
Domain
|
cookies.domain | string |
Domaine. |
|
Chemin
|
cookies.path | string |
Chemin d’accès. |
|
Expire
|
cookies.expires | float |
À l’expiration. |
|
Taille
|
cookies.size | integer |
Taille. |
|
HTTP uniquement
|
cookies.httpOnly | boolean |
Indique si seul HTTP. |
|
Secure
|
cookies.secure | boolean |
Indique si elle est sécurisée. |
|
Session
|
cookies.session | boolean |
Indique si la session est en cours. |
|
Même partie
|
cookies.sameParty | boolean |
Que ce soit le même parti. |
|
Schéma source
|
cookies.sourceScheme | string |
Schéma source. |
|
Port source
|
cookies.sourcePort | integer |
Port source. |
|
Résultats évalués
|
evaluate_results | array of string |
Résultats évalués. |
|
Âge
|
headers.age | string |
L’âge. |
|
Contrôle du cache
|
headers.cache-control | string |
Contrôle de cache. |
|
Encodage de contenu
|
headers.content-encoding | string |
Encodage de contenu. |
|
Stratégie de sécurité du contenu
|
headers.content-security-policy | string |
Stratégie de sécurité du contenu. |
|
Type de contenu
|
headers.content-type | string |
Type de contenu. |
|
Date
|
headers.date | string |
Date. |
|
ETag
|
headers.etag | string |
ETag. |
|
Stratégie de référence
|
headers.referrer-policy | string |
Stratégie de référence. |
|
Serveur
|
headers.server | string |
Serveur. |
|
Sécurité de transport stricte
|
headers.strict-transport-security | string |
Sécurité de transport stricte. |
|
Options de type de contenu X
|
headers.x-content-type-options | string |
Options de type de contenu x. |
|
Options de trame X
|
headers.x-frame-options | string |
Options de trame x. |
|
Chemin d’accès x mis en correspondance
|
headers.x-matched-path | string |
Chemin d’accès x mis en correspondance. |
|
X alimenté par
|
headers.x-powered-by | string |
X alimenté par. |
|
X Vercel Cache
|
headers.x-vercel-cache | string |
Cache x Vercel. |
|
X Vercel ID
|
headers.x-vercel-id | string |
Identificateur x Vercel. |
|
Type
|
type | string |
Type. |
|
IFrames
|
iframes | array of string |
IFrames. |
|
XHR
|
xhr | array of object | |
|
URL
|
xhr.url | string |
Adresse URL. |
|
Code de statut
|
xhr.status_code | integer |
Code d’état. |
|
Méthode
|
xhr.method | string |
Méthode. |
|
Âge
|
xhr.headers.age | string |
L’âge. |
|
Contrôle du cache
|
xhr.headers.cache-control | string |
Contrôle de cache. |
|
Longueur du contenu
|
xhr.headers.content-length | string |
Longueur du contenu. |
|
Stratégie de sécurité du contenu
|
xhr.headers.content-security-policy | string |
Stratégie de sécurité du contenu. |
|
Type de contenu
|
xhr.headers.content-type | string |
Type de contenu. |
|
Date
|
xhr.headers.date | string |
Date. |
|
ETag
|
xhr.headers.etag | string |
ETag. |
|
Stratégie de référence
|
xhr.headers.referrer-policy | string |
Stratégie de référence. |
|
Serveur
|
xhr.headers.server | string |
Serveur. |
|
Sécurité de transport stricte
|
xhr.headers.strict-transport-security | string |
Sécurité de transport stricte. |
|
Options de type de contenu X
|
xhr.headers.x-content-type-options | string |
Options de type de contenu X. |
|
Options de trame X
|
xhr.headers.x-frame-options | string |
Options de trame X. |
|
Chemin d’accès x mis en correspondance
|
xhr.headers.x-matched-path | string |
Chemin de correspondance X. |
|
X Vercel Cache
|
xhr.headers.x-vercel-cache | string |
Cache X Vercel. |
|
X Vercel ID
|
xhr.headers.x-vercel-id | string |
Identificateur X Vercel. |
|
Autoriser l’origine du contrôle d’accès
|
xhr.headers.access-control-allow-origin | string |
Le contrôle d’accès autorise l’origine. |
|
Contrôle d’accès Exposer les en-têtes
|
xhr.headers.access-control-expose-headers | string |
Le contrôle d’accès expose les en-têtes. |
|
Alt SVC
|
xhr.headers.alt-svc | string |
The alt SVC. |
|
Varier
|
xhr.headers.vary | string |
La variation. |
|
Via
|
xhr.headers.via | string |
Le via. |
|
Heure du service en amont X Envoy
|
xhr.headers.x-envoy-upstream-service-time | string |
Heure du service en amont x envoy. |
|
ID de demande X Amazon
|
xhr.headers.x-amzn-requestid | string |
Identificateur de demande X Amazon. |
|
X Amazon Trace ID
|
xhr.headers.x-amzn-trace-id | string |
Identificateur de trace X Amazon. |
|
Corps
|
xhr.body | string |
Le corps. |
|
Coûts
|
cost | integer |
Le coût. |
|
Code d’état initial
|
initial-status-code | integer |
Code d’état initial. |
|
URL résolue
|
resolved-url | string |
Adresse URL résolue. |
|
Microdata
|
metadata.microdata | array of string |
Microdata. |
|
JSON LD
|
metadata.json-ld | array of object | |
|
Contexte
|
metadata.json-ld.@context | string |
Contexte. |
|
Type
|
metadata.json-ld.@type | string |
Type. |
|
Nom
|
metadata.json-ld.name | string |
Nom. |
|
URL
|
metadata.json-ld.url | string |
Adresse URL. |
|
Descriptif
|
metadata.json-ld.description | string |
Description. |
|
Type
|
metadata.json-ld.mainEntityOfPage.@type | string |
Type. |
|
URL
|
metadata.json-ld.mainEntityOfPage.url | string |
Adresse URL. |
|
Type
|
metadata.json-ld.image.@type | string |
Type. |
|
URL
|
metadata.json-ld.image.url | string |
Adresse URL. |
|
Type
|
metadata.json-ld.publisher.@type | string |
Type. |
|
Nom
|
metadata.json-ld.publisher.name | string |
Nom. |
|
URL
|
metadata.json-ld.publisher.url | string |
Adresse URL. |
|
Identique à
|
metadata.json-ld.sameAs | string |
Identique à. |
|
Ouvrir Graph
|
metadata.opengraph | array of object | |
|
Ouvrir le titre du graphe
|
metadata.opengraph.og:title | string |
Titre d’Open Graph. |
|
Ouvrir la description du graphe
|
metadata.opengraph.og:description | string |
Description d’Open Graph. |
|
Ouvrir le nom du site Graph
|
metadata.opengraph.og:site_name | string |
Nom du site Open Graph. |
|
Ouvrir l’URL graph
|
metadata.opengraph.og:url | string |
Adresse URL Open Graph. |
|
Ouvrir l’image graph
|
metadata.opengraph.og:image | string |
Image Open Graph. |
|
Type
|
metadata.opengraph.@type | string |
Type. |
|
OG
|
metadata.opengraph.@context.og | string |
Graphique ouvert. |
|
Dublincore
|
metadata.dublincore | array of object | |
|
Elements
|
metadata.dublincore.elements | array of object | |
|
Nom
|
metadata.dublincore.elements.name | string |
Nom. |
|
Content
|
metadata.dublincore.elements.content | string |
Contenu. |
|
URI
|
metadata.dublincore.elements.URI | string |
The URI. |
|
Termes
|
metadata.dublincore.terms | array of string |
Les termes. |