ScrapingBee (publicador independiente) (versión preliminar)
ScrapingBee es el servicio de extracción web más eficaz en la web. Controlará exploradores sin encabezado, servidores proxy, CAPTCHAs, extraerá información estructurada compleja de cualquier sitio web con selectores CSS y ejecutar escenarios de JavaScript (clic, desplazamiento, relleno de formularios, etc.).
Este conector está disponible en los siguientes productos y regiones:
| Service | Class | Regions |
|---|---|---|
| Copilot Studio | Premium | Todas las regiones de Power Automate excepto las siguientes: - Gobierno de EE. UU. (GCC) - Gobierno de EE. UU. (GCC High) - China Cloud operado por 21Vianet - Departamento de Defensa de EE. UU. (DoD) |
| Aplicaciones lógicas | Estándar | Todas las regiones de Logic Apps excepto las siguientes: - Regiones de Azure Government - Regiones de Azure China - Departamento de Defensa de EE. UU. (DoD) |
| Power Apps | Premium | Todas las regiones de Power Apps excepto las siguientes: - Gobierno de EE. UU. (GCC) - Gobierno de EE. UU. (GCC High) - China Cloud operado por 21Vianet - Departamento de Defensa de EE. UU. (DoD) |
| Power Automate | Premium | Todas las regiones de Power Automate excepto las siguientes: - Gobierno de EE. UU. (GCC) - Gobierno de EE. UU. (GCC High) - China Cloud operado por 21Vianet - Departamento de Defensa de EE. UU. (DoD) |
| Contacto | |
|---|---|
| Nombre | Troy Taylor |
| URL | https://www.hitachisolutions.com |
| Correo Electrónico | ttaylor@hitachisolutions.com |
| Metadatos del conector | |
|---|---|
| Publicador | Troy Taylor |
| Website | https://www.scrapingbee.com/ |
| Directiva de privacidad | https://www.scrapingbee.com/privacy-policy/ |
| Categorías | Website |
Creación de una conexión
El conector admite los siguientes tipos de autenticación:
| Predeterminado | Parámetros para crear una conexión. | Todas las regiones | No se puede compartir |
Predeterminado
Aplicable: Todas las regiones
Parámetros para crear una conexión.
Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.
| Nombre | Tipo | Description | Obligatorio |
|---|---|---|---|
| Clave de API | securestring | La clave de API de esta API | Cierto |
Limitaciones
| Nombre | Llamadas | Período de renovación |
|---|---|---|
| Llamadas API por conexión | 100 | 60 segundos |
Acciones
| Dirección URL de extracción |
Captura la dirección URL solicitada para extraer y representará JavaScript si se solicita. |
| Obtención del uso |
Recupere información sobre el consumo de crédito y el uso de simultaneidad. |
| Realizar búsqueda en Google |
Recupera una extracción de páginas de resultados de Google Search |
Dirección URL de extracción
Captura la dirección URL solicitada para extraer y representará JavaScript si se solicita.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
URL
|
url | True | string |
Dirección URL que desea extraer. |
|
Representación de JS
|
render_js | True | boolean |
Representar el sitio web en un explorador sin encabezado. |
|
Escenario de JS
|
js_scenario | string |
Ejecute JavaScript antes de la representación. |
|
|
Wait
|
wait | integer |
Tiempo de espera antes de la representación. |
|
|
Esperar
|
wait_for | string |
Espere a que aparezca un elemento determinado en el DOM. |
|
|
Bloquear anuncios
|
block_ads | boolean |
Si se van a bloquear anuncios. |
|
|
Bloquear recursos
|
block_resources | boolean |
Si se van a bloquear todas las imágenes y CSS. |
|
|
Ancho de ventana
|
window_width | integer |
Ancho de la ventana que se va a usar. |
|
|
Alto de la ventana
|
window_height | integer |
Alto de la ventana que se va a usar. |
|
|
Premium Proxy
|
premium_proxy | boolean |
Si se usa un proxy para extraer el sitio web. |
|
|
Código de país
|
country_code | string |
País proxy que se va a usar para extraer el sitio web. |
|
|
Proxy sigiloso
|
stealth_proxy | boolean |
Si se usa un proxy sigiloso para extraer el sitio web. |
|
|
Propio proxy
|
own_proxy | string |
Su propio proxy que se va a usar. |
|
|
Extraer reglas
|
extract_rules | string |
Reglas de extracción para analizar el CÓDIGO HTML antes de responder. |
|
|
Screenshot
|
screenshot | boolean |
Tome una captura de pantalla del sitio web solicitado. |
|
|
Selector de captura de pantalla
|
screenshot_selector | string |
Tome una captura de pantalla de un selector CSS determinado. |
|
|
Captura de pantalla de la página completa
|
screenshot_full_page | boolean |
Tome una captura de pantalla de todo el sitio web. |
|
|
Devolver origen de página
|
return_page_source | boolean |
Devuelve también el origen de la página. |
|
|
Id. sesión
|
session_id | integer |
Todas las solicitudes de API que usan el mismo session_id se enrutarán a través de la misma dirección IP durante un período de 5 minutos. |
|
|
Timeout
|
timeout | integer |
Número máximo de tiempo de espera de ms, entre 1000 y 140000 (valor predeterminado). |
|
|
Cookies
|
cookies | string |
Cookie personalizada para pasar al sitio web. |
|
|
Device
|
device | string |
El tipo de dispositivo enviado al servidor. |
|
|
Google personalizado
|
custom_google | boolean |
Se establece en true si se extrae la página web en Google o en un subdominio de Google. |
Devoluciones
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
Body
|
body | string |
El cuerpo. |
|
Cookies
|
cookies | array of object | |
|
Nombre
|
cookies.name | string |
Nombre. |
|
Importancia
|
cookies.value | string |
Valor. |
|
Dominio
|
cookies.domain | string |
Dominio. |
|
Ruta
|
cookies.path | string |
Ruta de acceso. |
|
Caduca
|
cookies.expires | float |
Cuando expira. |
|
Tamaño
|
cookies.size | integer |
Tamaño. |
|
Solo HTTP
|
cookies.httpOnly | boolean |
Indica si solo HTTP. |
|
Secure
|
cookies.secure | boolean |
Si es seguro. |
|
Session
|
cookies.session | boolean |
Indica si la sesión. |
|
Misma parte
|
cookies.sameParty | boolean |
Si es la misma fiesta. |
|
Esquema de origen
|
cookies.sourceScheme | string |
Esquema de origen. |
|
Puerto de origen
|
cookies.sourcePort | integer |
Puerto de origen. |
|
Resultados evaluados
|
evaluate_results | array of string |
Resultados evaluados. |
|
Edad
|
headers.age | string |
La edad. |
|
Control de caché
|
headers.cache-control | string |
Control de caché. |
|
Codificación de contenido
|
headers.content-encoding | string |
Codificación de contenido. |
|
Política de seguridad de contenido
|
headers.content-security-policy | string |
Directiva de seguridad de contenido. |
|
Tipo de contenido
|
headers.content-type | string |
Tipo de contenido. |
|
Fecha
|
headers.date | string |
La fecha. |
|
ETag
|
headers.etag | string |
ETag. |
|
Directiva de remitente
|
headers.referrer-policy | string |
Directiva de referencia. |
|
Servidor
|
headers.server | string |
Servidor. |
|
Seguridad estricta de transporte
|
headers.strict-transport-security | string |
La estricta seguridad de transporte. |
|
Opciones de tipo de contenido X
|
headers.x-content-type-options | string |
Opciones de tipo de contenido x. |
|
Opciones de fotogramaS X
|
headers.x-frame-options | string |
Las opciones de fotograma x. |
|
X ruta de acceso coincidente
|
headers.x-matched-path | string |
Ruta de acceso coincidente x. |
|
X con tecnología de
|
headers.x-powered-by | string |
X con tecnología. |
|
X Vercel Cache
|
headers.x-vercel-cache | string |
Caché x Vercel. |
|
X Vercel ID
|
headers.x-vercel-id | string |
Identificador x Vercel. |
|
Tipo
|
type | string |
Tipo. |
|
IFrames
|
iframes | array of string |
IFrames. |
|
XHR
|
xhr | array of object | |
|
URL
|
xhr.url | string |
Dirección URL. |
|
Código de estado
|
xhr.status_code | integer |
Código de estado. |
|
Método
|
xhr.method | string |
Método . |
|
Edad
|
xhr.headers.age | string |
La edad. |
|
Control de caché
|
xhr.headers.cache-control | string |
Control de caché. |
|
Longitud del contenido
|
xhr.headers.content-length | string |
Longitud del contenido. |
|
Política de seguridad de contenido
|
xhr.headers.content-security-policy | string |
Directiva de seguridad de contenido. |
|
Tipo de contenido
|
xhr.headers.content-type | string |
Tipo de contenido. |
|
Fecha
|
xhr.headers.date | string |
La fecha. |
|
ETag
|
xhr.headers.etag | string |
ETag. |
|
Directiva de remitente
|
xhr.headers.referrer-policy | string |
Directiva de referencia. |
|
Servidor
|
xhr.headers.server | string |
Servidor. |
|
Seguridad estricta de transporte
|
xhr.headers.strict-transport-security | string |
La estricta seguridad de transporte. |
|
Opciones de tipo de contenido X
|
xhr.headers.x-content-type-options | string |
Las opciones de tipo de contenido X. |
|
Opciones de fotogramaS X
|
xhr.headers.x-frame-options | string |
Las opciones del marco X. |
|
X ruta de acceso coincidente
|
xhr.headers.x-matched-path | string |
Ruta de acceso coincidente X. |
|
X Vercel Cache
|
xhr.headers.x-vercel-cache | string |
Caché X Vercel. |
|
X Vercel ID
|
xhr.headers.x-vercel-id | string |
Identificador X Vercel. |
|
Permitir origen del control de acceso
|
xhr.headers.access-control-allow-origin | string |
El control de acceso permite el origen. |
|
Control de acceso Expone encabezados
|
xhr.headers.access-control-expose-headers | string |
El control de acceso expone encabezados. |
|
Alt SVC
|
xhr.headers.alt-svc | string |
The alt SVC. |
|
Vary
|
xhr.headers.vary | string |
El valor varía. |
|
Vía
|
xhr.headers.via | string |
La vía. |
|
Hora del servicio ascendente de X Envoy
|
xhr.headers.x-envoy-upstream-service-time | string |
Hora del servicio ascendente de X envoy. |
|
X Amazon Request ID
|
xhr.headers.x-amzn-requestid | string |
Identificador de solicitud X de Amazon. |
|
X Amazon Trace ID
|
xhr.headers.x-amzn-trace-id | string |
Identificador de seguimiento de Amazon X. |
|
Body
|
xhr.body | string |
El cuerpo. |
|
Cost
|
cost | integer |
El costo. |
|
Código de estado inicial
|
initial-status-code | integer |
Código de estado inicial. |
|
Dirección URL resuelta
|
resolved-url | string |
Dirección URL resuelta. |
|
Microdata
|
metadata.microdata | array of string |
Microdatos. |
|
JSON LD
|
metadata.json-ld | array of object | |
|
Context
|
metadata.json-ld.@context | string |
Contexto. |
|
Tipo
|
metadata.json-ld.@type | string |
Tipo. |
|
Nombre
|
metadata.json-ld.name | string |
Nombre. |
|
URL
|
metadata.json-ld.url | string |
Dirección URL. |
|
Description
|
metadata.json-ld.description | string |
Descripción. |
|
Tipo
|
metadata.json-ld.mainEntityOfPage.@type | string |
Tipo. |
|
URL
|
metadata.json-ld.mainEntityOfPage.url | string |
Dirección URL. |
|
Tipo
|
metadata.json-ld.image.@type | string |
Tipo. |
|
URL
|
metadata.json-ld.image.url | string |
Dirección URL. |
|
Tipo
|
metadata.json-ld.publisher.@type | string |
Tipo. |
|
Nombre
|
metadata.json-ld.publisher.name | string |
Nombre. |
|
URL
|
metadata.json-ld.publisher.url | string |
Dirección URL. |
|
Igual que
|
metadata.json-ld.sameAs | string |
Igual que. |
|
Abrir Graph
|
metadata.opengraph | array of object | |
|
Abrir título de grafo
|
metadata.opengraph.og:title | string |
Título abrir grafo. |
|
Abrir descripción del grafo
|
metadata.opengraph.og:description | string |
Descripción de Open Graph. |
|
Abrir el nombre del sitio de Graph
|
metadata.opengraph.og:site_name | string |
Nombre del sitio de Open Graph. |
|
Abrir la dirección URL de Graph
|
metadata.opengraph.og:url | string |
Dirección URL de Open Graph. |
|
Abrir imagen de Graph
|
metadata.opengraph.og:image | string |
Imagen abrir grafo. |
|
Tipo
|
metadata.opengraph.@type | string |
Tipo. |
|
OG
|
metadata.opengraph.@context.og | string |
The Open Graph. |
|
Dublincore
|
metadata.dublincore | array of object | |
|
Elements
|
metadata.dublincore.elements | array of object | |
|
Nombre
|
metadata.dublincore.elements.name | string |
Nombre. |
|
Content
|
metadata.dublincore.elements.content | string |
El contenido. |
|
URI
|
metadata.dublincore.elements.URI | string |
Identificador URI. |
|
Términos
|
metadata.dublincore.terms | array of string |
Términos. |
Obtención del uso
Recupere información sobre el consumo de crédito y el uso de simultaneidad.
Devoluciones
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
Crédito máximo de API
|
max_api_credit | integer |
Crédito máximo de API. |
|
Crédito de API usado
|
used_api_credit | integer |
Crédito de API usado. |
|
Simultaneidad máxima
|
max_concurrency | integer |
Simultaneidad máxima. |
|
Simultaneidad actual
|
current_concurrency | integer |
Simultaneidad actual. |
|
Fecha de suscripción de renovación
|
renewal_subscription_date | string |
Fecha de suscripción de renovación. |
Realizar búsqueda en Google
Recupera una extracción de páginas de resultados de Google Search
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Search
|
search | True | string |
El texto que colocaría en la barra de búsqueda de Google. |
|
Código de país
|
country_code | string |
El país del que desea que proceda la solicitud. |
|
|
Results
|
nb_results | integer |
Número de resultados que se van a devolver. |
|
|
Página
|
page | integer |
Número de página del que se van a extraer los resultados. |
|
|
Language
|
language | string |
Idioma en el que se devuelven los resultados. |
|
|
Parámetros adicionales
|
extra_params | string |
Cualquier parámetro de dirección URL adicional que se envíe. |
Devoluciones
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
URL
|
meta_data.url | string |
Dirección URL. |
|
Results
|
meta_data.number_of_results | integer |
Número de resultados. |
|
Ubicación
|
meta_data.location | string |
Ubicación. |
|
Resultados orgánicos
|
meta_data.number_of_organic_results | integer |
Número de resultados orgánicos. |
|
Anuncios
|
meta_data.number_of_ads | integer |
Número de anuncios. |
|
Página
|
meta_data.number_of_page | integer |
Número de página. |
|
Sin mensaje de resultados
|
meta_data.no_results_message | string |
Mensaje sin resultados. |
|
Resultados orgánicos
|
organic_results | array of object | |
|
URL
|
organic_results.url | string |
Dirección URL. |
|
Dirección URL mostrada
|
organic_results.displayed_url | string |
Dirección URL mostrada. |
|
Description
|
organic_results.description | string |
Descripción. |
|
Información adicional
|
organic_results.extra_info | string |
La información adicional. |
|
Position
|
organic_results.position | integer |
Posición. |
|
Title
|
organic_results.title | string |
Título. |
|
Resultados locales
|
local_results | array of string |
Resultados locales. |
|
Anuncios principales
|
top_ads | string |
Los anuncios principales. |
|
Anuncios inferiores
|
bottom_ads | string |
Los anuncios inferiores. |
|
Consultas relacionadas
|
related_queries | array of object | |
|
Mensaje de texto
|
related_queries.text | string |
Texto. |
|
Position
|
related_queries.position | integer |
Posición. |
|
Preguntas
|
questions | array of string |
Las preguntas. |