Compartir a través de


ScrapingBee (publicador independiente) (versión preliminar)

ScrapingBee es el servicio de extracción web más eficaz en la web. Controlará exploradores sin encabezado, servidores proxy, CAPTCHAs, extraerá información estructurada compleja de cualquier sitio web con selectores CSS y ejecutar escenarios de JavaScript (clic, desplazamiento, relleno de formularios, etc.).

Este conector está disponible en los siguientes productos y regiones:

Service Class Regions
Copilot Studio Premium Todas las regiones de Power Automate excepto las siguientes:
     - Gobierno de EE. UU. (GCC)
     - Gobierno de EE. UU. (GCC High)
     - China Cloud operado por 21Vianet
     - Departamento de Defensa de EE. UU. (DoD)
Aplicaciones lógicas Estándar Todas las regiones de Logic Apps excepto las siguientes:
     - Regiones de Azure Government
     - Regiones de Azure China
     - Departamento de Defensa de EE. UU. (DoD)
Power Apps Premium Todas las regiones de Power Apps excepto las siguientes:
     - Gobierno de EE. UU. (GCC)
     - Gobierno de EE. UU. (GCC High)
     - China Cloud operado por 21Vianet
     - Departamento de Defensa de EE. UU. (DoD)
Power Automate Premium Todas las regiones de Power Automate excepto las siguientes:
     - Gobierno de EE. UU. (GCC)
     - Gobierno de EE. UU. (GCC High)
     - China Cloud operado por 21Vianet
     - Departamento de Defensa de EE. UU. (DoD)
Contacto
Nombre Troy Taylor
URL https://www.hitachisolutions.com
Correo Electrónico ttaylor@hitachisolutions.com
Metadatos del conector
Publicador Troy Taylor
Website https://www.scrapingbee.com/
Directiva de privacidad https://www.scrapingbee.com/privacy-policy/
Categorías Website

Creación de una conexión

El conector admite los siguientes tipos de autenticación:

Predeterminado Parámetros para crear una conexión. Todas las regiones No se puede compartir

Predeterminado

Aplicable: Todas las regiones

Parámetros para crear una conexión.

Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.

Nombre Tipo Description Obligatorio
Clave de API securestring La clave de API de esta API Cierto

Limitaciones

Nombre Llamadas Período de renovación
Llamadas API por conexión 100 60 segundos

Acciones

Dirección URL de extracción

Captura la dirección URL solicitada para extraer y representará JavaScript si se solicita.

Obtención del uso

Recupere información sobre el consumo de crédito y el uso de simultaneidad.

Realizar búsqueda en Google

Recupera una extracción de páginas de resultados de Google Search

Dirección URL de extracción

Captura la dirección URL solicitada para extraer y representará JavaScript si se solicita.

Parámetros

Nombre Clave Requerido Tipo Description
URL
url True string

Dirección URL que desea extraer.

Representación de JS
render_js True boolean

Representar el sitio web en un explorador sin encabezado.

Escenario de JS
js_scenario string

Ejecute JavaScript antes de la representación.

Wait
wait integer

Tiempo de espera antes de la representación.

Esperar
wait_for string

Espere a que aparezca un elemento determinado en el DOM.

Bloquear anuncios
block_ads boolean

Si se van a bloquear anuncios.

Bloquear recursos
block_resources boolean

Si se van a bloquear todas las imágenes y CSS.

Ancho de ventana
window_width integer

Ancho de la ventana que se va a usar.

Alto de la ventana
window_height integer

Alto de la ventana que se va a usar.

Premium Proxy
premium_proxy boolean

Si se usa un proxy para extraer el sitio web.

Código de país
country_code string

País proxy que se va a usar para extraer el sitio web.

Proxy sigiloso
stealth_proxy boolean

Si se usa un proxy sigiloso para extraer el sitio web.

Propio proxy
own_proxy string

Su propio proxy que se va a usar.

Extraer reglas
extract_rules string

Reglas de extracción para analizar el CÓDIGO HTML antes de responder.

Screenshot
screenshot boolean

Tome una captura de pantalla del sitio web solicitado.

Selector de captura de pantalla
screenshot_selector string

Tome una captura de pantalla de un selector CSS determinado.

Captura de pantalla de la página completa
screenshot_full_page boolean

Tome una captura de pantalla de todo el sitio web.

Devolver origen de página
return_page_source boolean

Devuelve también el origen de la página.

Id. sesión
session_id integer

Todas las solicitudes de API que usan el mismo session_id se enrutarán a través de la misma dirección IP durante un período de 5 minutos.

Timeout
timeout integer

Número máximo de tiempo de espera de ms, entre 1000 y 140000 (valor predeterminado).

Cookies
cookies string

Cookie personalizada para pasar al sitio web.

Device
device string

El tipo de dispositivo enviado al servidor.

Google personalizado
custom_google boolean

Se establece en true si se extrae la página web en Google o en un subdominio de Google.

Devoluciones

Nombre Ruta de acceso Tipo Description
Body
body string

El cuerpo.

Cookies
cookies array of object
Nombre
cookies.name string

Nombre.

Importancia
cookies.value string

Valor.

Dominio
cookies.domain string

Dominio.

Ruta
cookies.path string

Ruta de acceso.

Caduca
cookies.expires float

Cuando expira.

Tamaño
cookies.size integer

Tamaño.

Solo HTTP
cookies.httpOnly boolean

Indica si solo HTTP.

Secure
cookies.secure boolean

Si es seguro.

Session
cookies.session boolean

Indica si la sesión.

Misma parte
cookies.sameParty boolean

Si es la misma fiesta.

Esquema de origen
cookies.sourceScheme string

Esquema de origen.

Puerto de origen
cookies.sourcePort integer

Puerto de origen.

Resultados evaluados
evaluate_results array of string

Resultados evaluados.

Edad
headers.age string

La edad.

Control de caché
headers.cache-control string

Control de caché.

Codificación de contenido
headers.content-encoding string

Codificación de contenido.

Política de seguridad de contenido
headers.content-security-policy string

Directiva de seguridad de contenido.

Tipo de contenido
headers.content-type string

Tipo de contenido.

Fecha
headers.date string

La fecha.

ETag
headers.etag string

ETag.

Directiva de remitente
headers.referrer-policy string

Directiva de referencia.

Servidor
headers.server string

Servidor.

Seguridad estricta de transporte
headers.strict-transport-security string

La estricta seguridad de transporte.

Opciones de tipo de contenido X
headers.x-content-type-options string

Opciones de tipo de contenido x.

Opciones de fotogramaS X
headers.x-frame-options string

Las opciones de fotograma x.

X ruta de acceso coincidente
headers.x-matched-path string

Ruta de acceso coincidente x.

X con tecnología de
headers.x-powered-by string

X con tecnología.

X Vercel Cache
headers.x-vercel-cache string

Caché x Vercel.

X Vercel ID
headers.x-vercel-id string

Identificador x Vercel.

Tipo
type string

Tipo.

IFrames
iframes array of string

IFrames.

XHR
xhr array of object
URL
xhr.url string

Dirección URL.

Código de estado
xhr.status_code integer

Código de estado.

Método
xhr.method string

Método .

Edad
xhr.headers.age string

La edad.

Control de caché
xhr.headers.cache-control string

Control de caché.

Longitud del contenido
xhr.headers.content-length string

Longitud del contenido.

Política de seguridad de contenido
xhr.headers.content-security-policy string

Directiva de seguridad de contenido.

Tipo de contenido
xhr.headers.content-type string

Tipo de contenido.

Fecha
xhr.headers.date string

La fecha.

ETag
xhr.headers.etag string

ETag.

Directiva de remitente
xhr.headers.referrer-policy string

Directiva de referencia.

Servidor
xhr.headers.server string

Servidor.

Seguridad estricta de transporte
xhr.headers.strict-transport-security string

La estricta seguridad de transporte.

Opciones de tipo de contenido X
xhr.headers.x-content-type-options string

Las opciones de tipo de contenido X.

Opciones de fotogramaS X
xhr.headers.x-frame-options string

Las opciones del marco X.

X ruta de acceso coincidente
xhr.headers.x-matched-path string

Ruta de acceso coincidente X.

X Vercel Cache
xhr.headers.x-vercel-cache string

Caché X Vercel.

X Vercel ID
xhr.headers.x-vercel-id string

Identificador X Vercel.

Permitir origen del control de acceso
xhr.headers.access-control-allow-origin string

El control de acceso permite el origen.

Control de acceso Expone encabezados
xhr.headers.access-control-expose-headers string

El control de acceso expone encabezados.

Alt SVC
xhr.headers.alt-svc string

The alt SVC.

Vary
xhr.headers.vary string

El valor varía.

Vía
xhr.headers.via string

La vía.

Hora del servicio ascendente de X Envoy
xhr.headers.x-envoy-upstream-service-time string

Hora del servicio ascendente de X envoy.

X Amazon Request ID
xhr.headers.x-amzn-requestid string

Identificador de solicitud X de Amazon.

X Amazon Trace ID
xhr.headers.x-amzn-trace-id string

Identificador de seguimiento de Amazon X.

Body
xhr.body string

El cuerpo.

Cost
cost integer

El costo.

Código de estado inicial
initial-status-code integer

Código de estado inicial.

Dirección URL resuelta
resolved-url string

Dirección URL resuelta.

Microdata
metadata.microdata array of string

Microdatos.

JSON LD
metadata.json-ld array of object
Context
metadata.json-ld.@context string

Contexto.

Tipo
metadata.json-ld.@type string

Tipo.

Nombre
metadata.json-ld.name string

Nombre.

URL
metadata.json-ld.url string

Dirección URL.

Description
metadata.json-ld.description string

Descripción.

Tipo
metadata.json-ld.mainEntityOfPage.@type string

Tipo.

URL
metadata.json-ld.mainEntityOfPage.url string

Dirección URL.

Tipo
metadata.json-ld.image.@type string

Tipo.

URL
metadata.json-ld.image.url string

Dirección URL.

Tipo
metadata.json-ld.publisher.@type string

Tipo.

Nombre
metadata.json-ld.publisher.name string

Nombre.

URL
metadata.json-ld.publisher.url string

Dirección URL.

Igual que
metadata.json-ld.sameAs string

Igual que.

Abrir Graph
metadata.opengraph array of object
Abrir título de grafo
metadata.opengraph.og:title string

Título abrir grafo.

Abrir descripción del grafo
metadata.opengraph.og:description string

Descripción de Open Graph.

Abrir el nombre del sitio de Graph
metadata.opengraph.og:site_name string

Nombre del sitio de Open Graph.

Abrir la dirección URL de Graph
metadata.opengraph.og:url string

Dirección URL de Open Graph.

Abrir imagen de Graph
metadata.opengraph.og:image string

Imagen abrir grafo.

Tipo
metadata.opengraph.@type string

Tipo.

OG
metadata.opengraph.@context.og string

The Open Graph.

Dublincore
metadata.dublincore array of object
Elements
metadata.dublincore.elements array of object
Nombre
metadata.dublincore.elements.name string

Nombre.

Content
metadata.dublincore.elements.content string

El contenido.

URI
metadata.dublincore.elements.URI string

Identificador URI.

Términos
metadata.dublincore.terms array of string

Términos.

Obtención del uso

Recupere información sobre el consumo de crédito y el uso de simultaneidad.

Devoluciones

Nombre Ruta de acceso Tipo Description
Crédito máximo de API
max_api_credit integer

Crédito máximo de API.

Crédito de API usado
used_api_credit integer

Crédito de API usado.

Simultaneidad máxima
max_concurrency integer

Simultaneidad máxima.

Simultaneidad actual
current_concurrency integer

Simultaneidad actual.

Fecha de suscripción de renovación
renewal_subscription_date string

Fecha de suscripción de renovación.

Realizar búsqueda en Google

Recupera una extracción de páginas de resultados de Google Search

Parámetros

Nombre Clave Requerido Tipo Description
Search
search True string

El texto que colocaría en la barra de búsqueda de Google.

Código de país
country_code string

El país del que desea que proceda la solicitud.

Results
nb_results integer

Número de resultados que se van a devolver.

Página
page integer

Número de página del que se van a extraer los resultados.

Language
language string

Idioma en el que se devuelven los resultados.

Parámetros adicionales
extra_params string

Cualquier parámetro de dirección URL adicional que se envíe.

Devoluciones

Nombre Ruta de acceso Tipo Description
URL
meta_data.url string

Dirección URL.

Results
meta_data.number_of_results integer

Número de resultados.

Ubicación
meta_data.location string

Ubicación.

Resultados orgánicos
meta_data.number_of_organic_results integer

Número de resultados orgánicos.

Anuncios
meta_data.number_of_ads integer

Número de anuncios.

Página
meta_data.number_of_page integer

Número de página.

Sin mensaje de resultados
meta_data.no_results_message string

Mensaje sin resultados.

Resultados orgánicos
organic_results array of object
URL
organic_results.url string

Dirección URL.

Dirección URL mostrada
organic_results.displayed_url string

Dirección URL mostrada.

Description
organic_results.description string

Descripción.

Información adicional
organic_results.extra_info string

La información adicional.

Position
organic_results.position integer

Posición.

Title
organic_results.title string

Título.

Resultados locales
local_results array of string

Resultados locales.

Anuncios principales
top_ads string

Los anuncios principales.

Anuncios inferiores
bottom_ads string

Los anuncios inferiores.

Consultas relacionadas
related_queries array of object
Mensaje de texto
related_queries.text string

Texto.

Position
related_queries.position integer

Posición.

Preguntas
questions array of string

Las preguntas.