Partilhar via


ScrapingBee (Editora Independente) (Pré-visualização)

ScrapingBee é o serviço de web scraping mais poderoso da web. Ele lidará com navegadores sem cabeça, proxies, CAPTCHAs, extraindo informações estruturadas complexas de qualquer site com seletores CSS e executando cenários JavaScript (clique, rolagem, preenchimento de formulários, etc.).

Este conector está disponível nos seguintes produtos e regiões:

Serviço Class Regiões
Estúdio Copiloto Premium Todas as regiões do Power Automatic , exceto as seguintes:
     - Governo dos EUA (CCG)
     - Governo dos EUA (GCC High)
     - China Cloud operado pela 21Vianet
     - Departamento de Defesa dos EUA (DoD)
Aplicações Lógicas Standard Todas as regiões do Logic Apps , exceto as seguintes:
     - Regiões do Azure Government
     - Regiões do Azure China
     - Departamento de Defesa dos EUA (DoD)
Aplicações Power Premium Todas as regiões do Power Apps , exceto as seguintes:
     - Governo dos EUA (CCG)
     - Governo dos EUA (GCC High)
     - China Cloud operado pela 21Vianet
     - Departamento de Defesa dos EUA (DoD)
Automatize o poder Premium Todas as regiões do Power Automatic , exceto as seguintes:
     - Governo dos EUA (CCG)
     - Governo dos EUA (GCC High)
     - China Cloud operado pela 21Vianet
     - Departamento de Defesa dos EUA (DoD)
Contato
Nome Troia Taylor
URL https://www.hitachisolutions.com
Email ttaylor@hitachisolutions.com
Metadados do conector
Editora Troia Taylor
Sítio Web https://www.scrapingbee.com/
Política de privacidade https://www.scrapingbee.com/privacy-policy/
Categorias Sítio Web

A criar uma ligação

O conector suporta os seguintes tipos de autenticação:

Predefinição Parâmetros para criar conexão. Todas as regiões Não compartilhável

Padrão

Aplicável: Todas as regiões

Parâmetros para criar conexão.

Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome Tipo Description Obrigatório
Chave de API securestring A chave de API para esta api Verdade

Limites de Limitação

Name Chamadas Período de Renovação
Chamadas de API por conexão 100 60 segundos

Ações

Obter utilização

Recupere informações sobre consumo de crédito e uso de simultaneidade.

Realizar pesquisa no Google

Recupera uma raspagem de páginas de resultados da Pesquisa Google

URL de sucata

Busca o URL solicitado para eliminação e renderizará JavaScript se solicitado.

Obter utilização

Recupere informações sobre consumo de crédito e uso de simultaneidade.

Devoluções

Name Caminho Tipo Description
Crédito API máximo
max_api_credit integer

O crédito máximo da API.

Crédito API usado
used_api_credit integer

O crédito da API usada.

Simultaneidade máxima
max_concurrency integer

A simultaneidade máxima.

Simultaneidade atual
current_concurrency integer

A concorrência atual.

Data de Renovação da Subscrição
renewal_subscription_date string

A data de renovação da subscrição.

Realizar pesquisa no Google

Recupera uma raspagem de páginas de resultados da Pesquisa Google

Parâmetros

Name Chave Necessário Tipo Description
Pesquisa
search True string

O texto que você colocaria na barra de pesquisa do Google.

Código do país
country_code string

O país de onde pretende que o pedido venha.

Results
nb_results integer

O número de resultados a retornar.

Página
page integer

O número da página a partir da qual extrair os resultados.

Linguagem
language string

O idioma para retornar os resultados.

Params Extras
extra_params string

Quaisquer parâmetros de URL adicionais a serem enviados.

Devoluções

Name Caminho Tipo Description
URL
meta_data.url string

O endereço URL.

Results
meta_data.number_of_results integer

O número de resultados.

Localização
meta_data.location string

A localização.

Resultados Orgânicos
meta_data.number_of_organic_results integer

O número de resultados orgânicos.

Anúncios
meta_data.number_of_ads integer

O número de anúncios.

Página
meta_data.number_of_page integer

O número da página.

Nenhuma mensagem de resultados
meta_data.no_results_message string

A mensagem sem resultados.

Resultados Orgânicos
organic_results array of object
URL
organic_results.url string

O endereço URL.

URL exibido
organic_results.displayed_url string

O endereço URL exibido.

Description
organic_results.description string

A descrição.

Informação Extra
organic_results.extra_info string

A informação extra.

Position
organic_results.position integer

A posição.

Title
organic_results.title string

O título.

Resultados Locais
local_results array of string

Os resultados locais.

Principais anúncios
top_ads string

Os principais anúncios.

Anúncios Inferiores
bottom_ads string

Os anúncios inferiores.

Consultas relacionadas
related_queries array of object
Texto
related_queries.text string

O texto.

Position
related_queries.position integer

A posição.

Perguntas
questions array of string

As perguntas.

URL de sucata

Busca o URL solicitado para eliminação e renderizará JavaScript se solicitado.

Parâmetros

Name Chave Necessário Tipo Description
URL
url True string

O URL que você deseja raspar.

Renderizar JS
render_js True boolean

Renderize o site em um navegador sem cabeça.

Cenário JS
js_scenario string

Execute JavaScript antes de renderizar.

Wait
wait integer

Tempo de espera antes de renderizar.

Aguarde
wait_for string

Aguarde até que um elemento específico apareça no DOM.

Bloquear anúncios
block_ads boolean

Se os anúncios devem ser bloqueados.

Bloquear recursos
block_resources boolean

Se deseja bloquear todas as imagens e CSS.

Largura da janela
window_width integer

A largura da janela a ser usada.

Altura da janela
window_height integer

A altura da janela a ser usada.

Premium Proxy
premium_proxy boolean

Se deve usar um proxy para descartar o site.

Código do país
country_code string

O país proxy a ser usado para descartar o site.

Proxy furtivo
stealth_proxy boolean

Se usar um proxy furtivo para descartar o site.

Procuração própria
own_proxy string

Seu próprio proxy para usar.

Regras de extração
extract_rules string

Regras de extração para analisar o HTML antes de responder.

Captura de ecrã
screenshot boolean

Faça uma captura de tela do site solicitado.

Seletor de captura de tela
screenshot_selector string

Faça uma captura de tela de um seletor CSS específico.

Captura de tela Página Inteira
screenshot_full_page boolean

Faça uma captura de tela de todo o site.

Fonte da página de retorno
return_page_source boolean

Retorne a fonte da página também.

ID da Sessão
session_id integer

Todas as solicitações de API usando o mesmo session_id serão roteadas através do mesmo endereço IP por um período de 5 minutos.

Timeout
timeout integer

O número máximo de tempo limite ms, entre 1000 e 140000 (padrão).

Cookies
cookies string

Cookie personalizado para passar para o site.

Device
device string

O tipo de dispositivo enviado para o servidor.

Google personalizado
custom_google boolean

Defina como true se estiver raspando página da Web no Google ou em um subdomínio do Google.

Devoluções

Name Caminho Tipo Description
Body
body string

O corpo.

Cookies
cookies array of object
Nome
cookies.name string

O nome.

Valor
cookies.value string

O valor.

Domínio
cookies.domain string

O domínio.

Caminho
cookies.path string

O caminho.

Expira
cookies.expires float

Quando expira.

Tamanho
cookies.size integer

O tamanho.

Somente HTTP
cookies.httpOnly boolean

Seja apenas HTTP.

Secure
cookies.secure boolean

Se seguro.

Session
cookies.session boolean

Se sessão.

Mesmo partido
cookies.sameParty boolean

Seja a mesma parte.

Esquema de origem
cookies.sourceScheme string

O esquema de origem.

Porta de origem
cookies.sourcePort integer

A porta de origem.

Resultados Avaliados
evaluate_results array of string

Os resultados avaliados.

Idade
headers.age string

A idade.

Controle de cache
headers.cache-control string

O controle de cache.

Codificação de conteúdo
headers.content-encoding string

A codificação de conteúdo.

Política de Segurança de Conteúdos
headers.content-security-policy string

A política de segurança de conteúdo.

Tipo de conteúdo
headers.content-type string

O tipo de conteúdo.

Date
headers.date string

A data.

ETag
headers.etag string

O eTag.

Política de referência
headers.referrer-policy string

A política de referência.

Server
headers.server string

O servidor.

Segurança de transporte rigorosa
headers.strict-transport-security string

A rigorosa segurança do transporte.

X Opções de tipo de conteúdo
headers.x-content-type-options string

As opções de tipo de conteúdo x.

X Opções de quadro
headers.x-frame-options string

As opções de quadro x.

X Caminho correspondente
headers.x-matched-path string

O caminho x correspondeu.

X Alimentado por
headers.x-powered-by string

O x alimentado por.

X Vercel Cache
headers.x-vercel-cache string

O cache x Vercel.

X Vercel ID
headers.x-vercel-id string

O identificador x Vercel.

Tipo
type string

O tipo.

IFrames
iframes array of string

Os iFrames.

XHR
xhr array of object
URL
xhr.url string

O endereço URL.

Código de estado
xhr.status_code integer

O código de status.

Método
xhr.method string

O método.

Idade
xhr.headers.age string

A idade.

Controle de cache
xhr.headers.cache-control string

O controle de cache.

Comprimento do conteúdo
xhr.headers.content-length string

O comprimento do conteúdo.

Política de Segurança de Conteúdos
xhr.headers.content-security-policy string

A política de segurança de conteúdo.

Tipo de conteúdo
xhr.headers.content-type string

O tipo de conteúdo.

Date
xhr.headers.date string

A data.

ETag
xhr.headers.etag string

O eTag.

Política de referência
xhr.headers.referrer-policy string

A política de referência.

Server
xhr.headers.server string

O servidor.

Segurança de transporte rigorosa
xhr.headers.strict-transport-security string

A rigorosa segurança do transporte.

X Opções de tipo de conteúdo
xhr.headers.x-content-type-options string

As opções de tipo de conteúdo X.

X Opções de quadro
xhr.headers.x-frame-options string

As opções de quadro X.

X Caminho correspondente
xhr.headers.x-matched-path string

O caminho de correspondência X.

X Vercel Cache
xhr.headers.x-vercel-cache string

O cache X Vercel.

X Vercel ID
xhr.headers.x-vercel-id string

O identificador X Vercel.

Controle de Acesso Permitir Origem
xhr.headers.access-control-allow-origin string

O controle de acesso permite a origem.

Controle de acesso Expor cabeçalhos
xhr.headers.access-control-expose-headers string

O controle de acesso expõe cabeçalhos.

Alt SVC
xhr.headers.alt-svc string

O SVC alt.

Vary
xhr.headers.vary string

A variação.

Via
xhr.headers.via string

A via.

X Tempo de Serviço Upstream do Enviado
xhr.headers.x-envoy-upstream-service-time string

O tempo de serviço upstream do enviado X.

X ID de solicitação da Amazon
xhr.headers.x-amzn-requestid string

O identificador de solicitação X Amazon.

X ID de rastreamento da Amazon
xhr.headers.x-amzn-trace-id string

O identificador de rastreamento X da Amazon.

Body
xhr.body string

O corpo.

Custo
cost integer

O custo.

Código de status inicial
initial-status-code integer

O código de status inicial.

URL resolvido
resolved-url string

O endereço URL resolvido.

Microdados
metadata.microdata array of string

Os microdados.

JSON LD
metadata.json-ld array of object
Context
metadata.json-ld.@context string

O contexto.

Tipo
metadata.json-ld.@type string

O tipo.

Nome
metadata.json-ld.name string

O nome.

URL
metadata.json-ld.url string

O endereço URL.

Description
metadata.json-ld.description string

A descrição.

Tipo
metadata.json-ld.mainEntityOfPage.@type string

O tipo.

URL
metadata.json-ld.mainEntityOfPage.url string

O endereço URL.

Tipo
metadata.json-ld.image.@type string

O tipo.

URL
metadata.json-ld.image.url string

O endereço URL.

Tipo
metadata.json-ld.publisher.@type string

O tipo.

Nome
metadata.json-ld.publisher.name string

O nome.

URL
metadata.json-ld.publisher.url string

O endereço URL.

O mesmo que
metadata.json-ld.sameAs string

O mesmo que.

Abrir gráfico
metadata.opengraph array of object
Abrir título do gráfico
metadata.opengraph.og:title string

O título do Open Graph.

Abrir Descrição do Gráfico
metadata.opengraph.og:description string

A descrição do Open Graph.

Abrir nome do site do Graph
metadata.opengraph.og:site_name string

O nome do site Open Graph.

Abrir URL do gráfico
metadata.opengraph.og:url string

O endereço URL do Open Graph.

Abrir imagem do gráfico
metadata.opengraph.og:image string

A imagem do Open Graph.

Tipo
metadata.opengraph.@type string

O tipo.

OG
metadata.opengraph.@context.og string

O gráfico aberto.

Dublincore
metadata.dublincore array of object
Elements
metadata.dublincore.elements array of object
Nome
metadata.dublincore.elements.name string

O nome.

Content
metadata.dublincore.elements.content string

O conteúdo.

URI
metadata.dublincore.elements.URI string

O URI.

Terms
metadata.dublincore.terms array of string

Os termos.