ScrapingBee (Editora Independente) (Pré-visualização)
ScrapingBee é o serviço de web scraping mais poderoso da web. Ele lidará com navegadores sem cabeça, proxies, CAPTCHAs, extraindo informações estruturadas complexas de qualquer site com seletores CSS e executando cenários JavaScript (clique, rolagem, preenchimento de formulários, etc.).
Este conector está disponível nos seguintes produtos e regiões:
| Serviço | Class | Regiões |
|---|---|---|
| Estúdio Copiloto | Premium | Todas as regiões do Power Automatic , exceto as seguintes: - Governo dos EUA (CCG) - Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD) |
| Aplicações Lógicas | Standard | Todas as regiões do Logic Apps , exceto as seguintes: - Regiões do Azure Government - Regiões do Azure China - Departamento de Defesa dos EUA (DoD) |
| Aplicações Power | Premium | Todas as regiões do Power Apps , exceto as seguintes: - Governo dos EUA (CCG) - Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD) |
| Automatize o poder | Premium | Todas as regiões do Power Automatic , exceto as seguintes: - Governo dos EUA (CCG) - Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD) |
| Contato | |
|---|---|
| Nome | Troia Taylor |
| URL | https://www.hitachisolutions.com |
| ttaylor@hitachisolutions.com |
| Metadados do conector | |
|---|---|
| Editora | Troia Taylor |
| Sítio Web | https://www.scrapingbee.com/ |
| Política de privacidade | https://www.scrapingbee.com/privacy-policy/ |
| Categorias | Sítio Web |
A criar uma ligação
O conector suporta os seguintes tipos de autenticação:
| Predefinição | Parâmetros para criar conexão. | Todas as regiões | Não compartilhável |
Padrão
Aplicável: Todas as regiões
Parâmetros para criar conexão.
Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.
| Nome | Tipo | Description | Obrigatório |
|---|---|---|---|
| Chave de API | securestring | A chave de API para esta api | Verdade |
Limites de Limitação
| Name | Chamadas | Período de Renovação |
|---|---|---|
| Chamadas de API por conexão | 100 | 60 segundos |
Ações
| Obter utilização |
Recupere informações sobre consumo de crédito e uso de simultaneidade. |
| Realizar pesquisa no Google |
Recupera uma raspagem de páginas de resultados da Pesquisa Google |
| URL de sucata |
Busca o URL solicitado para eliminação e renderizará JavaScript se solicitado. |
Obter utilização
Recupere informações sobre consumo de crédito e uso de simultaneidade.
Devoluções
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
Crédito API máximo
|
max_api_credit | integer |
O crédito máximo da API. |
|
Crédito API usado
|
used_api_credit | integer |
O crédito da API usada. |
|
Simultaneidade máxima
|
max_concurrency | integer |
A simultaneidade máxima. |
|
Simultaneidade atual
|
current_concurrency | integer |
A concorrência atual. |
|
Data de Renovação da Subscrição
|
renewal_subscription_date | string |
A data de renovação da subscrição. |
Realizar pesquisa no Google
Recupera uma raspagem de páginas de resultados da Pesquisa Google
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
Pesquisa
|
search | True | string |
O texto que você colocaria na barra de pesquisa do Google. |
|
Código do país
|
country_code | string |
O país de onde pretende que o pedido venha. |
|
|
Results
|
nb_results | integer |
O número de resultados a retornar. |
|
|
Página
|
page | integer |
O número da página a partir da qual extrair os resultados. |
|
|
Linguagem
|
language | string |
O idioma para retornar os resultados. |
|
|
Params Extras
|
extra_params | string |
Quaisquer parâmetros de URL adicionais a serem enviados. |
Devoluções
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
URL
|
meta_data.url | string |
O endereço URL. |
|
Results
|
meta_data.number_of_results | integer |
O número de resultados. |
|
Localização
|
meta_data.location | string |
A localização. |
|
Resultados Orgânicos
|
meta_data.number_of_organic_results | integer |
O número de resultados orgânicos. |
|
Anúncios
|
meta_data.number_of_ads | integer |
O número de anúncios. |
|
Página
|
meta_data.number_of_page | integer |
O número da página. |
|
Nenhuma mensagem de resultados
|
meta_data.no_results_message | string |
A mensagem sem resultados. |
|
Resultados Orgânicos
|
organic_results | array of object | |
|
URL
|
organic_results.url | string |
O endereço URL. |
|
URL exibido
|
organic_results.displayed_url | string |
O endereço URL exibido. |
|
Description
|
organic_results.description | string |
A descrição. |
|
Informação Extra
|
organic_results.extra_info | string |
A informação extra. |
|
Position
|
organic_results.position | integer |
A posição. |
|
Title
|
organic_results.title | string |
O título. |
|
Resultados Locais
|
local_results | array of string |
Os resultados locais. |
|
Principais anúncios
|
top_ads | string |
Os principais anúncios. |
|
Anúncios Inferiores
|
bottom_ads | string |
Os anúncios inferiores. |
|
Consultas relacionadas
|
related_queries | array of object | |
|
Texto
|
related_queries.text | string |
O texto. |
|
Position
|
related_queries.position | integer |
A posição. |
|
Perguntas
|
questions | array of string |
As perguntas. |
URL de sucata
Busca o URL solicitado para eliminação e renderizará JavaScript se solicitado.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
URL
|
url | True | string |
O URL que você deseja raspar. |
|
Renderizar JS
|
render_js | True | boolean |
Renderize o site em um navegador sem cabeça. |
|
Cenário JS
|
js_scenario | string |
Execute JavaScript antes de renderizar. |
|
|
Wait
|
wait | integer |
Tempo de espera antes de renderizar. |
|
|
Aguarde
|
wait_for | string |
Aguarde até que um elemento específico apareça no DOM. |
|
|
Bloquear anúncios
|
block_ads | boolean |
Se os anúncios devem ser bloqueados. |
|
|
Bloquear recursos
|
block_resources | boolean |
Se deseja bloquear todas as imagens e CSS. |
|
|
Largura da janela
|
window_width | integer |
A largura da janela a ser usada. |
|
|
Altura da janela
|
window_height | integer |
A altura da janela a ser usada. |
|
|
Premium Proxy
|
premium_proxy | boolean |
Se deve usar um proxy para descartar o site. |
|
|
Código do país
|
country_code | string |
O país proxy a ser usado para descartar o site. |
|
|
Proxy furtivo
|
stealth_proxy | boolean |
Se usar um proxy furtivo para descartar o site. |
|
|
Procuração própria
|
own_proxy | string |
Seu próprio proxy para usar. |
|
|
Regras de extração
|
extract_rules | string |
Regras de extração para analisar o HTML antes de responder. |
|
|
Captura de ecrã
|
screenshot | boolean |
Faça uma captura de tela do site solicitado. |
|
|
Seletor de captura de tela
|
screenshot_selector | string |
Faça uma captura de tela de um seletor CSS específico. |
|
|
Captura de tela Página Inteira
|
screenshot_full_page | boolean |
Faça uma captura de tela de todo o site. |
|
|
Fonte da página de retorno
|
return_page_source | boolean |
Retorne a fonte da página também. |
|
|
ID da Sessão
|
session_id | integer |
Todas as solicitações de API usando o mesmo session_id serão roteadas através do mesmo endereço IP por um período de 5 minutos. |
|
|
Timeout
|
timeout | integer |
O número máximo de tempo limite ms, entre 1000 e 140000 (padrão). |
|
|
Cookies
|
cookies | string |
Cookie personalizado para passar para o site. |
|
|
Device
|
device | string |
O tipo de dispositivo enviado para o servidor. |
|
|
Google personalizado
|
custom_google | boolean |
Defina como true se estiver raspando página da Web no Google ou em um subdomínio do Google. |
Devoluções
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
Body
|
body | string |
O corpo. |
|
Cookies
|
cookies | array of object | |
|
Nome
|
cookies.name | string |
O nome. |
|
Valor
|
cookies.value | string |
O valor. |
|
Domínio
|
cookies.domain | string |
O domínio. |
|
Caminho
|
cookies.path | string |
O caminho. |
|
Expira
|
cookies.expires | float |
Quando expira. |
|
Tamanho
|
cookies.size | integer |
O tamanho. |
|
Somente HTTP
|
cookies.httpOnly | boolean |
Seja apenas HTTP. |
|
Secure
|
cookies.secure | boolean |
Se seguro. |
|
Session
|
cookies.session | boolean |
Se sessão. |
|
Mesmo partido
|
cookies.sameParty | boolean |
Seja a mesma parte. |
|
Esquema de origem
|
cookies.sourceScheme | string |
O esquema de origem. |
|
Porta de origem
|
cookies.sourcePort | integer |
A porta de origem. |
|
Resultados Avaliados
|
evaluate_results | array of string |
Os resultados avaliados. |
|
Idade
|
headers.age | string |
A idade. |
|
Controle de cache
|
headers.cache-control | string |
O controle de cache. |
|
Codificação de conteúdo
|
headers.content-encoding | string |
A codificação de conteúdo. |
|
Política de Segurança de Conteúdos
|
headers.content-security-policy | string |
A política de segurança de conteúdo. |
|
Tipo de conteúdo
|
headers.content-type | string |
O tipo de conteúdo. |
|
Date
|
headers.date | string |
A data. |
|
ETag
|
headers.etag | string |
O eTag. |
|
Política de referência
|
headers.referrer-policy | string |
A política de referência. |
|
Server
|
headers.server | string |
O servidor. |
|
Segurança de transporte rigorosa
|
headers.strict-transport-security | string |
A rigorosa segurança do transporte. |
|
X Opções de tipo de conteúdo
|
headers.x-content-type-options | string |
As opções de tipo de conteúdo x. |
|
X Opções de quadro
|
headers.x-frame-options | string |
As opções de quadro x. |
|
X Caminho correspondente
|
headers.x-matched-path | string |
O caminho x correspondeu. |
|
X Alimentado por
|
headers.x-powered-by | string |
O x alimentado por. |
|
X Vercel Cache
|
headers.x-vercel-cache | string |
O cache x Vercel. |
|
X Vercel ID
|
headers.x-vercel-id | string |
O identificador x Vercel. |
|
Tipo
|
type | string |
O tipo. |
|
IFrames
|
iframes | array of string |
Os iFrames. |
|
XHR
|
xhr | array of object | |
|
URL
|
xhr.url | string |
O endereço URL. |
|
Código de estado
|
xhr.status_code | integer |
O código de status. |
|
Método
|
xhr.method | string |
O método. |
|
Idade
|
xhr.headers.age | string |
A idade. |
|
Controle de cache
|
xhr.headers.cache-control | string |
O controle de cache. |
|
Comprimento do conteúdo
|
xhr.headers.content-length | string |
O comprimento do conteúdo. |
|
Política de Segurança de Conteúdos
|
xhr.headers.content-security-policy | string |
A política de segurança de conteúdo. |
|
Tipo de conteúdo
|
xhr.headers.content-type | string |
O tipo de conteúdo. |
|
Date
|
xhr.headers.date | string |
A data. |
|
ETag
|
xhr.headers.etag | string |
O eTag. |
|
Política de referência
|
xhr.headers.referrer-policy | string |
A política de referência. |
|
Server
|
xhr.headers.server | string |
O servidor. |
|
Segurança de transporte rigorosa
|
xhr.headers.strict-transport-security | string |
A rigorosa segurança do transporte. |
|
X Opções de tipo de conteúdo
|
xhr.headers.x-content-type-options | string |
As opções de tipo de conteúdo X. |
|
X Opções de quadro
|
xhr.headers.x-frame-options | string |
As opções de quadro X. |
|
X Caminho correspondente
|
xhr.headers.x-matched-path | string |
O caminho de correspondência X. |
|
X Vercel Cache
|
xhr.headers.x-vercel-cache | string |
O cache X Vercel. |
|
X Vercel ID
|
xhr.headers.x-vercel-id | string |
O identificador X Vercel. |
|
Controle de Acesso Permitir Origem
|
xhr.headers.access-control-allow-origin | string |
O controle de acesso permite a origem. |
|
Controle de acesso Expor cabeçalhos
|
xhr.headers.access-control-expose-headers | string |
O controle de acesso expõe cabeçalhos. |
|
Alt SVC
|
xhr.headers.alt-svc | string |
O SVC alt. |
|
Vary
|
xhr.headers.vary | string |
A variação. |
|
Via
|
xhr.headers.via | string |
A via. |
|
X Tempo de Serviço Upstream do Enviado
|
xhr.headers.x-envoy-upstream-service-time | string |
O tempo de serviço upstream do enviado X. |
|
X ID de solicitação da Amazon
|
xhr.headers.x-amzn-requestid | string |
O identificador de solicitação X Amazon. |
|
X ID de rastreamento da Amazon
|
xhr.headers.x-amzn-trace-id | string |
O identificador de rastreamento X da Amazon. |
|
Body
|
xhr.body | string |
O corpo. |
|
Custo
|
cost | integer |
O custo. |
|
Código de status inicial
|
initial-status-code | integer |
O código de status inicial. |
|
URL resolvido
|
resolved-url | string |
O endereço URL resolvido. |
|
Microdados
|
metadata.microdata | array of string |
Os microdados. |
|
JSON LD
|
metadata.json-ld | array of object | |
|
Context
|
metadata.json-ld.@context | string |
O contexto. |
|
Tipo
|
metadata.json-ld.@type | string |
O tipo. |
|
Nome
|
metadata.json-ld.name | string |
O nome. |
|
URL
|
metadata.json-ld.url | string |
O endereço URL. |
|
Description
|
metadata.json-ld.description | string |
A descrição. |
|
Tipo
|
metadata.json-ld.mainEntityOfPage.@type | string |
O tipo. |
|
URL
|
metadata.json-ld.mainEntityOfPage.url | string |
O endereço URL. |
|
Tipo
|
metadata.json-ld.image.@type | string |
O tipo. |
|
URL
|
metadata.json-ld.image.url | string |
O endereço URL. |
|
Tipo
|
metadata.json-ld.publisher.@type | string |
O tipo. |
|
Nome
|
metadata.json-ld.publisher.name | string |
O nome. |
|
URL
|
metadata.json-ld.publisher.url | string |
O endereço URL. |
|
O mesmo que
|
metadata.json-ld.sameAs | string |
O mesmo que. |
|
Abrir gráfico
|
metadata.opengraph | array of object | |
|
Abrir título do gráfico
|
metadata.opengraph.og:title | string |
O título do Open Graph. |
|
Abrir Descrição do Gráfico
|
metadata.opengraph.og:description | string |
A descrição do Open Graph. |
|
Abrir nome do site do Graph
|
metadata.opengraph.og:site_name | string |
O nome do site Open Graph. |
|
Abrir URL do gráfico
|
metadata.opengraph.og:url | string |
O endereço URL do Open Graph. |
|
Abrir imagem do gráfico
|
metadata.opengraph.og:image | string |
A imagem do Open Graph. |
|
Tipo
|
metadata.opengraph.@type | string |
O tipo. |
|
OG
|
metadata.opengraph.@context.og | string |
O gráfico aberto. |
|
Dublincore
|
metadata.dublincore | array of object | |
|
Elements
|
metadata.dublincore.elements | array of object | |
|
Nome
|
metadata.dublincore.elements.name | string |
O nome. |
|
Content
|
metadata.dublincore.elements.content | string |
O conteúdo. |
|
URI
|
metadata.dublincore.elements.URI | string |
O URI. |
|
Terms
|
metadata.dublincore.terms | array of string |
Os termos. |