刮比 (独立出版商) (预览版)

ScrapingBee 是网络上最强大的 Web 抓取服务。 它将处理无外设浏览器、代理、CAPTCHA、使用 CSS 选择器从任何网站提取复杂的结构化信息,以及运行 JavaScript 方案(单击、滚动、表单填充等)。

此连接器在以下产品和区域中可用:

服务 Class 区域
Copilot Studio 高级 除以下各项外的所有 Power Automate 区域
     - 美国政府 (GCC)
     - 美国政府 (GCC High)
     - 由世纪互联运营的中国云
     - 美国国防部(DoD)
逻辑应用程序 标准 除以下各项外的所有 逻辑应用区域
     - Azure 政府区域
     - Azure 中国区域
     - 美国国防部(DoD)
Power Apps 高级 除以下各项外的所有 Power Apps 区域
     - 美国政府 (GCC)
     - 美国政府 (GCC High)
     - 由世纪互联运营的中国云
     - 美国国防部(DoD)
Power Automate 高级 除以下各项外的所有 Power Automate 区域
     - 美国政府 (GCC)
     - 美国政府 (GCC High)
     - 由世纪互联运营的中国云
     - 美国国防部(DoD)
联系人​​
Name 特洛伊·泰勒
URL https://www.hitachisolutions.com
Email ttaylor@hitachisolutions.com
连接器元数据
发布者 特洛伊·泰勒
网站 https://www.scrapingbee.com/
隐私策略 https://www.scrapingbee.com/privacy-policy/
类别 网站

正在创建连接

连接器支持以下身份验证类型:

默认 用于创建连接的参数。 所有区域 不可共享

违约

适用:所有区域

用于创建连接的参数。

这是不可共享的连接。 如果 Power App 与另一个用户共享,系统会提示其他用户显式创建新连接。

Name 类型 Description 必选
API 密钥 securestring 此 API 的 API 密钥 True

限制

名称 调用 续订期
每个连接的 API 调用数 100 60 秒

操作

执行 Google 搜索

检索 Google 搜索结果页面的碎片

报废 URL

提取请求报废的 URL,并在请求时呈现 JavaScript。

获取使用情况

检索有关信用消耗和并发使用情况的信息。

执行 Google 搜索

检索 Google 搜索结果页面的碎片

参数

名称 密钥 必需 类型 说明
搜寻
search True string

要放入 Google 搜索栏中的文本。

国家/地区代码
country_code string

你希望请求来自的国家/地区。

Results
nb_results integer

要返回的结果数。

page integer

要从中提取结果的页码。

语言
language string

要返回结果的语言。

额外参数
extra_params string

要提交的任何其他 URL 参数。

返回

名称 路径 类型 说明
URL
meta_data.url string

URL 地址。

Results
meta_data.number_of_results integer

结果数。

位置
meta_data.location string

位置。

有机结果
meta_data.number_of_organic_results integer

有机结果数。

广告
meta_data.number_of_ads integer

广告数。

meta_data.number_of_page integer

页码。

无结果消息
meta_data.no_results_message string

无结果消息。

有机结果
organic_results array of object
URL
organic_results.url string

URL 地址。

显示的 URL
organic_results.displayed_url string

显示的 URL 地址。

Description
organic_results.description string

说明。

额外信息
organic_results.extra_info string

额外的信息。

Position
organic_results.position integer

位置。

Title
organic_results.title string

标题。

本地结果
local_results array of string

本地结果。

热门广告
top_ads string

热门广告。

底部广告
bottom_ads string

底部广告。

相关查询
related_queries array of object
文本
related_queries.text string

文本。

Position
related_queries.position integer

位置。

问题
questions array of string

问题。

报废 URL

提取请求报废的 URL,并在请求时呈现 JavaScript。

参数

名称 密钥 必需 类型 说明
URL
url True string

要擦除的 URL。

呈现 JS
render_js True boolean

在无外设浏览器中呈现网站。

JS 方案
js_scenario string

在呈现之前执行 JavaScript。

Wait
wait integer

呈现前等待的时间。

wait_for string

等待特定元素显示在 DOM 中。

阻止广告
block_ads boolean

是否阻止广告。

阻止资源
block_resources boolean

是否阻止所有图像和 CSS。

窗口宽度
window_width integer

要使用的窗口的宽度。

窗口高度
window_height integer

要使用的窗口的高度。

高级代理
premium_proxy boolean

是否使用代理来报废网站。

国家/地区代码
country_code string

用于取消网站的代理国家/地区。

隐身代理
stealth_proxy boolean

是否使用隐身代理来取消网站。

自己的代理
own_proxy string

要使用的自己的代理。

提取规则
extract_rules string

提取规则以在响应之前分析 HTML。

Screenshot
screenshot boolean

获取所请求网站的屏幕截图。

屏幕截图选择器
screenshot_selector string

获取特定 CSS 选择器的屏幕截图。

完整页的屏幕截图
screenshot_full_page boolean

拍摄整个网站的屏幕截图。

返回页面源
return_page_source boolean

也返回页面源。

会话 ID
session_id integer

使用同一session_id的所有 API 请求都将在 5 分钟内通过同一 IP 地址路由。

超时
timeout integer

最大毫秒超时数,介于 1000 和 140000 之间(默认值)。

Cookies
cookies string

要传递给网站的自定义 Cookie。

Device
device string

发送到服务器的设备类型。

自定义 Google
custom_google boolean

如果抓取 Google 或 Google 子域上的网页,则设置为 true。

返回

名称 路径 类型 说明
Body
body string

正文。

Cookies
cookies array of object
Name
cookies.name string

名称。

价值
cookies.value string

值。

域名
cookies.domain string

域。

路径
cookies.path string

路径。

到期时间
cookies.expires float

过期时。

尺寸
cookies.size integer

大小。

仅限 HTTP
cookies.httpOnly boolean

是否仅 HTTP。

Secure
cookies.secure boolean

是否安全。

Session
cookies.session boolean

会话是否。

同一方
cookies.sameParty boolean

是否是同一方。

源方案
cookies.sourceScheme string

源方案。

源端口
cookies.sourcePort integer

源端口。

评估的结果
evaluate_results array of string

评估的结果。

年龄
headers.age string

年龄。

缓存控件
headers.cache-control string

缓存控件。

内容编码
headers.content-encoding string

内容编码。

内容安全策略
headers.content-security-policy string

内容安全策略。

内容类型
headers.content-type string

内容类型。

日期
headers.date string

日期。

ETag
headers.etag string

eTag。

引用者策略
headers.referrer-policy string

引用者策略。

Server
headers.server string

服务器。

严格的传输安全性
headers.strict-transport-security string

严格的传输安全性。

X 内容类型选项
headers.x-content-type-options string

x 内容类型选项。

X 帧选项
headers.x-frame-options string

x 帧选项。

X 匹配路径
headers.x-matched-path string

x 匹配的路径。

X Powered By
headers.x-powered-by string

由 x 提供支持。

X Vercel 缓存
headers.x-vercel-cache string

x Vercel 缓存。

X Vercel ID
headers.x-vercel-id string

x Vercel 标识符。

类型
type string

类型。

IFrames
iframes array of string

iFrames。

XHR
xhr array of object
URL
xhr.url string

URL 地址。

状态代码
xhr.status_code integer

状态代码。

方法
xhr.method string

方法。

年龄
xhr.headers.age string

年龄。

缓存控件
xhr.headers.cache-control string

缓存控件。

内容长度
xhr.headers.content-length string

内容长度。

内容安全策略
xhr.headers.content-security-policy string

内容安全策略。

内容类型
xhr.headers.content-type string

内容类型。

日期
xhr.headers.date string

日期。

ETag
xhr.headers.etag string

eTag。

引用者策略
xhr.headers.referrer-policy string

引用者策略。

Server
xhr.headers.server string

服务器。

严格的传输安全性
xhr.headers.strict-transport-security string

严格的传输安全性。

X 内容类型选项
xhr.headers.x-content-type-options string

X 内容类型选项。

X 帧选项
xhr.headers.x-frame-options string

X 帧选项。

X 匹配路径
xhr.headers.x-matched-path string

X 匹配路径。

X Vercel 缓存
xhr.headers.x-vercel-cache string

X Vercel 缓存。

X Vercel ID
xhr.headers.x-vercel-id string

X Vercel 标识符。

访问控制允许源
xhr.headers.access-control-allow-origin string

访问控制允许源。

访问控制公开标头
xhr.headers.access-control-expose-headers string

访问控制公开标头。

Alt SVC
xhr.headers.alt-svc string

Alt SVC。

Vary
xhr.headers.vary string

变化。

Via
xhr.headers.via string

通过。

X Envoy 上游服务时间
xhr.headers.x-envoy-upstream-service-time string

X envoy 上游服务时间。

X Amazon 请求 ID
xhr.headers.x-amzn-requestid string

X Amazon 请求标识符。

X Amazon 跟踪 ID
xhr.headers.x-amzn-trace-id string

X Amazon 跟踪标识符。

Body
xhr.body string

正文。

成本
cost integer

成本。

初始状态代码
initial-status-code integer

初始状态代码。

解析的 URL
resolved-url string

解析的 URL 地址。

Microdata
metadata.microdata array of string

微数据。

JSON LD
metadata.json-ld array of object
上下文
metadata.json-ld.@context string

上下文。

类型
metadata.json-ld.@type string

类型。

Name
metadata.json-ld.name string

名称。

URL
metadata.json-ld.url string

URL 地址。

Description
metadata.json-ld.description string

说明。

类型
metadata.json-ld.mainEntityOfPage.@type string

类型。

URL
metadata.json-ld.mainEntityOfPage.url string

URL 地址。

类型
metadata.json-ld.image.@type string

类型。

URL
metadata.json-ld.image.url string

URL 地址。

类型
metadata.json-ld.publisher.@type string

类型。

Name
metadata.json-ld.publisher.name string

名称。

URL
metadata.json-ld.publisher.url string

URL 地址。

metadata.json-ld.sameAs string

相同。

打开图形
metadata.opengraph array of object
打开图形标题
metadata.opengraph.og:title string

Open Graph 标题。

打开图形说明
metadata.opengraph.og:description string

Open Graph 说明。

打开图形网站名称
metadata.opengraph.og:site_name string

Open Graph 网站名称。

打开图形 URL
metadata.opengraph.og:url string

Open Graph URL 地址。

打开图形图像
metadata.opengraph.og:image string

Open Graph 图像。

类型
metadata.opengraph.@type string

类型。

OG
metadata.opengraph.@context.og string

Open Graph。

都柏林分数
metadata.dublincore array of object
Elements
metadata.dublincore.elements array of object
Name
metadata.dublincore.elements.name string

名称。

Content
metadata.dublincore.elements.content string

内容。

URI
metadata.dublincore.elements.URI string

URI。

术语
metadata.dublincore.terms array of string

术语。

获取使用情况

检索有关信用消耗和并发使用情况的信息。

返回

名称 路径 类型 说明
最大 API 额度
max_api_credit integer

最大 API 额度。

已用 API 信用额度
used_api_credit integer

使用的 API 信用额度。

最大并发性
max_concurrency integer

最大并发性。

当前并发
current_concurrency integer

当前并发。

续订订阅日期
renewal_subscription_date string

续订订阅日期。