刮比 (独立出版商) (预览版)
ScrapingBee 是网络上最强大的 Web 抓取服务。 它将处理无外设浏览器、代理、CAPTCHA、使用 CSS 选择器从任何网站提取复杂的结构化信息,以及运行 JavaScript 方案(单击、滚动、表单填充等)。
此连接器在以下产品和区域中可用:
| 服务 | Class | 区域 |
|---|---|---|
| Copilot Studio | 高级 | 除以下各项外的所有 Power Automate 区域 : - 美国政府 (GCC) - 美国政府 (GCC High) - 由世纪互联运营的中国云 - 美国国防部(DoD) |
| 逻辑应用程序 | 标准 | 除以下各项外的所有 逻辑应用区域 : - Azure 政府区域 - Azure 中国区域 - 美国国防部(DoD) |
| Power Apps | 高级 | 除以下各项外的所有 Power Apps 区域 : - 美国政府 (GCC) - 美国政府 (GCC High) - 由世纪互联运营的中国云 - 美国国防部(DoD) |
| Power Automate | 高级 | 除以下各项外的所有 Power Automate 区域 : - 美国政府 (GCC) - 美国政府 (GCC High) - 由世纪互联运营的中国云 - 美国国防部(DoD) |
| 联系人 | |
|---|---|
| Name | 特洛伊·泰勒 |
| URL | https://www.hitachisolutions.com |
| ttaylor@hitachisolutions.com |
| 连接器元数据 | |
|---|---|
| 发布者 | 特洛伊·泰勒 |
| 网站 | https://www.scrapingbee.com/ |
| 隐私策略 | https://www.scrapingbee.com/privacy-policy/ |
| 类别 | 网站 |
正在创建连接
连接器支持以下身份验证类型:
| 默认 | 用于创建连接的参数。 | 所有区域 | 不可共享 |
违约
适用:所有区域
用于创建连接的参数。
这是不可共享的连接。 如果 Power App 与另一个用户共享,系统会提示其他用户显式创建新连接。
| Name | 类型 | Description | 必选 |
|---|---|---|---|
| API 密钥 | securestring | 此 API 的 API 密钥 | True |
限制
| 名称 | 调用 | 续订期 |
|---|---|---|
| 每个连接的 API 调用数 | 100 | 60 秒 |
操作
| 执行 Google 搜索 |
检索 Google 搜索结果页面的碎片 |
| 报废 URL |
提取请求报废的 URL,并在请求时呈现 JavaScript。 |
| 获取使用情况 |
检索有关信用消耗和并发使用情况的信息。 |
执行 Google 搜索
检索 Google 搜索结果页面的碎片
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
搜寻
|
search | True | string |
要放入 Google 搜索栏中的文本。 |
|
国家/地区代码
|
country_code | string |
你希望请求来自的国家/地区。 |
|
|
Results
|
nb_results | integer |
要返回的结果数。 |
|
|
页
|
page | integer |
要从中提取结果的页码。 |
|
|
语言
|
language | string |
要返回结果的语言。 |
|
|
额外参数
|
extra_params | string |
要提交的任何其他 URL 参数。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
URL
|
meta_data.url | string |
URL 地址。 |
|
Results
|
meta_data.number_of_results | integer |
结果数。 |
|
位置
|
meta_data.location | string |
位置。 |
|
有机结果
|
meta_data.number_of_organic_results | integer |
有机结果数。 |
|
广告
|
meta_data.number_of_ads | integer |
广告数。 |
|
页
|
meta_data.number_of_page | integer |
页码。 |
|
无结果消息
|
meta_data.no_results_message | string |
无结果消息。 |
|
有机结果
|
organic_results | array of object | |
|
URL
|
organic_results.url | string |
URL 地址。 |
|
显示的 URL
|
organic_results.displayed_url | string |
显示的 URL 地址。 |
|
Description
|
organic_results.description | string |
说明。 |
|
额外信息
|
organic_results.extra_info | string |
额外的信息。 |
|
Position
|
organic_results.position | integer |
位置。 |
|
Title
|
organic_results.title | string |
标题。 |
|
本地结果
|
local_results | array of string |
本地结果。 |
|
热门广告
|
top_ads | string |
热门广告。 |
|
底部广告
|
bottom_ads | string |
底部广告。 |
|
相关查询
|
related_queries | array of object | |
|
文本
|
related_queries.text | string |
文本。 |
|
Position
|
related_queries.position | integer |
位置。 |
|
问题
|
questions | array of string |
问题。 |
报废 URL
提取请求报废的 URL,并在请求时呈现 JavaScript。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
URL
|
url | True | string |
要擦除的 URL。 |
|
呈现 JS
|
render_js | True | boolean |
在无外设浏览器中呈现网站。 |
|
JS 方案
|
js_scenario | string |
在呈现之前执行 JavaScript。 |
|
|
Wait
|
wait | integer |
呈现前等待的时间。 |
|
|
俟
|
wait_for | string |
等待特定元素显示在 DOM 中。 |
|
|
阻止广告
|
block_ads | boolean |
是否阻止广告。 |
|
|
阻止资源
|
block_resources | boolean |
是否阻止所有图像和 CSS。 |
|
|
窗口宽度
|
window_width | integer |
要使用的窗口的宽度。 |
|
|
窗口高度
|
window_height | integer |
要使用的窗口的高度。 |
|
|
高级代理
|
premium_proxy | boolean |
是否使用代理来报废网站。 |
|
|
国家/地区代码
|
country_code | string |
用于取消网站的代理国家/地区。 |
|
|
隐身代理
|
stealth_proxy | boolean |
是否使用隐身代理来取消网站。 |
|
|
自己的代理
|
own_proxy | string |
要使用的自己的代理。 |
|
|
提取规则
|
extract_rules | string |
提取规则以在响应之前分析 HTML。 |
|
|
Screenshot
|
screenshot | boolean |
获取所请求网站的屏幕截图。 |
|
|
屏幕截图选择器
|
screenshot_selector | string |
获取特定 CSS 选择器的屏幕截图。 |
|
|
完整页的屏幕截图
|
screenshot_full_page | boolean |
拍摄整个网站的屏幕截图。 |
|
|
返回页面源
|
return_page_source | boolean |
也返回页面源。 |
|
|
会话 ID
|
session_id | integer |
使用同一session_id的所有 API 请求都将在 5 分钟内通过同一 IP 地址路由。 |
|
|
超时
|
timeout | integer |
最大毫秒超时数,介于 1000 和 140000 之间(默认值)。 |
|
|
Cookies
|
cookies | string |
要传递给网站的自定义 Cookie。 |
|
|
Device
|
device | string |
发送到服务器的设备类型。 |
|
|
自定义 Google
|
custom_google | boolean |
如果抓取 Google 或 Google 子域上的网页,则设置为 true。 |
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
Body
|
body | string |
正文。 |
|
Cookies
|
cookies | array of object | |
|
Name
|
cookies.name | string |
名称。 |
|
价值
|
cookies.value | string |
值。 |
|
域名
|
cookies.domain | string |
域。 |
|
路径
|
cookies.path | string |
路径。 |
|
到期时间
|
cookies.expires | float |
过期时。 |
|
尺寸
|
cookies.size | integer |
大小。 |
|
仅限 HTTP
|
cookies.httpOnly | boolean |
是否仅 HTTP。 |
|
Secure
|
cookies.secure | boolean |
是否安全。 |
|
Session
|
cookies.session | boolean |
会话是否。 |
|
同一方
|
cookies.sameParty | boolean |
是否是同一方。 |
|
源方案
|
cookies.sourceScheme | string |
源方案。 |
|
源端口
|
cookies.sourcePort | integer |
源端口。 |
|
评估的结果
|
evaluate_results | array of string |
评估的结果。 |
|
年龄
|
headers.age | string |
年龄。 |
|
缓存控件
|
headers.cache-control | string |
缓存控件。 |
|
内容编码
|
headers.content-encoding | string |
内容编码。 |
|
内容安全策略
|
headers.content-security-policy | string |
内容安全策略。 |
|
内容类型
|
headers.content-type | string |
内容类型。 |
|
日期
|
headers.date | string |
日期。 |
|
ETag
|
headers.etag | string |
eTag。 |
|
引用者策略
|
headers.referrer-policy | string |
引用者策略。 |
|
Server
|
headers.server | string |
服务器。 |
|
严格的传输安全性
|
headers.strict-transport-security | string |
严格的传输安全性。 |
|
X 内容类型选项
|
headers.x-content-type-options | string |
x 内容类型选项。 |
|
X 帧选项
|
headers.x-frame-options | string |
x 帧选项。 |
|
X 匹配路径
|
headers.x-matched-path | string |
x 匹配的路径。 |
|
X Powered By
|
headers.x-powered-by | string |
由 x 提供支持。 |
|
X Vercel 缓存
|
headers.x-vercel-cache | string |
x Vercel 缓存。 |
|
X Vercel ID
|
headers.x-vercel-id | string |
x Vercel 标识符。 |
|
类型
|
type | string |
类型。 |
|
IFrames
|
iframes | array of string |
iFrames。 |
|
XHR
|
xhr | array of object | |
|
URL
|
xhr.url | string |
URL 地址。 |
|
状态代码
|
xhr.status_code | integer |
状态代码。 |
|
方法
|
xhr.method | string |
方法。 |
|
年龄
|
xhr.headers.age | string |
年龄。 |
|
缓存控件
|
xhr.headers.cache-control | string |
缓存控件。 |
|
内容长度
|
xhr.headers.content-length | string |
内容长度。 |
|
内容安全策略
|
xhr.headers.content-security-policy | string |
内容安全策略。 |
|
内容类型
|
xhr.headers.content-type | string |
内容类型。 |
|
日期
|
xhr.headers.date | string |
日期。 |
|
ETag
|
xhr.headers.etag | string |
eTag。 |
|
引用者策略
|
xhr.headers.referrer-policy | string |
引用者策略。 |
|
Server
|
xhr.headers.server | string |
服务器。 |
|
严格的传输安全性
|
xhr.headers.strict-transport-security | string |
严格的传输安全性。 |
|
X 内容类型选项
|
xhr.headers.x-content-type-options | string |
X 内容类型选项。 |
|
X 帧选项
|
xhr.headers.x-frame-options | string |
X 帧选项。 |
|
X 匹配路径
|
xhr.headers.x-matched-path | string |
X 匹配路径。 |
|
X Vercel 缓存
|
xhr.headers.x-vercel-cache | string |
X Vercel 缓存。 |
|
X Vercel ID
|
xhr.headers.x-vercel-id | string |
X Vercel 标识符。 |
|
访问控制允许源
|
xhr.headers.access-control-allow-origin | string |
访问控制允许源。 |
|
访问控制公开标头
|
xhr.headers.access-control-expose-headers | string |
访问控制公开标头。 |
|
Alt SVC
|
xhr.headers.alt-svc | string |
Alt SVC。 |
|
Vary
|
xhr.headers.vary | string |
变化。 |
|
Via
|
xhr.headers.via | string |
通过。 |
|
X Envoy 上游服务时间
|
xhr.headers.x-envoy-upstream-service-time | string |
X envoy 上游服务时间。 |
|
X Amazon 请求 ID
|
xhr.headers.x-amzn-requestid | string |
X Amazon 请求标识符。 |
|
X Amazon 跟踪 ID
|
xhr.headers.x-amzn-trace-id | string |
X Amazon 跟踪标识符。 |
|
Body
|
xhr.body | string |
正文。 |
|
成本
|
cost | integer |
成本。 |
|
初始状态代码
|
initial-status-code | integer |
初始状态代码。 |
|
解析的 URL
|
resolved-url | string |
解析的 URL 地址。 |
|
Microdata
|
metadata.microdata | array of string |
微数据。 |
|
JSON LD
|
metadata.json-ld | array of object | |
|
上下文
|
metadata.json-ld.@context | string |
上下文。 |
|
类型
|
metadata.json-ld.@type | string |
类型。 |
|
Name
|
metadata.json-ld.name | string |
名称。 |
|
URL
|
metadata.json-ld.url | string |
URL 地址。 |
|
Description
|
metadata.json-ld.description | string |
说明。 |
|
类型
|
metadata.json-ld.mainEntityOfPage.@type | string |
类型。 |
|
URL
|
metadata.json-ld.mainEntityOfPage.url | string |
URL 地址。 |
|
类型
|
metadata.json-ld.image.@type | string |
类型。 |
|
URL
|
metadata.json-ld.image.url | string |
URL 地址。 |
|
类型
|
metadata.json-ld.publisher.@type | string |
类型。 |
|
Name
|
metadata.json-ld.publisher.name | string |
名称。 |
|
URL
|
metadata.json-ld.publisher.url | string |
URL 地址。 |
|
与
|
metadata.json-ld.sameAs | string |
相同。 |
|
打开图形
|
metadata.opengraph | array of object | |
|
打开图形标题
|
metadata.opengraph.og:title | string |
Open Graph 标题。 |
|
打开图形说明
|
metadata.opengraph.og:description | string |
Open Graph 说明。 |
|
打开图形网站名称
|
metadata.opengraph.og:site_name | string |
Open Graph 网站名称。 |
|
打开图形 URL
|
metadata.opengraph.og:url | string |
Open Graph URL 地址。 |
|
打开图形图像
|
metadata.opengraph.og:image | string |
Open Graph 图像。 |
|
类型
|
metadata.opengraph.@type | string |
类型。 |
|
OG
|
metadata.opengraph.@context.og | string |
Open Graph。 |
|
都柏林分数
|
metadata.dublincore | array of object | |
|
Elements
|
metadata.dublincore.elements | array of object | |
|
Name
|
metadata.dublincore.elements.name | string |
名称。 |
|
Content
|
metadata.dublincore.elements.content | string |
内容。 |
|
URI
|
metadata.dublincore.elements.URI | string |
URI。 |
|
术语
|
metadata.dublincore.terms | array of string |
术语。 |
获取使用情况
检索有关信用消耗和并发使用情况的信息。
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
最大 API 额度
|
max_api_credit | integer |
最大 API 额度。 |
|
已用 API 信用额度
|
used_api_credit | integer |
使用的 API 信用额度。 |
|
最大并发性
|
max_concurrency | integer |
最大并发性。 |
|
当前并发
|
current_concurrency | integer |
当前并发。 |
|
续订订阅日期
|
renewal_subscription_date | string |
续订订阅日期。 |