ScrapingBee(獨立發行商)(預覽版)
ScrapingBee 是網絡上最強大的網絡抓取服務。 它將處理無頭瀏覽器、代理、驗證碼,使用 CSS 選擇器從任何網站提取複雜的結構化信息,並運行 JavaScript 場景(點擊、滾動、表單填寫等)。
此連接器適用於以下產品和區域:
| 服務 | Class | Regions |
|---|---|---|
| 副駕駛工作室 | 進階 | 除下列區域外的所有 Power Automate 區域 : - 美國政府 (GCC) - 美國政府(海灣合作委員會高中) - 由 21Vianet 營運的中國雲 - 美國國防部 (DoD) |
| 邏輯應用程式 | 標準 | 所有 Logic Apps 區域, 但下列區域除外: - Azure Government 區域 - Azure 中國區域 - 美國國防部 (DoD) |
| Power Apps | 進階 | 除下列區域外的所有 Power Apps 區域 : - 美國政府 (GCC) - 美國政府(海灣合作委員會高中) - 由 21Vianet 營運的中國雲 - 美國國防部 (DoD) |
| Power Automate(自動化服務) | 進階 | 除下列區域外的所有 Power Automate 區域 : - 美國政府 (GCC) - 美國政府(海灣合作委員會高中) - 由 21Vianet 營運的中國雲 - 美國國防部 (DoD) |
| 連絡人 | |
|---|---|
| 名稱 | 特洛伊·泰勒 |
| URL | https://www.hitachisolutions.com |
| ttaylor@hitachisolutions.com |
| 連接器中繼資料 | |
|---|---|
| Publisher | 特洛伊·泰勒 |
| 網站 | https://www.scrapingbee.com/ |
| 隱私策略 | https://www.scrapingbee.com/privacy-policy/ |
| 類別 | 網站 |
正在建立連線
連接器支援下列驗證類型:
| 預設值 | 建立連線的參數。 | 所有區域 | 不可共享 |
預設
適用:所有地區
建立連線的參數。
這不是可共用的連線。 如果 Power App 與其他使用者共用,系統會明確提示其他使用者建立新連線。
| 名稱 | 類型 | Description | 為必填項目 |
|---|---|---|---|
| API 金鑰 | securestring | 此 API 的 API 金鑰 | 對 |
節流限制
| 名稱 | 呼叫 | 續約期間 |
|---|---|---|
| 每個連線的 API 呼叫 | 100 | 60 秒 |
動作
| 取得使用量 |
擷取點數耗用量和並行使用量的相關資訊。 |
| 執行 Google 搜尋 |
檢索 Google 搜尋結果頁面的抓取 |
| 廢棄網址 |
擷取要求報廢的 URL,並在要求時轉譯 JavaScript。 |
取得使用量
擷取點數耗用量和並行使用量的相關資訊。
傳回
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
最大 API 積分
|
max_api_credit | integer |
API 點數上限。 |
|
已使用的 API 積分
|
used_api_credit | integer |
使用的 API 點數。 |
|
最大並行
|
max_concurrency | integer |
最大並行。 |
|
目前並行
|
current_concurrency | integer |
目前的並行。 |
|
續訂認購日期
|
renewal_subscription_date | string |
續訂訂閱日期。 |
執行 Google 搜尋
檢索 Google 搜尋結果頁面的抓取
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
搜尋
|
search | True | string |
您將放入 Google 搜索欄中的文本。 |
|
國碼 (地區碼)
|
country_code | string |
您希望請求來自的國家/地區。 |
|
|
Results
|
nb_results | integer |
要傳回的結果數目。 |
|
|
頁面
|
page | integer |
要從中擷取結果的頁碼。 |
|
|
語言
|
language | string |
傳回結果的語言。 |
|
|
額外參數
|
extra_params | string |
要提交的任何其他 URL 參數。 |
傳回
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
URL
|
meta_data.url | string |
URL 位址。 |
|
Results
|
meta_data.number_of_results | integer |
結果數目。 |
|
地點
|
meta_data.location | string |
位置。 |
|
有機結果
|
meta_data.number_of_organic_results | integer |
自然結果的數量。 |
|
廣告
|
meta_data.number_of_ads | integer |
廣告數量。 |
|
頁面
|
meta_data.number_of_page | integer |
頁碼。 |
|
無結果訊息
|
meta_data.no_results_message | string |
無結果訊息。 |
|
有機結果
|
organic_results | array of object | |
|
URL
|
organic_results.url | string |
URL 位址。 |
|
顯示的網址
|
organic_results.displayed_url | string |
顯示的 URL 位址。 |
|
Description
|
organic_results.description | string |
描述。 |
|
額外資訊
|
organic_results.extra_info | string |
額外的信息。 |
|
Position
|
organic_results.position | integer |
職位。 |
|
Title
|
organic_results.title | string |
標題。 |
|
本地結果
|
local_results | array of string |
本地結果。 |
|
熱門廣告
|
top_ads | string |
熱門廣告。 |
|
底部廣告
|
bottom_ads | string |
底部廣告。 |
|
相關查詢
|
related_queries | array of object | |
|
文字
|
related_queries.text | string |
文字。 |
|
Position
|
related_queries.position | integer |
職位。 |
|
提問
|
questions | array of string |
問題。 |
廢棄網址
擷取要求報廢的 URL,並在要求時轉譯 JavaScript。
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
URL
|
url | True | string |
您要抓取的 URL。 |
|
渲染 JS
|
render_js | True | boolean |
在無頭瀏覽器中轉譯網站。 |
|
JS 實務範例
|
js_scenario | string |
在轉譯之前執行 JavaScript。 |
|
|
Wait
|
wait | integer |
渲染前是等待的時間。 |
|
|
等
|
wait_for | string |
等待特定元素出現在 DOM 中。 |
|
|
封鎖廣告
|
block_ads | boolean |
是否封鎖廣告。 |
|
|
區塊資源
|
block_resources | boolean |
是否封鎖所有影像和 CSS。 |
|
|
視窗寬度
|
window_width | integer |
要使用的視窗寬度。 |
|
|
視窗高度
|
window_height | integer |
要使用的視窗高度。 |
|
|
高級代理
|
premium_proxy | boolean |
是否使用代理來報廢網站。 |
|
|
國碼 (地區碼)
|
country_code | string |
用於廢棄網站的代理國家/地區。 |
|
|
隱形代理
|
stealth_proxy | boolean |
是否使用隱形代理來報廢網站。 |
|
|
自有代理
|
own_proxy | string |
您自己的代理。 |
|
|
擷取規則
|
extract_rules | string |
在回應之前剖解析 HTML 的擷取規則。 |
|
|
螢幕截圖
|
screenshot | boolean |
截取請求網站的屏幕截圖。 |
|
|
螢幕截圖選擇器
|
screenshot_selector | string |
截取特定 CSS 選擇器的螢幕截圖。 |
|
|
截圖整頁
|
screenshot_full_page | boolean |
截取整個網站的螢幕截圖。 |
|
|
傳回頁面來源
|
return_page_source | boolean |
同時傳回頁面來源。 |
|
|
工作階段識別碼
|
session_id | integer |
所有使用相同session_id的 API 請求都將通過相同的 IP 地址路由,持續 5 分鐘。 |
|
|
暫停
|
timeout | integer |
逾時的上限,介於 1000 到 140000 之間 (預設值)。 |
|
|
Cookies
|
cookies | string |
要傳遞到網站的自訂 cookie。 |
|
|
Device
|
device | string |
傳送至伺服器的裝置類型。 |
|
|
自訂 Google
|
custom_google | boolean |
如果在 Google 或 Google 子網域上抓取網頁,請設定為 true。 |
傳回
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
身體
|
body | string |
身體。 |
|
Cookies
|
cookies | array of object | |
|
名稱
|
cookies.name | string |
名稱。 |
|
價值觀
|
cookies.value | string |
值。 |
|
網域
|
cookies.domain | string |
網域。 |
|
路徑
|
cookies.path | string |
路徑。 |
|
過期
|
cookies.expires | float |
到期時。 |
|
大小
|
cookies.size | integer |
大小。 |
|
僅限 HTTP
|
cookies.httpOnly | boolean |
無論只是 HTTP。 |
|
安全
|
cookies.secure | boolean |
是否安全。 |
|
Session
|
cookies.session | boolean |
無論會話。 |
|
同一方
|
cookies.sameParty | boolean |
無論是同一個政黨。 |
|
源方案
|
cookies.sourceScheme | string |
來源配置。 |
|
來源連接埠
|
cookies.sourcePort | integer |
來源埠。 |
|
評估結果
|
evaluate_results | array of string |
評估結果。 |
|
年齡
|
headers.age | string |
年齡。 |
|
快取控制
|
headers.cache-control | string |
快取控制項。 |
|
內容編碼
|
headers.content-encoding | string |
內容編碼。 |
|
內容安全性原則
|
headers.content-security-policy | string |
內容安全性原則。 |
|
內容類型
|
headers.content-type | string |
內容類型。 |
|
Date
|
headers.date | string |
日期。 |
|
Etag
|
headers.etag | string |
eTag。 |
|
推薦人政策
|
headers.referrer-policy | string |
反向連結原則。 |
|
伺服器
|
headers.server | string |
伺服器。 |
|
嚴格的運輸安全
|
headers.strict-transport-security | string |
嚴格的運輸安全。 |
|
X 內容類型選項
|
headers.x-content-type-options | string |
x 內容類型選項。 |
|
X 框架選項
|
headers.x-frame-options | string |
x 框架選項。 |
|
X 匹配路徑
|
headers.x-matched-path | string |
x 相符的路徑。 |
|
X 提供支持
|
headers.x-powered-by | string |
x 由。 |
|
X Vercel 緩存
|
headers.x-vercel-cache | string |
x Vercel 快取。 |
|
X Vercel ID
|
headers.x-vercel-id | string |
x Vercel 識別碼。 |
|
類型
|
type | string |
型別。 |
|
IFrames
|
iframes | array of string |
iFrame。 |
|
XHR的
|
xhr | array of object | |
|
URL
|
xhr.url | string |
URL 位址。 |
|
狀態代碼
|
xhr.status_code | integer |
狀態代碼。 |
|
方法
|
xhr.method | string |
方法。 |
|
年齡
|
xhr.headers.age | string |
年齡。 |
|
快取控制
|
xhr.headers.cache-control | string |
快取控制項。 |
|
內容長度
|
xhr.headers.content-length | string |
內容長度。 |
|
內容安全性原則
|
xhr.headers.content-security-policy | string |
內容安全性原則。 |
|
內容類型
|
xhr.headers.content-type | string |
內容類型。 |
|
Date
|
xhr.headers.date | string |
日期。 |
|
Etag
|
xhr.headers.etag | string |
eTag。 |
|
推薦人政策
|
xhr.headers.referrer-policy | string |
反向連結原則。 |
|
伺服器
|
xhr.headers.server | string |
伺服器。 |
|
嚴格的運輸安全
|
xhr.headers.strict-transport-security | string |
嚴格的運輸安全。 |
|
X 內容類型選項
|
xhr.headers.x-content-type-options | string |
X 內容類型選項。 |
|
X 框架選項
|
xhr.headers.x-frame-options | string |
X 框架選項。 |
|
X 匹配路徑
|
xhr.headers.x-matched-path | string |
X 比對路徑。 |
|
X Vercel 緩存
|
xhr.headers.x-vercel-cache | string |
X Vercel 快取。 |
|
X Vercel ID
|
xhr.headers.x-vercel-id | string |
X Vercel 識別碼。 |
|
存取控制允許來源
|
xhr.headers.access-control-allow-origin | string |
存取控制允許來源。 |
|
存取控制公開標頭
|
xhr.headers.access-control-expose-headers | string |
存取控制會公開標頭。 |
|
替代 SVC
|
xhr.headers.alt-svc | string |
替代 SVC。 |
|
Vary
|
xhr.headers.vary | string |
變化。 |
|
Via
|
xhr.headers.via | string |
通過。 |
|
X Envoy 上游服務時間
|
xhr.headers.x-envoy-upstream-service-time | string |
X 使節上游服務時間。 |
|
X 亞馬遜請求 ID
|
xhr.headers.x-amzn-requestid | string |
X Amazon 請求識別碼。 |
|
X 亞馬遜追蹤 ID
|
xhr.headers.x-amzn-trace-id | string |
X Amazon 追蹤識別碼。 |
|
身體
|
xhr.body | string |
身體。 |
|
費用
|
cost | integer |
成本。 |
|
初始狀態碼
|
initial-status-code | integer |
初始狀態碼。 |
|
已解析的網址
|
resolved-url | string |
已解析的 URL 位址。 |
|
微數據
|
metadata.microdata | array of string |
微觀數據。 |
|
JSON LD
|
metadata.json-ld | array of object | |
|
上下文
|
metadata.json-ld.@context | string |
上下文。 |
|
類型
|
metadata.json-ld.@type | string |
型別。 |
|
名稱
|
metadata.json-ld.name | string |
名稱。 |
|
URL
|
metadata.json-ld.url | string |
URL 位址。 |
|
Description
|
metadata.json-ld.description | string |
描述。 |
|
類型
|
metadata.json-ld.mainEntityOfPage.@type | string |
型別。 |
|
URL
|
metadata.json-ld.mainEntityOfPage.url | string |
URL 位址。 |
|
類型
|
metadata.json-ld.image.@type | string |
型別。 |
|
URL
|
metadata.json-ld.image.url | string |
URL 位址。 |
|
類型
|
metadata.json-ld.publisher.@type | string |
型別。 |
|
名稱
|
metadata.json-ld.publisher.name | string |
名稱。 |
|
URL
|
metadata.json-ld.publisher.url | string |
URL 位址。 |
|
與
|
metadata.json-ld.sameAs | string |
與。 |
|
開啟圖表
|
metadata.opengraph | array of object | |
|
開啟圖表標題
|
metadata.opengraph.og:title | string |
[開啟圖形] 標題。 |
|
開啟圖表說明
|
metadata.opengraph.og:description | string |
Open Graph 描述。 |
|
開啟 Graph 網站名稱
|
metadata.opengraph.og:site_name | string |
Open Graph 網站名稱。 |
|
開啟圖形網址
|
metadata.opengraph.og:url | string |
Open Graph URL 位址。 |
|
開啟圖表影像
|
metadata.opengraph.og:image | string |
Open Graph 影像。 |
|
類型
|
metadata.opengraph.@type | string |
型別。 |
|
OG的
|
metadata.opengraph.@context.og | string |
開放圖。 |
|
都柏林核心
|
metadata.dublincore | array of object | |
|
Elements
|
metadata.dublincore.elements | array of object | |
|
名稱
|
metadata.dublincore.elements.name | string |
名稱。 |
|
Content
|
metadata.dublincore.elements.content | string |
內容。 |
|
URI
|
metadata.dublincore.elements.URI | string |
The URI. |
|
條款
|
metadata.dublincore.terms | array of string |
條款。 |