MiniSoup HTML 剖析器 (獨立發行者) (預覽版)
一個受 Beautiful Soup 啟發的輕量級 HTML 解析庫,提供 HTML 元素分析和提取功能
此連接器適用於以下產品和區域:
| 服務 | Class | Regions |
|---|---|---|
| 副駕駛工作室 | 進階 | 除下列區域外的所有 Power Automate 區域 : - 美國政府 (GCC) - 美國政府(海灣合作委員會高中) - 由 21Vianet 營運的中國雲 - 美國國防部 (DoD) |
| 邏輯應用程式 | 標準 | 所有 Logic Apps 區域, 但下列區域除外: - Azure Government 區域 - Azure 中國區域 - 美國國防部 (DoD) |
| Power Apps | 進階 | 除下列區域外的所有 Power Apps 區域 : - 美國政府 (GCC) - 美國政府(海灣合作委員會高中) - 由 21Vianet 營運的中國雲 - 美國國防部 (DoD) |
| Power Automate(自動化服務) | 進階 | 除下列區域外的所有 Power Automate 區域 : - 美國政府 (GCC) - 美國政府(海灣合作委員會高中) - 由 21Vianet 營運的中國雲 - 美國國防部 (DoD) |
| 連絡人 | |
|---|---|
| 名稱 | MiniSoup 支持 |
| URL | https://github.com/DEmodoriGatsuO/MiniSoup |
| demodori.gatsuo@gmail.com |
| 連接器中繼資料 | |
|---|---|
| Publisher | 新藤省吾 |
| 網站 | https://github.com/DEmodoriGatsuO/MiniSoup |
| 隱私策略 | https://github.com/DEmodoriGatsuO/MiniSoup/blob/main/PRIVACY.md |
| 類別 | 資料;網站 |
節流限制
| 名稱 | 呼叫 | 續約期間 |
|---|---|---|
| 每個連線的 API 呼叫 | 100 | 60 秒 |
動作
| 剖析 HTML 表格 |
將 HTML 表格剖解析為具有標頭和列的結構化資料 |
| 尋找所有相符的元素 |
尋找符合指定標籤名稱和選用屬性的所有 HTML 元素 |
| 從 HTML 元素中提取值 |
從符合所提供選取器的 HTML 元素中擷取特定屬性值 |
| 擷取 HTML 內容 |
從指定的 URL 擷取 HTML 內容 |
| 選取 HTML 元素 |
選取符合所提供選取器的 HTML 元素 |
剖析 HTML 表格
將 HTML 表格剖解析為具有標頭和列的結構化資料
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
HTML全文
|
html | True | string |
包含表格的 HTML 內容 |
|
table_selector
|
table_selector | string |
CSS 選擇器來定位 HTML 表格元素 |
|
|
header_rows_exist
|
header_rows_exist | boolean |
表格是否有標頭列 |
傳回
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
勝
|
success | boolean |
指出作業是否成功 |
|
Headers
|
data.Headers | array of string |
從表格擷取的資料行標頭 |
|
Rows
|
data.Rows | array of array |
表格列,每個列都包含儲存格值的陣列 |
|
items
|
data.Rows | array of string |
尋找所有相符的元素
尋找符合指定標籤名稱和選用屬性的所有 HTML 元素
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
HTML全文
|
html | True | string |
要解析的 HTML 內容 |
|
tag_name
|
tag_name | True | string |
要搜尋的 HTML 標籤名稱 |
|
識別碼
|
id | string |
依元素 ID 篩選 |
|
|
類別
|
class | string |
依元素類別篩選 |
傳回
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
勝
|
success | boolean |
指出作業是否成功 |
|
元素
|
elements | array of HtmlElement |
符合指定標籤名稱和屬性的 HTML 元素陣列 |
|
count
|
count | integer |
找到的元素數量 |
從 HTML 元素中提取值
從符合所提供選取器的 HTML 元素中擷取特定屬性值
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
HTML全文
|
html | True | string |
要解析的 HTML 內容 |
|
選取器
|
selector | True | string |
CSS 選取器或 XPath 用於鎖定元素 |
|
屬性
|
attribute | True | string |
要從選取的元素中擷取的屬性。 使用「text」表示內部文字,使用「html」表示內部 HTML,或特定屬性名稱 |
|
selector_type
|
selector_type | string |
要使用的選取器類型 |
傳回
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
勝
|
success | boolean |
指出作業是否成功 |
|
values
|
values | array of string |
從相符元素擷取的值陣列 |
|
count
|
count | integer |
擷取的值數目 |
擷取 HTML 內容
從指定的 URL 擷取 HTML 內容
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
url
|
url | True | string |
從中擷取 HTML 內容的 URL |
傳回
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
勝
|
success | boolean |
指出作業是否成功 |
|
HTML全文
|
html | string |
從指定URL擷取的HTML內容 |
選取 HTML 元素
選取符合所提供選取器的 HTML 元素
參數
| 名稱 | 機碼 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
HTML全文
|
html | True | string |
要解析的 HTML 內容 |
|
選取器
|
selector | True | string |
CSS 選取器或 XPath 用於鎖定元素 |
|
selector_type
|
selector_type | string |
要使用的選取器類型 |
傳回
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
勝
|
success | boolean |
指出作業是否成功 |
|
元素
|
elements | array of HtmlElement |
符合指定選取器的 HTML 元素陣列 |
|
count
|
count | integer |
找到的元素數量 |
定義
HtmlElement
表示HTML元素及其屬性和屬性
| 名稱 | 路徑 | 類型 | Description |
|---|---|---|---|
|
加標籤
|
tag | string |
元素的 HTML 標籤名稱(例如,'div'、'span'、'a') |
|
外部Html
|
outerHtml | string |
元素的完整 HTML 包括元素本身 |
|
內Html
|
innerHtml | string |
元素內部的HTML內容,可能包含其他元素 |
|
內文本
|
innerText | string |
元素內的文字內容已移除所有 HTML 標籤 |
|
attributes
|
attributes | object |
元素的所有屬性作為名稱值對 |
|
isSelf關閉
|
isSelfClosing | boolean |
指出元素是否為自閉合標籤(例如, |