共用方式為


MiniSoup HTML 剖析器 (獨立發行者) (預覽版)

一個受 Beautiful Soup 啟發的輕量級 HTML 解析庫,提供 HTML 元素分析和提取功能

此連接器適用於以下產品和區域:

服務 Class Regions
副駕駛工作室 進階 除下列區域外的所有 Power Automate 區域
     - 美國政府 (GCC)
     - 美國政府(海灣合作委員會高中)
     - 由 21Vianet 營運的中國雲
     - 美國國防部 (DoD)
邏輯應用程式 標準 所有 Logic Apps 區域, 但下列區域除外:
     - Azure Government 區域
     - Azure 中國區域
     - 美國國防部 (DoD)
Power Apps 進階 除下列區域外的所有 Power Apps 區域
     - 美國政府 (GCC)
     - 美國政府(海灣合作委員會高中)
     - 由 21Vianet 營運的中國雲
     - 美國國防部 (DoD)
Power Automate(自動化服務) 進階 除下列區域外的所有 Power Automate 區域
     - 美國政府 (GCC)
     - 美國政府(海灣合作委員會高中)
     - 由 21Vianet 營運的中國雲
     - 美國國防部 (DoD)
連絡人​​
名稱 MiniSoup 支持
URL https://github.com/DEmodoriGatsuO/MiniSoup
Email demodori.gatsuo@gmail.com
連接器中繼資料
Publisher 新藤省吾
網站 https://github.com/DEmodoriGatsuO/MiniSoup
隱私策略 https://github.com/DEmodoriGatsuO/MiniSoup/blob/main/PRIVACY.md
類別 資料;網站

節流限制

名稱 呼叫 續約期間
每個連線的 API 呼叫 100 60 秒

動作

剖析 HTML 表格

將 HTML 表格剖解析為具有標頭和列的結構化資料

尋找所有相符的元素

尋找符合指定標籤名稱和選用屬性的所有 HTML 元素

從 HTML 元素中提取值

從符合所提供選取器的 HTML 元素中擷取特定屬性值

擷取 HTML 內容

從指定的 URL 擷取 HTML 內容

選取 HTML 元素

選取符合所提供選取器的 HTML 元素

剖析 HTML 表格

將 HTML 表格剖解析為具有標頭和列的結構化資料

參數

名稱 機碼 必要 類型 Description
HTML全文
html True string

包含表格的 HTML 內容

table_selector
table_selector string

CSS 選擇器來定位 HTML 表格元素

header_rows_exist
header_rows_exist boolean

表格是否有標頭列

傳回

名稱 路徑 類型 Description
success boolean

指出作業是否成功

Headers
data.Headers array of string

從表格擷取的資料行標頭

Rows
data.Rows array of array

表格列,每個列都包含儲存格值的陣列

items
data.Rows array of string

尋找所有相符的元素

尋找符合指定標籤名稱和選用屬性的所有 HTML 元素

參數

名稱 機碼 必要 類型 Description
HTML全文
html True string

要解析的 HTML 內容

tag_name
tag_name True string

要搜尋的 HTML 標籤名稱

識別碼
id string

依元素 ID 篩選

類別
class string

依元素類別篩選

傳回

名稱 路徑 類型 Description
success boolean

指出作業是否成功

元素
elements array of HtmlElement

符合指定標籤名稱和屬性的 HTML 元素陣列

count
count integer

找到的元素數量

從 HTML 元素中提取值

從符合所提供選取器的 HTML 元素中擷取特定屬性值

參數

名稱 機碼 必要 類型 Description
HTML全文
html True string

要解析的 HTML 內容

選取器
selector True string

CSS 選取器或 XPath 用於鎖定元素

屬性
attribute True string

要從選取的元素中擷取的屬性。 使用「text」表示內部文字,使用「html」表示內部 HTML,或特定屬性名稱

selector_type
selector_type string

要使用的選取器類型

傳回

名稱 路徑 類型 Description
success boolean

指出作業是否成功

values
values array of string

從相符元素擷取的值陣列

count
count integer

擷取的值數目

擷取 HTML 內容

從指定的 URL 擷取 HTML 內容

參數

名稱 機碼 必要 類型 Description
url
url True string

從中擷取 HTML 內容的 URL

傳回

名稱 路徑 類型 Description
success boolean

指出作業是否成功

HTML全文
html string

從指定URL擷取的HTML內容

選取 HTML 元素

選取符合所提供選取器的 HTML 元素

參數

名稱 機碼 必要 類型 Description
HTML全文
html True string

要解析的 HTML 內容

選取器
selector True string

CSS 選取器或 XPath 用於鎖定元素

selector_type
selector_type string

要使用的選取器類型

傳回

名稱 路徑 類型 Description
success boolean

指出作業是否成功

元素
elements array of HtmlElement

符合指定選取器的 HTML 元素陣列

count
count integer

找到的元素數量

定義

HtmlElement

表示HTML元素及其屬性和屬性

名稱 路徑 類型 Description
加標籤
tag string

元素的 HTML 標籤名稱(例如,'div'、'span'、'a')

外部Html
outerHtml string

元素的完整 HTML 包括元素本身

內Html
innerHtml string

元素內部的HTML內容,可能包含其他元素

內文本
innerText string

元素內的文字內容已移除所有 HTML 標籤

attributes
attributes object

元素的所有屬性作為名稱值對

isSelf關閉
isSelfClosing boolean

指出元素是否為自閉合標籤(例如,
)