MiniSoup HTML 파서(독립 게시자)(미리 보기)
HTML 요소 분석 및 추출 기능을 제공하는 아름다운 수프에서 영감을 받은 경량 HTML 구문 분석 라이브러리
이 커넥터는 다음 제품 및 지역에서 사용할 수 있습니다.
| 서비스 | 클래스 | Regions |
|---|---|---|
| Copilot Studio | Premium | 다음을 제외한 모든 Power Automate 지역 : - 미국 정부(GCC) - 미국 정부(GCC High) - 21Vianet에서 운영하는 중국 클라우드 - 미국 국방부(DoD) |
| 논리 앱 | 스탠다드 | 다음을 제외한 모든 Logic Apps 지역 : - Azure Government 지역 - Azure 중국 지역 - 미국 국방부(DoD) |
| Power Apps | Premium | 다음을 제외한 모든 Power Apps 지역 : - 미국 정부(GCC) - 미국 정부(GCC High) - 21Vianet에서 운영하는 중국 클라우드 - 미국 국방부(DoD) |
| Power Automate | Premium | 다음을 제외한 모든 Power Automate 지역 : - 미국 정부(GCC) - 미국 정부(GCC High) - 21Vianet에서 운영하는 중국 클라우드 - 미국 국방부(DoD) |
| 연락처 | |
|---|---|
| 이름 | MiniSoup 지원 |
| URL | https://github.com/DEmodoriGatsuO/MiniSoup |
| 전자 메일 | demodori.gatsuo@gmail.com |
| 커넥터 메타데이터 | |
|---|---|
| 게시자 | 쇼고 신도 |
| 웹 사이트 | https://github.com/DEmodoriGatsuO/MiniSoup |
| 개인 정보 보호 정책 | https://github.com/DEmodoriGatsuO/MiniSoup/blob/main/PRIVACY.md |
| 카테고리 | 데이터; 웹 사이트 |
제한 한도
| Name | 호출 | 갱신 기간 |
|---|---|---|
| 연결당 API 호출 | 100 | 60초 |
동작
| HTML 요소 선택 |
제공된 선택기와 일치하는 HTML 요소를 선택합니다. |
| HTML 요소에서 값 추출 |
제공된 선택기와 일치하는 HTML 요소에서 특정 특성 값을 추출합니다. |
| HTML 콘텐츠 가져오기 |
지정된 URL에서 HTML 콘텐츠를 가져옵니다. |
| HTML 테이블 구문 분석 |
HTML 테이블을 머리글 및 행을 사용하여 구조화된 데이터로 구문 분석 |
| 일치하는 모든 요소 찾기 |
지정된 태그 이름 및 선택적 특성과 일치하는 모든 HTML 요소를 찾습니다. |
HTML 요소 선택
제공된 선택기와 일치하는 HTML 요소를 선택합니다.
매개 변수
| Name | 키 | 필수 | 형식 | Description |
|---|---|---|---|---|
|
html
|
html | True | string |
구문 분석할 HTML 콘텐츠 |
|
선택자
|
selector | True | string |
요소를 대상으로 하는 CSS 선택기 또는 XPath |
|
selector_type
|
selector_type | string |
사용할 선택기 유형 |
반환
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
성공
|
success | boolean |
작업이 성공했는지 여부를 나타냅니다. |
|
요소
|
elements | array of HtmlElement |
지정된 선택기와 일치하는 HTML 요소의 배열 |
|
count
|
count | integer |
찾은 요소 수 |
HTML 요소에서 값 추출
제공된 선택기와 일치하는 HTML 요소에서 특정 특성 값을 추출합니다.
매개 변수
| Name | 키 | 필수 | 형식 | Description |
|---|---|---|---|---|
|
html
|
html | True | string |
구문 분석할 HTML 콘텐츠 |
|
선택자
|
selector | True | string |
요소를 대상으로 하는 CSS 선택기 또는 XPath |
|
attribute
|
attribute | True | string |
선택한 요소에서 추출할 특성입니다. 내부 텍스트에 'text', 내부 HTML의 경우 'html' 또는 특정 특성 이름 사용 |
|
selector_type
|
selector_type | string |
사용할 선택기 유형 |
반환
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
성공
|
success | boolean |
작업이 성공했는지 여부를 나타냅니다. |
|
values
|
values | array of string |
일치하는 요소에서 추출된 값의 배열 |
|
count
|
count | integer |
추출된 값 수 |
HTML 콘텐츠 가져오기
지정된 URL에서 HTML 콘텐츠를 가져옵니다.
매개 변수
| Name | 키 | 필수 | 형식 | Description |
|---|---|---|---|---|
|
url
|
url | True | string |
HTML 콘텐츠를 가져올 URL |
반환
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
성공
|
success | boolean |
작업이 성공했는지 여부를 나타냅니다. |
|
html
|
html | string |
지정된 URL에서 검색된 HTML 콘텐츠 |
HTML 테이블 구문 분석
HTML 테이블을 머리글 및 행을 사용하여 구조화된 데이터로 구문 분석
매개 변수
| Name | 키 | 필수 | 형식 | Description |
|---|---|---|---|---|
|
html
|
html | True | string |
테이블이 포함된 HTML 콘텐츠 |
|
table_selector
|
table_selector | string |
HTML 테이블 요소를 찾는 CSS 선택기 |
|
|
header_rows_exist
|
header_rows_exist | boolean |
테이블에 머리글 행이 있는지 여부 |
반환
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
성공
|
success | boolean |
작업이 성공했는지 여부를 나타냅니다. |
|
Headers
|
data.Headers | array of string |
테이블에서 추출된 열 머리글 |
|
Rows
|
data.Rows | array of array |
각 행에 셀 값 배열이 포함된 표 행 |
|
items
|
data.Rows | array of string |
일치하는 모든 요소 찾기
지정된 태그 이름 및 선택적 특성과 일치하는 모든 HTML 요소를 찾습니다.
매개 변수
| Name | 키 | 필수 | 형식 | Description |
|---|---|---|---|---|
|
html
|
html | True | string |
구문 분석할 HTML 콘텐츠 |
|
tag_name
|
tag_name | True | string |
검색할 HTML 태그 이름 |
|
아이디
|
id | string |
요소 ID로 필터링 |
|
|
class
|
class | string |
요소 클래스별로 필터링 |
반환
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
성공
|
success | boolean |
작업이 성공했는지 여부를 나타냅니다. |
|
요소
|
elements | array of HtmlElement |
지정된 태그 이름 및 특성과 일치하는 HTML 요소의 배열 |
|
count
|
count | integer |
찾은 요소 수 |
정의
HtmlElement
해당 속성 및 특성을 사용하여 HTML 요소를 나타냅니다.
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
tag
|
tag | string |
요소의 HTML 태그 이름(예: 'div', 'span', 'a') |
|
outerHtml
|
outerHtml | string |
요소 자체를 포함하는 요소의 전체 HTML |
|
innerHtml
|
innerHtml | string |
다른 요소를 포함할 수 있는 요소 내의 HTML 콘텐츠 |
|
innerText
|
innerText | string |
모든 HTML 태그가 제거된 요소 내의 텍스트 콘텐츠 |
|
attributes
|
attributes | object |
요소의 모든 특성을 이름-값 쌍으로 |
|
isSelfClosing
|
isSelfClosing | boolean |
요소가 자체 닫는 태그인지 여부를 나타냅니다(예: |