Indexes - Analyze
분석기가 텍스트를 토큰으로 나누는 방법을 보여 줍니다.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01
URI 매개 변수
| Name | In(다음 안에) | 필수 | 형식 | Description |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
검색 서비스의 엔드포인트 URL입니다. |
|
index
|
path | True |
string |
분석기를 테스트할 인덱스의 이름입니다. |
|
api-version
|
query | True |
string |
클라이언트 API 버전입니다. |
요청 헤더
| Name | 필수 | 형식 | Description |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
디버깅을 돕기 위해 요청과 함께 전송된 추적 ID입니다. |
요청 본문
| Name | 필수 | 형식 | Description |
|---|---|---|---|
| text | True |
string |
토큰으로 나누는 텍스트입니다. |
| analyzer |
지정된 텍스트를 나누는 데 사용할 분석기의 이름입니다. 이 매개변수를 지정하지 않으면 대신 토크나이저를 지정해야 합니다. 토크나이저 및 분석기 매개변수는 상호 배타적입니다. |
||
| charFilters |
주어진 텍스트를 나눌 때 사용할 문자 필터의 선택적 목록입니다. 이 매개변수는 토크나이저 매개변수를 사용할 때만 설정할 수 있습니다. |
||
| normalizer |
지정된 텍스트를 정규화하는 데 사용할 정규화기의 이름입니다. |
||
| tokenFilters |
지정된 텍스트를 나누를 때 사용할 토큰 필터의 선택적 목록입니다. 이 매개변수는 토크나이저 매개변수를 사용할 때만 설정할 수 있습니다. |
||
| tokenizer |
주어진 텍스트를 나누는 데 사용할 토크나이저의 이름입니다. 이 매개변수를 지정하지 않으면 대신 분석기를 지정해야 합니다. 토크나이저 및 분석기 매개변수는 상호 배타적입니다. |
응답
| Name | 형식 | Description |
|---|---|---|
| 200 OK | ||
| Other Status Codes |
오류 응답입니다. |
예제
SearchServiceIndexAnalyze
샘플 요청
POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01
{
"text": "Text to analyze",
"analyzer": "ar.lucene"
}
샘플 응답
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
정의
| Name | Description |
|---|---|
|
Analyzed |
분석기에서 반환된 토큰에 대한 정보입니다. |
|
Analyze |
해당 텍스트를 토큰으로 나누는 데 사용되는 일부 텍스트 및 분석 구성 요소를 지정합니다. |
|
Analyze |
텍스트에 대한 분석기를 테스트한 결과입니다. |
|
Char |
검색 엔진에서 지원하는 모든 문자 필터의 이름을 정의합니다. |
|
Error |
리소스 관리 오류 추가 정보입니다. |
|
Error |
오류 세부 정보입니다. |
|
Error |
오류 응답 |
|
Lexical |
검색 엔진에서 지원하는 모든 텍스트 분석기의 이름을 정의합니다. |
|
Lexical |
검색 엔진에서 지원하는 모든 텍스트 정규화기의 이름을 정의합니다. |
|
Lexical |
검색 엔진에서 지원하는 모든 토크나이저의 이름을 정의합니다. |
|
Token |
검색 엔진에서 지원하는 모든 토큰 필터의 이름을 정의합니다. |
AnalyzedTokenInfo
분석기에서 반환된 토큰에 대한 정보입니다.
| Name | 형식 | Description |
|---|---|---|
| endOffset |
integer (int32) |
입력 텍스트에서 토큰의 마지막 문자에 대한 인덱스입니다. |
| position |
integer (int32) |
다른 토큰을 기준으로 입력 텍스트에서 토큰의 위치입니다. 입력 텍스트의 첫 번째 토큰은 위치 0이고 다음 토큰은 위치 1입니다. 사용되는 분석기에 따라 일부 토큰은 동일한 위치를 가질 수 있습니다(예: 서로의 동의어인 경우). |
| startOffset |
integer (int32) |
입력 텍스트에서 토큰의 첫 번째 문자에 대한 인덱스입니다. |
| token |
string |
분석기에서 반환된 토큰입니다. |
AnalyzeRequest
해당 텍스트를 토큰으로 나누는 데 사용되는 일부 텍스트 및 분석 구성 요소를 지정합니다.
| Name | 형식 | Description |
|---|---|---|
| analyzer |
지정된 텍스트를 나누는 데 사용할 분석기의 이름입니다. 이 매개변수를 지정하지 않으면 대신 토크나이저를 지정해야 합니다. 토크나이저 및 분석기 매개변수는 상호 배타적입니다. |
|
| charFilters |
주어진 텍스트를 나눌 때 사용할 문자 필터의 선택적 목록입니다. 이 매개변수는 토크나이저 매개변수를 사용할 때만 설정할 수 있습니다. |
|
| normalizer |
지정된 텍스트를 정규화하는 데 사용할 정규화기의 이름입니다. |
|
| text |
string |
토큰으로 나누는 텍스트입니다. |
| tokenFilters |
지정된 텍스트를 나누를 때 사용할 토큰 필터의 선택적 목록입니다. 이 매개변수는 토크나이저 매개변수를 사용할 때만 설정할 수 있습니다. |
|
| tokenizer |
주어진 텍스트를 나누는 데 사용할 토크나이저의 이름입니다. 이 매개변수를 지정하지 않으면 대신 분석기를 지정해야 합니다. 토크나이저 및 분석기 매개변수는 상호 배타적입니다. |
AnalyzeResult
텍스트에 대한 분석기를 테스트한 결과입니다.
| Name | 형식 | Description |
|---|---|---|
| tokens |
요청에 지정된 분석기에서 반환된 토큰 목록입니다. |
CharFilterName
검색 엔진에서 지원하는 모든 문자 필터의 이름을 정의합니다.
| 값 | Description |
|---|---|
| html_strip |
HTML 구문을 제거하려고 시도하는 문자 필터입니다. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html를 참조하세요. |
ErrorAdditionalInfo
리소스 관리 오류 추가 정보입니다.
| Name | 형식 | Description |
|---|---|---|
| info |
object |
추가 정보입니다. |
| type |
string |
추가 정보 유형입니다. |
ErrorDetail
오류 세부 정보입니다.
| Name | 형식 | Description |
|---|---|---|
| additionalInfo |
오류 추가 정보입니다. |
|
| code |
string |
오류 코드입니다. |
| details |
오류 세부 정보입니다. |
|
| message |
string |
오류 메시지입니다. |
| target |
string |
오류 대상입니다. |
ErrorResponse
오류 응답
| Name | 형식 | Description |
|---|---|---|
| error |
오류 개체입니다. |
LexicalAnalyzerName
검색 엔진에서 지원하는 모든 텍스트 분석기의 이름을 정의합니다.
| 값 | Description |
|---|---|
| ar.microsoft |
아랍어용 Microsoft 분석기. |
| ar.lucene |
아랍어용 Lucene 분석기. |
| hy.lucene |
아르메니아어용 Lucene 분석기. |
| bn.microsoft |
벵골어용 Microsoft 분석기. |
| eu.lucene |
바스크어용 Lucene 분석기. |
| bg.microsoft |
불가리아어용 Microsoft 분석기. |
| bg.lucene |
불가리아어용 Lucene 분석기. |
| ca.microsoft |
카탈로니아어용 Microsoft 분석기. |
| ca.lucene |
카탈로니아어용 Lucene 분석기. |
| zh-Hans.microsoft |
중국어용 Microsoft 분석기(간체). |
| zh-Hans.lucene |
중국어용 Lucene 분석기(간체). |
| zh-Hant.microsoft |
중국어용 Microsoft 분석기(번체). |
| zh-Hant.lucene |
중국어(번체)용 Lucene 분석기. |
| hr.microsoft |
크로아티아어용 Microsoft 분석기. |
| cs.microsoft |
체코어용 Microsoft 분석기. |
| cs.lucene |
체코어용 Lucene 분석기. |
| da.microsoft |
덴마크어용 Microsoft 분석기. |
| da.lucene |
덴마크어용 Lucene 분석기. |
| nl.microsoft |
네덜란드어용 Microsoft 분석기. |
| nl.lucene |
네덜란드어용 Lucene 분석기. |
| en.microsoft |
영어용 Microsoft 분석기. |
| en.lucene |
영어용 Lucene 분석기. |
| et.microsoft |
에스토니아어용 Microsoft 분석기. |
| fi.microsoft |
핀란드어용 Microsoft 분석기. |
| fi.lucene |
핀란드어용 Lucene 분석기. |
| fr.microsoft |
프랑스어용 Microsoft 분석기. |
| fr.lucene |
프랑스어용 Lucene 분석기. |
| gl.lucene |
갈리시아어용 Lucene 분석기. |
| de.microsoft |
독일어용 Microsoft 분석기. |
| de.lucene |
독일어용 Lucene 분석기. |
| el.microsoft |
그리스어용 Microsoft 분석기. |
| el.lucene |
그리스어용 Lucene 분석기. |
| gu.microsoft |
구자라트어용 Microsoft 분석기. |
| he.microsoft |
히브리어용 Microsoft 분석기. |
| hi.microsoft |
힌디어용 Microsoft 분석기. |
| hi.lucene |
힌디어용 Lucene 분석기. |
| hu.microsoft |
헝가리어용 Microsoft 분석기. |
| hu.lucene |
헝가리어용 Lucene 분석기. |
| is.microsoft |
아이슬란드어용 Microsoft 분석기. |
| id.microsoft |
인도네시아어(바하사어)용 Microsoft 분석기. |
| id.lucene |
인도네시아어용 Lucene 분석기. |
| ga.lucene |
아일랜드어용 Lucene 분석기. |
| it.microsoft |
이탈리아어용 Microsoft 분석기. |
| it.lucene |
이탈리아어용 Lucene 분석기. |
| ja.microsoft |
일본어용 Microsoft 분석기. |
| ja.lucene |
일본어용 Lucene 분석기. |
| kn.microsoft |
칸나다어용 Microsoft 분석기. |
| ko.microsoft |
한국어용 Microsoft 분석기. |
| ko.lucene |
한국어용 Lucene 분석기. |
| lv.microsoft |
라트비아어용 Microsoft 분석기. |
| lv.lucene |
라트비아어용 Lucene 분석기. |
| lt.microsoft |
리투아니아어용 Microsoft 분석기. |
| ml.microsoft |
말라얄람어용 Microsoft 분석기. |
| ms.microsoft |
말레이어용 Microsoft 분석기(라틴어). |
| mr.microsoft |
마라티어용 Microsoft 분석기. |
| nb.microsoft |
노르웨이어용 Microsoft 분석기(Bokmål). |
| no.lucene |
노르웨이어용 Lucene 분석기. |
| fa.lucene |
페르시아어용 Lucene 분석기. |
| pl.microsoft |
폴란드어용 Microsoft 분석기. |
| pl.lucene |
폴란드어용 Lucene 분석기. |
| pt-BR.microsoft |
포르투갈어(브라질)용 Microsoft 분석기. |
| pt-BR.lucene |
포르투갈어(브라질)용 Lucene 분석기. |
| pt-PT.microsoft |
포르투갈어용 Microsoft 분석기(포르투갈). |
| pt-PT.lucene |
포르투갈어(포르투갈)용 Lucene 분석기. |
| pa.microsoft |
펀자브어용 Microsoft 분석기. |
| ro.microsoft |
루마니아어용 Microsoft 분석기. |
| ro.lucene |
루마니아어용 Lucene 분석기. |
| ru.microsoft |
러시아어용 Microsoft 분석기. |
| ru.lucene |
러시아어용 Lucene 분석기. |
| sr-cyrillic.microsoft |
세르비아어(키릴 자모)용 Microsoft 분석기입니다. |
| sr-latin.microsoft |
세르비아어(라틴어)용 Microsoft 분석기. |
| sk.microsoft |
슬로바키아어용 Microsoft 분석기. |
| sl.microsoft |
슬로베니아어용 Microsoft 분석기. |
| es.microsoft |
스페인어용 Microsoft 분석기. |
| es.lucene |
스페인어용 Lucene 분석기. |
| sv.microsoft |
스웨덴어용 Microsoft 분석기. |
| sv.lucene |
스웨덴어용 Lucene 분석기. |
| ta.microsoft |
타밀어용 Microsoft 분석기. |
| te.microsoft |
텔루구어용 Microsoft 분석기. |
| th.microsoft |
태국어용 Microsoft 분석기. |
| th.lucene |
태국용 Lucene 분석기. |
| tr.microsoft |
터키어용 Microsoft 분석기. |
| tr.lucene |
터키어용 Lucene 분석기. |
| uk.microsoft |
우크라이나어용 Microsoft 분석기. |
| ur.microsoft |
우르두어용 Microsoft 분석기. |
| vi.microsoft |
베트남어용 Microsoft 분석기. |
| standard.lucene |
표준 Lucene 분석기. |
| standardasciifolding.lucene |
표준 ASCII 접이식 Lucene 분석기. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers를 참조하세요. |
| keyword |
필드의 전체 콘텐츠를 단일 토큰으로 처리합니다. 이는 우편번호, ID 및 일부 제품 이름과 같은 데이터에 유용합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html를 참조하세요. |
| pattern |
정규식 패턴을 통해 텍스트를 용어로 유연하게 구분합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html를 참조하세요. |
| simple |
문자가 아닌 텍스트를 나누고 소문자로 변환합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html를 참조하세요. |
| stop |
문자가 아닌 텍스트를 나눕니다. 소문자 및 중지 단어 토큰 필터를 적용합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html를 참조하세요. |
| whitespace |
공백 토크나이저를 사용하는 분석기입니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html를 참조하세요. |
LexicalNormalizerName
검색 엔진에서 지원하는 모든 텍스트 정규화기의 이름을 정의합니다.
| 값 | Description |
|---|---|
| asciifolding |
처음 127개의 ASCII 문자("기본 라틴어" 유니코드 블록)에 없는 알파벳, 숫자 및 기호 유니코드 문자를 ASCII에 해당하는 문자(해당하는 문자가 있는 경우)로 변환합니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html를 참조하세요. |
| elision |
생략을 제거합니다. 예를 들어, "l'avion"(비행기)은 "avion"(비행기)으로 변환됩니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html를 참조하세요. |
| lowercase |
토큰 텍스트를 소문자로 정규화합니다. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html를 참조하세요. |
| standard |
소문자와 asciifolding으로 구성된 표준 정규화기입니다. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html를 참조하세요. |
| uppercase |
토큰 텍스트를 대문자로 정규화합니다. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html를 참조하세요. |
LexicalTokenizerName
검색 엔진에서 지원하는 모든 토크나이저의 이름을 정의합니다.
TokenFilterName
검색 엔진에서 지원하는 모든 토큰 필터의 이름을 정의합니다.