Indexes - Analyze
顯示分析器如何將文字分成權杖。
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01
URI 參數
| 名稱 | 位於 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
搜尋服務的端點 URL。 |
|
index
|
path | True |
string |
要測試分析器的索引名稱。 |
|
api-version
|
query | True |
string |
用戶端 API 版本。 |
要求標頭
| 名稱 | 必要 | 類型 | Description |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
隨請求一起傳送的追蹤 ID,以協助偵錯。 |
要求本文
| 名稱 | 必要 | 類型 | Description |
|---|---|---|---|
| text | True |
string |
要分成標記的文字。 |
| analyzer |
用來中斷指定文字的分析器名稱。 如果未指定此參數,您必須改為指定分詞器。 標記器和分析器參數是互斥的。 |
||
| charFilters |
中斷指定文字時要使用的字元篩選器的選用清單。 只有在使用分詞器參數時,才能設定此參數。 |
||
| normalizer |
用來正規化指定文字的正規化程式名稱。 |
||
| tokenFilters |
中斷指定文字時要使用的權杖篩選器的選擇性清單。 只有在使用分詞器參數時,才能設定此參數。 |
||
| tokenizer |
用來中斷指定文字的標記器名稱。 如果未指定此參數,您必須改為指定分析器。 標記器和分析器參數是互斥的。 |
回應
| 名稱 | 類型 | Description |
|---|---|---|
| 200 OK | ||
| Other Status Codes |
錯誤回應。 |
範例
SearchServiceIndexAnalyze
範例要求
POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01
{
"text": "Text to analyze",
"analyzer": "ar.lucene"
}
範例回覆
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
定義
| 名稱 | Description |
|---|---|
|
Analyzed |
分析器傳回權杖的相關資訊。 |
|
Analyze |
指定一些文字和分析元件,用來將該文字分成記號。 |
|
Analyze |
測試文字分析器的結果。 |
|
Char |
定義搜尋引擎支援的所有字元篩選器的名稱。 |
|
Error |
資源管理錯誤其他資訊。 |
|
Error |
錯誤詳細數據。 |
|
Error |
錯誤回應 |
|
Lexical |
定義搜尋引擎支援的所有文字分析器的名稱。 |
|
Lexical |
定義搜尋引擎支援的所有文字正規化程式的名稱。 |
|
Lexical |
定義搜尋引擎支援的所有標記器的名稱。 |
|
Token |
定義搜尋引擎支援的所有權杖篩選器的名稱。 |
AnalyzedTokenInfo
分析器傳回權杖的相關資訊。
| 名稱 | 類型 | Description |
|---|---|---|
| endOffset |
integer (int32) |
輸入文字中記號最後一個字元的索引。 |
| position |
integer (int32) |
記號在輸入文字中相對於其他記號的位置。 輸入文字中的第一個記號的位置為 0,下一個記號的位置為 1,依此類推。 視所使用的分析器而定,某些記號可能具有相同的位置,例如,如果它們彼此是同義字。 |
| startOffset |
integer (int32) |
輸入文字中記號第一個字元的索引。 |
| token |
string |
分析器傳回的權杖。 |
AnalyzeRequest
指定一些文字和分析元件,用來將該文字分成記號。
| 名稱 | 類型 | Description |
|---|---|---|
| analyzer |
用來中斷指定文字的分析器名稱。 如果未指定此參數,您必須改為指定分詞器。 標記器和分析器參數是互斥的。 |
|
| charFilters |
中斷指定文字時要使用的字元篩選器的選用清單。 只有在使用分詞器參數時,才能設定此參數。 |
|
| normalizer |
用來正規化指定文字的正規化程式名稱。 |
|
| text |
string |
要分成標記的文字。 |
| tokenFilters |
中斷指定文字時要使用的權杖篩選器的選擇性清單。 只有在使用分詞器參數時,才能設定此參數。 |
|
| tokenizer |
用來中斷指定文字的標記器名稱。 如果未指定此參數,您必須改為指定分析器。 標記器和分析器參數是互斥的。 |
AnalyzeResult
測試文字分析器的結果。
| 名稱 | 類型 | Description |
|---|---|---|
| tokens |
要求中指定的分析器所傳回的權杖清單。 |
CharFilterName
定義搜尋引擎支援的所有字元篩選器的名稱。
| 值 | Description |
|---|---|
| html_strip |
嘗試去除 HTML 建構的字元篩選器。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
資源管理錯誤其他資訊。
| 名稱 | 類型 | Description |
|---|---|---|
| info |
object |
其他資訊。 |
| type |
string |
其他信息類型。 |
ErrorDetail
錯誤詳細數據。
| 名稱 | 類型 | Description |
|---|---|---|
| additionalInfo |
錯誤其他資訊。 |
|
| code |
string |
錯誤碼。 |
| details |
錯誤詳細數據。 |
|
| message |
string |
錯誤訊息。 |
| target |
string |
錯誤目標。 |
ErrorResponse
錯誤回應
| 名稱 | 類型 | Description |
|---|---|---|
| error |
error 物件。 |
LexicalAnalyzerName
定義搜尋引擎支援的所有文字分析器的名稱。
| 值 | Description |
|---|---|
| ar.microsoft |
適用於阿拉伯文的 Microsoft 分析器。 |
| ar.lucene |
阿拉伯語的 Lucene 分析儀。 |
| hy.lucene |
亞美尼亞語的 Lucene 分析儀。 |
| bn.microsoft |
適用於孟加拉語的 Microsoft 分析器。 |
| eu.lucene |
巴斯克語的 Lucene 分析儀。 |
| bg.microsoft |
保加利亞文的 Microsoft 分析器。 |
| bg.lucene |
保加利亞語的 Lucene 分析儀。 |
| ca.microsoft |
適用於加泰隆尼亞語的 Microsoft 分析器。 |
| ca.lucene |
加泰羅尼亞語的 Lucene 分析儀。 |
| zh-Hans.microsoft |
中文版 Microsoft 分析器 (簡體)。 |
| zh-Hans.lucene |
Lucene 中文分析儀(簡體)。 |
| zh-Hant.microsoft |
中文 (繁體) 的 Microsoft 分析器。 |
| zh-Hant.lucene |
Lucene 中文分析儀(繁體)。 |
| hr.microsoft |
克羅埃西亞語的 Microsoft 分析器。 |
| cs.microsoft |
捷克語的 Microsoft 分析器。 |
| cs.lucene |
捷克語的 Lucene 分析儀。 |
| da.microsoft |
丹麥文的 Microsoft 分析器。 |
| da.lucene |
丹麥語的 Lucene 分析儀。 |
| nl.microsoft |
荷蘭語的 Microsoft 分析器。 |
| nl.lucene |
荷蘭語的 Lucene 分析儀。 |
| en.microsoft |
英文版 Microsoft 分析器。 |
| en.lucene |
英語的 Lucene 分析儀。 |
| et.microsoft |
愛沙尼亞語的 Microsoft 分析器。 |
| fi.microsoft |
芬蘭文的 Microsoft 分析器。 |
| fi.lucene |
芬蘭語的 Lucene 分析儀。 |
| fr.microsoft |
法文的 Microsoft 分析器。 |
| fr.lucene |
法語的 Lucene 分析儀。 |
| gl.lucene |
加利西亞的 Lucene 分析儀。 |
| de.microsoft |
德文的 Microsoft 分析器。 |
| de.lucene |
德語 Lucene 分析儀。 |
| el.microsoft |
希臘語的 Microsoft 分析器。 |
| el.lucene |
希臘語的 Lucene 分析儀。 |
| gu.microsoft |
古吉拉特語的 Microsoft 分析器。 |
| he.microsoft |
希伯來語的 Microsoft 分析器。 |
| hi.microsoft |
Microsoft analyzer for Hindi. |
| hi.lucene |
印地語的 Lucene 分析儀。 |
| hu.microsoft |
匈牙利文的 Microsoft 分析器。 |
| hu.lucene |
匈牙利語的 Lucene 分析儀。 |
| is.microsoft |
適用於冰島語的 Microsoft 分析器。 |
| id.microsoft |
印尼文 (印尼語) 的 Microsoft 分析器。 |
| id.lucene |
印尼語 Lucene 分析儀。 |
| ga.lucene |
愛爾蘭的 Lucene 分析儀。 |
| it.microsoft |
Microsoft Analyzer for Italian。 |
| it.lucene |
意大利語的 Lucene 分析儀。 |
| ja.microsoft |
日文的 Microsoft 分析器。 |
| ja.lucene |
日語 Lucene 分析儀。 |
| kn.microsoft |
適用於卡納達語的 Microsoft 分析器。 |
| ko.microsoft |
韓文的 Microsoft 分析器。 |
| ko.lucene |
韓語 Lucene 分析儀。 |
| lv.microsoft |
Microsoft Analyzer for Latvian。 |
| lv.lucene |
拉脫維亞語的 Lucene 分析儀。 |
| lt.microsoft |
適用於立陶宛文的 Microsoft 分析器。 |
| ml.microsoft |
適用於馬拉雅拉姆語的 Microsoft 分析器。 |
| ms.microsoft |
適用於馬來文的 Microsoft 分析器 (拉丁文)。 |
| mr.microsoft |
適用於馬拉地語的 Microsoft 分析器。 |
| nb.microsoft |
Microsoft analyzer for Norwegian (Bokmål). |
| no.lucene |
挪威語的 Lucene 分析儀。 |
| fa.lucene |
波斯語的 Lucene 分析儀。 |
| pl.microsoft |
適用於波蘭文的 Microsoft 分析器。 |
| pl.lucene |
用於波蘭語的 Lucene 分析儀。 |
| pt-BR.microsoft |
適用於葡萄牙語 (巴西) 的 Microsoft 分析器。 |
| pt-BR.lucene |
葡萄牙語(巴西)的 Lucene 分析儀。 |
| pt-PT.microsoft |
葡萄牙語的 Microsoft 分析器 (葡萄牙)。 |
| pt-PT.lucene |
葡萄牙語的 Lucene 分析儀(葡萄牙)。 |
| pa.microsoft |
旁遮普語的 Microsoft 分析器。 |
| ro.microsoft |
羅馬尼亞文的 Microsoft 分析器。 |
| ro.lucene |
羅馬尼亞語的 Lucene 分析儀。 |
| ru.microsoft |
俄語的 Microsoft 分析器。 |
| ru.lucene |
俄語 Lucene 分析儀。 |
| sr-cyrillic.microsoft |
Microsoft 分析器適用於塞爾維亞文 (西里爾文)。 |
| sr-latin.microsoft |
Microsoft Analyzer for Serbian (Latin)。 |
| sk.microsoft |
Microsoft analyzer for Slovak. |
| sl.microsoft |
Microsoft analyzer for Slovenian. |
| es.microsoft |
西班牙文的 Microsoft 分析器。 |
| es.lucene |
西班牙語的 Lucene 分析儀。 |
| sv.microsoft |
瑞典文的 Microsoft 分析器。 |
| sv.lucene |
瑞典語 Lucene 分析儀。 |
| ta.microsoft |
適用於泰米爾語的 Microsoft 分析器。 |
| te.microsoft |
適用於泰盧固語的 Microsoft 分析器。 |
| th.microsoft |
適用於泰文的 Microsoft 分析器。 |
| th.lucene |
泰語 Lucene 分析儀。 |
| tr.microsoft |
土耳其語的 Microsoft 分析器。 |
| tr.lucene |
土耳其語的 Lucene 分析儀。 |
| uk.microsoft |
烏克蘭文的 Microsoft 分析器。 |
| ur.microsoft |
烏爾都語的 Microsoft 分析器。 |
| vi.microsoft |
越南語的 Microsoft 分析器。 |
| standard.lucene |
標準 Lucene 分析儀。 |
| standardasciifolding.lucene |
標準 ASCII 折疊 Lucene 分析儀。 請參閱 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
| keyword |
將欄位的整個內容視為單一權杖。 這對於郵遞區號、ID 和某些產品名稱等資料很有用。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
| pattern |
透過正則表達式模式靈活地將文字分隔為術語。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
| simple |
將非字母處的文字分割並轉換為小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
| stop |
將文字分割為非字母;套用小寫和停用字詞記號篩選器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
| whitespace |
使用空格標記器的分析器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
LexicalNormalizerName
定義搜尋引擎支援的所有文字正規化程式的名稱。
| 值 | Description |
|---|---|
| asciifolding |
將不在前 127 個 ASCII 字元 (「基本拉丁文」Unicode 區塊) 中的字母、數字和符號 Unicode 字元轉換為其 ASCII 對等字元 (如果存在此類對等字元)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
| elision |
刪除省略。 例如,“l'avion”(飛機)將轉換為“avion”(飛機)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
| lowercase |
將權杖文字正規化為小寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
| standard |
標準歸一化器,由小寫和 asciifolding 組成。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
| uppercase |
將權杖文字正規化為大寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
定義搜尋引擎支援的所有標記器的名稱。
TokenFilterName
定義搜尋引擎支援的所有權杖篩選器的名稱。