Indexes - Analyze

服務:: Search Service

API 版本:: 2025-09-01

顯示分析器如何將文字分成權杖。

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01

URI 參數

名稱	位於	必要	類型	Description
endpoint	path	True	string	搜尋服務的端點 URL。
indexName	path	True	string	要測試分析器的索引名稱。
api-version	query	True	string	用戶端 API 版本。

要求標頭

名稱	必要	類型	Description
x-ms-client-request-id		string (uuid)	隨請求一起傳送的追蹤 ID，以協助偵錯。

要求本文

名稱	必要	類型	Description
text	True	string	要分成標記的文字。
analyzer		LexicalAnalyzerName	用來中斷指定文字的分析器名稱。如果未指定此參數，您必須改為指定分詞器。標記器和分析器參數是互斥的。
charFilters		CharFilterName[]	中斷指定文字時要使用的字元篩選器的選用清單。只有在使用分詞器參數時，才能設定此參數。
normalizer		LexicalNormalizerName	用來正規化指定文字的正規化程式名稱。
tokenFilters		TokenFilterName[]	中斷指定文字時要使用的權杖篩選器的選擇性清單。只有在使用分詞器參數時，才能設定此參數。
tokenizer		LexicalTokenizerName	用來中斷指定文字的標記器名稱。如果未指定此參數，您必須改為指定分析器。標記器和分析器參數是互斥的。

回應

名稱	類型	Description
200 OK	AnalyzeResult
Other Status Codes	ErrorResponse	錯誤回應。

範例

SearchServiceIndexAnalyze

範例要求

HTTP

POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

範例回覆

狀態碼:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

定義

名稱	Description
AnalyzedTokenInfo	分析器傳回權杖的相關資訊。
AnalyzeRequest	指定一些文字和分析元件，用來將該文字分成記號。
AnalyzeResult	測試文字分析器的結果。
CharFilterName	定義搜尋引擎支援的所有字元篩選器的名稱。
ErrorAdditionalInfo	資源管理錯誤其他資訊。
ErrorDetail	錯誤詳細數據。
ErrorResponse	錯誤回應
LexicalAnalyzerName	定義搜尋引擎支援的所有文字分析器的名稱。
LexicalNormalizerName	定義搜尋引擎支援的所有文字正規化程式的名稱。
LexicalTokenizerName	定義搜尋引擎支援的所有標記器的名稱。
TokenFilterName	定義搜尋引擎支援的所有權杖篩選器的名稱。

AnalyzedTokenInfo

Object

分析器傳回權杖的相關資訊。

名稱	類型	Description
endOffset	integer (int32)	輸入文字中記號最後一個字元的索引。
position	integer (int32)	記號在輸入文字中相對於其他記號的位置。輸入文字中的第一個記號的位置為 0，下一個記號的位置為 1，依此類推。視所使用的分析器而定，某些記號可能具有相同的位置，例如，如果它們彼此是同義字。
startOffset	integer (int32)	輸入文字中記號第一個字元的索引。
token	string	分析器傳回的權杖。

AnalyzeRequest

Object

指定一些文字和分析元件，用來將該文字分成記號。

名稱	類型	Description
analyzer	LexicalAnalyzerName	用來中斷指定文字的分析器名稱。如果未指定此參數，您必須改為指定分詞器。標記器和分析器參數是互斥的。
charFilters	CharFilterName[]	中斷指定文字時要使用的字元篩選器的選用清單。只有在使用分詞器參數時，才能設定此參數。
normalizer	LexicalNormalizerName	用來正規化指定文字的正規化程式名稱。
text	string	要分成標記的文字。
tokenFilters	TokenFilterName[]	中斷指定文字時要使用的權杖篩選器的選擇性清單。只有在使用分詞器參數時，才能設定此參數。
tokenizer	LexicalTokenizerName	用來中斷指定文字的標記器名稱。如果未指定此參數，您必須改為指定分析器。標記器和分析器參數是互斥的。

AnalyzeResult

Object

測試文字分析器的結果。

名稱	類型	Description
tokens	AnalyzedTokenInfo[]	要求中指定的分析器所傳回的權杖清單。

CharFilterName

列舉型別

定義搜尋引擎支援的所有字元篩選器的名稱。

值	Description
html_strip	嘗試去除 HTML 建構的字元篩選器。請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Object

資源管理錯誤其他資訊。

名稱	類型	Description
info	object	其他資訊。
type	string	其他信息類型。

ErrorDetail

Object

錯誤詳細數據。

名稱	類型	Description
additionalInfo	ErrorAdditionalInfo[]	錯誤其他資訊。
code	string	錯誤碼。
details	ErrorDetail[]	錯誤詳細數據。
message	string	錯誤訊息。
target	string	錯誤目標。

ErrorResponse

Object

錯誤回應

名稱	類型	Description
error	ErrorDetail	error 物件。

LexicalAnalyzerName

列舉型別

定義搜尋引擎支援的所有文字分析器的名稱。

值	Description
ar.microsoft	適用於阿拉伯文的 Microsoft 分析器。
ar.lucene	阿拉伯語的 Lucene 分析儀。
hy.lucene	亞美尼亞語的 Lucene 分析儀。
bn.microsoft	適用於孟加拉語的 Microsoft 分析器。
eu.lucene	巴斯克語的 Lucene 分析儀。
bg.microsoft	保加利亞文的 Microsoft 分析器。
bg.lucene	保加利亞語的 Lucene 分析儀。
ca.microsoft	適用於加泰隆尼亞語的 Microsoft 分析器。
ca.lucene	加泰羅尼亞語的 Lucene 分析儀。
zh-Hans.microsoft	中文版 Microsoft 分析器（簡體）。
zh-Hans.lucene	Lucene 中文分析儀（簡體）。
zh-Hant.microsoft	中文（繁體）的 Microsoft 分析器。
zh-Hant.lucene	Lucene 中文分析儀（繁體）。
hr.microsoft	克羅埃西亞語的 Microsoft 分析器。
cs.microsoft	捷克語的 Microsoft 分析器。
cs.lucene	捷克語的 Lucene 分析儀。
da.microsoft	丹麥文的 Microsoft 分析器。
da.lucene	丹麥語的 Lucene 分析儀。
nl.microsoft	荷蘭語的 Microsoft 分析器。
nl.lucene	荷蘭語的 Lucene 分析儀。
en.microsoft	英文版 Microsoft 分析器。
en.lucene	英語的 Lucene 分析儀。
et.microsoft	愛沙尼亞語的 Microsoft 分析器。
fi.microsoft	芬蘭文的 Microsoft 分析器。
fi.lucene	芬蘭語的 Lucene 分析儀。
fr.microsoft	法文的 Microsoft 分析器。
fr.lucene	法語的 Lucene 分析儀。
gl.lucene	加利西亞的 Lucene 分析儀。
de.microsoft	德文的 Microsoft 分析器。
de.lucene	德語 Lucene 分析儀。
el.microsoft	希臘語的 Microsoft 分析器。
el.lucene	希臘語的 Lucene 分析儀。
gu.microsoft	古吉拉特語的 Microsoft 分析器。
he.microsoft	希伯來語的 Microsoft 分析器。
hi.microsoft	Microsoft analyzer for Hindi.
hi.lucene	印地語的 Lucene 分析儀。
hu.microsoft	匈牙利文的 Microsoft 分析器。
hu.lucene	匈牙利語的 Lucene 分析儀。
is.microsoft	適用於冰島語的 Microsoft 分析器。
id.microsoft	印尼文（印尼語）的 Microsoft 分析器。
id.lucene	印尼語 Lucene 分析儀。
ga.lucene	愛爾蘭的 Lucene 分析儀。
it.microsoft	Microsoft Analyzer for Italian。
it.lucene	意大利語的 Lucene 分析儀。
ja.microsoft	日文的 Microsoft 分析器。
ja.lucene	日語 Lucene 分析儀。
kn.microsoft	適用於卡納達語的 Microsoft 分析器。
ko.microsoft	韓文的 Microsoft 分析器。
ko.lucene	韓語 Lucene 分析儀。
lv.microsoft	Microsoft Analyzer for Latvian。
lv.lucene	拉脫維亞語的 Lucene 分析儀。
lt.microsoft	適用於立陶宛文的 Microsoft 分析器。
ml.microsoft	適用於馬拉雅拉姆語的 Microsoft 分析器。
ms.microsoft	適用於馬來文的 Microsoft 分析器（拉丁文）。
mr.microsoft	適用於馬拉地語的 Microsoft 分析器。
nb.microsoft	Microsoft analyzer for Norwegian （Bokmål）.
no.lucene	挪威語的 Lucene 分析儀。
fa.lucene	波斯語的 Lucene 分析儀。
pl.microsoft	適用於波蘭文的 Microsoft 分析器。
pl.lucene	用於波蘭語的 Lucene 分析儀。
pt-BR.microsoft	適用於葡萄牙語（巴西）的 Microsoft 分析器。
pt-BR.lucene	葡萄牙語（巴西）的 Lucene 分析儀。
pt-PT.microsoft	葡萄牙語的 Microsoft 分析器（葡萄牙）。
pt-PT.lucene	葡萄牙語的 Lucene 分析儀（葡萄牙）。
pa.microsoft	旁遮普語的 Microsoft 分析器。
ro.microsoft	羅馬尼亞文的 Microsoft 分析器。
ro.lucene	羅馬尼亞語的 Lucene 分析儀。
ru.microsoft	俄語的 Microsoft 分析器。
ru.lucene	俄語 Lucene 分析儀。
sr-cyrillic.microsoft	Microsoft 分析器適用於塞爾維亞文（西里爾文）。
sr-latin.microsoft	Microsoft Analyzer for Serbian （Latin）。
sk.microsoft	Microsoft analyzer for Slovak.
sl.microsoft	Microsoft analyzer for Slovenian.
es.microsoft	西班牙文的 Microsoft 分析器。
es.lucene	西班牙語的 Lucene 分析儀。
sv.microsoft	瑞典文的 Microsoft 分析器。
sv.lucene	瑞典語 Lucene 分析儀。
ta.microsoft	適用於泰米爾語的 Microsoft 分析器。
te.microsoft	適用於泰盧固語的 Microsoft 分析器。
th.microsoft	適用於泰文的 Microsoft 分析器。
th.lucene	泰語 Lucene 分析儀。
tr.microsoft	土耳其語的 Microsoft 分析器。
tr.lucene	土耳其語的 Lucene 分析儀。
uk.microsoft	烏克蘭文的 Microsoft 分析器。
ur.microsoft	烏爾都語的 Microsoft 分析器。
vi.microsoft	越南語的 Microsoft 分析器。
standard.lucene	標準 Lucene 分析儀。
standardasciifolding.lucene	標準 ASCII 折疊 Lucene 分析儀。請參閱 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
keyword	將欄位的整個內容視為單一權杖。這對於郵遞區號、ID 和某些產品名稱等資料很有用。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
pattern	透過正則表達式模式靈活地將文字分隔為術語。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
simple	將非字母處的文字分割並轉換為小寫。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
stop	將文字分割為非字母;套用小寫和停用字詞記號篩選器。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
whitespace	使用空格標記器的分析器。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

列舉型別

定義搜尋引擎支援的所有文字正規化程式的名稱。

值	Description
asciifolding	將不在前 127 個 ASCII 字元（「基本拉丁文」Unicode 區塊）中的字母、數字和符號 Unicode 字元轉換為其 ASCII 對等字元（如果存在此類對等字元）。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
elision	刪除省略。例如，“l'avion”（飛機）將轉換為“avion”（飛機）。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
lowercase	將權杖文字正規化為小寫。請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
standard	標準歸一化器，由小寫和 asciifolding 組成。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
uppercase	將權杖文字正規化為大寫。請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

列舉型別

定義搜尋引擎支援的所有標記器的名稱。

值	Description
classic	基於語法的分詞器，適用於處理大多數歐洲語言文檔。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	將來自邊緣的輸入標記化為給定大小的 n-gram。請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	將整個輸入作為單一記號發出。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	在非字母處分割文字。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	將非字母處的文字分割並轉換為小寫。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_tokenizer	使用語言特定的規則來分割文字。
microsoft_language_stemming_tokenizer	使用特定語言的規則分割文字，並將單字簡化為基本形式。
nGram	將輸入標記為給定大小的 n-gram。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	路徑式階層的分詞器。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	使用正則表達式模式比對來建構不同權杖的標記器。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	標準Lucene分析儀;由標準分詞器、小寫過濾器和停止過濾器組成。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	將 URL 和電子郵件標記為一個標記。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	在空格處分割文字。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

列舉型別

定義搜尋引擎支援的所有權杖篩選器的名稱。

值	Description
arabic_normalization	套用阿拉伯文正規化器來正規化正字法的權杖篩選器。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
apostrophe	去除撇號後面的所有字元（包括撇號本身）。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
asciifolding	將不在前 127 個 ASCII 字元（「基本拉丁文」Unicode 區塊）中的字母、數字和符號 Unicode 字元轉換為其 ASCII 對等字元（如果存在此類對等字元）。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	形成從標準標記器產生的 CJK 術語的二元組。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	將 CJK 寬度差異正規化。將全角 ASCII 變體折疊成對等的基本拉丁文，並將半角片假名變體折疊成對等的假名。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	從首字母縮略詞中刪除英語所有格和點。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	在索引時為經常出現的術語建構二元組。單個術語也仍然被索引，二元組疊加。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	從輸入記號的正面或背面開始產生給定大小的 n 克。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	刪除省略。例如，“l'avion”（飛機）將轉換為“avion”（飛機）。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	根據 German2 雪球演算法的啟發式方法對德語字元進行正規化。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	將印地語文本正規化，以消除拼寫變化中的一些差異。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	將印度語言中文字的 Unicode 表示法正規化。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	發出每個傳入的權杖兩次，一次作為關鍵字，一次作為非關鍵字。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	適用於英語的高性能 kstem 過濾器。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	刪除太長或太短的單字。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	限制索引時的權杖數目。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	將權杖文字正規化為小寫。請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html
nGram_v2	產生給定大小的 n-gram。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	套用波斯文的正規化。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	為語音匹配創建令牌。請參閱 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	使用 Porter 詞幹分析演算法來轉換權杖流。請參閱 http://tartarus.org/~martin/PorterStemmer
reverse	反轉權杖字串。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_normalization	標準化可互換的斯堪的納維亞字符的使用。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
scandinavian_folding	折疊斯堪的納維亞字符 åÅäæÄÆ-a> 和 öÖøØ-o>。它還歧視使用雙元音 aa、ae、ao、oe 和 oo，只留下第一個元音。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
shingle	將權杖組合建立為單一權杖。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	使用 Snowball 產生的詞幹分析器對單字進行字幹的篩選器。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	將 Sorani 文字的 Unicode 表示法正規化。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	特定語言詞幹篩選器。請參閱 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	從權杖串流中移除停用字。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	從標記中修剪前導和尾隨空格。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	將項截斷為特定長度。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	篩選出與前一個權杖具有相同文字的權杖。請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	將權杖文字正規化為大寫。請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	將單字分割成子字，並對子單字群組執行可選的轉換。

共用方式為

Indexes - Analyze

URI 參數

要求標頭

要求本文

回應

範例

SearchServiceIndexAnalyze

範例要求

範例回覆

定義

AnalyzedTokenInfo

AnalyzeRequest

AnalyzeResult

CharFilterName

ErrorAdditionalInfo

ErrorDetail

ErrorResponse

LexicalAnalyzerName

LexicalNormalizerName

LexicalTokenizerName

TokenFilterName