共用方式為


Indexes - Analyze

顯示分析器如何將文字分成權杖。

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01

URI 參數

名稱 位於 必要 類型 Description
endpoint
path True

string

搜尋服務的端點 URL。

indexName
path True

string

要測試分析器的索引名稱。

api-version
query True

string

用戶端 API 版本。

要求標頭

名稱 必要 類型 Description
x-ms-client-request-id

string (uuid)

隨請求一起傳送的追蹤 ID,以協助偵錯。

要求本文

名稱 必要 類型 Description
text True

string

要分成標記的文字。

analyzer

LexicalAnalyzerName

用來中斷指定文字的分析器名稱。 如果未指定此參數,您必須改為指定分詞器。 標記器和分析器參數是互斥的。

charFilters

CharFilterName[]

中斷指定文字時要使用的字元篩選器的選用清單。 只有在使用分詞器參數時,才能設定此參數。

normalizer

LexicalNormalizerName

用來正規化指定文字的正規化程式名稱。

tokenFilters

TokenFilterName[]

中斷指定文字時要使用的權杖篩選器的選擇性清單。 只有在使用分詞器參數時,才能設定此參數。

tokenizer

LexicalTokenizerName

用來中斷指定文字的標記器名稱。 如果未指定此參數,您必須改為指定分析器。 標記器和分析器參數是互斥的。

回應

名稱 類型 Description
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

錯誤回應。

範例

SearchServiceIndexAnalyze

範例要求

POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

範例回覆

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

定義

名稱 Description
AnalyzedTokenInfo

分析器傳回權杖的相關資訊。

AnalyzeRequest

指定一些文字和分析元件,用來將該文字分成記號。

AnalyzeResult

測試文字分析器的結果。

CharFilterName

定義搜尋引擎支援的所有字元篩選器的名稱。

ErrorAdditionalInfo

資源管理錯誤其他資訊。

ErrorDetail

錯誤詳細數據。

ErrorResponse

錯誤回應

LexicalAnalyzerName

定義搜尋引擎支援的所有文字分析器的名稱。

LexicalNormalizerName

定義搜尋引擎支援的所有文字正規化程式的名稱。

LexicalTokenizerName

定義搜尋引擎支援的所有標記器的名稱。

TokenFilterName

定義搜尋引擎支援的所有權杖篩選器的名稱。

AnalyzedTokenInfo

分析器傳回權杖的相關資訊。

名稱 類型 Description
endOffset

integer (int32)

輸入文字中記號最後一個字元的索引。

position

integer (int32)

記號在輸入文字中相對於其他記號的位置。 輸入文字中的第一個記號的位置為 0,下一個記號的位置為 1,依此類推。 視所使用的分析器而定,某些記號可能具有相同的位置,例如,如果它們彼此是同義字。

startOffset

integer (int32)

輸入文字中記號第一個字元的索引。

token

string

分析器傳回的權杖。

AnalyzeRequest

指定一些文字和分析元件,用來將該文字分成記號。

名稱 類型 Description
analyzer

LexicalAnalyzerName

用來中斷指定文字的分析器名稱。 如果未指定此參數,您必須改為指定分詞器。 標記器和分析器參數是互斥的。

charFilters

CharFilterName[]

中斷指定文字時要使用的字元篩選器的選用清單。 只有在使用分詞器參數時,才能設定此參數。

normalizer

LexicalNormalizerName

用來正規化指定文字的正規化程式名稱。

text

string

要分成標記的文字。

tokenFilters

TokenFilterName[]

中斷指定文字時要使用的權杖篩選器的選擇性清單。 只有在使用分詞器參數時,才能設定此參數。

tokenizer

LexicalTokenizerName

用來中斷指定文字的標記器名稱。 如果未指定此參數,您必須改為指定分析器。 標記器和分析器參數是互斥的。

AnalyzeResult

測試文字分析器的結果。

名稱 類型 Description
tokens

AnalyzedTokenInfo[]

要求中指定的分析器所傳回的權杖清單。

CharFilterName

定義搜尋引擎支援的所有字元篩選器的名稱。

Description
html_strip

嘗試去除 HTML 建構的字元篩選器。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

資源管理錯誤其他資訊。

名稱 類型 Description
info

object

其他資訊。

type

string

其他信息類型。

ErrorDetail

錯誤詳細數據。

名稱 類型 Description
additionalInfo

ErrorAdditionalInfo[]

錯誤其他資訊。

code

string

錯誤碼。

details

ErrorDetail[]

錯誤詳細數據。

message

string

錯誤訊息。

target

string

錯誤目標。

ErrorResponse

錯誤回應

名稱 類型 Description
error

ErrorDetail

error 物件。

LexicalAnalyzerName

定義搜尋引擎支援的所有文字分析器的名稱。

Description
ar.microsoft

適用於阿拉伯文的 Microsoft 分析器。

ar.lucene

阿拉伯語的 Lucene 分析儀。

hy.lucene

亞美尼亞語的 Lucene 分析儀。

bn.microsoft

適用於孟加拉語的 Microsoft 分析器。

eu.lucene

巴斯克語的 Lucene 分析儀。

bg.microsoft

保加利亞文的 Microsoft 分析器。

bg.lucene

保加利亞語的 Lucene 分析儀。

ca.microsoft

適用於加泰隆尼亞語的 Microsoft 分析器。

ca.lucene

加泰羅尼亞語的 Lucene 分析儀。

zh-Hans.microsoft

中文版 Microsoft 分析器 (簡體)。

zh-Hans.lucene

Lucene 中文分析儀(簡體)。

zh-Hant.microsoft

中文 (繁體) 的 Microsoft 分析器。

zh-Hant.lucene

Lucene 中文分析儀(繁體)。

hr.microsoft

克羅埃西亞語的 Microsoft 分析器。

cs.microsoft

捷克語的 Microsoft 分析器。

cs.lucene

捷克語的 Lucene 分析儀。

da.microsoft

丹麥文的 Microsoft 分析器。

da.lucene

丹麥語的 Lucene 分析儀。

nl.microsoft

荷蘭語的 Microsoft 分析器。

nl.lucene

荷蘭語的 Lucene 分析儀。

en.microsoft

英文版 Microsoft 分析器。

en.lucene

英語的 Lucene 分析儀。

et.microsoft

愛沙尼亞語的 Microsoft 分析器。

fi.microsoft

芬蘭文的 Microsoft 分析器。

fi.lucene

芬蘭語的 Lucene 分析儀。

fr.microsoft

法文的 Microsoft 分析器。

fr.lucene

法語的 Lucene 分析儀。

gl.lucene

加利西亞的 Lucene 分析儀。

de.microsoft

德文的 Microsoft 分析器。

de.lucene

德語 Lucene 分析儀。

el.microsoft

希臘語的 Microsoft 分析器。

el.lucene

希臘語的 Lucene 分析儀。

gu.microsoft

古吉拉特語的 Microsoft 分析器。

he.microsoft

希伯來語的 Microsoft 分析器。

hi.microsoft

Microsoft analyzer for Hindi.

hi.lucene

印地語的 Lucene 分析儀。

hu.microsoft

匈牙利文的 Microsoft 分析器。

hu.lucene

匈牙利語的 Lucene 分析儀。

is.microsoft

適用於冰島語的 Microsoft 分析器。

id.microsoft

印尼文 (印尼語) 的 Microsoft 分析器。

id.lucene

印尼語 Lucene 分析儀。

ga.lucene

愛爾蘭的 Lucene 分析儀。

it.microsoft

Microsoft Analyzer for Italian。

it.lucene

意大利語的 Lucene 分析儀。

ja.microsoft

日文的 Microsoft 分析器。

ja.lucene

日語 Lucene 分析儀。

kn.microsoft

適用於卡納達語的 Microsoft 分析器。

ko.microsoft

韓文的 Microsoft 分析器。

ko.lucene

韓語 Lucene 分析儀。

lv.microsoft

Microsoft Analyzer for Latvian。

lv.lucene

拉脫維亞語的 Lucene 分析儀。

lt.microsoft

適用於立陶宛文的 Microsoft 分析器。

ml.microsoft

適用於馬拉雅拉姆語的 Microsoft 分析器。

ms.microsoft

適用於馬來文的 Microsoft 分析器 (拉丁文)。

mr.microsoft

適用於馬拉地語的 Microsoft 分析器。

nb.microsoft

Microsoft analyzer for Norwegian (Bokmål).

no.lucene

挪威語的 Lucene 分析儀。

fa.lucene

波斯語的 Lucene 分析儀。

pl.microsoft

適用於波蘭文的 Microsoft 分析器。

pl.lucene

用於波蘭語的 Lucene 分析儀。

pt-BR.microsoft

適用於葡萄牙語 (巴西) 的 Microsoft 分析器。

pt-BR.lucene

葡萄牙語(巴西)的 Lucene 分析儀。

pt-PT.microsoft

葡萄牙語的 Microsoft 分析器 (葡萄牙)。

pt-PT.lucene

葡萄牙語的 Lucene 分析儀(葡萄牙)。

pa.microsoft

旁遮普語的 Microsoft 分析器。

ro.microsoft

羅馬尼亞文的 Microsoft 分析器。

ro.lucene

羅馬尼亞語的 Lucene 分析儀。

ru.microsoft

俄語的 Microsoft 分析器。

ru.lucene

俄語 Lucene 分析儀。

sr-cyrillic.microsoft

Microsoft 分析器適用於塞爾維亞文 (西里爾文)。

sr-latin.microsoft

Microsoft Analyzer for Serbian (Latin)。

sk.microsoft

Microsoft analyzer for Slovak.

sl.microsoft

Microsoft analyzer for Slovenian.

es.microsoft

西班牙文的 Microsoft 分析器。

es.lucene

西班牙語的 Lucene 分析儀。

sv.microsoft

瑞典文的 Microsoft 分析器。

sv.lucene

瑞典語 Lucene 分析儀。

ta.microsoft

適用於泰米爾語的 Microsoft 分析器。

te.microsoft

適用於泰盧固語的 Microsoft 分析器。

th.microsoft

適用於泰文的 Microsoft 分析器。

th.lucene

泰語 Lucene 分析儀。

tr.microsoft

土耳其語的 Microsoft 分析器。

tr.lucene

土耳其語的 Lucene 分析儀。

uk.microsoft

烏克蘭文的 Microsoft 分析器。

ur.microsoft

烏爾都語的 Microsoft 分析器。

vi.microsoft

越南語的 Microsoft 分析器。

standard.lucene

標準 Lucene 分析儀。

standardasciifolding.lucene

標準 ASCII 折疊 Lucene 分析儀。 請參閱 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

將欄位的整個內容視為單一權杖。 這對於郵遞區號、ID 和某些產品名稱等資料很有用。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

透過正則表達式模式靈活地將文字分隔為術語。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

將非字母處的文字分割並轉換為小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

將文字分割為非字母;套用小寫和停用字詞記號篩選器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

使用空格標記器的分析器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

定義搜尋引擎支援的所有文字正規化程式的名稱。

Description
asciifolding

將不在前 127 個 ASCII 字元 (「基本拉丁文」Unicode 區塊) 中的字母、數字和符號 Unicode 字元轉換為其 ASCII 對等字元 (如果存在此類對等字元)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

刪除省略。 例如,“l'avion”(飛機)將轉換為“avion”(飛機)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

將權杖文字正規化為小寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

標準歸一化器,由小寫和 asciifolding 組成。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

將權杖文字正規化為大寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

定義搜尋引擎支援的所有標記器的名稱。

Description
classic

基於語法的分詞器,適用於處理大多數歐洲語言文檔。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

將來自邊緣的輸入標記化為給定大小的 n-gram。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

將整個輸入作為單一記號發出。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

在非字母處分割文字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

將非字母處的文字分割並轉換為小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

使用語言特定的規則來分割文字。

microsoft_language_stemming_tokenizer

使用特定語言的規則分割文字,並將單字簡化為基本形式。

nGram

將輸入標記為給定大小的 n-gram。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

路徑式階層的分詞器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

使用正則表達式模式比對來建構不同權杖的標記器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

標準Lucene分析儀;由標準分詞器、小寫過濾器和停止過濾器組成。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

將 URL 和電子郵件標記為一個標記。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

在空格處分割文字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

定義搜尋引擎支援的所有權杖篩選器的名稱。

Description
arabic_normalization

套用阿拉伯文正規化器來正規化正字法的權杖篩選器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

去除撇號後面的所有字元 (包括撇號本身)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

將不在前 127 個 ASCII 字元 (「基本拉丁文」Unicode 區塊) 中的字母、數字和符號 Unicode 字元轉換為其 ASCII 對等字元 (如果存在此類對等字元)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

形成從標準標記器產生的 CJK 術語的二元組。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

將 CJK 寬度差異正規化。 將全角 ASCII 變體折疊成對等的基本拉丁文,並將半角片假名變體折疊成對等的假名。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

從首字母縮略詞中刪除英語所有格和點。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

在索引時為經常出現的術語建構二元組。 單個術語也仍然被索引,二元組疊加。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

從輸入記號的正面或背面開始產生給定大小的 n 克。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

刪除省略。 例如,“l'avion”(飛機)將轉換為“avion”(飛機)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

根據 German2 雪球演算法的啟發式方法對德語字元進行正規化。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

將印地語文本正規化,以消除拼寫變化中的一些差異。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

將印度語言中文字的 Unicode 表示法正規化。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

發出每個傳入的權杖兩次,一次作為關鍵字,一次作為非關鍵字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

適用於英語的高性能 kstem 過濾器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

刪除太長或太短的單字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

限制索引時的權杖數目。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

將權杖文字正規化為小寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

產生給定大小的 n-gram。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

套用波斯文的正規化。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

為語音匹配創建令牌。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

使用 Porter 詞幹分析演算法來轉換權杖流。 請參閱 http://tartarus.org/~martin/PorterStemmer

reverse

反轉權杖字串。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

標準化可互換的斯堪的納維亞字符的使用。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

折疊斯堪的納維亞字符 åÅäæÄÆ-a> 和 öÖøØ-o>。 它還歧視使用雙元音 aa、ae、ao、oe 和 oo,只留下第一個元音。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

將權杖組合建立為單一權杖。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

使用 Snowball 產生的詞幹分析器對單字進行字幹的篩選器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

將 Sorani 文字的 Unicode 表示法正規化。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

特定語言詞幹篩選器。 請參閱 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

從權杖串流中移除停用字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

從標記中修剪前導和尾隨空格。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

將項截斷為特定長度。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

篩選出與前一個權杖具有相同文字的權杖。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

將權杖文字正規化為大寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

將單字分割成子字,並對子單字群組執行可選的轉換。