次の方法で共有


Indexes - Analyze

アナライザーがテキストをトークンに分割する方法を示します。

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01

URI パラメーター

名前 / 必須 説明
endpoint
path True

string

検索サービスのエンドポイント URL。

indexName
path True

string

アナライザーをテストするインデックスの名前。

api-version
query True

string

クライアント API のバージョン。

要求ヘッダー

名前 必須 説明
x-ms-client-request-id

string (uuid)

デバッグを支援するためにリクエストとともに送信されたトラッキング ID。

要求本文

名前 必須 説明
text True

string

トークンに分割するテキスト。

analyzer

LexicalAnalyzerName

指定されたテキストを分割するために使用するアナライザーの名前。 このパラメーターが指定されていない場合は、代わりにトークナイザーを指定する必要があります。 トークナイザーとアナライザーのパラメーターは相互に排他的です。

charFilters

CharFilterName[]

指定されたテキストを分割するときに使用する文字フィルターのオプションのリスト。 このパラメータは、トークナイザーパラメータを使用する場合にのみ設定できます。

normalizer

LexicalNormalizerName

指定されたテキストを正規化するために使用するノーマライザーの名前。

tokenFilters

TokenFilterName[]

指定されたテキストを分割するときに使用するトークン フィルターのオプションのリスト。 このパラメータは、トークナイザーパラメータを使用する場合にのみ設定できます。

tokenizer

LexicalTokenizerName

指定されたテキストを分割するために使用するトークナイザーの名前。 このパラメーターが指定されていない場合は、代わりにアナライザーを指定する必要があります。 トークナイザーとアナライザーのパラメーターは相互に排他的です。

応答

名前 説明
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

エラー応答。

SearchServiceIndexAnalyze

要求のサンプル

POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

応答のサンプル

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

定義

名前 説明
AnalyzedTokenInfo

アナライザーによって返されるトークンに関する情報。

AnalyzeRequest

そのテキストをトークンに分割するために使用されるいくつかのテキストおよび分析コンポーネントを指定します。

AnalyzeResult

テキストでアナライザーをテストした結果。

CharFilterName

検索エンジンでサポートされているすべての文字フィルターの名前を定義します。

ErrorAdditionalInfo

リソース管理エラーの追加情報。

ErrorDetail

エラーの詳細。

ErrorResponse

エラー応答

LexicalAnalyzerName

検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。

LexicalNormalizerName

検索エンジンでサポートされているすべてのテキスト ノーマライザーの名前を定義します。

LexicalTokenizerName

検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。

TokenFilterName

検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。

AnalyzedTokenInfo

アナライザーによって返されるトークンに関する情報。

名前 説明
endOffset

integer (int32)

入力テキスト内のトークンの最後の文字のインデックス。

position

integer (int32)

他のトークンに対する入力テキスト内のトークンの相対的な位置。 入力テキストの最初のトークンの位置は 0 で、次のトークンの位置は 1 です。 使用するアナライザーによっては、一部のトークンが同じ位置を持つ場合があります (たとえば、トークンが互いの同義語である場合)。

startOffset

integer (int32)

入力テキスト内のトークンの最初の文字のインデックス。

token

string

アナライザーによって返されるトークン。

AnalyzeRequest

そのテキストをトークンに分割するために使用されるいくつかのテキストおよび分析コンポーネントを指定します。

名前 説明
analyzer

LexicalAnalyzerName

指定されたテキストを分割するために使用するアナライザーの名前。 このパラメーターが指定されていない場合は、代わりにトークナイザーを指定する必要があります。 トークナイザーとアナライザーのパラメーターは相互に排他的です。

charFilters

CharFilterName[]

指定されたテキストを分割するときに使用する文字フィルターのオプションのリスト。 このパラメータは、トークナイザーパラメータを使用する場合にのみ設定できます。

normalizer

LexicalNormalizerName

指定されたテキストを正規化するために使用するノーマライザーの名前。

text

string

トークンに分割するテキスト。

tokenFilters

TokenFilterName[]

指定されたテキストを分割するときに使用するトークン フィルターのオプションのリスト。 このパラメータは、トークナイザーパラメータを使用する場合にのみ設定できます。

tokenizer

LexicalTokenizerName

指定されたテキストを分割するために使用するトークナイザーの名前。 このパラメーターが指定されていない場合は、代わりにアナライザーを指定する必要があります。 トークナイザーとアナライザーのパラメーターは相互に排他的です。

AnalyzeResult

テキストでアナライザーをテストした結果。

名前 説明
tokens

AnalyzedTokenInfo[]

要求で指定されたアナライザーによって返されるトークンのリスト。

CharFilterName

検索エンジンでサポートされているすべての文字フィルターの名前を定義します。

説明
html_strip

HTML コンストラクトを削除しようとする文字フィルタ。 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html を参照してください

ErrorAdditionalInfo

リソース管理エラーの追加情報。

名前 説明
info

object

追加情報。

type

string

追加情報の種類。

ErrorDetail

エラーの詳細。

名前 説明
additionalInfo

ErrorAdditionalInfo[]

エラーの追加情報。

code

string

エラー コード。

details

ErrorDetail[]

エラーの詳細。

message

string

エラー メッセージ。

target

string

エラーターゲット。

ErrorResponse

エラー応答

名前 説明
error

ErrorDetail

エラー オブジェクト。

LexicalAnalyzerName

検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。

説明
ar.microsoft

アラビア語用の Microsoft アナライザー。

ar.lucene

アラビア語用のLucene分析装置。

hy.lucene

アルメニア語用のLucene分析装置。

bn.microsoft

バングラ語用の Microsoft アナライザー。

eu.lucene

バスク語のLucene分析装置。

bg.microsoft

ブルガリア語用の Microsoft アナライザー。

bg.lucene

ブルガリア語用のLucene分析装置。

ca.microsoft

カタロニア語用の Microsoft アナライザー。

ca.lucene

カタロニア語用のLucene分析装置。

zh-Hans.microsoft

中国語 (簡体字) の Microsoft アナライザー。

zh-Hans.lucene

中国語用Lucene分析装置(簡体字)。

zh-Hant.microsoft

中国語 (繁体字) の Microsoft アナライザー。

zh-Hant.lucene

中国語(繁体字)用のLucene分析装置。

hr.microsoft

クロアチア語用の Microsoft アナライザー。

cs.microsoft

チェコ語用のMicrosoftアナライザー。

cs.lucene

チェコ語のLucene分析装置

da.microsoft

デンマーク語用の Microsoft アナライザー。

da.lucene

デンマーク語のLucene分析装置。

nl.microsoft

オランダ語用の Microsoft アナライザー。

nl.lucene

オランダ語用のLucene分析装置。

en.microsoft

英語用の Microsoft アナライザー。

en.lucene

英語用のLucene分析装置。

et.microsoft

エストニア語用の Microsoft アナライザー。

fi.microsoft

フィンランド語用の Microsoft アナライザー。

fi.lucene

フィンランド語用のLucene分析装置。

fr.microsoft

フランス語用の Microsoft アナライザー。

fr.lucene

フランス語用Lucene分析装置

gl.lucene

ガリシア語のLucene分析装置

de.microsoft

ドイツ語用の Microsoft アナライザー。

de.lucene

ドイツ語のLucene分析装置

el.microsoft

ギリシャ語用の Microsoft アナライザー。

el.lucene

ギリシャ語のLucene分析装置。

gu.microsoft

グジャラート語用の Microsoft アナライザー。

he.microsoft

ヘブライ語用の Microsoft アナライザー。

hi.microsoft

ヒンディー語用の Microsoft アナライザー。

hi.lucene

ヒンディー語用のLucene分析装置。

hu.microsoft

ハンガリー語用の Microsoft アナライザー。

hu.lucene

ハンガリー語のLucene分析装置。

is.microsoft

アイスランド語の Microsoft アナライザー。

id.microsoft

インドネシア語 (Bahasa) 用の Microsoft アナライザー。

id.lucene

インドネシア語用Lucene分析装置

ga.lucene

アイルランド語用のLucene分析装置。

it.microsoft

イタリア語の Microsoft アナライザー。

it.lucene

イタリア語のLucene分析装置。

ja.microsoft

日本語用のMicrosoftアナライザー。

ja.lucene

日本語用ルセン分析装置

kn.microsoft

カンナダ語の Microsoft アナライザー。

ko.microsoft

韓国語用マイクロソフトアナライザー。

ko.lucene

韓国語用ルセン分析装置

lv.microsoft

ラトビア語用の Microsoft アナライザー。

lv.lucene

ラトビア語のLucene分析装置

lt.microsoft

リトアニア語用の Microsoft アナライザー。

ml.microsoft

マラヤーラム語の Microsoft アナライザー。

ms.microsoft

マレー語 (ラテン語) の Microsoft アナライザー。

mr.microsoft

マラーティー語の Microsoft アナライザー。

nb.microsoft

ノルウェー語 (Bokmål) の Microsoft アナライザー。

no.lucene

ノルウェー語のLucene分析装置。

fa.lucene

ペルシャ語用のLucene分析装置

pl.microsoft

ポーランド語用の Microsoft アナライザー。

pl.lucene

ポーランド語用Lucene分析装置

pt-BR.microsoft

ポルトガル語 (ブラジル) の Microsoft アナライザー。

pt-BR.lucene

ポルトガル語(ブラジル)用のLucene分析装置。

pt-PT.microsoft

ポルトガル語 (ポルトガル) の Microsoft アナライザー。

pt-PT.lucene

ポルトガル語(ポルトガル)のLuceneアナライザー。

pa.microsoft

パンジャブ語用の Microsoft アナライザー。

ro.microsoft

ルーマニア語用の Microsoft アナライザー。

ro.lucene

ルーマニア語用のLucene分析装置。

ru.microsoft

ロシア語用のMicrosoftアナライザー。

ru.lucene

ロシア語用のLucene分析装置。

sr-cyrillic.microsoft

セルビア語 (キリル文字) 用の Microsoft アナライザー。

sr-latin.microsoft

セルビア語 (ラテン語) の Microsoft アナライザー。

sk.microsoft

スロバキア語の Microsoft アナライザー。

sl.microsoft

スロベニア語用の Microsoft アナライザー。

es.microsoft

スペイン語用の Microsoft アナライザー。

es.lucene

スペイン語用のLucene分析装置。

sv.microsoft

スウェーデン語用の Microsoft アナライザー。

sv.lucene

スウェーデン語用Lucene分析装置

ta.microsoft

タミル語用の Microsoft アナライザー。

te.microsoft

テルグ語用の Microsoft アナライザー。

th.microsoft

タイ語用の Microsoft アナライザー。

th.lucene

タイ語用ルセン分析装置。

tr.microsoft

トルコ語用の Microsoft アナライザー。

tr.lucene

トルコ語用Lucene分析装置。

uk.microsoft

ウクライナ語用の Microsoft アナライザー。

ur.microsoft

ウルドゥー語用の Microsoft アナライザー。

vi.microsoft

ベトナム語用のMicrosoftアナライザー。

standard.lucene

標準的なLucene分析装置。

standardasciifolding.lucene

標準ASCII折りたたみ式Lucene分析装置 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers を参照してください

keyword

フィールドのコンテンツ全体を 1 つのトークンとして扱います。 これは、郵便番号、ID、一部の製品名などのデータに役立ちます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html を参照してください

pattern

正規表現パターンを使用してテキストを用語に柔軟に分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html を参照してください

simple

文字以外の部分でテキストを分割し、小文字に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html を参照してください

stop

文字以外のテキストを分割します。小文字とストップワードのトークン フィルターを適用します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html を参照してください

whitespace

空白トークナイザーを使用するアナライザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html を参照してください

LexicalNormalizerName

検索エンジンでサポートされているすべてのテキスト ノーマライザーの名前を定義します。

説明
asciifolding

最初の 127 文字の ASCII 文字 ("Basic Latin" Unicode ブロック) に含まれていないアルファベット、数字、および記号の Unicode 文字を、同等の ASCII 文字 (同等のものが存在する場合) に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html を参照してください

elision

省略を削除します。 たとえば、「l'avion」(飛行機)は「avion」(飛行機)に変換されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html を参照してください

lowercase

トークンテキストを小文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html を参照してください

standard

標準ノーマライザーは、小文字とアスキーフォールディングで構成されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html を参照してください

uppercase

トークンテキストを大文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html を参照してください

LexicalTokenizerName

検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。

説明
classic

ほとんどのヨーロッパ言語のドキュメントの処理に適した文法ベースのトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html を参照してください

edgeNGram

エッジからの入力を、指定されたサイズのnグラムにトークン化します。 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html を参照してください

keyword_v2

入力全体を 1 つのトークンとして出力します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html を参照してください

letter

文字以外のテキストを分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html を参照してください

lowercase

文字以外の部分でテキストを分割し、小文字に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html を参照してください

microsoft_language_tokenizer

言語固有のルールを使用してテキストを分割します。

microsoft_language_stemming_tokenizer

言語固有のルールを使用してテキストを分割し、単語を基本形式に縮小します。

nGram

入力を指定されたサイズの n グラムにトークン化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html を参照してください

path_hierarchy_v2

パスのような階層のトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html を参照してください

pattern

正規表現パターンマッチングを使用して個別のトークンを構築するトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html を参照してください

standard_v2

標準的なLucene分析装置;標準のトークナイザー、小文字のフィルター、停止フィルターで構成されています。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html を参照してください

uax_url_email

URL と電子メールを 1 つのトークンとしてトークン化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html を参照してください

whitespace

テキストを空白で分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html を参照してください

TokenFilterName

検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。

説明
arabic_normalization

アラビア語の正規化を適用して正書法を正規化するトークン フィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html を参照してください

apostrophe

アポストロフィの後のすべての文字(アポストロフィ自体を含む)を削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html を参照してください

asciifolding

最初の 127 文字の ASCII 文字 ("Basic Latin" Unicode ブロック) に含まれていないアルファベット、数字、および記号の Unicode 文字を、同等の ASCII 文字 (同等のものが存在する場合) に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html を参照してください

cjk_bigram

標準トークナイザーから生成された CJK 用語のバイグラムを形成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html を参照してください

cjk_width

CJK 幅の差を正規化します。 全角の ASCII バリアントを同等の基本的なラテン語に折りたたみ、半角のカタカナのバリアントを同等のカナに折りたたむ。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html を参照してください

classic

英語の所有格と頭字語からドットを削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html を参照してください

common_grams

インデックス作成中に頻繁に発生する用語のバイグラムを構築します。 単一の用語も引き続きインデックス化され、バイグラムが重ねられます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html を参照してください

edgeNGram_v2

入力トークンの前面または背面から、指定されたサイズの n グラムを生成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html を参照してください

elision

省略を削除します。 たとえば、「l'avion」(飛行機)は「avion」(飛行機)に変換されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html を参照してください

german_normalization

german2 snowball アルゴリズムのヒューリスティックに従ってドイツ語文字を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html を参照してください

hindi_normalization

ヒンディー語のテキストを正規化して、スペルのバリエーションの違いをいくつか取り除きます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html を参照してください

indic_normalization

インド言語のテキストの Unicode 表現を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html を参照してください

keyword_repeat

各受信トークンを 2 回、キーワードとして 1 回、非キーワードとして 1 回出力します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html を参照してください

kstem

英語用の高性能kstemフィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html を参照してください

length

長すぎる単語や短すぎる単語を削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html を参照してください

limit

インデックス作成中のトークンの数を制限します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html を参照してください

lowercase

トークンテキストを小文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html を参照してください

nGram_v2

指定されたサイズの n グラムを生成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html を参照してください

persian_normalization

ペルシア語の正規化を適用します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html を参照してください

phonetic

音声一致のトークンを作成します。 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html を参照してください

porter_stem

Porter ステミングアルゴリズムを使用してトークンストリームを変換します。 http://tartarus.org/~martin/PorterStemmer を参照してください

reverse

トークン文字列を反転します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html を参照してください

scandinavian_normalization

交換可能なスカンジナビア文字の使用を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html を参照してください

scandinavian_folding

スカンジナビア文字åÅäæÄÆ->aとöÖøØ->oを折りたたむ。 また、二重母音 aa、ae、ao、oe、oo の使用を区別し、最初の母音だけを残します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html を参照してください

shingle

トークンの組み合わせを 1 つのトークンとして作成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html を参照してください

snowball

Snowball で生成されたステマーを使用して単語のステミングを行うフィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html を参照してください

sorani_normalization

Sorani テキストの Unicode 表現を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html を参照してください

stemmer

言語固有のステミングフィルター。 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters を参照してください

stopwords

トークン・ストリームからストップ・ワードを削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html を参照してください

trim

トークンから先頭と末尾の空白をトリミングします。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html を参照してください

truncate

用語を特定の長さに切り捨てます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html を参照してください

unique

前のトークンと同じテキストを持つトークンを除外します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html を参照してください

uppercase

トークンテキストを大文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html を参照してください

word_delimiter

単語をサブワードに分割し、サブワードグループに対してオプションの変換を実行します。