Azure AI Search インデックスの文字列フィールドにカスタムアナライザーを追加する

"カスタムアナライザー" は、プレーンテキストコンテンツに対する字句解析のコンポーネントです。 1 つのトークナイザー、1 つ以上のトークンフィルター、および 1 つ以上の文字フィルターをユーザー定義で組み合わせたものです。カスタムアナライザーは検索インデックス内で指定され、その後、カスタム分析を必要とするフィールド定義で名前によって参照されます。カスタムアナライザーはフィールド単位で呼び出されます。フィールドの属性によって、インデックス作成に使用されるか、クエリに使用されるか、それともその両方に使用されるかが決定されます。

カスタムアナライザーでは、トークナイザーによる処理の前に、文字フィルターによって入力テキストが準備されます (マークアップを削除するなど)。その後、トークナイザーによってテキストがトークンに分割されます。最後に、トークナイザーによって出力されたトークンがトークンフィルターによって変更されます。概念と例については、Azure AI Search でのアナライザーに関するページと「チュートリアル: 電話番号のカスタムアナライザーを作成する」を参照してください。

カスタムアナライザーを使用する理由

大規模な言語モデルとコンテンツの異常を処理する機能を含まないクラシック検索ワークフローでは、カスタムアナライザーを検討する必要があります。

クラス検索では、カスタムアナライザーを使用すると、呼び出す分析またはフィルター処理の種類と、その発生順序を選択できるようにすることで、プレーンテキストをインデックス可能で検索可能なトークンに変換するプロセスを制御できます。

既定 (Standard Lucene)、組み込み、または言語アナライザーではニーズが満たされない場合は、カスタムアナライザーを作成して割り当てる必要があります。組み込みのアナライザーとカスタムオプションを使用する場合も、カスタムアナライザーを作成する場合があります。たとえば、Standard Lucene の maxTokenLength を変更する場合は、そのオプションを設定するために、ユーザー定義の名前を持つカスタムアナライザーを作成します。

カスタムアナライザーが役に立つシナリオを次に示します。

文字フィルターを使用して、テキスト入力がトークン化される前に HTML マークアップを削除したり、特定の文字や記号を置き換えたりする場合。
音声検索。発音フィルターを追加することによって、単語の綴りではなく発音に基づく検索に対応します。
字句解析の無効化。解析の対象外とする検索可能なフィールドをキーワードアナライザーで作成します。
高速なプレフィックス/サフィックス検索。 Edge N-gram トークンフィルターを追加し、単語のプレフィックスをインデックス化することによって、高速なプレフィックスマッチングに対応します。リバーストークンフィルターを組み合わせることで、サフィックスマッチングを行うことができます。
カスタムトークン化。たとえば空白文字を区切りとして文をトークンに分割するには、Whitespace トークナイザーを使用します
ASCII フォールディング。検索語句に含まれる ö や ê などの付加記号を正規化するための標準 ASCII フォールディングフィルターを追加します。

注

カスタムアナライザーは、Azure portal には表示されません。カスタムアナライザーを追加する唯一の方法は、インデックススキーマを作成するコードを使用することです。

カスタムアナライザーを作成する

カスタムアナライザーを作成するには、デザイン時にインデックスの analyzers セクションでそれを指定してから、Edm.String プロパティまたは analyzer と indexAnalyzer のペアのいずれかを使用して、検索可能な searchAnalyzer フィールドでそれを参照します。

アナライザーの定義には、名前、種類、1 つ以上の文字フィルター、最大で 1 つのトークナイザー、トークン化後の処理のための 1 つ以上のトークンフィルターが含まれます。文字フィルターは、トークン化の前に適用されます。トークンフィルターと文字フィルターは、左から右に適用されます。

名前は、カスタムアナライザー内で一意である必要があり、組み込みのアナライザー、トークナイザー、トークンフィルター、または文字フィルターのいずれとも同じにすることはできません。名前は、文字、数字、スペース、ダッシュ、またはアンダースコアで構成されます。名前の先頭と末尾はプレーンテキスト文字にする必要があります。名前は 128 文字未満の長さにする必要があります。
型は #Microsoft.Azure.Search.CustomAnalyzer にする必要があります。
charFilters は、文字フィルターから 1 つ以上のフィルターを、指定された順序で、トークン化の前に処理できます。一部の文字フィルターにはオプションがあり、charFilters セクションで設定できます。文字フィルターは省略可能です。
tokenizer は 1 つのトークナイザーだけです。値は必須です。複数のトークナイザーが必要な場合は、複数のカスタムアナライザーを作成し、インデックススキーマのフィールドごとに割り当てます。
tokenFilters は、トークンフィルターから 1 つ以上のフィルターを、指定された順序で、トークン化後に処理できます。オプションがあるトークンフィルターについては、tokenFilter セクションを追加して構成を指定します。トークンフィルターは省略可能です。

アナライザーで 300 文字を超えるトークンを生成しないでください。インデックス作成が失敗します。長いトークンをトリミングするには、TruncateTokenFilter を、またはそれらを無視するには、LengthTokenFilter をそれぞれ使用します。参考として、「トークンフィルター」を参照してください。

"analyzers":(optional)[
   {
      "name":"name of analyzer",
      "@odata.type":"#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters":[
         "char_filter_name_1",
         "char_filter_name_2"
      ],
      "tokenizer":"tokenizer_name",
      "tokenFilters":[
         "token_filter_name_1",
         "token_filter_name_2"
      ]
   },
   {
      "name":"name of analyzer",
      "@odata.type":"#analyzer_type",
      "option1":value1,
      "option2":value2,
      ...
   }
],
"charFilters":(optional)[
   {
      "name":"char_filter_name",
      "@odata.type":"#char_filter_type",
      "option1":value1,
      "option2":value2,
      ...
   }
],
"tokenizers":(optional)[
   {
      "name":"tokenizer_name",
      "@odata.type":"#tokenizer_type",
      "option1":value1,
      "option2":value2,
      ...
   }
],
"tokenFilters":(optional)[
   {
      "name":"token_filter_name",
      "@odata.type":"#token_filter_type",
      "option1":value1,
      "option2":value2,
      ...
   }
]

インデックス定義内で、インデックス作成要求本文内のどこにでも次のセクションを配置できますが、通常は末尾に置きます。

{
  "name": "name_of_index",
  "fields": [ ],
  "suggesters": [ ],
  "scoringProfiles": [ ],
  "defaultScoringProfile": (optional) "...",
  "corsOptions": (optional) { },
  "analyzers":(optional)[ ],
  "charFilters":(optional)[ ],
  "tokenizers":(optional)[ ],
  "tokenFilters":(optional)[ ]
}

アナライザーの定義は、より大きなインデックスの一部です。文字フィルター、トークナイザー、トークンフィルターの定義は、カスタムオプションを設定する場合にのみ、インデックスに追加されます。既存のフィルターまたはトークナイザーをそのまま使用するには、アナライザーの定義内で名前を使用して指定します。詳細については、インデックスの作成 (REST) に関する記事をご覧ください。その他の例については、「 Azure AI Search でアナライザーを追加する」を参照してください。

カスタムアナライザーのテスト

テストアナライザー (REST) を使用して、指定したテキストがアナライザーによってどのようにトークンに分割されるかを確認できます。

依頼

  POST https://[search service name].search.windows.net/indexes/[index name]/analyze?api-version=[api-version]
    Content-Type: application/json
    api-key: [admin key]

  {
     "analyzer":"my_analyzer",
     "text": "Vis-à-vis means Opposite"
  }

回答

  {
    "tokens": [
      {
        "token": "vis_a_vis",
        "startOffset": 0,
        "endOffset": 9,
        "position": 0
      },
      {
        "token": "vis_à_vis",
        "startOffset": 0,
        "endOffset": 9,
        "position": 0
      },
      {
        "token": "means",
        "startOffset": 10,
        "endOffset": 15,
        "position": 1
      },
      {
        "token": "opposite",
        "startOffset": 16,
        "endOffset": 24,
        "position": 2
      }
    ]
  }

カスタムアナライザーの更新

アナライザー、トークナイザー、トークンフィルター、文字フィルターは、いったん定義すると変更できません。インデックスの更新要求で allowIndexDowntime フラグが true に設定されている場合に限り、既存のインデックスに新しい定義を追加できます。

PUT https://[search service name].search.windows.net/indexes/[index name]?api-version=[api-version]&allowIndexDowntime=true

この操作を行うと、インデックスは少なくとも数秒間オフラインになるため、インデックス付けとクエリの要求は失敗します。インデックスを更新した後の数分間、インデックスが非常に大きい場合はさらに長く、インデックスのパフォーマンスと書き込み可用性が損なわれる場合がありますが、これらの影響は一時的であり、しばらくすると自動的に解決します。

組み込みアナライザー

組み込みアナライザーをカスタムオプションと共に使用する場合、カスタムアナライザーの作成は、これらのオプションを指定するためのメカニズムです。これに対して、組み込みのアナライザーをそのまま使用する場合は、フィールド定義でそれを名前で参照するだけで済みます。

analyzer_name	analyzer_type¹	説明とオプション
キーワード	(種類は、オプションが使用可能な場合にだけ適用されます)	フィールドの内容全体を 1 つのトークンとして扱います。これは、郵便番号、ID、製品名などのデータで役立ちます。
パターン	パターンアナライザー	正規表現のパターンを使用してテキストを用語に柔軟に分割します。 [オプション] lowercase (型: bool) - 用語が小文字かどうかを決定します。既定値は true です。 pattern (型：string) - トークンの区切り記号に一致する正規表現パターン。既定値は `\W+` で、単語以外の文字と一致します。 flags (型：string) - 正規表現フラグ。既定値は空の文字列です。使用できる値: CANON_EQ、CASE_INSENSITIVE、COMMENTS、DOTALL、LITERAL、MULTILINE、UNICODE_CASE、UNIX_LINES stopwords (型：string 配列) - ストップワードのリスト。既定値は空のリストです。
簡単	(種類は、オプションが使用可能な場合にだけ適用されます)	非文字でテキストが分割され、それらが小文字に変換されます。
標準をする (standard.lucene とも呼ばれます)	StandardAnalyzer	標準トークナイザー、小文字フィルター、ストップフィルターで構成される標準の Lucene アナライザー。 [オプション] maxTokenLength (型：int) - 最大トークン長。既定値は 255 です。最大長より長いトークンは分割されます。使用できる最大トークン長は、300 文字です。 stopwords (型：string 配列) - ストップワードのリスト。既定値は空のリストです。
standardasciifolding.lucene	(種類は、オプションが使用可能な場合にだけ適用されます)	Ascii フォールディングフィルターの標準アナライザー。
止める	ストップアナライザー	非文字でテキストが分割され、小文字とストップワードのトークンフィルターが適用されます。 [オプション] stopwords (型：string 配列) - ストップワードのリスト。既定値は、英語の定義済みリストです。
空白	(種類は、オプションが使用可能な場合にだけ適用されます)	空白文字トークナイザーを使用するアナライザー。 255 文字より長いトークンは分割されます。

¹ アナライザーの型は、#Microsoft.Azure.Search が実際には PatternAnalyzerとして指定されるように、コード内で常に #Microsoft.Azure.Search.PatternAnalyzer というプリフィックスが付けられます。簡潔にするためプレフィックスを省略しましたが、コードではプレフィックスが必要です。

analyzer_type は、カスタマイズ可能なアナライザーに対してのみ提供されます。 keyword アナライザーのようにオプションがない場合は、関連付けられる #Microsoft.Azure.Search の種類はありません。

文字フィルター

文字列がトークナイザーに到達する前に、文字フィルターによる処理が追加されます。

Azure AI Search では、次の一覧の文字フィルターがサポートされます。それぞれの詳細については、Lucene API リファレンスを参照してください。

char_filter_name	char_filter_type¹	説明とオプション
html_strip	(種類は、オプションが使用可能な場合にだけ適用されます)	HTML の構造の除去を試みる文字フィルター。
マッピング	MappingCharFilter	マッピングオプションで定義されたマッピングを適用する文字フィルター。一致は最長一致です (特定ポイントでの最長パターンマッチングを優先)。空の文字列での置換が許可されます。 [オプション] mappings (型: string 配列) - 次の形式のマッピングのリスト: `a=>b` (文字のすべての出現が `a` 文字で置換されます `b`)。必須。
pattern_replace	パターンReplaceCharFilter	入力文字列内の文字を置換する文字フィルター。正規表現を使用して維持する文字のシーケンスが識別され、置換パターンを使用して置換する文字が識別されます。たとえば、入力テキスト = `aa bb aa bb`、パターン =`(aa)\\\s+(bb)` 置換 =`$1#$2`、結果 = `aa#bb aa#bb`などです。 [オプション] pattern (型: string) - 必須。 replacement (型： string) - 必須。

¹ 文字フィルターの型は、#Microsoft.Azure.Search が実際には MappingCharFilterとして指定されるように、コード内で常に #Microsoft.Azure.Search.MappingCharFilter というプリフィックスが付けられます。テーブルの幅を小さくするためプレフィックスを削除しましたが、コードには忘れずに含めてください。 char_filter_type は、カスタマイズ可能なフィルターに対してのみ提供されることに注意してください。 html_strip のようにオプションがない場合は、関連付けられる #Microsoft.Azure.Search の種類はありません。

Tokenizer

トークナイザーでは、連続するテキストが一連のトークンに分割されます (文を単語に分割したり、単語を原型にしたりします)。

Azure AI Search では、次の一覧のトークナイザーがサポートされます。それぞれの詳細については、Lucene API リファレンスを参照してください。

tokenizer_name	tokenizer_type¹	説明とオプション
クラシック	クラシックトークナイザー	ほとんどのヨーロッパ言語のドキュメントの処理に適した文法ベースのトークナイザー。 [オプション] maxTokenLength (型：int) - 最大トークン長。既定値: 255、最大値: 300。最大長より長いトークンは分割されます。
edgeNGram	EdgeNGramトークナイザー	エッジからの入力が指定サイズの n グラムにトークン化されます。 [オプション] minGram (型: int) - 既定値: 1、最大値: 300。 maxGram (型: int) - 既定値:2、最大値: 300。 minGram より大きい値にする必要があります。 tokenChars (型: string 配列) - トークン内で維持する文字クラス。使用できる値は以下の通りです。 `letter`、`digit`、`whitespace`、`punctuation`、`symbol`。既定値は空の配列で、すべての文字が維持されます。
keyword_v2	KeywordTokenizerV2	入力全体が 1 つのトークンとして生成されます。 [オプション] maxTokenLength (型：int) - 最大トークン長。既定値: 256、最大値: 300。最大長より長いトークンは分割されます。
手紙	(種類は、オプションが使用可能な場合にだけ適用されます)	非文字でテキストを分割します。 255 文字より長いトークンは分割されます。
lowercase	(種類は、オプションが使用可能な場合にだけ適用されます)	非文字でテキストが分割され、それらが小文字に変換されます。 255 文字より長いトークンは分割されます。
マイクロソフト言語トークナイザー	MicrosoftLanguageTokenizer	言語固有のルールを使用してテキストが分割されます。 [オプション] maxTokenLength (型: int) - 最大トークン長、既定値: 255、最大値: 300。最大長より長いトークンは分割されます。 300 文字より長いトークンは、最初に長さ 300 文字のトークンに分割された後、設定されている maxTokenLength に基づいて各トークンが分割されます。 isSearchTokenizer (型：bool) - 検索トークナイザーとして使用する場合は true に設定し、インデックス付けトークナイザーとして使用する場合は false に設定します。 language (型: string) - 使用する言語、既定値は `english`です。使用できる値は、以下のとおりです。 `bangla`、`bulgarian`、`catalan`、`chineseSimplified`、`chineseTraditional`、`croatian`、`czech`、`danish`、`dutch`、`english`、`french`、`german`、`greek`、`gujarati`、`hindi`、`icelandic`、`indonesian`、`italian`、`japanese`、`kannada`、`korean`、`malay`、`malayalam`、`marathi`、`norwegianBokmaal`、`polish`、`portuguese`、`portugueseBrazilian`、`punjabi`、`romanian`、`russian`、`serbianCyrillic`、`serbianLatin`、`slovenian`、`spanish`、`swedish`、`tamil`、`telugu`、`thai`、`ukrainian`、`urdu`、`vietnamese`
microsoft_language_stemming_tokenizer	MicrosoftLanguageStemmingTokenizer	言語固有のルールを使用してテキストが分割され、基本フォームに単語が減らされます。このトークナイザーでは、レンマ化が実行されます。 [オプション] maxTokenLength (型: int) - 最大トークン長、既定値: 255、最大値: 300。最大長より長いトークンは分割されます。 300 文字より長いトークンは、最初に長さ 300 文字のトークンに分割された後、設定されている maxTokenLength に基づいて各トークンが分割されます。 isSearchTokenizer (型：bool) - 検索トークナイザーとして使用する場合は true に設定し、インデックス付けトークナイザーとして使用する場合は false に設定します。 language (型: string) - 使用する言語、既定値は `english`です。使用できる値は、以下のとおりです。 `arabic`、`bangla`、`bulgarian`、`catalan`、`croatian`、`czech`、`danish`、`dutch`、`english`、`estonian`、`finnish`、`french`、`german`、`greek`、`gujarati`、`hebrew`、`hindi`、`hungarian`、`icelandic`、`indonesian`、`italian`、`kannada`、`latvian`、`lithuanian`、`malay`、`malayalam`、`marathi`、`norwegianBokmaal`、`polish`、`portuguese`、`portugueseBrazilian`、`punjabi`、`romanian`、`russian`、`serbianCyrillic`、`serbianLatin`、`slovak`、`slovenian`、`spanish`、`swedish`、`tamil`、`telugu`、`turkish`、`ukrainian`、`urdu`
nGram	NGramTokenizerの	入力が指定サイズの n グラムにトークン化されます。 [オプション] minGram (型: int) - 既定値: 1、最大値: 300。 maxGram (型: int) - 既定値:2、最大値: 300。 minGram より大きい値にする必要があります。 tokenChars (型: string 配列) - トークン内で維持する文字クラス。使用できる値は、`letter`、`digit`、`whitespace`、`punctuation`、`symbol`です。既定値は空の配列で、すべての文字が維持されます。
path_hierarchy_v2	PathHierarchyTokenizerV2	パスのような階層のトークナイザー。 [オプション] delimiter (型: string) - 既定値: '/。 replacement (型：string) - 設定した場合、区切り記号文字が置き換えられます。既定値は、delimiter の値と同じです。 maxTokenLength (型：int) - 最大トークン長。既定値: 300、最大値: 300。 maxTokenLength より長いパスは無視されます。 reverse (型： bool) - true の場合、逆の順序でトークンが生成されます。既定値は false です。 skip (型：bool) - スキップする最初のトークン。既定値は 0 です。
パターン	パターントークナイザー	このトークナイザーでは、正規表現のパターンマッチングを使用して個別のトークンが作成されます。 [オプション] pattern (型: string) - トークンの区切り記号に一致する正規表現パターン。既定値は `\W+` で、単語以外の文字と一致します。 flags (型：string) - 正規表現フラグ。既定値は空の文字列です。使用できる値: CANON_EQ、CASE_INSENSITIVE、COMMENTS、DOTALL、LITERAL、MULTILINE、UNICODE_CASE、UNIX_LINES group (型: int) - トークンの抽出に使用するグループ。既定値は -1 (分割) です。
standard_v2	StandardTokenizerV2	Unicode テキストセグメント化ルールに従ってテキストを分割します。 [オプション] maxTokenLength (型：int) - 最大トークン長。既定値: 255、最大値: 300。最大長より長いトークンは分割されます。
uax_url_email	UaxUrlEmailTokenizerの	URL と電子メールが 1 つのトークンとしてトークン化されます。 [オプション] maxTokenLength (型：int) - 最大トークン長。既定値: 255、最大値: 300。最大長より長いトークンは分割されます。
空白	(種類は、オプションが使用可能な場合にだけ適用されます)	空白文字によりテキストが分割されます。 255 文字より長いトークンは分割されます。

¹ トークナイザーの型は、#Microsoft.Azure.Search が実際には ClassicTokenizerとして指定されるように、コード内で常に #Microsoft.Azure.Search.ClassicTokenizer というプリフィックスが付けられます。テーブルの幅を小さくするためプレフィックスを削除しましたが、コードには忘れずに含めてください。 tokenizer_type は、カスタマイズ可能なトークナイザーに対してのみ提供されることに注意してください。 letter トークナイザーのようにオプションがない場合は、関連付けられる #Microsoft.Azure.Search の種類はありません。

トークンフィルター

トークンフィルターは、トークナイザーによって生成されたトークンを除外したり加工したりする目的で使用されます。たとえば、すべての文字を小文字に変換する lowercase フィルターを指定することができます。トークンフィルターは、カスタムアナライザーの中で複数割り当てることができます。トークンフィルターは、その指定順に実行されます。

次の表で、Apache Lucene を使用して実装されているトークンフィルターについては、Lucene の API ドキュメントへのリンクを示してあります。

token_filter_name	token_filter_type¹	説明とオプション
アラビック正規化	(種類は、オプションが使用可能な場合にだけ適用されます)	アラビア語ノーマライザーを適用して正書法を正規化するトークンフィルター。
アポストロフィー	(種類は、オプションが使用可能な場合にだけ適用されます)	アポストロフィ以降 (アポストロフィ自体を含む) のすべての文字が除去されます。
asciifolding	AsciiFoldingTokenFilter	ASCII の最初の 127 文字 ( `Basic Latin` Unicode ブロック) に含まれないアルファベット、数値、記号の Unicode 文字が、同等の ASCII に変換されます (存在する場合)。 [オプション] preserveOriginal (型: bool) - true の場合、元のトークンが保持されます。既定値は false です。
cjk_bigram	CjkBigramTokenFilter	StandardTokenizer から生成される CJK 用語のバイグラムが形成されます。 [オプション] ignoreScripts (型: string 配列) - 無視するスクリプト。使用できる値は、`han`、`hiragana`、`katakana`、`hangul`です。既定値は空のリストです。 outputUnigrams (型: bool) - 常にユニグラムとバイグラムの両方を出力する場合は、true に設定します。既定値は false です。
cjk_width	(種類は、オプションが使用可能な場合にだけ適用されます)	CJK の幅の違いが正規化されます。全角 ASCII 書体が同等の基本ラテンにフォールドされ、半角カタカナ書体が同等の仮名にフォールドされます。
クラシック	(種類は、オプションが使用可能な場合にだけ適用されます)	英語の所有格を削除し、頭字語からドットを削除します。
一般グラム	コモングラムトークンフィルター	インデックス付けの間に、頻繁に発生する用語に対してバイグラムが作成されます。 1 つの用語も、バイグラムがオーバーレイされてインデックス付けされます。 [オプション] commonWords (型: string 配列) - 一般的な単語のセット。既定値は空のリストです。必須。 ignoreCase (型: bool) - true の場合、マッチングで大文字と小文字は区別されません。既定値は false です。 queryMode (型: bool) - バイグラムが生成された後、一般的な単語と一般的な単語の前にある 1 つの用語が削除されます。既定値は false です。
dictionary_decompounder	ディクショナリーデコンパウンダートークンフィルター	多くのゲルマン言語に出現する複合語を分解します。 [オプション] wordList (type: string 配列) - 照合対象の単語のリスト。既定値は空のリストです。必須。 minWordSize (型: int) - この値より長い単語のみが処理されます。既定値は 5 です。 minSubwordSize (型: int) - この値より長いサブ単語のみが出力されます。既定値は 2 です。 maxSubwordSize (型: int) - この値より長いサブ単語のみが出力されます。既定値は 15 です。 onlyLongestMatch (型: bool) - 最長一致のサブ単語のみが出力に追加されます。既定値は false です。
edgeNGram_v2	EdgeNGramTokenFilterV2	入力トークンの先頭または末尾から指定されたサイズの n グラムが生成されます。 [オプション] minGram (型: int) - 既定値: 1、最大値: 300。 maxGram (型: int) - 既定値: 2、最大値: 300。 minGram より大きい値にする必要があります。 side (型: string) - n グラムを生成する入力の側が指定されます。使用できる値: `front`、 `back`
elision	エリシオントークンフィルター	省略記号が削除されます。たとえば、`l'avion` (平面) は、`avion` (平面) に変換されます。 [オプション] articles (type: string 配列) - 削除する冠詞のセット。既定値は空のリストです。冠詞セットのリストがない場合は、既定でフランス語のすべての冠詞が削除されます。
german_normalization	(種類は、オプションが使用可能な場合にだけ適用されます)	German2 snowball アルゴリズムのヒューリスティックに従って、ドイツ語の文字が正規化されます。
hindi_normalization	(種類は、オプションが使用可能な場合にだけ適用されます)	ヒンディー語のテキストが正規化され、スペルのバリエーションの違いが削除されます。
indic_normalization	IndicNormalizationTokenFilter	インドの言語でのテキストの Unicode 表現が正規化されます。
keep	トークンフィルターの保持	指定した単語のリストに含まれるテキストを含むトークンのみを保持するトークンフィルター。 [オプション] keepWords (型: string 配列) - 保持する単語のリスト。既定値は空のリストです。必須。 keepWordsCase (型: bool) - true の場合、最初にすべての単語が小文字に変更されます。既定値は false です。
keyword_marker	キーワードマーカートークンフィルター	用語がキーワードとしてマークされます。 [オプション] keywords (型: string 配列) - キーワードとしてマークする単語のリスト。既定値は空のリストです。必須。 ignoreCase (型: bool) - true の場合、最初にすべての単語が小文字に変更されます。既定値は false です。
keyword_repeat	(種類は、オプションが使用可能な場合にだけ適用されます)	各入力トークンが 2 回出力されます (キーワードとして 1 回、非キーワードとして 1 回)。
kstem	(種類は、オプションが使用可能な場合にだけ適用されます)	英語用の高性能 `kstem` フィルター。
長さ	長さトークンフィルター	長すぎる単語または短すぎる単語が削除されます。 [オプション] min (型: int) - 最小数。既定値: 0、最大値: 300。 max (型: int) - 最大数。既定値: 300、最大値: 300。
リミット	Microsoft.Azure.Search.LimitTokenFilter	インデックス付けの間に、トークンの数が制限されます。 [オプション] maxTokenCount (型: int) - 生成するトークンの最大数。既定値は 1 です。 consumeAllTokens (型: bool) - maxTokenCount に達した場合でも、入力のすべてのトークンを使用する必要があるかどうかが示されます。既定値は false です。
lowercase	(種類は、オプションが使用可能な場合にだけ適用されます)	トークンのテキストが小文字に正規化されます。
nGram_v2	NGramTokenFilterV2	指定サイズの n グラムが生成されます。 [オプション] minGram (型: int) - 既定値: 1、最大値: 300。 maxGram (型: int) - 既定値: 2、最大値: 300。 minGram より大きい値にする必要があります。
パターンキャプチャー	パターンキャプチャートークンフィルター	Java の正規表現を使用して複数のトークンが生成されます (1 つ以上のパターンのキャプチャグループごとに 1 つ)。 [オプション] patterns (型: string 配列) - 各トークンと照合するパターンのリスト。必須。 preserveOriginal (型: bool) - パターンのいずれかが一致した場合でも元のトークンを返す場合は、true に設定します。既定値: true
パターン置換	パターンReplaceTokenFilter	ストリームの各トークンにパターンを適用するトークンフィルター。指定した置換文字列に一致が置き換えられます。 [オプション] pattern (型: string) - 必須。 replacement (型： string) - 必須。
ペルシャ正規化	(種類は、オプションが使用可能な場合にだけ適用されます)	ペルシャ語の正規化が適用されます。
phonetic	フォネティックトークンフィルター	音声一致用のトークンが作成されます。 [オプション] encoder (型: string) - 使用する音声エンコーダー。使用できる値は、`metaphone`、`doubleMetaphone`、`soundex`、`refinedSoundex`、`caverphone1`、`caverphone2`、`cologne`、`nysiis`、`koelnerPhonetik`、`haasePhonetik`、`beiderMorse`です。既定値: `metaphone`。既定値は metaphone です。詳しくは、encoder (エンコーダー) に関するページをご覧ください。 replace (型: bool) - エンコードされたトークンで元のトークンを置き換える必要がある場合は true、シノニムとして追加する場合は false。既定値は true です。
porter_stem	(種類は、オプションが使用可能な場合にだけ適用されます)	Porter ステミングアルゴリズムに従ってトークンストリームを変換します。
リバース	(種類は、オプションが使用可能な場合にだけ適用されます)	トークンの文字列が反転されます。
スカンジナビア標準化（scandinavian_normalization）	(種類は、オプションが使用可能な場合にだけ適用されます)	交換可能なスカンジナビア語の文字の使用を正規化します。
スカンジナビアンフォールディング	(種類は、オプションが使用可能な場合にだけ適用されます)	スカンジナビア語の文字 `åÅäæÄÆ`を `a` に、`öÖøØ`を `o`に折りたたみます。また、重母音 `aa`、`ae`、`ao`、`oe`、`oo` の使用を判別し、最初の母音だけが残されます。
屋根板	シングルトークンフィルター	トークンの組み合わせが 1 つのトークンとして作成されます。 [オプション] maxShingleSize (型: int) - 既定値は 2 です。 minShingleSize (型: int) - 既定値は 2 です。 outputUnigrams (型: bool) - true の場合、出力ストリームには入力トークン (ユニグラム) と共にシングルが含まれます。既定値は true です。 outputUnigramsIfNoShingles (型: bool) - true の場合、シングルが使用できない場合、outputUnigrams==false の動作がオーバーライドされます。既定値は false です。 tokenSeparator (型: string) - 隣接するトークンを結合してシングルを形成するときに使用する文字列。既定値は単一の空き領域です。 filterToken (型: string) - 位置トークンがない各位置に挿入する文字列。既定値は、`_` です。
スノーボール	SnowballTokenFilter (英語)	Snowball トークンフィルター。 [オプション] language (型: string) - 使用できる値: `armenian`、`basque`、`catalan`、`danish`、`dutch`、`english`、`finnish`、`french`、`german`、`german2`、`hungarian`、`italian`、`kp`、`lovins`、`norwegian`、`porter`、`portuguese`、`romanian`、`russian`、`spanish`、`swedish`、`turkish`
sorani_normalization	ソラニ正規化トークンフィルター	`Sorani` テキストの Unicode 表現を正規化します。 [オプション] ありません。
stemmer	ステマートークンフィルター	言語固有のステミングフィルター。 [オプション] language (型: string) - 使用できる値: - `arabic` - `armenian` - `basque` - `brazilian` - `bulgarian` - `catalan` - `czech` - `danish` - `dutch` - `dutchKp` - `english` - `lightEnglish` - `minimalEnglish` - `possessiveEnglish` - `porter2` - `lovins` - `finnish` - `lightFinnish` - `french` - `lightFrench` - `minimalFrench` - `galician` - `minimalGalician` - `german` - `german2` - `lightGerman` - `minimalGerman` - `greek` - `hindi` - `hungarian` - `lightHungarian` - `indonesian` - `irish` - `italian` - `lightItalian` - `sorani` - `latvian` - `norwegian` - `lightNorwegian` - `minimalNorwegian` - `lightNynorsk` - `minimalNynorsk` - `portuguese` - `lightPortuguese` - `minimalPortuguese` - `portugueseRslp` - `romanian` - `russian` - `lightRussian` - `spanish` - `lightSpanish` - `swedish` - `lightSwedish` - `turkish`
stemmer_override	ステマーオーバーライドトークンフィルター	辞書でステミングされた用語はキーワードとしてマークされ、チェーンにステミングされるのを防ぎます。すべてのステミングフィルターの前に配置する必要があります。 [オプション] rules (型: string 配列) - `word => stem` の形式のステミングルール (例: `ran => run`)。既定値は空のリストです。必須。
stopwords	ストップワーズトークンフィルター	トークンストリームからストップワードが削除されます。既定では、フィルターに英語の定義済みストップワードリストが使用されます。 [オプション] stopwords (型：string 配列) - ストップワードのリスト。 stopwordsList が指定されている場合は指定できません。 stopwordsList (型: string) - ストップワードの定義済みのリスト。 `stopwords` が指定されている場合は指定できません。使用できる値は、`arabic`、`armenian`、`basque`、`brazilian`、`bulgarian`、`catalan`、`czech`、`danish`、`dutch`、`english`、`finnish`、`french`、`galician`、`german`、`greek`、`hindi`、`hungarian`、`indonesian`、`irish`、`italian`、`latvian`、`norwegian`、`persian`、`portuguese`、`romanian`、`russian`、`sorani`、`spanish`、`swedish`、`thai`、`turkish`、既定値は、`english`です。 `stopwords` が指定されている場合は指定できません。 ignoreCase (型: bool) - true の場合、最初にすべての単語を小文字に変更されます。既定値は false です。 removeTrailing (型: bool) - true の場合、最後の検索語句がストップワードである場合は無視されます。既定値は true です。
同義語	シノニムトークンフィルター	トークンストリーム内の 1 つまたは複数の単語のシノニムが照合されます。 [オプション] synonyms (型: string 配列) - 必須。次の 2 つの形式のいずれかでのシノニムのリスト: - incredible, unbelievable, fabulous => amazing - => 記号の左側にあるすべての用語が、右側のすべての用語に置き換えられます。 - incredible, unbelievable, fabulous, amazing - 同等の単語のコンマ区切りリスト。このリストの解釈方法を変更するには、expand オプションを設定します。 ignoreCase (型: bool) - マッチングに対するケースフォールド入力。既定値は false です。 expand (型: bool) - true の場合、シノニムのリスト内のすべての単語 (=> 表記が使用されていない場合) が相互にマップされます。次のリスト: incredible, unbelievable, fabulous, amazing は、incredible, unbelievable, fabulous, amazing => incredible, unbelievable, fabulous, amazing と同等です - false の場合、次のリスト: incredible, unbelievable, fabulous, amazing は、incredible, unbelievable, fabulous, amazing => incredible と同等です。
trim	(種類は、オプションが使用可能な場合にだけ適用されます)	先頭と末尾の空白文字がトークンからトリミングされます。
truncate	トランケートトークンフィルター	用語が特定の長さに切り詰められます。 [オプション] length (型: int) - 既定値: 300、最大値: 300。必須。
ユニーク	ユニークトークンフィルター	前のトークンと同じテキストのトークンが除外されます。 [オプション] onlyOnSamePosition (型: bool) - 設定した場合、同じ位置にある重複のみが削除されます。既定値は true です。
uppercase	(種類は、オプションが使用可能な場合にだけ適用されます)	トークンのテキストが大文字に正規化されます。
word_delimiter	WordDelimiterTokenFilter	単語がサブ単語に分割され、部分語のグループに対してオプションの変換が実行されます。 [オプション] generateWordParts (型: bool) - 単語の一部を生成します。たとえば `AzureSearch` は `AzureSearch` になります。既定値は true です。 generateNumberParts (型: bool) - 数字のサブ単語が生成されます。既定値は true です。 catenateWords (型: bool) - 単語部分の最大実行数が連結されます。たとえば `Azure-Search` は `AzureSearch`になります。既定値は false です。 catenateNumbers (型: bool) - 数値部分の最大実行数が連結されます。たとえば `1-2` は `12`になります。既定値は false です。 catenateAll (型: bool) - すべてのサブ単語部分が連結されます。たとえば `Azure-Search-1` は `AzureSearch1`になります。既定値は false です。 splitOnCaseChange (型: bool) - true の場合、caseChange で単語が分割されます。たとえば、`AzureSearch` は `AzureSearch` になります。既定値は true です。 preserveOriginal - 元の単語が維持され、サブ単語リストに追加されます。既定値は false です。 splitOnNumerics (型: bool) - true の場合、数値で分割されます。たとえば、`Azure1Search` は `Azure1Search` になります。既定値は true です。 stemEnglishPossessive (型: bool) - 各サブ単語で、末尾の `'s` が削除されます。既定値は true です。 protectedWords (型: string 配列) - 区切られないように保護するトークン。既定値は空のリストです。

¹ トークンフィルターの型は、#Microsoft.Azure.Search が実際には ArabicNormalizationTokenFilterとして指定されるように、コード内で常に #Microsoft.Azure.Search.ArabicNormalizationTokenFilter というプリフィックスが付けられます。テーブルの幅を小さくするためプレフィックスを削除しましたが、コードには忘れずに含めてください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-06-16

次の方法で共有

Azure AI Search インデックスの文字列フィールドにカスタム アナライザーを追加する

カスタム アナライザーを使用する理由

カスタム アナライザーを作成する

カスタム アナライザーのテスト

カスタム アナライザーの更新