Partager via


Indexes - Analyze

Montre comment un analyseur décompose le texte en jetons.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01

Paramètres URI

Nom Dans Obligatoire Type Description
endpoint
path True

string

URL du point de terminaison du service de recherche.

indexName
path True

string

Nom de l’index pour lequel tester un analyseur.

api-version
query True

string

Version de l’API cliente.

En-tête de la demande

Nom Obligatoire Type Description
x-ms-client-request-id

string (uuid)

ID de suivi envoyé avec la demande pour aider au débogage.

Corps de la demande

Nom Obligatoire Type Description
text True

string

Le texte à diviser en jetons.

analyzer

LexicalAnalyzerName

Nom de l’analyseur à utiliser pour couper le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un générateur de jetons à la place. Les paramètres du tokenizer et de l’analyseur s’excluent mutuellement.

charFilters

CharFilterName[]

Une liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.

normalizer

LexicalNormalizerName

Nom du normaliseur à utiliser pour normaliser le texte donné.

tokenFilters

TokenFilterName[]

Une liste facultative de filtres de jetons à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.

tokenizer

LexicalTokenizerName

Le nom du générateur de jetons à utiliser pour casser le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un analyseur à la place. Les paramètres du tokenizer et de l’analyseur s’excluent mutuellement.

Réponses

Nom Type Description
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Réponse d’erreur.

Exemples

SearchServiceIndexAnalyze

Exemple de requête

POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

Exemple de réponse

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Définitions

Nom Description
AnalyzedTokenInfo

Informations sur un jeton renvoyé par un analyseur.

AnalyzeRequest

Spécifie certains composants de texte et d’analyse utilisés pour décomposer ce texte en jetons.

AnalyzeResult

Le résultat du test d’un analyseur sur du texte.

CharFilterName

Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche.

ErrorAdditionalInfo

Informations supplémentaires sur l’erreur de gestion des ressources.

ErrorDetail

Détail de l’erreur.

ErrorResponse

Réponse d’erreur

LexicalAnalyzerName

Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche.

LexicalNormalizerName

Définit les noms de tous les normaliseurs de texte pris en charge par le moteur de recherche.

LexicalTokenizerName

Définit les noms de tous les tokenizers pris en charge par le moteur de recherche.

TokenFilterName

Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche.

AnalyzedTokenInfo

Informations sur un jeton renvoyé par un analyseur.

Nom Type Description
endOffset

integer (int32)

L’index du dernier caractère du jeton dans le texte d’entrée.

position

integer (int32)

Position du jeton dans le texte d’entrée par rapport aux autres jetons. Le premier jeton du texte d’entrée a la position 0, le suivant a la position 1, et ainsi de suite. Selon l’analyseur utilisé, certains jetons peuvent avoir la même position, par exemple s’ils sont synonymes les uns des autres.

startOffset

integer (int32)

L’index du premier caractère du jeton dans le texte d’entrée.

token

string

Jeton renvoyé par l’analyseur.

AnalyzeRequest

Spécifie certains composants de texte et d’analyse utilisés pour décomposer ce texte en jetons.

Nom Type Description
analyzer

LexicalAnalyzerName

Nom de l’analyseur à utiliser pour couper le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un générateur de jetons à la place. Les paramètres du tokenizer et de l’analyseur s’excluent mutuellement.

charFilters

CharFilterName[]

Une liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.

normalizer

LexicalNormalizerName

Nom du normaliseur à utiliser pour normaliser le texte donné.

text

string

Le texte à diviser en jetons.

tokenFilters

TokenFilterName[]

Une liste facultative de filtres de jetons à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.

tokenizer

LexicalTokenizerName

Le nom du générateur de jetons à utiliser pour casser le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un analyseur à la place. Les paramètres du tokenizer et de l’analyseur s’excluent mutuellement.

AnalyzeResult

Le résultat du test d’un analyseur sur du texte.

Nom Type Description
tokens

AnalyzedTokenInfo[]

Liste des jetons renvoyés par l’analyseur spécifié dans la demande.

CharFilterName

Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche.

Valeur Description
html_strip

Filtre de caractères qui tente de supprimer les constructions HTML. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Informations supplémentaires sur l’erreur de gestion des ressources.

Nom Type Description
info

object

Informations supplémentaires.

type

string

Type d’informations supplémentaire.

ErrorDetail

Détail de l’erreur.

Nom Type Description
additionalInfo

ErrorAdditionalInfo[]

Informations supplémentaires sur l’erreur.

code

string

Code d’erreur.

details

ErrorDetail[]

Détails de l’erreur.

message

string

Message d’erreur.

target

string

Cible d’erreur.

ErrorResponse

Réponse d’erreur

Nom Type Description
error

ErrorDetail

Objet d’erreur.

LexicalAnalyzerName

Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche.

Valeur Description
ar.microsoft

Microsoft analyzer pour l’arabe.

ar.lucene

Analyseur Lucene pour l’arabe.

hy.lucene

Analyseur Lucene pour l’arménien.

bn.microsoft

Analyseur Microsoft pour le bengali.

eu.lucene

Analyseur Lucene pour le basque.

bg.microsoft

Microsoft analyzer pour le bulgare.

bg.lucene

Analyseur Lucene pour le bulgare.

ca.microsoft

Analyseur Microsoft pour le catalan.

ca.lucene

Analyseur Lucene pour le catalan.

zh-Hans.microsoft

Microsoft analyzer pour le chinois (simplifié).

zh-Hans.lucene

Analyseur Lucene pour le chinois (simplifié).

zh-Hant.microsoft

Microsoft analyzer pour le chinois (traditionnel).

zh-Hant.lucene

Analyseur Lucene pour le chinois (traditionnel).

hr.microsoft

Analyseur Microsoft pour le croate.

cs.microsoft

Microsoft analyzer pour le tchèque.

cs.lucene

Analyseur Lucene pour le tchèque.

da.microsoft

Analyseur Microsoft pour le danois.

da.lucene

Analyseur Lucene pour le danois.

nl.microsoft

Analyseur Microsoft pour le néerlandais.

nl.lucene

Analyseur Lucene pour le néerlandais.

en.microsoft

Microsoft analyzer pour l’anglais.

en.lucene

Analyseur Lucene pour l’anglais.

et.microsoft

Microsoft analyzer pour l’estonien.

fi.microsoft

Microsoft analyzer pour le finnois.

fi.lucene

Analyseur Lucene pour le finnois.

fr.microsoft

Analyseur Microsoft pour le français.

fr.lucene

Analyseur Lucene pour le français.

gl.lucene

Analyseur Lucene pour le galicien.

de.microsoft

Microsoft analyzer pour l’allemand.

de.lucene

Analyseur Lucene pour l’allemand.

el.microsoft

Analyseur Microsoft pour le grec.

el.lucene

Analyseur Lucene pour le grec.

gu.microsoft

Analyseur Microsoft pour le gujarati.

he.microsoft

Microsoft analyzer pour l’hébreu.

hi.microsoft

Analyseur Microsoft pour l’hindi.

hi.lucene

Analyseur Lucene pour l’hindi.

hu.microsoft

Microsoft analyzer pour le hongrois.

hu.lucene

Analyseur Lucene pour le hongrois.

is.microsoft

Microsoft analyzer pour l’islandais.

id.microsoft

Analyseur Microsoft pour l’indonésien (Bahasa).

id.lucene

Analyseur Lucene pour l’indonésien.

ga.lucene

Analyseur Lucene pour l’irlandais.

it.microsoft

Microsoft analyzer pour l’italien.

it.lucene

Analyseur Lucene pour l’italien.

ja.microsoft

Microsoft analyzer pour le japonais.

ja.lucene

Analyseur Lucene pour le japonais.

kn.microsoft

Analyseur Microsoft pour Kannada.

ko.microsoft

Microsoft analyzer pour le coréen.

ko.lucene

Analyseur Lucene pour le coréen.

lv.microsoft

Analyseur Microsoft pour le letton.

lv.lucene

Analyseur Lucene pour le letton.

lt.microsoft

Analyseur Microsoft pour le lituanien.

ml.microsoft

Analyseur Microsoft pour le malayalam.

ms.microsoft

Microsoft analyzer pour le malais (latin).

mr.microsoft

Analyseur Microsoft pour Marathi.

nb.microsoft

Microsoft analyzer for Norwegian (Bokmål).

no.lucene

Analyseur Lucene pour Norwegian.

fa.lucene

Analyseur Lucene pour le persan.

pl.microsoft

Analyseur Microsoft pour le polonais.

pl.lucene

Analyseur Lucene pour le polonais.

pt-BR.microsoft

Microsoft analyzer pour le portugais (Brésil).

pt-BR.lucene

Analyseur Lucene pour le portugais (Brésil).

pt-PT.microsoft

Microsoft analyzer pour le portugais (Portugal).

pt-PT.lucene

Analyseur Lucene pour le portugais (Portugal).

pa.microsoft

Analyseur Microsoft pour le pendjabi.

ro.microsoft

Analyseur Microsoft pour le roumain.

ro.lucene

Analyseur Lucene pour roumain.

ru.microsoft

Microsoft analyzer pour le russe.

ru.lucene

Analyseur Lucene pour le russe.

sr-cyrillic.microsoft

Microsoft analyzer pour le serbe (cyrillique).

sr-latin.microsoft

Analyseur Microsoft pour le serbe (latin).

sk.microsoft

Analyseur Microsoft pour le slovaque.

sl.microsoft

Analyseur Microsoft pour le slovène.

es.microsoft

Analyseur Microsoft pour l’espagnol.

es.lucene

Analyseur Lucene pour l’espagnol.

sv.microsoft

Microsoft analyzer pour le suédois.

sv.lucene

Analyseur Lucene pour le suédois.

ta.microsoft

Analyseur Microsoft pour le tamoul.

te.microsoft

Analyseur Microsoft pour le télougou.

th.microsoft

Analyseur Microsoft pour le thaï.

th.lucene

Analyseur Lucene pour le thaïlandais.

tr.microsoft

Analyseur Microsoft pour le turc.

tr.lucene

Analyseur Lucene pour le turc.

uk.microsoft

Microsoft analyzer pour l’ukrainien.

ur.microsoft

Analyseur Microsoft pour l’ourdou.

vi.microsoft

Analyseur Microsoft pour le vietnamien.

standard.lucene

Analyseur Lucene standard.

standardasciifolding.lucene

Analyseur standard ASCII Folding Lucene. Voir https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

Traite l’intégralité du contenu d’un champ comme un jeton unique. Ceci est utile pour des données telles que les codes postaux, les identifiants et certains noms de produits. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

Sépare le texte en termes de manière flexible à l’aide d’un modèle d’expression régulière. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

Divise le texte en non-lettres et le convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

Divise le texte en non-lettres ; Applique les filtres de jeton en minuscules et en mots vides. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

Un analyseur qui utilise le générateur de jetons d’espaces. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

Définit les noms de tous les normaliseurs de texte pris en charge par le moteur de recherche.

Valeur Description
asciifolding

Convertit les caractères Unicode alphabétiques, numériques et symboliques qui ne figurent pas dans les 127 premiers caractères ASCII (le bloc Unicode « Latin de base ») en leurs équivalents ASCII, le cas échéant. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

Supprime les élisions. Par exemple, « l’avion » sera converti en « avion ». Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

Normalise le texte du jeton en minuscules. Voir https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

Normaliseur standard, qui se compose de minuscules et d’un repliement ascii. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

Normalise le texte du jeton en majuscules. Voir https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Définit les noms de tous les tokenizers pris en charge par le moteur de recherche.

Valeur Description
classic

Générateur de jetons basé sur la grammaire qui convient au traitement de la plupart des documents en langue européenne. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Tokenise l’entrée d’un bord en n-grammes de la ou des tailles données. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Émet l’intégralité de l’entrée sous la forme d’un seul jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Divise le texte en non-lettres. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Divise le texte en non-lettres et le convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

Divise le texte à l’aide de règles spécifiques à la langue.

microsoft_language_stemming_tokenizer

Divise le texte à l’aide de règles spécifiques à la langue et réduit les mots à leur forme de base.

nGram

Tokenise l’entrée en n-grammes de la ou des tailles données. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizer pour les hiérarchies de type chemin. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Générateur de jetons qui utilise la correspondance de modèles regex pour construire des jetons distincts. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Analyseur Lucene standard ; Composé du tokenizer standard, du filtre minuscule et du filtre stop. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Tokenise les URL et les e-mails en un seul jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Divise le texte au niveau des espaces. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche.

Valeur Description
arabic_normalization

Un filtre à jetons qui applique le normaliseur arabe pour normaliser l’orthographe. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

Supprime tous les caractères après une apostrophe (y compris l’apostrophe elle-même). Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

Convertit les caractères Unicode alphabétiques, numériques et symboliques qui ne figurent pas dans les 127 premiers caractères ASCII (le bloc Unicode « Latin de base ») en leurs équivalents ASCII, le cas échéant. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Forme des bigrammes de termes CJC qui sont générés à partir du tokenizer standard. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Normalise les différences de largeur CJK. Plie les variantes ASCII pleine largeur dans le latin de base équivalent, et les variantes Katakana demi-largeur dans le Kana équivalent. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Supprime les possessifs anglais et les points des acronymes. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Construisez des bigrammes pour les termes fréquents lors de l’indexation. Les termes simples sont toujours indexés, avec des bigrammes superposés. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Génère des n-grammes de la ou des tailles données en commençant par l’avant ou l’arrière d’un jeton d’entrée. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Supprime les élisions. Par exemple, « l’avion » sera converti en « avion ». Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Normalise les caractères allemands selon l’heuristique de l’algorithme boule de neige German2. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Normalise le texte en hindi pour supprimer certaines différences dans les variations orthographiques. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Normalise la représentation Unicode du texte dans les langues indiennes. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Émet chaque jeton entrant deux fois, une fois en tant que mot-clé et une fois en tant que non-mot-clé. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Un filtre kstem performant pour l’anglais. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Supprime les mots trop longs ou trop courts. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Limite le nombre de jetons lors de l’indexation. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Normalise le texte du jeton en minuscules. Voir https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Génère n-grammes de la ou des tailles données. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Applique la normalisation pour le persan. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Créez des jetons pour les correspondances phonétiques. Voir https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Utilise l’algorithme de recherche de racines Porter pour transformer le flux de jetons. Voir http://tartarus.org/~martin/PorterStemmer

reverse

Inverse la chaîne de jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

Normalise l’utilisation des caractères scandinaves interchangeables. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

Plie les caractères scandinaves åÅäæÄÆ-a> et öÖøØ-o>. Il discrimine également l’utilisation des voyelles doubles aa, ae, ao, oe et oo, ne laissant que la première. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

Crée des combinaisons de jetons en tant que jeton unique. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Filtre qui permet d’extraire les mots à l’aide d’un générateur de racines généré par Snowball. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Normalise la représentation Unicode du texte sorani. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Filtre de radical spécifique à la langue. Voir https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Supprime les mots vides d’un flux de jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Supprime les espaces de début et de fin des jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Tronque les termes à une longueur spécifique. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Filtre les jetons avec le même texte que le jeton précédent. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Normalise le texte du jeton en majuscules. Voir https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Divise les mots en sous-mots et effectue des transformations facultatives sur les groupes de sous-mots.