Compartir a través de


KnownTokenizerNames enum

Los valores conocidos de LexicalTokenizerName que acepta el servicio.

Campos

Classic

Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

EdgeNGram

Tokeniza la entrada de un borde en n gramos de los tamaños especificados. Consulte https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

Keyword

Emite toda la entrada como un solo token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

Letter

Divide el texto en no letras. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

Lowercase

Divide el texto en minúsculas y los convierte en minúsculas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

MicrosoftLanguageStemmingTokenizer

Divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formularios base.

MicrosoftLanguageTokenizer

Divide el texto mediante reglas específicas del idioma.

NGram

Tokeniza la entrada en n-gramas de los tamaños especificados. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

PathHierarchy

Tokenizador para jerarquías similares a la ruta de acceso. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

Pattern

Tokenizer que usa la coincidencia de patrones regex para construir tokens distintos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

Standard

Analizador estándar de Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

UaxUrlEmail

Tokeniza las direcciones URL y los correos electrónicos como un token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

Whitespace

Divide el texto en espacios en blanco. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html